深度学习的数学（三）：神经元工作的数学表示_AI&大模型_涌井良幸，涌井贞美

编者按：本文节选自图灵程序设计丛书《深度学习的数学》一书中的部分章节。

前文中用数学式表示了神经元的工作。本节我们试着将其在数学上一般化。

简化神经元的图形

为了更接近神经元的形象，1 - 2 节中将神经元表示为了下图的样子。

然而，为了画出网络，需要画很多的神经元，在这种情况下上面那样的图就不合适了。因此，我们使用如下所示的简化图，这样很容易就能画出大量的神经元。

为了与生物学的神经元区分开来，我们把经过这样简化、抽象化的神经元称为 神经单元（unit）。

^{注：很多文献直接称为“神经元”。本书为了与生物学术语“神经元”区分，使用“神经单元”这个称呼。另外，也有文献将“神经单元”称为“人工神经元”，但是由于现在也存在生物上的人工神经元，所以本书中也不使用“人工神经元”这个称呼。}

激活函数

将神经元的示意图抽象化之后，对于输出信号，我们也对其生物上的限制进行一般化。

根据点火与否，生物学上的神经元的输出 $y$ 分别取值 1 和 0（下图）。

然而，如果除去“生物”这个条件，这个“0 和 1 的限制”也应该是可以解除的。这时表示点火与否的下式（1 - 2 节式 (3)）就需要修正。

点火的式子： $y = u (w_{1} x_{1} + w_{2} x_{2} + w_{3} x_{3} - θ) (1)$

这里， $u$ 是单位阶跃函数。我们将该式一般化，如下所示。

$y = a (w_{1} x_{1} + w_{2} x_{2} + w_{3} x_{3} - θ) (2)$

这里的函数 $a$ 是建模者定义的函数，称为 激活函数（activation function）。 $x_{1}$ 、 $x_{2}$ 、 $x_{3}$ 是模型允许的任意数值， $y$ 是函数 $a$ 能取到的任意数值。这个式 (2) 就是今后所讲的神经网络的出发点。

^{注：虽然式 (2) 只考虑了 3 个输入，但这是很容易推广的。另外，式 (1) 使用的单位阶跃函数 $u (z)$ 在数学上也是激活函数的一种。}

请注意，式 (2) 的输出 $y$ 的取值并不限于 0 和 1，对此并没有简单的解释。一定要用生物学来比喻的话，可以考虑神经单元的“兴奋度”“反应度”“活性度”。

我们来总结一下神经元和神经单元的不同点，如下表所示。

	神经元	神经单元
输出值 $y$	0或1	模型允许的任意数值
激活函数	单位阶跃函数	由分析者给出，其中著名的是 Sigmoid 函数（后述）
输出的解释	点火与否	神经单元的兴奋度、反应度、活性度

将神经元点火的式 (1) 一般化为神经单元的激活函数式 (2)，要确认这样做是否有效，就要看实际做出的模型能否很好地解释现实的数据。实际上，式 (2) 表示的模型在很多模式识别问题中取得了很好的效果。

Sigmoid 函数

激活函数的代表性例子是 Sigmoid 函数 $σ (z)$ ，其定义如下所示。

关于这个函数，我们会在后面详细讨论（2-1 节）。这里先来看看它的图形，Sigmoid 函数 $σ (z)$ 的输出值是大于 0 小于 1 的任意值。此外，该函数连续、光滑，也就是说可导。这两种性质使得 Sigmoid 函数很容易处理。

单位阶跃函数的输出值为 1 或 0，表示点火与否。然而，Sigmoid 函数的输出值大于 0 小于 1，这就有点难以解释了。如果用生物学术语来解释的话，如上文中的表格所示，可以认为输出值表示神经单元的兴奋度等。输出值接近 1 表示兴奋度高，接近 0 则表示兴奋度低。

本书中将 Sigmoid 函数作为标准激活函数使用，因为它具有容易计算的漂亮性质。如果用数学上单调递增的可导函数来代替，其原理也是一样的。

偏置

再来看一下激活函数的式 (2)。

这里的 $θ$ 称为阈值，在生物学上是表现神经元特性的值。从直观上讲， $θ$ 表示神经元的感受能力，如果 $θ$ 值较大，则神经元不容易兴奋（感觉迟钝），而如果值较小，则神经元容易兴奋（敏感）。

然而，式 (2) 中只有 $θ$ 带有负号，这看起来不漂亮。数学不喜欢不漂亮的东西。另外，负号具有容易导致计算错误的缺点，因此，我们将 $- θ$ 替换为 $b$ 。

经过这样处理，式子变漂亮了，也不容易发生计算错误。这个 $b$ 称为偏置（bias）。

本书将式 (4) 作为标准使用。另外，此时的加权输入 $z$ （1-2 节）如下所示。

式 (4) 和式 (5) 是今后所讲的神经网络的出发点，非常重要。

另外，生物上的权重 $w_{1}$ 、 $w_{2}$ 、 $w_{3}$ 和阈值 $θ$ （ $= - b$ ）都不是负数，因为负数在自然现象中实际上是不会出现的。然而，在将神经元一般化的神经单元中，是允许出现负数的。

问题右图是一个神经单元。如图所示，输入 $x_{1}$ 的对应权重是 2，输入 $x_{2}$ 的对应权重是 3，偏置是 -1。根据下表给出的输入，求出加权输入 $z$ 和输出 $y$ 。注意这里的激活函数是 Sigmoid 函数。

输入 \boldsymbol{x_1} 输入 \boldsymbol{x_2} 加权输入 \boldsymbol{z} 输出 \boldsymbol{y}
0.2 0.1
0.6 0.5
解结果如下表所示（式 (3) 中的 e 取 e = 2.7 进行计算）
输入 \boldsymbol{x_1} 输入 \boldsymbol{x_2} 加权输入 \boldsymbol{z} 输出 \boldsymbol{y}
0.2 0.1 2×0.2 + 3×0.1 - 1 = -0.3 0.43
0.6 0.5 2×0.6 + 3×0.5 - 1 = 1.7 0.84

输入 \boldsymbol{x_1}	输入 \boldsymbol{x_2}	加权输入 \boldsymbol{z}	输出 \boldsymbol{y}
0.2	0.1
0.6	0.5

输入 \boldsymbol{x_1}	输入 \boldsymbol{x_2}	加权输入 \boldsymbol{z}	输出 \boldsymbol{y}
0.2	0.1	2×0.2 + 3×0.1 - 1 = -0.3	0.43
0.6	0.5	2×0.6 + 3×0.5 - 1 = 1.7	0.84

备注改写式 (5)
我们将式 (5) 像下面这样整理一下。
$z = w_{1} x_{x} + w_{2} x_{2} + w_{3} x_{3} + b \times 1 (6)$
这里增加了一个虚拟的输入，可以理解为以常数 1 作为输入值（右图）。

于是，加权输入 $z$ 可以看作下面两个向量的内积。
$(w_{1}, w_{2}, w_{3}, b) (x_{1}, x_{2}, x_{3}, 1)$
计算机擅长内积的计算，因此按照这种解释，计算就变容易了。

图书简介：http://www.ituring.com.cn/book/2593

相关阅读

深度学习的数学（一）：神经网络和深度学习

深度学习的数学（二）：神经元工作的数学表示

发布

暂无评论

创作场景

深度学习的数学（三）：神经元工作的数学表示

简化神经元的图形

激活函数

Sigmoid 函数

偏置

评论

面试官最喜欢问的几个react相关问题

高效数据通道支撑生产情况实时分析与可视化｜工业4.0智慧工厂

谈谈企业级前端应用中客户端渲染和服务器端渲染的区别

专业移动办公解决方案!远程控制软件RayLink内测火热进行中!

业界首个！快手提出亿级别多模态短视频百科体系——快知Kuaipedia

vue2项目搭建-使用VUE CLI3.0搭建项目vue2+scss+element简易版

React面试：谈谈虚拟DOM，Diff算法与Key机制

在Dubbo中，模板方法模式用得真6

代码质量与安全 | 想在发布竞赛中胜出？Sonar来帮你

2022年中国汽车OTA行业发展洞察

梁胜博士：软件供应链安全两手抓，既要安全左移也要全链路防护丨活动回顾

认证升级 | 秒云再次获评软件企业认证

万字详解JVM，让你一文吃透

什么是 HTML 语义化，有什么好处

京东云开发者｜深入JDK中的Optional

python中私有成员和公有成员

HDC 2022精彩继续，多重亮点进来看！

vue这些原理你都知道吗？(面试版)

React源码分析7-state计算流程和优先级

docker-compose下的java应用启动顺序两部曲之一：问题分析

如何准备好一场vue面试

SAP 电商云的 Spartacus Storefront 如何配置多个 JavaScript Application

React源码分析6-hooks源码

云原生系列四：Yelp 如何在 Kubernetes 上运行 Kafka

软件测试面试真题 |你用过哪些用例设计方法？

DevUI开源经验分享：从0到1开始运营你的开源项目

AI 模型编译器 MegCC 开源，解决推理引擎体积问题

我把分布式音乐播放器适配了Stage模型

谈谈vue面试那些题

EMQ荣获“2022中国移动创客马拉松OneOS物联网专题赛”三等奖

vue面试之Composition-API响应式包装对象原理

创作场景

深度学习的数学（三）：神经元工作的数学表示

简化神经元的图形

激活函数

Sigmoid 函数

偏置

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载