写点什么

浅谈深度学习背后的数学

  • 2020-09-24
  • 本文字数:2503 字

    阅读完需:约 8 分钟

浅谈深度学习背后的数学

本文最初发表于 Towards Data Science 博客,经原作者 Trist’n Joseph 授权,InfoQ 中文站翻译并分享。


深度神经网络(Deep neural network,DNN)本质上是由具有多个连接的感知器形成的,其中一个感知器是单个神经元。我们可以将人工神经网络(Artificial neural network,ANN)看作一个包含一组沿着加权路径馈送的输入系统。然后对这些输入进行处理,并产生一个输出来执行某些任务。随着时间的推移,人工神经网络将会“学习”,并发展出不同的路径。各种路径可以具有不同的权重,并且被认为更重要(或产生更理想结果)的路径在模型内被分配的权重比那些产生较少理想结果的路径更高。


在深度神经网络中,如果所有的输入都密集地连接到所有的输出,那么这些层就称为密集层(Dense layers)。此外,深度神经网络可以包含多个隐藏层(Hidden layer)。隐藏层基本上是神经网络输入和输出之间的点,激活函数在这里对输入的信息进行转换。它之所以被称为隐藏层,是因为它不能直接从系统的输入和输出中观察到。神经网络的深度越深,网络能从数据中识别的信息就越多。


然而,尽管从数据中学习尽可能多的信息是我们的目标,但深度学习模型可能会受到过拟合的影响。当模型从训练数据中学习了太多的信息,包括随机噪声时,就会出现这种情况。模型能够确定数据中非常复杂的模式,但这会对新数据的性能产生负面影响。训练数据中接收到的噪声并不适用于新的或未见过的数据,并且模型无法对所发现的模式进行泛化。非线性在深度学习模型中也是非常重要的。虽然模型会因为拥有多个隐藏层而学到很多信息,但将线性形式应用于非线性问题会导致性能低下。



现在,问题来了,“这些层是如何学习的?”那么,让我们将人工神经网络应用到一个真实的场景中去解决问题,以了解如何训练模型来完成目标。在目前全球新冠肺炎疫情之下,很多学校都过渡到了虚拟学习,这使得一些学生担心他们通过课程的机会。任何人工智能系统都应该能够解决“我能否通过这门课程”这种问题。


为简单起见,让我们设想此模型只有 3 个输入:学生听课次数、花在作业上的时间,以及在整个授课过程中网络掉线的次数。这个模型的输出将是一个二元分类;学生要么通过课程,要么没通过课程。现在是学期末,学生 A 听了 21 堂课,花了 90 个小时完成作业,并且在这个学期中,网络掉线 7 次。这些输入被输入到模型中,输出预测学生有 5%的机会通过课程。一个星期后,期末成绩公布,学生 A 通过了这门课程。那么,这个模型的预测出了什么问题呢?


从技术上来说,并没有出问题。该模型本来可以按照目前开发的模型工作。但问题是,模型并不知道发生了什么。我们本来只是在路径上对一些权重进行了初始化,但模型目前并不知道什么是对的,什么是错的;因此,权重是不正确的。这就是学习的意义所在。我们的想法是,模型需要了解什么时候是错误的,我们通过计算某种形式的 "损失 "来实现这一点。计算的损失取决于当前的问题,但它通常涉及最小化预测输出和实际输出之间的差异。



在上面的场景中,只有一个学生和一个误差点需要最小化。然而,通常情况却并非如此。现在,考虑到有多个学生和多个差异最小化。因此,总损失通常计算为所有预测值与实际观测值之差的平均值。


回想一下,我在前面提到的被计算的损失取决于当前的问题。因此,由于我们当前的问题是二元分类,适当的损失计算将是交叉熵损失。这个函数背后的想法是,它将学生是否会通过课程的预测分布与实际分布进行比较,并试图将这些分布之间的差异最小化。


假设我们不再想预测学生是否能通过这门课程,而是现在想预测他们这门课的成绩。交叉熵损失将不再是一个合适的方法,相反,均方误差损失将更合适。相反,均方误差损失会更合适。这种方法适用于回归问题,其想法是它将尝试最小化实际值和预测值之间的平方差。



现在,我们了解了一些损失函数,就可以进入损失优化和模型训练了。拥有良好的深度神经网络的一个关键因素是拥有合适的权重。损失优化应该是土找到一组权重 ,它将使计算的损失最小化。如果只有一个权重分量,则可以在二维图上绘制权重和损失,然后选择使损失最小的权重。然而,大多数深度神经网络具有多个权重分量,将一个 维图进行可视化是非常困难的。


取而代之的是,计算损失函数相对于所有权重的导数来确定最大上升方向。既然模型现在已经理解上行和下行的方向,它就会向下行进,直到在局部最小值处到达收敛点。一旦这个下降点完成,就会返回一组最优权重,这就是深度神经网络应该使用的权重(假设模型开发得很好)。


计算这个导数的过程被称为反向传播(Back propagation),它本质上是微积分的链式法则。考虑到上面显示的神经网络,第一组权重的微小变化是如何影响最终损失的?这就是导数或梯度试图解释的内容。但是,第一组权值被输入到一个隐藏层,然后隐藏层有另一组权值导致预测的输出和损失。因此,也应该考虑权重变化对隐藏层的影响。这是网络中仅有的两个部分。但是,如果有更多的权重需要考虑,这个过程可以通过将链式规则从输出应用到输入来继续这一过程。



训练深度神经网络时要考虑的另一个重要因素是学习率。当模型在寻找一个最优的权值集时,它需要通过一些因子来更新它的权重。虽然这看起来微不足道,但是决定模型应该移动的因子是相当困难的。如果因子太小,那么模型可能会运行一段指数级的时间,或者陷入某个不是全局最小值的地方。如果因子太大,那么模型可能会完全偏离目标点,进而发散。


虽然固定的学习率可能是理想的,但自适应学习率(Adaptive learning rate)会减少出现前文所提到的问题的机会。也就是说,因子将根据当前梯度、当前权重的大小或可能影响模型下一步查找最佳权重的位置的某些其他因素而发生变化。



可以看出,深度神经网络是建立在微积分和一些统计学的基础之上的。评估这些过程背后的数学非常有用,因为它可以帮助人们了解模型内部真正发生的事情,这可以导致开发更好的整体模型。但是,即使这些概念不容易理解,大多数程序都附带了自动微分等工具,所以不用担心。祝你编码愉快!


作者介绍:


Trist’n Joseph,数据科学家、研究员、内容创建者。


原文链接:


https://towardsdatascience.com/the-mathematics-behind-deep-learning-f6c35a0fe077


2020-09-24 08:002005
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 547.9 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

【C 语言】const 关键字

謓泽

11月月更

云栖探馆!云小宝首秀遇上老司机小龙,猜猜谁赢了?

OpenAnolis小助手

龙蜥社区 2022云栖大会 小龙 云小宝 开源活动

Go语言入门14—Channel

良猿

Go golang 后端 11月月更

漏洞扫描的种类

穿过生命散发芬芳

漏洞扫描 11月月更

Verilog语法入门

芯动大师

Verilog 11月月更 组合逻辑电路

架构实战营模块4作业

冷夫冲

架构实战营

【LeetCode】三角形最小路径和Java题解

Albert

算法 LeetCode 11月月更

华为云从入门到实战 | AI云开发ModelArts入门与WAF应用与部署

TiAmo

华为 华为云 云开发 11月月更

从0制作一个web端网易云

格斗家不爱在外太空沉思

vue.js axios 11月月更

计算机网络:流量控制与可靠传输机制

timerring

计算机网络 流量控制 11月月更 可靠传输

uniapp-如何在邀请页面生成海报

格斗家不爱在外太空沉思

vue.js uniapp 11月月更

HEM亮相华为HDC2022开发者大会,助力企业数字化办公

最新动态

数据湖(十七):Flink与Iceberg整合DataStream API操作

Lansonli

数据湖 11月月更

Mac部署spark2.4.4

程序员欣宸

大数据 spark 11月月更

随机森林-分类森林

烧灯续昼2002

Python 机器学习 算法 随机森林 11月月更

Vue-VueRouter使用

格斗家不爱在外太空沉思

vue.js VueRouter 11月月更

数据湖(十九):SQL API 读取Kafka数据实时写入Iceberg表

Lansonli

数据湖 11月月更

披荆斩棘成功上岸美团、字节、华为,分享Java面经及答案

程序知音

Java java面试 后端技术 Java面试八股文

架构实战营模块四

Geek_408c99

数据湖(十八):Flink与Iceberg整合SQL API操作

Lansonli

数据湖 11月月更

全网首次公开!阿里巴巴分布式系统设计核心原理技术内幕

程序员小毕

程序员 架构 面试 分布式 程序人生

架构误区系列1:简单依靠扩容解决容量问题

agnostic

架构误区

我没想到,做IT还有感动众生的机会

明道云

一次遍历导致的崩溃

小小怪下士

Java 程序员

为了面试字节,熬夜肝完这份Redis笔记后,我终于“硬”了一回

小小怪下士

Java redis 程序员 面试

【愚公系列】2022年11月 微信小程序-app.json配置属性

愚公搬代码

11月月更

设计模式之美-面向对象

GalaxyCreater

设计模式

【超干货】阿里内部 Spring Boot 笔记,全硬核知识点

程序知音

Java spring 架构 springboot 后端技术

SAP UI5 barcode 控件的 feature 检查探测机制单步调试 - checkCordovaInIframe

汪子熙

JavaScript Fiori SAP UI5 ui5 11月月更

华为开发者大会HDC2022:HMS Core 持续创新,与开发者共创美好数智生活

HarmonyOS SDK

HMS Core

架构误区系列(Architecture Pitfall)

agnostic

构架师

浅谈深度学习背后的数学_AI&大模型_Trist‘n Joseph_InfoQ精选文章