写点什么

浅谈深度学习背后的数学

  • 2020-09-24
  • 本文字数:2503 字

    阅读完需:约 8 分钟

浅谈深度学习背后的数学

本文最初发表于 Towards Data Science 博客,经原作者 Trist’n Joseph 授权,InfoQ 中文站翻译并分享。


深度神经网络(Deep neural network,DNN)本质上是由具有多个连接的感知器形成的,其中一个感知器是单个神经元。我们可以将人工神经网络(Artificial neural network,ANN)看作一个包含一组沿着加权路径馈送的输入系统。然后对这些输入进行处理,并产生一个输出来执行某些任务。随着时间的推移,人工神经网络将会“学习”,并发展出不同的路径。各种路径可以具有不同的权重,并且被认为更重要(或产生更理想结果)的路径在模型内被分配的权重比那些产生较少理想结果的路径更高。


在深度神经网络中,如果所有的输入都密集地连接到所有的输出,那么这些层就称为密集层(Dense layers)。此外,深度神经网络可以包含多个隐藏层(Hidden layer)。隐藏层基本上是神经网络输入和输出之间的点,激活函数在这里对输入的信息进行转换。它之所以被称为隐藏层,是因为它不能直接从系统的输入和输出中观察到。神经网络的深度越深,网络能从数据中识别的信息就越多。


然而,尽管从数据中学习尽可能多的信息是我们的目标,但深度学习模型可能会受到过拟合的影响。当模型从训练数据中学习了太多的信息,包括随机噪声时,就会出现这种情况。模型能够确定数据中非常复杂的模式,但这会对新数据的性能产生负面影响。训练数据中接收到的噪声并不适用于新的或未见过的数据,并且模型无法对所发现的模式进行泛化。非线性在深度学习模型中也是非常重要的。虽然模型会因为拥有多个隐藏层而学到很多信息,但将线性形式应用于非线性问题会导致性能低下。



现在,问题来了,“这些层是如何学习的?”那么,让我们将人工神经网络应用到一个真实的场景中去解决问题,以了解如何训练模型来完成目标。在目前全球新冠肺炎疫情之下,很多学校都过渡到了虚拟学习,这使得一些学生担心他们通过课程的机会。任何人工智能系统都应该能够解决“我能否通过这门课程”这种问题。


为简单起见,让我们设想此模型只有 3 个输入:学生听课次数、花在作业上的时间,以及在整个授课过程中网络掉线的次数。这个模型的输出将是一个二元分类;学生要么通过课程,要么没通过课程。现在是学期末,学生 A 听了 21 堂课,花了 90 个小时完成作业,并且在这个学期中,网络掉线 7 次。这些输入被输入到模型中,输出预测学生有 5%的机会通过课程。一个星期后,期末成绩公布,学生 A 通过了这门课程。那么,这个模型的预测出了什么问题呢?


从技术上来说,并没有出问题。该模型本来可以按照目前开发的模型工作。但问题是,模型并不知道发生了什么。我们本来只是在路径上对一些权重进行了初始化,但模型目前并不知道什么是对的,什么是错的;因此,权重是不正确的。这就是学习的意义所在。我们的想法是,模型需要了解什么时候是错误的,我们通过计算某种形式的 "损失 "来实现这一点。计算的损失取决于当前的问题,但它通常涉及最小化预测输出和实际输出之间的差异。



在上面的场景中,只有一个学生和一个误差点需要最小化。然而,通常情况却并非如此。现在,考虑到有多个学生和多个差异最小化。因此,总损失通常计算为所有预测值与实际观测值之差的平均值。


回想一下,我在前面提到的被计算的损失取决于当前的问题。因此,由于我们当前的问题是二元分类,适当的损失计算将是交叉熵损失。这个函数背后的想法是,它将学生是否会通过课程的预测分布与实际分布进行比较,并试图将这些分布之间的差异最小化。


假设我们不再想预测学生是否能通过这门课程,而是现在想预测他们这门课的成绩。交叉熵损失将不再是一个合适的方法,相反,均方误差损失将更合适。相反,均方误差损失会更合适。这种方法适用于回归问题,其想法是它将尝试最小化实际值和预测值之间的平方差。



现在,我们了解了一些损失函数,就可以进入损失优化和模型训练了。拥有良好的深度神经网络的一个关键因素是拥有合适的权重。损失优化应该是土找到一组权重 ,它将使计算的损失最小化。如果只有一个权重分量,则可以在二维图上绘制权重和损失,然后选择使损失最小的权重。然而,大多数深度神经网络具有多个权重分量,将一个 维图进行可视化是非常困难的。


取而代之的是,计算损失函数相对于所有权重的导数来确定最大上升方向。既然模型现在已经理解上行和下行的方向,它就会向下行进,直到在局部最小值处到达收敛点。一旦这个下降点完成,就会返回一组最优权重,这就是深度神经网络应该使用的权重(假设模型开发得很好)。


计算这个导数的过程被称为反向传播(Back propagation),它本质上是微积分的链式法则。考虑到上面显示的神经网络,第一组权重的微小变化是如何影响最终损失的?这就是导数或梯度试图解释的内容。但是,第一组权值被输入到一个隐藏层,然后隐藏层有另一组权值导致预测的输出和损失。因此,也应该考虑权重变化对隐藏层的影响。这是网络中仅有的两个部分。但是,如果有更多的权重需要考虑,这个过程可以通过将链式规则从输出应用到输入来继续这一过程。



训练深度神经网络时要考虑的另一个重要因素是学习率。当模型在寻找一个最优的权值集时,它需要通过一些因子来更新它的权重。虽然这看起来微不足道,但是决定模型应该移动的因子是相当困难的。如果因子太小,那么模型可能会运行一段指数级的时间,或者陷入某个不是全局最小值的地方。如果因子太大,那么模型可能会完全偏离目标点,进而发散。


虽然固定的学习率可能是理想的,但自适应学习率(Adaptive learning rate)会减少出现前文所提到的问题的机会。也就是说,因子将根据当前梯度、当前权重的大小或可能影响模型下一步查找最佳权重的位置的某些其他因素而发生变化。



可以看出,深度神经网络是建立在微积分和一些统计学的基础之上的。评估这些过程背后的数学非常有用,因为它可以帮助人们了解模型内部真正发生的事情,这可以导致开发更好的整体模型。但是,即使这些概念不容易理解,大多数程序都附带了自动微分等工具,所以不用担心。祝你编码愉快!


作者介绍:


Trist’n Joseph,数据科学家、研究员、内容创建者。


原文链接:


https://towardsdatascience.com/the-mathematics-behind-deep-learning-f6c35a0fe077


2020-09-24 08:001892
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 532.2 次阅读, 收获喜欢 1975 次。

关注

评论

发布
暂无评论
发现更多内容

最高1000万元基金直投!2023年中国(宁波)创新创业大赛

科兴未来News

对线面试官-线程池连环问

派大星

线程池工作原理 Java 面试题

获评最高级别权威认证!融云通过中国信通院「办公即时通信软件安全能力」评测

融云 RongCloud

通信 即时通讯 办公 融云 百幄

PoseiSwap 即将开启质押,利好刺激下 POSE通证短时涨超 30%

鳄鱼视界

自然对话语音开启人机交互的未来之窗

来自四九城儿

自然对话语音数据:人机交互的新纪元与挑战

来自四九城儿

使用APP源码搭建直播网站难不难

山东布谷网络科技

APP开发 直播APP源码

Linux系统Redis性能优化详细教程。

百度搜索:蓝易云

redis 云计算 Linux 运维 云服务器

车内语音识别数据:驾驶体验升级与智能出行的未来

来自四九城儿

Servlet学习:监听器、过滤器

java易二三

编程 程序员 计算机

项目管理中的测试:确保项目成功的关键环节

乐思项目管理

项目管理 软件测试

Linux系统修改ssh端口教程。

百度搜索:蓝易云

云计算 Linux 运维 SSH 云服务器

代码随想录 Day27 - 回溯(三)

jjn0703

腾讯会议搭桥铺路

B Impact

高可用三大利器 — 熔断、限流和降级

Java研究者

架构 高可用 熔断 限流 java 架构

搜狐科技专访 | 澜舟科技CEO周明:不过度追求AGI,更看重大模型语言理解能力和应用落地性

澜舟孟子开源社区

javascript数据类型详解

timerring

JavaScript

项目管理中的'右转必停'原则:慎重决策与风险管理

乐思项目管理

项目管理 #观察生活

死磕Java八股成功拿下Offer,结果背调没过...

程序员小毕

程序员 面试 高并发 架构师 java面试

JavaScript入门基础

timerring

JavaScript

Linux 防火墙配置(iptables和firewalld)详细教程。

百度搜索:蓝易云

云计算 Linux 运维 Firewalld iptables

直播网站源码社区功能部署开发:连接世界的互动形式!

山东布谷科技

软件开发 社区 源码搭建 直播网站源码 直播网站

为什么我强烈建议大家使用枚举来实现单例

java易二三

编程 程序员 计算机 枚举

Java Stream 源码分析

java易二三

Java 编程 计算机

数据驱动的项目管理:未来趋势

乐思项目管理

#数据分析 #项目管理

Java教学之空指针异常、构造方法、封装

java易二三

Java 编程 程序员 计算机

代码随想录Day28 - 回溯(四)

jjn0703

项目管理的成功秘诀:架构评审的力量

乐思项目管理

架构评审 #项目管理

精益思维在项目管理中的应用

乐思项目管理

项目管理 精益

Spring系列之HikariCP连接池

java易二三

编程 程序员 Spring Boot 计算机 spring类型转换

浅谈深度学习背后的数学_AI&大模型_Trist‘n Joseph_InfoQ精选文章