ODE网络：一场颠覆RNN的革命即将到来_AI&大模型_William Vorhies

限时领｜《AI 百问百答》专栏课+实体书（包邮）！了解详情 



 写点什么

递归神经网络是当今最常见的人工智能应用程序的核心，但我们很快就发现，它们并不适合用来解决广义时间序列问题。现在已经有几个在使用中的替代解决方案，其中有一个是刚刚出现的——ODE 网络，它与我们思考解决方案的方式截然不同。

递归神经网络及其近亲 LSTM 是人工智能自然语言处理应用程序的核心。与其他形式的人工智能相比，RNN-NLP 在现实世界中的应用要多得多，包括使用卷积神经网络识别和处理图像。

从某种意义上说，数据科学家的队伍已经分成了两组，每一组都在追求使用这两种技术开发独立的应用。从应用角度来看，这两种技术基本上不会发生重叠，因为图像处理处理的是静态数据，而 RNN-NLP 是将语音和文本解释为时间序列数据。

虽然 RNN/LSTM 仍然是大多数 NLP 的首选技术，但我们越是试图扩展时间序列应用，遇到的麻烦就越多。即将出现的技术可能不只是 RNN 的修改版本，而是对其他几种创新人工智能方法的硬分支。

第一个分支：将 CNN 与 RNN 组合使用

第一个分支是我们去年提出的将 CNN 和 RNN 结合在一个神经网络中（详见《将CNN与RNN组合使用，天才还是错乱？》）。需要解决的问题与时间序列上的图像有关，即视频，而最常见的任务是视频场景标记。事实证明，这种技术对于识别和标记视频中的情感以及根据之前在视频中见过的人来识别某些类型的人也很有用。

第二个分支：时间卷积神经网络 TCN

去年，谷歌和 Facebook 都解决了 RNN 的第二类问题。因为要分析的数据扩展到 DNN 中的多个层，所以，在开始计算之前必须等待所有这些层都完成。这也意味着 MPP 实际上并不可行。虽然这个过程仍然很快，但不足以快到可以让实时语言翻译应用程序避免明显的延迟。

第二个分支导致这两家公司放弃了 RNN，转而采用一种他们称之为时间卷积神经网络（TCN）的 CNN 变体来进行实时翻译。这看起来很像添加了“Attention”功能的 CNN。因为它们的结构与 CNN 类似，所以可以应用 MPP，于是延迟就消失了。

第三个分支：不规则时间序列

还有一些其他类型的时间序列问题是 RNN 无法完美解决的。它们的主要是具有连续值或者希望将具有不同频率、持续时间和起始点的时间序列数据组合在一起系统。

最后这一个分支看起来并没有那么神秘。它描述的是这样的一种情况，在你去看不同的医生时，你会看到自己的医疗记录，你有不同的预约时间间隔，有不同剂量和时间间隔的用药情况，对这些药品等有不同的身体反应，并且你的身体在以某种可测量的方式变老、变强、变好或变坏。

这就是为什么人工智能的绝大多数医疗应用都只与图像识别有关。我们在使用不规则时序 AI 能力方面确实存在不足，无法很好地基于不规则时间序列数据得出预测结果。

一种解决方案是将并行的医疗记录分为几星期、几天甚至是几小时的离散步骤。理论上，这样可以满足 RNN 所要求的离散化。但问题是，为了获得最大的收益，你必须使用非常合适的时间桶，这样会增加计算成本和复杂性。还有一个问题，那就是很多时间桶可能不包含任何数据。

因此，预测社区和医疗社区都需要一个人工智能解决方案，其性能要优于目前的 RNN。

ODE 网络

去年 12 月在蒙特利尔举行的神经信息处理系统（NIPS）大会上，来自加拿大向量研究所的研究人员提出了人工智能时间序列建模的全新概念，并被评为大会四篇最佳论文之一。

他们的系统的名字叫作“ODE 网络”，是 Ordinary Differential Equation Net（常微分方程网络）的缩写。但不要被误导了，ODE 网络看起来一点也不像 DNN，它没有节点、层或互连。这是一种使用带有反向传播的黑盒微分方程解算器的方法，在连续和离散时间序列问题上都优于 RNN。换句话说，它更像是一个坚实的计算板，而不是可以被可视化为神经网络的东西。

这种方法带来了思维方式上的几个有趣的变化。例如，在使用 RNN 时，你可以指定层和其他超参数，然后运行实验，并查看所获得的准确性。

而在使用 ODE 网络时，在准确性和训练时间之间存在一个权衡。你指定了准确性级别，ODE 网络将会找到实现这一目标的最佳方法，但训练时间是变化的。如果训练时间长得让人无法接受，可以指定一个较低的准确性，以便加快训练过程。一个有趣的结果可能是在训练时指定高准确性，但在测试时可以指定较低的准确性。

这篇论文（https://arxiv.org/abs/1806.07366）的内容非常全面，并提供了几个实验的结果，其中的结果明显优于RNN。但它仍处于研究阶段，但与数据科学中的大多数东西一样，这并不需要很长时间就能走向应用。

英文原文：

https://www.datasciencecentral.com/profiles/blogs/the-coming-revolution-in-recurrent-neural-nets-rnns

发布

暂无评论

创作场景

ODE 网络：一场颠覆 RNN 的革命即将到来

第一个分支：将 CNN 与 RNN 组合使用

第二个分支：时间卷积神经网络 TCN

第三个分支：不规则时间序列

ODE 网络

评论

App 用户新体验——Agora Native SDK 3.4.0

兄弟们来看我的Java面试资料大全！看了保证不亏，大厂欢迎你~免费的哦

[架构实战营第一期]模块三作业

模块三作业：外包学生管理系统

网络攻防学习笔记 Day88

Java对象还活着么(画画思维导图)

【架构实战营】模块三作业

Vue进阶（幺捌肆）：CodeMirror 应用小结

全网首发！“阿里爸爸”最新出品SpringBoot高级笔记（内部笔记！）

SpringBoot进阶篇

从培训机构出来的程序员，刚开始就18k，真的适应得来吗？

使用Apache Spark管理、部署和扩展机器学习管道(十一)

外包学生管理系统架构设计

2021年涌现大量低代码玩家，如何辨别低代码平台“真假”？

手慢无！（阿里内测版）SpringCloudAlibaba高级笔记全网首次公开

阿里面试技巧来啦！！！3技术面+2交叉面+1代码面+1HR面，offer轻松拿

架构实战营1期第三模块作业

架构实战营作业 M03

字节三面成功斩获offer，非常值得一看的500+面试题

外包3年,轻松从13K涨到27K，就因为吃透了这三份Java程序员必刷的算法宝典

如何重写object虚方法

架构训练营模块3作业

阿里大出血！SpringBoot/SpringCloud全套学习脑图+面试笔记免费分享了

冲锋大厂！通过率达95%的Java面试要点来啦！

数据结构与算法全面笔记超级牛叉，你确定不进来看看？？？看了你绝对不后悔！！！

模块三作业：外包学生管理系统架构文档

饕餮台风vs人类，科技游击战术的进化

一个 JVM 解释器bug在 AArch64 平台导致应用崩溃的问题分析

花了一个星期做的面试文档后，发给在面试的朋友，他看完后竟然拿到好几个大厂的offer。震惊！！

模块三作业

学生管理系统架构设计

创作场景

ODE 网络：一场颠覆 RNN 的革命即将到来

第一个分支：将 CNN 与 RNN 组合使用

第二个分支：时间卷积神经网络 TCN

第三个分支：不规则时间序列

ODE 网络

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载