TensorFlow Lite 是开源深度学习框架 TensorFlow 的轻量级方案,支持设备内置的会话建模,来将智能会话功能插入到聊天应用。TensorFlow 团队最近发布了TensorFlow Lite 的开发者预览版本,可以在移动和嵌入式设备中使用。
在过去的几年中,在移动和嵌入式设备上部署机器学习模型的需求持续增长。今年早些时候,谷歌团队发布了 Android Wear 2.0 技术,将谷歌助手带到了您的手腕上。这是第一个针对智能通讯的设备内置机器学习技术,也让基于云的类似Smart Reply(已经在 Gmail 、 Inbox 和 Allo 可用)的技术,能够不连接到云就直接在应用中使用。
TensorFlow 已经应用在从服务器到物联网设备的许多平台上。现在,TensorFlow Lite 可以用来,使得设备内置的机器学习模型,能够进行低延迟的推理。TensorFlow Lite 被设计成轻量和跨平台的,使得可以运行在不同的平台上,首先是 Android 平台和 iOS 平台。它使用了各种低延迟的技术,例如优化移动应用的内核、预融合激活(pre-fused) 以及允许更小和更快(定点数学)模型的量化内核。
重点要提的是,TensorFlow 已经支持 TensorFlow Mobile API ,后者被移动和嵌入式设备中部署的机器学习模型使用。TensorFlow Lite 是 TensorFlow Mobile 的演化版,随着它逐渐发展成熟,它会成为在设备上部署模型的推荐方案。
TensorFlow Lite 的架构设计包括以下组件:
- TensorFlow Model: 一个保存在硬盘上的训练过的 TensorFlow 模型。
- Converter: 这个程序将模型转换成 TensorFlow Lite 文件格式。
- Model File: 一份基于 FlatBuffers 格式的优化了速度和大小的模版文件。
TensorFlow Lite 支持用 Android Neural Networks API 进行硬件加速。它还支持不同的模型,例如 MobileNet 、Inception v3 和 Smart Reply。
设备内置的会话建模
作为 TensorFlow Lite 库的一部分,TensorFlow 团队还已经发布了一个设备内置的会话模型和一个使用自然语言应用例子的样本应用。开发者和研究人员可以通过这个应用来构建新的基于设备内置推理的机器智能功能。这个模型使用可以轻松插入到聊天应用的推理功能,生成回复建议,来输入会话聊天消息。这种推理需要会话智能功能。
这个会话模型使用了一种用来训练紧凑型神经网络的新的机器学习架构。这种架构基于一个联合的优化框架,这种框架在 Sujith Ravi 关于使用神经投射的设备内置深度网络的调研报告有所讨论。这种架构使用高效的“投射”操作,将输入转换成一个紧凑的位向量表示。相似的输入被投射到相近的向量,而向量的密集或稀疏取决于投射的类型。例如,像“嗨,现在怎么样了”和“伙计,现在怎么样了“的消息,可能会被投射到相同的向量表示。
这个设备内置模型被使用一个机器学习框架进行端到端的训练。这个机器学习框架,混合训练两种类型的模型:一种紧凑的投射模型和一种训练者模型。这个模型被训练之后,投射模型可以直接用来在设备上进行推理。
在未来的版本中,TensorFlow Lite 会支持更多模型和内置操作,提高定点和浮点模型的性能。
TensorFlow Lite 开发者预览版本的文档、代码示例、应用样本都可以在 GitHub 上查看。你还可以找到被这个会话模型使用的样本消息列表。
查看英文原文: TensorFlow Lite Supports On-Device Conversational Modeling
感谢罗远航对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论