视频在人们的沟通交流中扮演着日益重要的角色。为此,Facebook 一直希望提供一种先进的创意工具丰富人们的自我表达手段。近日,Facebook宣布,他们正在测试(目前只在部分国家的移动设备上)Facebook 应用新增的一个创意效果相机。借助一项名为“风格转换”的技术,该功能可以帮助人们快速地将视频变成艺术品,比如,将梵高的油画风格运用到其他的图像或视频上。在此之前,这很难完成,因为需要将视频或图像的内容发送到数据中心的大型计算服务器上进行处理。而现在,Facebook 开发了一个可以在移动平台上实时获取、分析、处理像素的深度学习框架Caffe2Go。
据介绍,为了可以在iOS 和Android 设备上高效地运行各种深度神经网络,Facebook 将用于图像和视频处理的AI 模型压缩了100 倍。最终,他们可以在某些手机上用不到二十分之一秒的时间完成AI 推断,而人一眨眼的时间是三分之一秒。
Facebook 的风格转换工具融合了两种技术:Caffe2go 运行时和风格转换模型。Caffe2go 是一个以开源项目 Caffe2 为基础、使用 Unix 理念构建的轻量级、模块化框架。其核心架构非常轻量化,而且可以附加多个模块。考虑到速度是计算密集型移动应用的核心,该框架的轻量化设计让他们可以针对特定平台上定义的操作符进行优化。例如,Caffe2 将一个名为 NNPack 的程序库集成进了移动运行时。借助一项名为 NEON 的移动 CPU 特性,他们提升了移动计算速度。在 iOS 设备上,他们也着手集成加速特性,如 Metal 语言。Caffe2go 提升了 AI 处理速度,让它可以在移动终端上运行。但要实现实时性,并提供高质量、高分辨率的图像,风格转换模型也需要进行优化。 他们采用了多种方法来减少模型大小,包括优化卷积层数量和每一层的宽度,调整处理过程中的空间分辨率等。另外,他们还构建了包括 A/B 测试在内的可视化工具,并训练了不同的模型。
Facebook 承诺,他们会和社区分享这款软件及其设计,并在接下来的几个月里开源这个 AI 框架的某些部分。
另据 VB 报道,谷歌去年也在谷歌翻译中做了一些类似的事情,他们还于近日展示了自己的神经网络风格转换技术。Facebook 和谷歌在这个领域的工作要晚于移动应用 Prisma ,后者允许用户为照片和视频添加样式。
此外,Caffe2go 是 Facebook 的第二个 AI 平台,第一个是已有的开源深度学习框架 Torch 。但是现在,Facebook 将 Caffe2go 推上了战略地位,因为“它的大小、速度和灵活性”。
感谢徐川对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论