倡导黑客文化的 Facebook 在技术研发和创新上一直处在业界前沿。在今年早些时候的 Facebook F8 大会上,Mike Schroepfer 向世人披露了他们未来十年的三大发展方向,除了要继续推进整个世界的开放和互联,Schroepfer 还强调了人工智能和虚拟现实的重要地位。他提出在接下来的十年内,在其中任何一个方向上做出的重大突破都可能惠及每一个人。Facebook 要通过这三个方向上的技术研究和工程创新帮助人们认识和融入整个世界。
11 月 9 日,Schroepfer 又在 Facebook 博客上发表文章介绍了人工智能在他们内部的使用情况,对其产品和服务的影响,以及接下来要解决的问题。
Facebook 在 AI 领域所进行的研究处于业内领先水平,促进了机器视觉、自然语言理解和机器学习等技术的发展。这些研究成果被用来打造 Facebook 内部的 AI 基础设施,所有人都能在构建新的产品和服务时从中受益,所以这些基础设施对 Facebook 目前进行的所有项目都起到了积极的推进作用。在解决世界互联和虚拟现实领域所面临的长期挑战时,AI 也发挥了重要作用。为了加快 AI 的影响,Facebook 正致力于解决最前沿的问题,比如教会计算机像人类一样通过观察来认识这个世界。
行进路线:从研究到平台,从平台到产品
为了跟上 AI 领域突飞猛进的发展速度,Facebook 将最新的研究成果分解为工具、平台和基础设施,以便让每个 Facebook 人都能在他们构建的产品和服务中使用 AI。比如说:
- FBLearner Flow : Facebook 的人工智能母体,是 Facebook 内部基于 AI 的产品研发的顶梁柱。这个平台将 AI 交到每个 Facebook 人手中,满足他们对 AI 各种各样的应用需求。Facebook 内部几乎有 70% 的人在使用这个平台,这些人都不具备 AI 领域的专业知识。现在 Facebook 每个月运行的 AI 实验次数是六个月之前的两倍,这都要归功于 FBLearner Flow 平台。
- AutoML: 这是一个能够用已有 AI 优化新的 AI 模型的基础设施。现在 Facebook 每个月训练和测试的机器学习模型有 120 万个,AutoML 可以将其它机器学习模型的测试结果自动应用到新的模型上,从而改善新模型的学习效果。AutoML 可以减轻工程师的工作负担,加快 AI 能力提升的速度。
- Lumos: 这是一个新的自服务平台,工程团队可以用它为自己的产品和服务增加机器视觉能力。使用该平台不需要具备机器视觉方面的知识,比如说,在该平台的帮助下,保障用户安全的团队处理违规内容的能力得到了提升。
在 FBLearner Flow、AutoML 和 Lumos 等基础设施的帮助,Facebook 在 AI 上取得的研究成果进入生产环境的速度比原来更快了。
AI 已经开始提升 Facebook 的产品和服务
随着 AI 在工程上的大规模应用,Facebook 的用户已经切身感受到了 AI 技术带来的好处,比如将使用其他语言的帖子自动翻译成自己的语言,在新闻源中看到自己更感兴趣的故事。在接下来的三到五年内,用户将在 Facebook 上看到更多基于 AI 的新功能和新特性。
除此之外,Facebook 还借助 AI 创造了一些非常有意思的工具。现在人们越来越喜欢通过视频表现自己,所以 Facebook 更加注重为用户提供卓越的视频分享体验。比如风格转换,学习绘画的艺术风格,然后将其应用到视频中每一帧画面上。要在技术上实现这种效果非常有难度,通常需要把视频内容上传到数据中心,交给有很强运算能力的服务器去分析和处理画面中的像素,然后再把处理结果发送给用户。整个数据传输和处理过程通常需要很长时间才能完成,那种慢吞吞的使用体验特别不利于有趣内容的即时分享。
大概在三个月之前,Facebook 开始着手做一些之前没有人尝试过的事情:在移动设备上基于 AI 对直播视频进行实时的风格转换。这在工程上非常困难,因为要在一个电力、内存、计算能力等各种资源都极其有限的设备上完成一项高能的计算任务。Facebook 最终推出了一个新的深度学习平台,Caffe2Go,它能在移动设备上实时捕获、分析和处理像素。他们将处理图像和视频的 AI 模型缩小了 100 倍,从而让深度神经网络跑在了 iOS 和 Android 上。所以现在你可以一边拍视频一边应用各种风格,并且这个运行在移动设备上的工业级深度学习平台开启了很多的可能性。比如手势控制,计算机能看到你点了哪里,从而激活不同的风格或命令;还可以识别面部表情,从而执行相应的动作,比如在你微笑时放一个“耶”滤镜在你的自拍照上。Caffe2Go 用 AI 为人们打开了一扇展示自己的新大门。Facebook 的博客上有篇文章对此作了专门的介绍。
AI 助力虚拟现实及世界互联创新
AI 对那些决定未来十年发展的新技术也产生了很大的影响。
在 VR 领域,基于机器视觉的图片和视频处理改善了沉浸式体验,并且对硬件的进步也有帮助。在今年早些时候,Facebook 推出了一项基于机器视觉的 360°视频防抖技术。在上个月推出 Oculus Connect 3 时,Facebook 的机器视觉软件已经能够进行内外追踪,这有助于开拓一种超越 PC 和移动端设备的全新虚拟现实设备,将来可能打造出一种不需要连接到 PC 的、高质的独立 VR 头盔。
Facebook 在语音识别上所做的工作还可以为 VR 创建更真实的虚拟人物和新的 UI 工具。Facebook 创建了一个库,将语音信号映射到 visemes(可视化唇部运动)上。这样虚拟人物的嘴唇就会跟着声音同步运动。Facebook 的博客上有个例子演示了Oculus Connect 3 上的这一特性。
语音识别还可以解放你的双手,让你用语音命令跟VR 中的环境交互。Facebook 的应用机器学习团队正在跟其他团队合作,探索社交VR 和Oculus 平台的更多应用。
AI 技术对 Facebook 的互联项目也有贡献,比如像 Aquila 这样的天线系统和 Terragraph 这样的地面系统。在探索不同形式的互联技术时,机器视觉工具可以对潜在的部署方案进行更好的分析。在机器视觉工具的帮助下,Facebook 绘制出了更精准的人口密度地图,从而对在哪里部署什么样的互联技术有了更清晰的认识。目前 Facebook 正在用机器视觉对城市进行三维分析,以便为 Terragraph 这样的毫米波技术在人口密集城区的部署规划提供帮助。无线网络日益密集,对带宽的需求在持续增长,有了这个自动化的解决方案,Facebook 就可以对无线电安装点进行更细粒度的分析处理。这个系统首先对三维城市数据进行分析处理,将安装杆从其他环境(树木、地面、电线等)中分离出来,从而检测出可能的网络设备安装点位。然后用 AI 算法进行视线分析,用清晰的视线连接附近的安装点,找出无线电传播路径。最后,一个优化框架会用这些数据自动规划出一个含有最佳安装点位和路径选择的网络,以满足带宽的增长需求。
AI 研究面临的挑战
虽然最近几年 AI 研究进展神速,但计算机还是不能像人一样学习、规划和推理,要实现这个目标还有很长的路要走。为了能够持续加速 AI 的影响,Facebook 也在朝着 AI 研究的长期目标努力。
计算机越来越擅长理解可视化场景并找出每一帧中的特定物体。相关技术的发展速度很快,从只能进行基本的图片分区(在图片中的物体周围画一个框),到能够更细致地标出这些物体并给这些分区加上标签,计算机系统只用了几年的时间。现在已经可以将这一技术应用到视频中实时计算人类的姿势了。
有了给物体添加标签的能力,计算机就能够在照片中生成标题来描述正在发生的事情。Facebook向视力有障碍的人士描述照片用的就是这项技术。但这项技术还没有达到完美的程度,仍处于初级阶段。下面这两个例子很好地说明了这项技术目前仍然还会出现一些明显的错误:
左图标题:一个在水中用滑板冲浪的男人;右图标题:一架停在机场停机坪上的飞机。
虽然不是很准确,但计算机总算是能给物体加上标签了,只是它们还理解不了图片中跟物体相关的其他信息。比如说,下面这幅图中是一块素食披萨吗?
当然不是。但你是怎么知道的呢?你首先看到并认出了披萨上的香肠。基于这一事实,以及对这个世界的认识(比如“香肠是肉食”和“素食的意思是食物中没有肉”),然后你结合这些相关信息给出了答案。
Facebook 正在做一些这方面的研究,希望能让计算机理解相关信息。为此需要一个模型,让计算机能够认识这个世界。即为了回答这种关于披萨的问题,计算机需要一组事实和概念;还需要一次性记住多项事实。在下面这个例子中,Facebook 的研发团队用结构化数据和记忆网络训练计算机进行简单的推理。一年之前,没有一个AI 系统能完成下面这种任务。但这方面的研究进展太快了。几个月前,Facebook 发布的研究结果中表明,经过训练,计算机正确完成了20 个任务中的19 个。并且在最近提交的一篇经过学术评审的论文中,Facebook 提出了一种新型系统,递归实体网络,能把20 个任务全都解决掉。
(点击放大图像)
可现实中有很多数据都不是整齐的结构化数据,所以要想像人一样推理,计算机只能从非结构的数据源,比如维基百科的文章中,选取相关事实,然后应用这些事实回答问题。Facebook 正基于键值记忆网络上的研究成果 着手解决这一问题。他们开了一个叫做WikiQ&A 的项目,训练计算机从非结构化文本中找到相关事实并进行组合来解答问题。
尽管这项研究取得了进展,但要想让计算机系统具备真正的智慧,还有很多工作要做。预测是让人类自然学习的一项重要智力因素,但计算机还做不到。比如说,想象一下,拿起一瓶水,然后松开手。这瓶水会怎样?
你知道这瓶水会掉下去。你是通过一种被称为预测学习的过程知道这一点的,即做出假设然后进行测试。在还是个孩子的时候,你就知道把食物扔下桌子它们会掉下去。但计算机看到这一情景时并不知道接下来会发生什么。Facebook 正在研究让计算机通过观察世界进行学习的方法。在下面这个例子中,计算机试图通过观察视频中的前面几帧来预测接下来会发生什么。这是现如今最先进的AI。下图是最好的预测结果,但越往后图像越模糊,这表明计算机越来越不确定接下来会发生什么。在这一领域中进行的研究还非常初级,路还很长,但计算机最终一定能通过观察、建模和推理进行预测。
等计算机学会上述所有本领(上下文、这个世界的知识、推理和预测),也就是我们称之为常识的东西,就可以更自然地跟我们交互,从为我们展示相关性最强的信息到辅助我们完成任务,都可以让人用全新的方式连接到一起。
感谢冬雨对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们。
评论