写点什么

AI 芯片市场竞争:生态与技术并重

2018 年 1 月 22 日

AI

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

在 1 月 5 日的移动技术创新大会上,IBM 全球杰出工程师、IBM 研究院认知系统全球研究负责人林咏华女士做了题为 “Infuse AI into Your Enterprise”(如何让 AI 渗透到你的企业各个角落)的主题演讲。

在演讲中,林咏华列举了 IBM 在多个行业的 AI 应用方案及过去几年的研究成果,和大家分享了企业如果想利用 AI 技术提升自己的产品和业务,应该从哪些方面来入手以及怎样应对人才、数据等企业普遍比较关注的问题。

演讲结束后,InfoQ 记者就 AI 方面的其他话题对林咏华女士做了进一步的采访,以下为本次采访的主要内容(上次采访文章:从学术界走向工业界,AI 需要迈过的两道关卡)。

InfoQ:一些与 AI 相关的硬件厂商,比如英伟达,这几年发展非常迅猛,但我们看到去年 5 月,Google 也推出了第二代 TPU,在未来 AI 芯片市场的竞争中,您认为还会有哪些新的机遇和变数?

林咏华:谈到 AI 芯片,我会把数据中心和终端这两个市场分开来看。在数据中心,系统的硬件架构是 CPU 加 AI 加速芯片的组合形式。目前,CPU 和 AI 加速芯片往往不是来自于同一个厂商。 用于数据中心的 AI 加速芯片,主要有 GPU、FPGA,还有 Google 新提出的 TPU 等。

其中 NVIDIA 的 GPU 无疑市场占有率最高。在这里,市场的成功,在一定程度上不是依靠芯片自身的硬件性能,而是在硬件之上的软件生态。NVIDIA 凭借过去多年在图形加速器、高性能计算加速的布局,已经培养了许多 GPU 的开发者,也培育了无论 Linux 还是 Windows 这些操作系统对硬件驱动的完整支持。

当深度学习一旦出现,许多开源的社区首先自发就对 NVIDIA 的 GPU 进行支持。纵观目前所有的深度学习软件框架,包括 Caffe、Tensorflow、CNTK 等,无一例外。虽说现在 FPGA 和 TPU 的业界呼声也很高,但生态上的暂时落后,会使得未来 2 到 3 年 NVIDIA 还是会在数据中心 AI 加速芯片的市场遥遥领先。

但 Google 对于深度学习和 AI 在业界的影响力是很大的。倘若 Google 打算把 TPU 芯片开放出来,允许更多的厂商利用 TPU 生产自己的系统,甚至自己的芯片,从而大大拓宽硬件在市场上的投放能力。另一方面,Google 可以加大通过 Tensorflow 及相关软件(如容器云的 Kubernetes)对 TPU 的支持,这一局面在未来几年有可能产生变数。

对于承载数据中心的 AI 应用,CPU 的能力也是相当重要的。举个图像分类的例子,一个分类(Classification)API 的调用,其实只有大约一半的计算时延是在 GPU(AI 加速芯片)里面进行深度学习加速。有超过一半的计算时延是消耗在 CPU 侧,包括了图片的解码、预处理等操作。

所以,目前 CPU 厂商不断创新,力图大大提升 CPU 处理器和 AI 加速芯片互相连接以及硬件资源互相利用的能力。例如在 IBM 最新发布的 POWER9 处理器中,专门设计了对 NVLINK2.0 的支持,使得 CPU 和 GPU 之间的互连带宽达到 x86 架构 CPU 目前使用的 PCIe3.0 的 9 倍。

所以,在我们最近进行的多项深度学习训练的评测中,基于 POWER9 和 NVIDIA V100 GPU 的服务器系统,能比最新 x86 加 V100 GPU 的系统快 3~4 倍。随着 IBM 在 AI 上面的重金投入,持续在 POWER 架构上对所有主流深度学习软件的全面支持,未来 2~3 年也会形成数据中心针对 AI 应用的 CPU 芯片的变数。

目前,终端侧的 AI 芯片暂时还是群龙混战的局面。终端侧的 AI 芯片比数据中心侧的起步要晚很多。除了少数几家(如 NVIDIA 的嵌入式 GPU 系列,Xilinx 的 Zyqn 系列)把原有芯片用于深度学习,其他新涌现的芯片厂商目前还是在原型阶段或刚刚开始投产。实际的大规模市场应用还没有开始。

对于终端侧的 AI 芯片,相比起数据中心,它在有些方面会面临更大的挑战。首先肯定是性能功耗比,这对于移动设备是最关键的。其次,芯片的软件生态、后续供货和产品路线的多样性对于终端侧的 AI 芯片也是很大的挑战。

对于服务器或数据中心市场,AI 加速器芯片通常是以可插拔的子系统形式,以标准化接口部署在服务器内。其硬件的替换成本并不会太高。但对于终端设备(尤其像手机类),一旦改变芯片厂商,终端硬件系统就要重新设计。所以在终端厂商进行 AI 芯片的选型时,对这些问题的考虑,往往比数据中心的使用场景要慎重的多。

目前很难谈在终端 AI 芯片上的新机遇,因为大家都才刚刚起步,包括资本市场才刚刚进入没有多久。但我想提醒的是,尤其是初创型的 AI 芯片公司,一定要迅速做好软件生态系统的布局,否则很容易就被大浪淘沙。

我举个例子,现在有些初创 AI 芯片公司号称单芯片可以提供几百上千 Gops/watt 的计算能力。但在系统优化中,我们知道软件、算法优化带来的全系统能力提升是最明显的。如果没有强有力的软件生态布局,很容易就被别的芯片厂商利用软件上的优化能力所超越。对于 IBM,我们也看到了未来在 AI 终端系统的这些问题。

虽然 IBM 并不推出自己的 AI 终端硬件产品,但我们希望利用研究和创新,帮助业界把软件生态这一步做的更好。例如,我们在过去两年开发了一套叫 PowerAI Inference Engine 的技术,该技术可以对接不同的终端 AI 芯片架构。

深度学习的开发人员用 Caffe 或 TensorFlow 进行模型开发训练,把得到的模型输入到 PowerAI Inference Engine,该软件就会对模型自动分析,对目标 AI 芯片(如 FPGA)进行资源确定(如 DSP 和内存的能力),自动进行并行计算的优化,最后产生目标 AI 芯片的代码。

这意味着,对于深度学习的软件开发人员,他们无需学习在 AI 芯片上是如何编程和优化,利用我们的工具就可以自动产生相应的跨平台的代码。为了可以帮助更多的 AI 芯片公司和广泛的软件开发人员,我们也希望可以和更多的 AI 芯片公司合作,共同促进产业的发展。

InfoQ:陆奇之前接受采访时表示,从技术方面看,谷歌和微软比亚马逊有很大优势。但在目前的人工智能竞争格局中,亚马逊 Alexa 生态链领先于其他任何竞争对手。他认为背后的原因就在于亚马逊找到了合适的应用场景、合适的设备,您是否认同陆奇所说的技术的重要性低于应用场景和生态链这个观点?

林咏华:我觉得是这主要取决于产品所处的时间节点。就拿智能音箱为例,目前智能音箱很火,但其实它的市场才是一个刚刚开始的阶段,还有大量市场和用户有待开发。所以呢, 就智能音箱这块来说,目前的确是说谁先占据了这个用户的喜好(也就是找到合适的应用场景),谁先占据了这个应用的广泛性(有广泛的生态链)是比较重要的。

但如果,当这个智能音箱已经被好多人开始接受了,情况就会有所改变。我拿另一个产品扫地机器人来类比。今天扫地机器人就已经被很多家庭所接受了。那这个时候,用户就会开始比较各种扫地机器人所采用的技术了,我们比较的就不是单单说它能不能扫地的问题,而是会去比较它在我们房间里头走的路线、那个算法是不是合理。虽然老百姓不懂算法,但是会比较在意它的路线只是基于随机碰撞,还是提前有一个路径规划在里面。

说回到智能音箱,当某一天智能音箱也像扫地机器人这么普及,大部分厂商的功能都大体相同的时候,大家就会开始关心它的语音识别的质量的差异,会开始在意它是只能做一轮对话还是多轮对话,会去比较它的各个细节性能,这时就涉及到技术方面的比较了。所以说,技术重要还是应用场景重要,取决于这个产品处于市场接受度的哪个时间节点。

InfoQ:马化腾认为,“云 + AI” 就像“电 + 计算机”,IBM 内部是如何看待云和 AI 之间的关系的?IBM 在云计算方面针对 AI 做了哪些调整和布局?

林咏华:今天 IBM 大量的 AI 产品实际上都是在公有云上面的。IBM 公有云上 AI 部分的产品已经涵盖了包括语音(无论是 speech to text 还是 text to speech)、计算机视觉、自然语言处理以及其它诸如人机对话等的技术产品。

今天,在 IBM 的公有云,大家就可以很容易地定制一个自己的对话机器人(Chatbot),这是基于 IBM 强大的自然语言处理和对话技术。另外,在基于自然语言处理的技术上,IBM 的公有云上提供了针对人物的分析服务(Personality Insight),这可以有助于企业更好的去进行客户群体的定位,了解客户喜好。

针对计算机视觉,我们也有各种丰富的功能,包括让用户定制化他的图片分类器,包括对视频流的在线分析等等。建议大家到 https://www.ibm.com/cloud/ai 上面,可以看到许许多多优秀的人工智能 API 能力。

InfoQ:在 AI 领域创业的话,由于大公司有丰富的资源和人才,迅速取得领先地位。但是也有很多创业公司,想进入 AI 领域创业,那么他们应该选择哪些方向和商业模式来避免和大公司有正面交锋呢?

林咏华: AI 如果要在一些领域真正落地并大规模被使用,最重要的一点就是它的某一项能力已经表现得比人要好,或许是识别的精确度、或许是它能够带来的对生产力的提高,并且它一定要是非常可靠的。

大公司很多时候会兼顾不同的产品方向,兼顾不同的领域。这种情况下,它就很难对所有的领域都能做到 99 分 100 分这么优秀,因为这需要持续在每一个点上都有很专注的投入。大公司擅长的是平台和生态系统的构建。

因此,这里就留出了很多的机遇给那些初创的公司。他们可以去寻找这样的领域:

  • 第一,这个领域的市场规模和可拓展性一定要大,就是说一旦业务做起来,就能够有很大的市场空间,获得比较多的市场价值。
  • 第二,这个领域并不是已经被做成熟了的。打个比方,现在我看到有些公司,在 Face++ 等做人脸识别的公司已经做得不错之后还想进入人脸识别这个市场。其实现在来看,人脸识别这个领域,从技术上看已经被做得相对成熟了。虽然这种领域的市场需求已经被拉动起来了,很多企业都对人脸识别有很多需求,但这对初创公司并不是好的选择,因为很难突破。建议初创公司最好是结合自身的科研实力和背景,选择一些市场需求跟技术现状之间还有一定差距的领域进入,然后专心致志地投入去做。
  • 第三,其实每一个行业都有着跟其他行业所不同的个性化的需求。IBM 在过去几年都很强调行业,因为同样一个 AI 技术,用到不同的行业时,需要补的东西很多。不同的行业,相关的配套技术(算法技术、方案技术等),都是需要做很多针对性的定制开发。这其实也就留给了初创公司很多的机会。初创公司可以结合自身背景,找对某个行业,把相关的配套的技术做专做精,成为这个行业里的专才,也是可以获得一席之地的。

InfoQ:我们的读者有很多是在一线的技术工作者,在人工智能大潮来临的时候,他们也想跟上技术发展的大潮,那么对于想在人工智能领域有所建树的技术人员,您有哪些职业方面的建议?

林咏华:首先,我会建议他们去了解一下现在这些深度学习的基本原理和一些简单的实践,比如现在网上也有很多视频教程之类的。通过一段时间的学习,并利用一些开源的资源去做出一些初步的实践。通过接触,就能对深度学习有些基本的概念,有了这些基本概念之后,接下来他可以有两个选择。

如果他对自己未来的定位是希望在深度学习领域做得更深,那他就需要要去看一些算法、理论的书籍文章,并且需要投入做深入的研究。但是如果他认为自己的强项是做应用和方案开发,学习深度学习只是要为我所用的话,那么通过第一阶段的学习,掌握了基本概念之后,他就可以去看看有哪些第三方的东西可以去借用,然后通过实践试用来学习。

因为之前已经掌握了基础的深度学习概念,这时候就比较容易去评判这些第三方的软件和工具, 哪些对开发者本人来说是实际可用的,自己会有一个初步筛选的能力,接下来他就可以借用这些第三方的工具或者平台,并结合自己的强项去做一些相关的应用开发。

为了帮助广大的开发者入门,IBM 中国研究院在 2016 年 11 月,为社会贡献了 6 门深度学习的课程,包括人工智能概述、机器学习、机器学习与大数据、深度学习、GPU 与认知计算以及深度学习框架和工具。这些课程全部以免费的方式放到了网易云课堂,供开发者进行学习。至今已经有几万人学习过我们的课程。在 2018 年,我们将会为大家准备更多有用的课程,与业界一起共同推动人工智能的人才培养。

2018 年 1 月 22 日 18:001003
AI

评论

发布
暂无评论
发现更多内容

第四周作业

andy

Go:gsignal,信号大师

陈思敏捷

go golang signal gsignal os.Signal

第4周总结

andy

互联网架构学习总结

qihuajun

嗨,兄弟,别担心,这年头谁还没有一点焦虑!

攀岩飞鱼

管理 程序员人生 成长 个人感想 程序员素养

大型互联网应用系统使用技术方案和手段

动态规划算法重点在于找上一个的公式,Google Code Review,John 易筋 ARTS 打卡 Week 06

John(易筋)

ARTS 打卡计划

如何进行高效学习

淡蓝色

深度思考 方法论 感悟 随笔杂谈

游戏夜读 | 游戏关卡设计师

game1night

轻松上手promise原理(2):then的简单实现

前端小帅

一文搞懂 Redis高性能之IO多路复用

flyer0126

redis io 多路复用 高性能

大型互联网架构与集群技术

xzm

【week04】作业

chengjing

架构师面试题(3)

满山李子

架构师训练营第 4 周——学习总结

在野

极客大学架构师训练营

LeetCode | 6. Valid Parentheses 有效的括号

Puran

算法 LeetCode

奈学:数据湖有哪些缺点?

古月木易

数据湖

奈学:数据湖有哪些缺点?

奈学教育

数据湖

典型的大型互联网应用系统

Z冰红茶

架构师训练营第 4 周作业

在野

极客大学架构师训练营

第四章总结

MySQL 实战 45 讲笔记(2)-查询优化

王传义

MySQL

奈学:数据湖和数据仓库的区别有哪些?

古月木易

数据仓库 数据湖

互联网架构作业

qihuajun

消息队列(一)为什么要使用消息队列?

奈何花开

Java MQ 消息队列

架构师训练营 -week4 命题作业

J.Spring

极客大学架构师训练营

深入理解Kubernetes的Service:回归本源的场景需求

韩超

Kubernetes 微服务 服务

奈学:数据湖和数据仓库的区别有哪些?

奈学教育

数据仓库 数据湖

ARTS 打卡 Week 05

teoking

读闲书自由和财务自由

池建强

读书 财务自由

我写了一本操作系统词典送给你

cxuan

操作系统 计算机

InfoQ 极客传媒开发者生态共创计划线上发布会

InfoQ 极客传媒开发者生态共创计划线上发布会

AI 芯片市场竞争:生态与技术并重-InfoQ