算力、算法和数据被称作 AI 发展的三要素,其中为算力提供支撑的底层硬件便是 AI 芯片。过去几年随着 AI 应用的发展,行业掀起了 AI 芯片热潮,一批 AI 初创芯片公司应运而生。对这些公司而言,AI 发展需要专用芯片的加持,当下迎来的是重要的历史性机遇,但同时,芯片行业又是最现实的行业之一,投入大、产出慢,更需要能落地并且被市场认可的结果,而这对很多芯片初创企业来说,并非易事。
峰值算力不等于有效算力
有效算力和高性能是 AI 芯片的关注焦点,通过提高算力峰值来提高性能是方法之一,但往往需要付出不小的成本。在 AI 芯片通用时代还未到来之前,针对不同应用场景,很大几率需要不同的 AI 芯片来支持,各家芯片公司正试图从不同维度突破更具性价比的“有效算力”。
地平线曾提出,不应该把传统芯片常用的 TOPS 作为衡量 AI 芯片性能的标准。在地平线看来,能够全面体现 AI 芯片真实性能的应该是能效、利用率、算法能力的乘积,因此不仅要对芯片和算法进行优化,还要对连接两者的编译器等中间环节进行优化,最终达成全面优化。
而鲲云科技认为,有可能实现 10 倍以上突破的下一代 AI 芯片指标是芯片利用率,即芯片实测算力与芯片峰值算力的比值,这需要从计算平台底层架构进行创新。
CAISA3.0 架构图
鲲云科技日前发布了首款数据流 AI 芯片 CAISA,采用自研的定制数据流芯片架构(Customized AI streaming Accelerator,CAISA)CAISA 3.0。不同于基于冯诺依曼的指令集架构,数据流架构依托数据流的流动次序控制计算执行次序。鲲云科技表示,该芯片已经完成量产。
近日鲲云科技创始人兼 CEO 牛昕宇在接受 InfoQ 等媒体采访时表示,超越英伟达的不会是另外一款 GPU。
在牛昕宇看来,芯片行业的马太效应明显,除了跟随已有技术路线之外,选择另一条技术路线来开拓也不失为长远之计。从官方公布的数据来看,相比现有的指令集芯片,CAISA 可以提供更高的算力性价比,在 1/3 峰值算力情况下,搭载 CAISA 芯片的加速卡可实现英伟达旗舰产品最高 3.91 倍的实测性能,芯片利用率达到 95.4%,较同类产品提升最高 11.6 倍。
“但创新很难,没有既定的人和路线可以模仿,所有事情都要自己去探索,需要在这个行业不断积累和了解,然后继续往前走。” 牛昕宇坦言,数据流这个路线不止鲲云在走,美国有 Sambanova、Wave Computing 和 Groq 在做,但都还未推出产品。据称,目前鲲云是全球第一家将数据流 AI 芯片落地的厂商,接下来,CAISA 数据流 AI 芯片将以加速卡的形态相继落地于智能遥感、电力、工业检测、智慧城市等领域。
终端芯片市场机遇更大
机器学习算法流程又分为训练和推理两大环节,不同的环节对 AI 芯片有不同要求。训练主要在云端进行,通常计算量巨大因此对性能要求很高,而推理在云、边缘和终端均可进行,更侧重芯片的低成本和低功耗。
集邦咨询分析师姚嘉洋向 InfoQ 表示,目前训练芯片方面,英伟达居于领先位置;推理芯片方面,投入的企业非常多,重点是要聚焦哪种应用场景,如自动驾驶、物联网与智能型手机等,不同的终端应用所需要的 AI 运算也会有所不同,如何进一步聚焦特定应用并加以发展,会是 AI 推理芯片业者必须要思考的课题。
“因为公司还处于比较初期的发展阶段,所以一定会专注于推理的芯片市场,但训练也是人工智能一个比较大的市场,我们会不断探索这个领域的可能性。”被问及会否涉足训练领域时,牛昕宇表示公司现阶段还是会专注于推理。
从行业现状来看,对于 AI 芯片企业,尤其是初创企业而言,终端/边缘侧的机会多于云端。
耐能(Kneron)也是从一开始就专注终端市场的 AI 芯片公司。耐能创始人兼 CEO 刘峻诚日前接受 InfoQ 采访时亦指出,云端市场份额很有可能都被大公司拿下,小公司在这个领域没有太大的机会。但终端市场不同,终端下面又细分了很多子领域,不像云那样能用一个架构“吃掉”,所以耐能选择了终端方向,切入消费电子领域的 AI 芯片,比如智能门锁、智能门铃、 IoT、智慧家居等。
德勤预测,至 2024 年,边缘人工智能芯片(执行或加速设备内,而非远程数据中心机器学习任务的芯片或芯片部件)销量预计将超过 15 亿片,甚至可能远远超过这一数据,年销量增长率将达到 20%,是半导体行业整体长期预测的 9%复合年均增长率的两倍以上。而这些边缘 AI 芯片很大可能将流向日益增多的消费级设备,如高端智能手机、平板电脑、智能音箱及可穿戴设备等,同时也将应用于多个企业市场——机器人、摄像头、传感器及其他物联网设备。
“目前在中国,边缘计算芯片最主要的市场仍为智慧安防领域,且落地应用布局较为成熟。”德勤在报告中称,未来,随着技术进步及 5G 的全面铺开,无人驾驶、智慧家居、智能交通、智能制造等领域可能迎来更大的增长空间。但边缘计算芯片市场也面临挑战,终端设备的电池容量有限,AI 芯片必须在能效较低的同时具备更卓越的计算性能,才能更好地服务端侧 AI 计算需求。
落地与盈利的终极问题
毫无疑问,AI 芯片投入大、研发周期长,要博得一席之地并非易事。尤其对规模较小的创业公司来说,若没有清晰的落地应用和商业模式,就连生存都是问题。即将在科创板上市、有望成为 AI 芯片第一股的寒武纪也连年亏损。招股书显示,2017~2019 年间,寒武纪分别亏损 3.81 亿元、0.41 亿元和 11.79 亿元,近三年累计亏损额超过 16 亿元。
创业公司还要面对来自大公司的压力,像英特尔、英伟达和高通这些芯片巨头近些年都在 AI 领域持续布局,谷歌、亚马逊、百度等互联网公司也纷纷借助自有业务来支撑芯片研发工作和落地。
姚嘉洋认为,AI 初创企业在发展之初,必须先锁定某一个 AI 应用痛点,在该应用发展起来后,才有机会跟台面上的业者抗衡。
牛昕宇向 InfoQ 记者表示:“鲲云创立之初就已经做了商业上的思考,像今天我们发布的(芯片)指标,其实好几年前就已经在纸上做过计算,大概要达到这样的峰值算力才能实现这部分性能的领先,才有可能打动客户,所以我们才要做这样的一个芯片。”
在落地方面,耐能算是一众初创企业里做得比较早和成功的,市面上已经有十几款芯片产品在售并且进入了不少垂直行业的标杆企业,但它也还未实现盈利。刘峻诚告诉 InfoQ,今年公司收入应该会接近千万美元,预计明年才能获利。
“现在行业是百家争鸣,后进者很多,大家融到的钱都很多,所以挑战也会越来越大。”刘峻诚表示,除了资金,落地速度和扩展性也很重要。
此外,有网友对鲲云芯片评价道:“这不是第一个也不是最后一个声称性能超过英伟达的,但实际上,英伟达的壁垒主要在开发环境及系统生态。”对此,鲲云称公司为用户提供了简单易用的编译工具链,可以更快速地部署和迁移算法,进而帮助 AI 芯片更好地落地。
软件工具链和生态的打造,一直是专用处理器设计的巨大挑战。设计一个新的专用芯片,做好硬件只是第一步,后续还需要打造新的软件工具链,包括新的指令集架构、编程模型,甚至是新的编程语言。只有提供全栈的软硬件,才能让用户特别是开发者充分利用新硬件的能力。
在软件工具和生态上,英伟达是业内公认的绝对标杆,其推出的统一编程框架 CUDA 已有十几年的积累,由于完整的配套生态、良好的易用性和高效的更新迭代速度而广受机器学习应用开发者和框架开发者欢迎。在这方面,AI 初创企业们还有相当长的路要走。
本文由 InfoQ 粤港澳大湾区内容中心采访报道,我们重点关注大湾区 AI、金融科技、智能硬件、物联网、5G 等前沿技术动态及相关产业、公司报道,寻求报道或进一步交流可联系邮箱:kimmy.luo@geekbang.com。
评论