成立 11 年来,AIoT 一直是旷视核心的战略关键词。
AIoT 战略与“2+1”的核心技术科研体系
7 月 15 日,在 2022 旷视技术开放日(MegTech 2022)上,旷视联合创始人、CEO 印奇阐述了旷视的 AIoT 战略及“2+1”的核心技术科研体系。
印奇表示,AIoT 是旷视过去 11 年里最核心的主旋律。
旷视将 AIoT 定义为,“AIoT=AI+IoT+空间”。其中,“AI”和“IoT”是两个相辅相成的核心关键词。AI 是不断演进的算法能力,如今越来越多的 AI 算法正在各行各业发挥核心价值;IoT 是软硬结合的设备载体,只有在特定的载体中,AI 才能最大限度地释放其价值。
在此基础上,旷视还强调“空间”这一关键词,提出空间是应用场景的闭环。在过去二三十年,互联网、5G、AR、VR 等技术的不断演进,给虚拟世界带来了翻天覆地的变化。但与此同时,技术对于物理世界的改造并没有发生根本性的变化。印奇认为,AIoT 从业者要更好地改变物理世界。
为了支撑 AIoT 这一长期发展战略,旷视构建了“2+1”的 AIoT 核心技术科研体系,即以“基础算法科研”和“规模算法量产”为两大核心的 AI 技术体系,和以“计算摄影学”为核心的“算法定义硬件”IoT 技术体系(包括 AI 传感器和 AI 机器人)。
印奇表示,AI 为“本”,是旷视一直坚持的核心能力,它包括两个核心要素 — 基础算法科研和规模算法量产,因为从基础的科研创新到把 AI 推向规模化的市场,要用算法量产,用系统化的方式来解决 AI 算法的生产问题;IoT 为“器”,其是实现 AI 规模化落地的硬件载体,算法定义硬件是 IoT 的核心要素。
这一整套科研战略体系,涵盖了从基础研究、算法生产到软硬一体化产品的 AI 落地全链路。印奇认为,“2+1”的 AIoT 科研战略体系,是支撑旷视未来不断走向 AIoT 商业化成功的重要基石,这也将会是旷视未来十年、二十年会不断坚持的科研方向。
印奇最后强调,“科研实力和竞争力,最终都将回归到人。‘技术信仰、价值务实’是旷视的科研人才观,技术创新需要大量试错,需要长期坐冷板凳,这要求技术人一定要有技术信仰,才能长期坚持下去。“价值务实”是指,要做真正可以“Work”的科研,本质上希望通过产品让科研成果创造价值。
旷视的核心技术能力如何支撑 AIoT 战略?
AIoT 是旷视相对长期的业务战略方向和商业战略方向。那么,旷视的核心技术能力如何支撑 AIoT 战略?本次 MegTech 分别从基础科研、算法量产、算法定义传感器等三个方面作了详细阐述。
视觉 AI 基础研究的新趋势:走向“大”和“统一”
基础模型科研是 AI 创新突破的根基。
在 2012 年 AlexNet 被提出之后,基于深度学习的神经网络成为 AI 视觉发展的主要原动力之一。神经网络根据用途、构建方式的不同,大致可以分为 CNN、Transformer、基于自动化神经网络架构搜索的模型以及轻量化模型等。这些模型极大地推动了 AI 发展的历史进程。
当时间来到 2022 年,旷视认为,“大”和“统一”已经成为视觉 AI 基础研究的最新趋势。
其中,“大”主要是指 AI 大模型,即利用大数据、大算力和大参数量,提高模型的表达能力,使得 AI 模型能够适用于多种任务、多种数据和多种应用场景。
旷视研究院基础科研负责人张祥雨认为,“大”是提高 AI 系统性能的重要捷径之一。但是**,大并不意味好,片面地追求大参数量、大计算量和大数据量,并不一定能够实现更强大的模型,反而会产生更大的计算开销,令整体收益非常有限。**
基于这一行业洞察,旷视将其关于“大”的研究进行了更加精细的划分。首先在大模型方面,旷视的研究不仅着眼于如何实现“大”,而是将会聚焦于如何充分发挥大模型背后的威力;其次在大算法方面,如果利用创新的算法将大模型的作用最大化,也将会是旷视未来重点关注的;最后在大应用方面,将重点解决大模型生成后如何进行合力的应用,提升 AI 模型性能。
同时,AI 视觉的研究领域众多,包括 CNNs、VL Models、 Transformers 等基础模型研发,物体检测、分割等视觉基础应用,优化、自监督、半监督等 AI 算法演化等。每个研究路径,都会衍生出一系列算法。
旷视通过研究发现,这些算法在底层正在走向统一。通过统一的算法、模型来表示和建模各种数据、任务,将产生更加简单、强大且通用的系统。 旷视借助特定的优化算法,通过在训练过程中增加先验的方式,使得 CNNs、VL Models、 Transformers 都取得相似的性能,为旷视“统一”AI 系统设计打下基础。
围绕“统一”的趋势,旷视在“基础模型架构”、“算法”和“认知”,进行了全面布局。旷视基础科研的“统一”,集中体现在统一各种基础模型架构,从纷繁的 AI 算法中提炼其本质特性,使其能支持各种任务、数据和平台,并最终构建统一的、高性能的视觉 AI 系统。
围绕“大”和“统一”的研究趋势,旷视基础模型科研聚焦于通用图像大模型、视频理解大模型、计算摄影大模型和自动驾驶感知大模型四个方向,并取得了多项科研成果。比如,在通用大模型方面,旷视提出了一种基于大 Kernel 的 CNN 和 MLP 设计范式。在自动驾驶感知大模型方面,旷视新提出了 BEVDepth;去年,旷视提出了简单通用的目标检测框架 YOLOX。
张祥雨强调,基础模型科研需要坚持长期主义,旷视将以原创、实用和本质作为基础科研的指导原则,解决人工智能最本质的难题。
发布自研算法生产平台 AIS,算法量产是实现 AI 落地的有效途径
旷视研究院算法量产负责人周而进总结了过去十多年在算法生产和应用落地过程中的实践经验。旷视认为,在推动算法在各行各业的实际场景落地的过程中,落地实用是算法价值的最终检验标准。
算法生产的过程并不是模型训练这么简单的一个环节,为了让模型算法能够解决实际问题,它包含了需求分析,数据处理,模型训练,上线部署,到最后的应用落地。同时,在这个环节中可能需要反复多轮的算法打磨。这整个过程才真正是一个完整的算法生产的过程。
基于多年实践经验,周而进认为算法生产的主要困难集中在整个生产环节的复杂性上。具体来说,可以分为三个方面:第一,数据生产的复杂性。第二,算法模型本身的不确定性。第三,算法落地的 AIoT 硬件平台多样性也带来了整个生产过程的复杂和高成本。
面对如此复杂的挑战,他认为“算法生产过程的标准化,是解决复杂的、碎片化的算法生产的有效手段”。这个标准化过程,包括了数据生产的标准化、算法模型的标准化和推理框架的标准化。
为此,旷视在本次技术开放日上发布了自研的算法生产平台 AIS(AI Service)。AIS 基于旷视 Brain++体系,构建了一套覆盖数据处理、模型训练、性能分析调优、推理部署测试等算法生产全链路的零代码、自动化的生产力工具平台。AIS 承载着旷视实现“算法量产”的小目标。
周而进以生产安全场景的火焰检测算法生产为例,介绍了旷视 AIS 平台的工作全流程。通过标准化的数据处理,自动完成去重去花屏,用基于机器学习的人机交互数据标注系统,提升超过 30 倍的标注效率。此外,基于旷视 10 余年一线算法落地中积累的海量模型储备,自动化地适配合适的模型并自动化完成模型的训练和诊断,实现标准化的模型生产。最后,通过解耦的工具链自动完成硬件部署,有效化解算法在生产中的复杂性,大大降低算法的生产门槛。
据介绍,旷视 AIS 算法生产平台提供多种功能支持算法快速生产部署,可大幅降低算法生产的门槛,提升算法生产效率。目前,AIS 平台已经能够支持 100 多种业务模型训练,最快 2 小时即可完成,且模型产出精度指标远高于业界平均水平。经验证,算法研发人员使用 Brain++和 AIS 平台,可以实现智能标注平均加速 30 倍,自动学习训练加速 4 至 20 倍。
周而进表示,AIS 的理念很简单,就是希望用越来越多的算法来代替人工的分析,用更多的算力和搜索来代替人工的规则,用机器的生成来代替人工的生产。
随着 AI 算法在越来越多的行业领域里逐步深化,行业对于 AI 算法的需求也呈现出碎片化、个性化特征。面向广阔又碎片化的产业场景,算法量产是实现 AI 落地的有效途径。
周而进强调,算法量产不是单一的产品,而是对 AI 生产模式的理念革新和生产力进化。 旷视希望通过 AI 算法生产的标准化以及 AI 生产力平台的构建,极大地降低算法生产的成本和门槛,让更多人可以参与进来,促进算法在更多行业的落地。
AI 传感器是“算法定义硬件”的核心单元
市场数据显示,AIoT 行业中 AI 渗透率仅为 4%,还有约 96%的场景没有被 AI 渗透(2021 年数据),这是源于 AIoT 行业具有大量的碎片化场景,而这些海量的碎片化场景存在数据采集难、算法复用度低的问题,导致企业很难针对每一个场景进行硬件和算法的定制适配。
同时,算法本身也对于硬件应该提供怎样的信息和输入提出了要求,甚至从根本上改造了硬件的形态与样式。
在此情况下,“算法定义硬件”通过海量算法+一定数量的通用型/标准硬件,成为 AIoT 市场的解决之道。
旷视研究院计算摄影负责人范浩强以 AI 传感器为例,分享了旷视在“算法定义硬件”方面的最新思考与进展。
他认为,随着 AI、视觉算法等领域的发展,传感器将不再单独的、直接地提供应用价值,传感器和应用之间需要算法来作为承上启下的桥梁。从技术角度讲,这两者最显著的结合点就是计算摄影。
范浩强以手机拍照在灯光、月光、星光等不同环境下成像能力的提升为例,介绍了在 AI 算法和传感器的协同工作下,手机拍照画质如何发生了显著变化。旷视已参与手机影像的能力提升中,目前旷视的 4K 级别的硬件方案已实现量产,并正在推动 8K“AI 画质”硬件方案的研发与产品化。此外,在非成像的屏下光学指纹方面,算法也在牵引传感技术向前发展。
范浩强认为,“应用-算法-传感器”的全链路整合能力,是“算法定义硬件”的核心。
这具体来说,在传感器上需要有光学、模组、电子学的设计能力;在算法上,需要搞定深度学习,对传感器的物理建模、模型优化具有专业能力;更重要的是在应用层上,需要懂需求、能够完成产品定义和功能交付。旷视目前已实现将传感器的光学、模组、电子学的设计能力,传感器的物理建模和算法能力,以及传感器的应用能力融为一体。该能力已在非成像的屏下光学指纹领域获得验证。
发布 20 个技术 Demo
在今年的旷视技术开放日上,旷视发布了 20 个技术 Demo,VR 裸手交互、自然语言生成 3D 人物、手绘人物转动画、基于神经网络的 3D 重建、3D 建模仿真检测等。这些技术 Demo 反映了旷视在前沿技术探索、软硬件协同设计、算法量产应用,以及商业化产品落地方面的最新成果。
评论