解读计算机视觉的2021：「进化」的力量推动技术变革，元宇宙时代的重要技术基础

回顾刚刚过去的 2021 年，笔者想要总结的最核心的关键词是“进化”。

从商业世界的维度看，我们的社会已经从依赖传统的碳基能源，逐步进化到汲取数字化能源。从物理世界中，开采数据、粗炼出信息、聚合出智慧，最终提高生产率。

另一方面，我们人类赖以生存的环境近些年也在发生剧烈的变化。2020 年初新冠疫情突然爆发，病毒本身在以极快的速度进化着，相应的疫苗也在飞速研发着，未来病毒还是会不断进化变异，病毒的变化与威胁促使很多技术飞快往前发展，一瞬间仿佛人类文明进程被按下了快进键，一切魔幻现实主义的事件在我们身边真实发生。

这仿佛《三体》里面描述的场景，三体星球常年处于乱纪元或者毁灭的恶劣环境中，但其科技领先地球文明上千年；人类后来被三体文明统治之后，理论物理的天花板被锁死，但各种应用技术突飞猛进，反超了之前的科技水平。这一切的一切无不是进化的力量促使着科技向着更加适应客观环境的方向发展，而唯一不变的就是变化本身。

站在 2021 年的尾牙，回首过去的一年，笔者总结了在进化的力量下催生的，计算机视觉在工业和学术界值得大家关注的几点进展：

回顾计算机视觉这一年

具身智能，从被动式 AI 转向主动式人工智能

具身智能翻译自英文 embodied AI，字面意思是具有身体的人工智能。此处强调的是智能体（agent）需要与真实世界进行交互，具身智能（embodied AI），强调智能体（agent）要与真实世界进行交互，并通过多模态的交互 — 不仅仅是让 AI 学习提取视觉上的高维特征，被“输入”的认知世界，而是通过“眼耳鼻舌身意”六根来主动获取物理世界的真实反馈，通过反馈进一步让智能体学习并使其更“智能”、乃至“进化”。

1986 年，著名的人工智能专家布鲁克斯(Rodney Brooks)提出：智能是具身化和情境化的，传统以表征为核心的经典 AI 进路是错误的，而清除表征的方式就是制造基于行为的机器人。这个理论和 19 世纪 60 年代最早提出的认知智能，也是与“当前主流深度神经网络的基于大脑是基于神经元连接的复杂系统-基于信息的表征与加工”相悖的。

提到具身智能和进化，就不得不提到李飞飞老师今年提出的一套非常新的计算框架——DERL（deep evolution reinforcement learning）深度进化强化学习。她提到了生物进化论与智能体进化的关系，并借鉴了进化论的理论应用于假设的智能体（unimal 宇宙动物）的进化学习中。

李飞飞首次在文章中证明了鲍德温效应，即没有任何基因信息基础的人类行为方式和习惯（不通过基因突变的有性繁殖进化），经过许多代人的传播，最终进化为具有基因信息基础的行为习惯的现象（进化的强化学习）。

并且李飞飞在设计 unimal 过程中也参考了拉马克的学说，来对智能体穿越不同复杂地形进行训练，“用进废退”即生物体的器官经常使用就会变得发达，而不经常使用就会逐渐退化。unimal 通过无性进化限定了三种方式（a.删除肢体 b.调整肢体长度 c.增加肢体）。

Facebook 进化为 meta，all in 元宇宙

扎克伯格提出云宇宙需要具备的八要素如下：Presence 开发平台/套件、虚拟化身（Avatars）、家庭空间（Home space）、隔空传输（Teleporting）、跨平台互操作（Interoperability）、隐私与安全（Privacy and safety）、虚拟商品（Virtual goods）以及自然界面（Natural interfaces）。

其中 Presence 是 meta 为 Oculus VR 头显开发者提供的元宇宙基础开发套件，提供的即为基于计算机视觉和智能语音技术的工具集，分别是 insight sdk、interaction sdk 和 voice sdk。

insight sdk 基于空间锚点和场景理解技术，可以帮助开发者在真实的空间中进行虚拟物体的摆放、且符合物品之间的空间关系、遮挡关系，类似 google 推出的 google AR core 和苹果的 AR kit；interaction sdk 主要基于手部动作的交互，具体操作包括指、戳、捏、投射等；voice sdk 是由 wit.ai 自然语言平台提供支撑，可以为开发者提供语音导航和搜索等功能。

进入元宇宙需要智能感知与交互技术这张门票，而这张门票里的视觉和语音技术是最重要的基石。

自动驾驶，全视觉方案撑起的特斯拉万亿市值

2021 年，被称作是自动驾驶的元年。

交通运输部发布了《促进道路交通自动驾驶技术发展和应用的指导意见》，政策利好自动驾驶行业的发展。

过去一年我们见证了一批自动驾驶独角兽公司的快速崛起、也见证了特斯拉的万亿市值神话。在 2021 的 tesla Open AI day 上，高级总监 Andrej Karpathy 介绍了特斯拉的最新自动驾驶进展。

众所周知，特斯拉摒弃了激光雷达，采用了全视觉方案，通过八个 RGB 摄像头完成对于空间的感知和建模。通过 Transformer 来实现多机位特征到结果的预测，通过融入不同相机的位置信息，获得准确的空间位置映射。

但视觉信息本身缺乏时序信息，因此特斯拉构建了视频时序网络框架，融入 IMU 信息提升定位/跟踪的准确性，并提出了 spatial RNN video 模块。构建了千人的自有标注团队、自动标注平台工具，从 2D-3D 到如今的 4D 标注（时空标注），即一次标注可覆盖多机位和多帧，3D、4D 的数据可以通过目标的移动、方向的转换，获得不同角度、视野的 2D 图像。同时通过环境（光照、天气、角度）、车辆、人、道路等场景的仿真、动态化的参数调节目标数量，用于重构无穷无尽的数据流从而重构各种场景来不断训练与提升模型的边界。

同时，特斯拉也对外展示了自研的 dojo 集群，一种对称的分布式计算架构，区别于主流的非对称的分布式架构，如此的设计为 tesla 带来了横向扩展算力，兼顾算力的同时，具备很好的编程灵活性。“算法+数据+算力”三轮驱动铸造了特斯拉的万亿市值，并使其将竞争对手远远甩在身后。

结合今年技术的突破创新，面向未来的思考，从人工智能的三驾马车 — 算法、数据和算力，笔者总结了以下三大趋势：

2022，三大趋势值得关注

面向内容生成的 AIGC（算法层面）

我们已经逐步迈向了元宇宙时代。

元宇宙区别于传统的游戏世界的最大差异是，元宇宙是现实宇宙的数字孪生，遵循客观世界的物质唯一性等客观规律，因此元宇宙世界也需要孪生大量现实世界的物体或是对于现实世界的人物进行重建，而这些海量的重建必然不能是按照传统游戏世界中的方法，由 CG 工程师一个个手工制作、其效率远远无法满足实际场景的需求。

因此面向内容生成的 AIGC（算法层面）是必要的。相关技术方向包括：图像超分、domain 迁移、外推、类似 CLIP（对比式语言图像预训练模型，可以从自然语言监督中有效学习视觉模型）的隐式神经表示 — 通过文字描述来生成图像等多模态的（CV+NLP）等相关技术。

SCV 合成（数据层面）

虚拟现实引擎有专门的生成合成数据的组件（比如 NVIDIA IsaacSim，Unity Perception），这些合成数据不仅美观，而且有助于训练更好的算法。

生成/合成的数据不仅仅作为元宇宙的必备要素，同时也是训练模型的重要原料。如前面提到的特斯拉会利用虚拟现实技术来生成驾驶场景的边缘场景和生产更多的新视角。如果我们有合适的工具来构建数据集，就可以省去繁琐地给数据手工打标的过程，更好地对计算机视觉算法进行开发和训练。

人眼能看到的东西远不如现实世界丰富，我们构建的算法只能关注到人类理解和标记出的信息范围内。但事实可能并不是那样，我们可以为传感器构建算法，来测量超越人类感知范围的东西。这些算法可以在虚拟现实中通过编程的方式进行有效训练。

知名数据分析公司 Gartner 认为在未来 3 年中，合成数据将比真实数据更占优势。在合成计算机视觉（SCV）中，我们使用虚拟现实引擎训练计算机视觉模型，并将训练好的模型部署到现实世界。

能效高模型（算力层面）

尽管现在学界很多 SOTA 模型很难离线运行在一些手机等可穿戴设备上，模型越重相应的延迟也会越长，如果完全放到云端运行会引入成本、网络时延、隐私等问题。同时占用大量的云端算力，也会产生海量能耗而不利于整个社会碳达峰/碳中和的诉求。

因此未来高能效的推理模型势必成为主流趋势，第一个方案就是分布式训练，即在矩阵当中引入 0 进行神经网络的训练，因为不是全部的维度都重要，尽管可能会影响性能，但是会大规模减少点乘运算从而减少网络训练时间。同时引入量化训练、剪枝、感知量化训练等也可以帮助大幅降低模型推理时间，从而提升模型能效，同时极大程度的避免因量化训练带来的精度损失。通过知识蒸馏训练一个高性能的 teacher 模型来训练 student 模型也可以帮助提升模型能效。

总结

笛卡尔说过：“我思故我在”，因为意识决定了我的存在。海德格尔后来对笛卡尔的观点进行了批判，他提出“我在故我思”，因为人们的存在才有意识，才能感知这个世界，如果人不是人、而是存在于其他的生物体里，比如蝴蝶、鲸鱼，那么人对于世界的认知也会不同。

笔者以为，无论是传统基于表征的深度学习，还是新提出的具身的、基于存在与时间的具身智能都还有很长的路要走。

但毫无疑问，如果要做到一个通用型的人工智能，多模态的、具身的、主动交互式的人工智能体一定是必由之路。

为何如此笃定？因为人工智能是人类-高级智慧体定义训练的一种人造的、类人的高级智能。既然如此，是不是应该具备人类这种高级智能体的特性呢？比如生物体的进化、比如高层次的智能：推理、演绎、下棋等，也包括低层次的智能：行走、交谈、感知。面向未来的 AI 产品方向应该是从传统的 2D 平面人工智能（比如图像分类、目标检测、分割等任务）向 3D 空间、向 4D 的方向发展（存在与时间）。

我们看到短视频/视频 vlog 这几年较原来的微博图文有了极大发展，因为它们可以带给用户基于时空的、环境的更多信息；发展向给用户更加沉浸式的体验，比如 AR/VR，提供的是基于空间、环境、时间的全方位的感知与体验；发展向具身的虚拟数字人/AI 智能助理，人形的机器人例如 tesla bot，是视觉+语音的多模态主动式的与用户交互；发展向智能车，对外适应环境适配复杂路况、交通情况进行智能驾驶，对内为驾驶员和乘客提供真实的“第三空间”，满足用户的不同场景需求。

虽然人类的肉身进化缓慢、但人类精神创造的科技进化日新月异。作为一名科技工作者和 AI 从业者，我无比期盼那一天的到来，期待 AI 创造一个让渺小人类抵御外部环境突变的世界，赋人类以力量，赋岁月以文明。

作者介绍

何苗，AI 技术产品化专家（语音语义和计算机视觉以及多模态融合方向）。北京理工大学信工实验班本硕，和君商学院六届学员。AI 技术能力产品化方面有丰富的经验，曾担纲中国移动“和苗®”系列智能音箱、智能电视产品经理；在计算机视觉领域，专注于以人为本的视觉计算、三维空间定位与重建等数字孪生相关方向，如曾负责自研“羽量级像素精度人脸检测技术”赋能 OPPO Reno6 系列手机核心卖点“AI 焕采美妆视频”，自发布以来累计调用近 3 亿次。笔名大仙河，《AI 产品经理的 7 堂必修课》系列文章深受读者喜爱。

创作场景

解读计算机视觉的 2021：「进化」的力量推动技术变革，元宇宙时代的重要技术基础