1 月 11 日,InfoQ 获悉,达摩院 2023 十大科技趋势发布,生成式 AI、Chiplet 模块化设计封装、全新云计算体系架构等技术入选。
达摩院发布十大科技趋势
达摩院认为,全球科技日趋显现出交叉融合发展的新态势,尤其在信息与通信技术(ICT)领域酝酿的新裂变,将为科技产业革新注入动力。
颠覆性的科技突破也许百年才得一遇,持续性的迭代创新则以日进一寸的累积改变着日常生活。进入 2023 年,达摩院预测,基于技术迭代与产业应用的融合创新,将驱动 AI、云计算、芯片等领域实现阶段跃迁。AI 正在加速奔向通用人工智能。多模态预训练大模型将实现图像、文本、音频等的统一知识表示,成为人工智能基础设施;生成式 AI 将迎来应用大爆发,极大推动数字化内容的生产与创造。人工智能诞生数十年,人类对“通用 AI”的想象从未如此具体。
多模态预训练大模型将实现图文音统一知识表示
云计算始终是数字时代的技术创新中心:基于云定义的可预期网络技术,将从数据中心的局域应用走向全网推广;因云而生的云原生安全技术,则将推动平台化、智能化的新型安全体系的成形;云也在重新定义计算体系架构,从以 CPU 为中心的传统架构,向以云基础设施处理器 (CIPU)为中心的全新体系架构演进。
芯片领域在算力需求暴涨、摩尔定律放缓的夹击下寻求突围,达摩院预测,存算一体和 Chiplet 模块化设计封装将有长足进展:基于 SRAM、NORFlash 等成熟存储器的存内计算有望在智能家居、可穿戴设备等场景规模化商用;Chiplet 互联标准的逐渐统一将重构芯片研发流程。
Chiplet 模块化设计封装有望重塑芯片产业格局
基础技术的迭代演进必将催生新场景和新产业,今年最被达摩院看好的趋势有计算光学成像、数字孪生城市、双引擎智能决策等。
计算光学成像技术有望突破传统光学的物理极限,帮助人类发现“见所未见”的事物;智慧城市完成了精准映射、生成渲染、仿真推演等关键技术的全面突破,将从单一场景演进至大规模城市数字孪生,辅助人类更“全知”地认识和管理城市;智能决策系统实现了运筹优化和机器学习的联合驱动,将为人类在电网调度、港口吞吐管理、机场停机安排等实时变化的复杂难题上,提供更有价值的优化答案。
大规模城市数字孪生向立体化、无人化、全局化方向演进
据悉,达摩院 2023 十大科技趋势采用“巴斯德象限”研究思路,基于论文和专利的大数据“定量发散”,并对产、学、研、用领域近百位专家深度访谈进行“定性收敛”,再从学术创新、技术突破、产业落地、市场需求等维度综合评估,力求“致广大而尽精微”,最后遴选出十大趋势。
中国工程院院士邬贺铨指出,技术前瞻性预测分析工作难度大,准确的技术预见既需要有工程实践经验的积累和感性认识,也需要有科学理论基础的支撑与理性思维。
达摩院作为一所致力于基础科研和颠覆式技术创新研究的新型研发机构,其科技趋势报告为科技界和产业界贡献了有价值、有深度的预见。
详解生成式 AI
今年的 AI 领域,可能没什么比 AIGC 更热了。有预测数据显示,到 2030 年,AIGC 的市场规模或将超过万亿人民币。
2022 年,尤其是下半年,AIGC 概念突然升温。有这么几个标志性的事件把 AIGC 推到了风口浪尖之上,其一是文生图模型 Stable Diffusion 的开源,其二是 ChatGPT 的爆火出圈。ChatGPT 展示出的强大的能力和无限可能,让人们看到,通过 ChatGPT 这样的技术方案解决很多任务的潜力。
不久前,达摩院基础视觉负责人赵德丽在接受 InfoQ 采访时表示,从信息检索的角度看,ChatGPT 取得了很大突破。以前谷歌等搜索引擎做搜索和检索,只是找已经存在的信息,ChatGPT 的应用,实现了从信息的搜索到信息的创造这样一个范式的转变,从算法能力上看,它取得了一个质的飞跃。短期来看,ChatGPT 有望成为或者辅助像谷歌这种传统信息检索的强有力的工具;长期来看,它有望发展成为 AI 系统级的服务。
赵德丽对 ChatGPT 抱有很大的期待。虽然还有各种瑕疵,但 ChatGPT 短时间内出现了各式各样的不同方向上解决问题的能力,展现了 AI 算法的巨大潜力。从技术发展和解决方案的角度看,它将来可能会成长为一个超级 APP,就像是一个无所不知的虚拟体。“ChatGPT 这种应用的出现,从长远来看的影响力,其实不亚于阿尔法狗曾经在人工智能界带来的影响力,它将会是一个影响非常深远的技术和应用”。
GAN,是生成式 AI 的核心技术之一。2014 年以来,以生成式对抗网络(Generative Adversarial Network,GAN)为代表的深度学习算法的提出和迭代更新,让 AIGC 进入了快速发展阶段,带动了 AIGC 的一波热潮。今年这波 AIGC 的热潮,被认为是由生成扩散模型带动起来的。例如,OpenAI 发布了文本生成图像模型 DALL·E 2;谷歌推出了 Imagen;今年 8 月,初创公司 Stability.AI 发布了 Stable Diffusion...
赵德丽表示,在 Stable Diffusion 这种扩散算法出现之前,从生成的效果上看,在计算机领域,GAN 是效果最好的。发展到现阶段,GAN 生成的人脸图像已经到了真假难辨的程度。以 StyleGAN 为例,其生成的图片可以做到栩栩如生,光线和纹理都清晰可见,非专业人士几乎无法分辨出是由 AI 生成的虚假图。即便是现在的 Diffusion model 目前也做不到现在 GAN 在人脸生成上的结果。
但 GAN 有一个最大的缺点,它对于多类别、语义非常复杂的、一般场景下的图片生成的建模能力较弱。如果只是人脸,只是猫或者只是狗这类场景的数据,GAN 的效果很好。但它在某种复杂数据的规模能力方面,在性能上受限较大,如果把狗、猫、花朵、桌子、椅子、电话等不同种类的数据放在一起,目前的情况下,GAN 得不到一个较好的结果。
而 Diffusion model 在这方面取得了突破性的进展。Diffusion model 解决了 GAN 不能解决的问题,因此大家立刻意识到了它的巨大潜力。今年是 Diffusion model 取得快速发展的第一年。而且,它的发展速度超过当年的 GAN,当年的 GAN 已经足够火热了,但可以感受到,Diffusion model 现在的受关注程度超过当年的 GAN 。
赵德丽认为,现阶段,AIGC 的生成效果已经非常惊艳了,它已经达到了广泛应用的基础性能,虽然在使用上还有较大门槛,但通过大模型的开源开放等,有助于将门槛降下来。
“AIGC 技术走到了一个转折点,到了一个新阶段的起点”。赵德丽认为,此前,虽然 AIGC 技术在不断发展,但生成效果并没有得到广泛认可,还没达到大规模商业化的条件。但现在,不一样了。
今年,AIGC 生成的效果,包括基于 AIGC 技术推出来的应用,大家看到,这项目技术已经具备了大规模应用和商业化的潜力和性能,具备了从只能在窄领域到更普遍场景下应用的可能性。AIGC 技术到了大规模商业化应用的转折点。今年是一个起点,但还远远没有到成熟的程度。
AIGC 具体在哪些领域能用好,发挥出商业化的价值,还需要不断打磨产品和技术。例如对于文本生成图,现在对 problem 的提示语要求很高,现在算法还做不到随便给个描述,就能生成栩栩如生的图片。什么样的 problem 合适,如何设计出合适的 problem 等,都有一定门槛。
此外,像 ChatGPT 虽然展示了强大的能力,但在很多场景下还是有瑕疵,出现问题和答案不匹配的情况还非常多。如果对其进行商业化应用,需要再针对具体的场景,不断打磨和优化。尽管它达到了大规模应用的基础,但并不是非常成熟,还达不到让大家自由应用的程度。
另一个值得注意的问题是,AIGC 并不意味着取代人。赵德丽表示,AIGC 本身是基于生成模型产生的能力,生成模型训练需要数据,这些数据都是人类活动产生,生成的提示词需要人来输入,人需要做场景的设计、提示词的设计、元素的设计等等。只不过在一些具体的场景上,对于一些固定的设计模式,比如设计成具体的图形如红包界面、商品素材等,可以实现完全的 AIGC 的方式。但整体而言,人还是 AIGC 中重要的因素。
附:达摩院 2023 十大科技趋势概览
多模态预训练大模型:基于多模态的预训练大模型将实现图文音统一知识表示,成为人工智能基础设施。
Chiplet 模块化设计封装:Chiplet 的互联标准将逐渐统一,重构芯片研发流程。
存算一体:资本和产业双轮驱动,存算一体芯片将在垂直细分领域迎来规模化商用。
云原生安全:安全技术与云紧密结合,打造平台化、智能化的新型安全体系。
软硬融合云计算体系架构:云计算向以 CIPU 为中心的全新云计算体系架构深度演进,通过软件定义、硬件加速,在保持云上应用开发的高弹性和敏捷性的同时,带来云上应用的全面加速。
端网融合的可预期网络:基于云定义的可预期网络技术,即将从数据中心的局域应用走向全网推广。
双引擎智能决策:融合运筹优化和机器学习的双引擎智能决策,将推进全局动态资源配置优化。
计算光学成像:计算光学成像突破传统光学成像极限,将带来更具创造力和想象力的应用。
大规模城市数字孪生:城市数字孪生在大规模趋势基础上,继续向立体化、无人化、全局化方向演进。
生成式 AI:生成式 AI 进入应用爆发期,将极大推动数字化内容生产与创造。
评论