今年,OpenAI 、微软、谷歌等 AI 大模型产品或服务陆续进入中国市场,大模型的技术讨论热度持续不减,AI 技术已经成为当下最受瞩目的 IT 技术。
我们能看到,凭借快速、精确处理多维及多模态的海量数据优势,AI 技术正在高效解决多种复杂场景下的科学和技术难题。除了帮企业和个体提升了研发效率和生产力,同时也带动了 AI4S( AIforScience,科学智能)的发展,当前学术界普遍认为,AI4S 将会带来科研范式的变革。
近几年,无论是 AIGC、大模型,还是 AI4S,都已经进入了技术集中爆发期,技术迭代速度和研发成果都非常喜人。然而,这也对 AI 框架提出了更高的要求,比如“企业如何快速且低成本的部署多样性算法?”、“从研究到生产,如何快速进行动静态图转换?”、“大模型领域如何降低开发门槛”、“超大规模集群如何才能保持高效稳定的训练?”、“在 AI4S 领域如何用一套框架支持 AI 和科学计算高效表达并进行计算加速?”等等问题,这些需要 AI 技术厂商在研发过程中需要持续优化并找到解决方案。
一、动静统一、大模型、AI4S 是 AI 框架主流发展趋势
AI 框架是 AI 算法模型设计、训练和验证的一套标准接口、特性库和工具包,集成了算法的封装、数据的调用以及计算资源的使用,同时面向开发者提供了开发界面和高效的执行平台。作为人工智能开发环节中的基础工具,AI 框架承担着 AI 技术生态中操作系统的角色,是发展人工智能所必需的基础设施之一。
随着企业对 AI 产品应用研发、提升研发效能的诉求不断攀升,开发者对 AI 框架的依赖程度越来越高,无论是企业 AI 项目的研发,还是提升研发效能;无论是商业还是学术,项目都会建立在一个或多个开源 AI 框架上的。比如当前比较主流的开源框架有 MindSpore、TensorFlow、PyTorch、MXNet 等。
AI 产业初期的大规模研究和应用主要是在 CV 领域,以性能优先,静态图为主,后来 NLP 领域持续突破,人们在优化性能的同时也更多关注灵活性,动态图成为了主要开发方式。所以,当我们纵观这些主流开源 AI 框架的发展历程,我们可以发现,AI 框架经历了动静分离、动静结合、动静统一 3 个发展阶段,当前正是“动静统一”的主要发展阶段。
在目前主流 AI 框架的核心技术分层中,编译优化层则是 AI 框架中至为关键的部分,负责完成 AI 模型的编译优化并调度硬件资源完成计算,而“动静转换”是编译过程中“在训练期间提供更高性能但不易于使用、不灵活”的静态图和“即时执行、更容易被调试、更灵活但性能较低”的动态图的转换方式,切实影响着生产效能的提升。为满足当前市场需求,当前的 AI 框架仍需要提供更加优质的动静态图转换能力以提升后端运行高效性。目前国际主流 AI 框架研发厂商都基本已经实现了动态图开发、静态图部署的编程范式及动静态图转换的能力,不过从开发效率层面考虑,动态图与静态图的“转换与统一”仍需要持续优化。要知道,“动静统一”是 AI 框架在动静态图技术发展中最理想的状态,开发者们需要的是“能够随时根据业务需要灵活切换动态图与静态图”来提升自己的研发效能。
除了动静态图技术,在 AI 基础层,“大模型”算的上是这两年 AI 框架的话题中心。在 AI1.0 时代,AI 只停留在单一场景产品端,到了 AI2.0 时代,大模型的快速发展将有望解决“人工智能如何理解世界”的问题,让 AGI(通用人工智能)的实现有了可能,同时大模型的通用性可以激发出更多的商业场景,为企业产品应用研发和产能提效付出更多努力,大模型如今已成为上层应用的技术底座。
当我们将视野放到应用层面,我们又会发现,除了企业和商业个体,在近几十年间,AI 技术的快速发展和科学研究已经深度融合,AI4S 更成为了学术界主要进攻的课题。将人工智能和科学相结合,通过利用机器学习等 AI 技术来解决科学研究中的问题,这无疑也是一种“降本增效、生产力提升”的表现。 AIforScience 是人工智能发展的一大重要趋势已毋庸置疑,当我们走进实验室就会看到,AI 已在在改变传统科学研究方式,为生物制药、工业制造等传统研发领域带来新的生产和产业模式。
二、AI 框架持续升级,昇思 MindSpore2.0 再次交出满意答卷
近期 chatGPT 持续引爆大模型领域,基础的科学方面也引入 AI 能力,为科学带来了新的研究范式,同时千行百业对于 AI 的应用也进入了深水区。从今年上半年起,各厂商的 AI 框架迭代升级发布进入高发期,华为昇思也不例外。在上周五召开的“一起昇思无尽创新——人工智能框架生态峰会 2023 ”(下文称“峰会”)上,昇思也拿出了自己的看家本领,昇思 MindSpore 的技术总经理于璠将华为近期在大模型、AI4S 方面的研究进展一一向大家做了汇报。
MindSpore 自从 2020 年 3 月正式开源以来,与社区伙伴一起持续完善易用性,并且重点构建了大模型能力,并在 AI4S 领域也进行了完整的布局,完成了三个里程碑式技术突破。
1、易用性层面
面向北向生态,昇思 MindSpore 重点打造了基础模型开发套件以及动静统一特性。开发套件集成了数据处理、模型构建、训练流程等模块化接口和常用 SOTA 模型预训练权重,方便开发者开箱即用,其中 CV 类基础骨干模型,昇思 MindSpore 使用新的训练策略刷新了模型精度,方便开发者做下游任务。
除此之外,OCR 套件集成业界 SOTA 模型,并刷新精度,平均提升 1 个点,同时做了推理性能加速。整体端到端提速 20% ,后续华为昇思还将会陆续推出视频、3D、生成式 AI 等套件,覆盖 AI 主流场景,2.0 版本重点优化了动态图性能,整体性能提升了 2x 以上,个别场景达到 5x,同时为了符合用户习惯,把动态图作为默认执行模式。在静态图方面,昇思 MindSpore 也全面提升了 Python 语法支持度,面向生产和部署场景可以做到一键转换静态图,做到了“易用”与“性能”的兼顾。
2、大模型层面
昇思 MindSpore2.0 的研发进展尤为显著。昇思 MindSpore2.0 基于大模型套件降低开发成本,同时构建了大模型分布式训练推理加速能力,并且提供了高性能的分布式训推基础设施。
昇思 MindSpore2.0 强劲的四大套件展现了其一站式大模型训练、微调能力,大大降低了开发者的开发成本—— MindSporeFormers 作为 transformer 类大模型套件,预制了 GPTBloom 等大模型,用户可以实现一键训练、微调、推理,同时预制了丰富的下游任务,包括文本生成、问答、图像分类等;MindSporePet 作为低参微调套件,实现了业界典型的低参微调算法,例如 lora 等,微调 5% 参数实现全参微调结果,相比全参微调,可以降低 40% 内存开销;MindSporeRec 作为 MindSpore 推荐大模型套件,支持 TB 级推荐模型,分钟级模型更新;MindSporeRLHF 则主要是为了实现类 ChatGPT 的强化学习微调流程,支持了 rewardmodel 训练,PPO 强化学习,百行代码即可实现百亿级模型的 RLHF 训练,助力用户快速实现自己的 ChatGPT 。
MindSpore 原生支持大模型,通过编译的方式实现了多维混合并行和多维存储及异构优化,支持了训练大模型常用的数据并行、算子级模型并行等。此外还有 MindSpore 原创的多副本并行,结合昇腾硬件高并发特性,进一步提升并行性能。并且支持多种并行模式灵活组合使用。在存储优化上,实现了全局内存复用,重计算等,进一步提高了存储利用率。值得一提的是,MindSpore 通过自动化的策略寻优,把算法和模型自动切分到集群上去执行,可大大降低大模型的开发门槛。
另外,开发者们都知道,想要充分训练一个千亿参数模型,需要在千卡集群上训练数十天,故障不可避免。于是基于此,MindSpore 还结合昇腾基础软硬件平台优化了集群稳定性,在鹏城实验室创下千卡训练 28 天无中断的记录。
除了大模型高效训练,推理成本对于大模型成功商用至关重要。模型压缩和推理优化加速是降成本的首要手段。MSLite 通过结构化剪枝,量化等压缩手段,一键实现模型体积缩小 5~10x ,推理性能提升 30%+ ;当前大模型结构主要以 Transformer 为主,Tranformer 计算在大 shape 下,如何减小访存是优化加速的关键。MS 结合 AKG 自动完成大算于是合,单层 Kernel 数量由 40+ 减少到 6 个,大算子计算主要在片上缓存进行,减少了 HBM 的数据搬运,显著提高推理性能。同时,MindSpore 也提供了 seveingAPI 供云侧部署,用户灵活选择并行策略,实现多机多卡、多 batching、多模型组合推理,用以提升算力利用率。
3、AI4S 领域技术布局层面
在科学计算领域中面临着很多难以求解的问题,像药物和材料设计科学研究的问题复杂度呈指数级增长,如何将 AI 技术打造为科研新范式,使昇思 MindSpore 在进行架构设计时就开始了的科学计算领域布局,过去乃至未来将持续探索并完成 AI 计算框架向 AI 融合框架的演进。
为了支撑 AI4S 领域技术创新,通过一个软件底座同时支撑传统 AI 和科学计算领域,达到高效易用 AI 框架构建的目的,昇思 MindSpore 做了一下 2 个层面的优化:
(1)融合编程:全面支持函数式算子调用,新增函数式 API 以及 Tensor 类 API200 个以上。
(2)融合优化:在数据层面,对接常用分布式系统数据结构如 HDFS ,性能提升 30% 。针对数据处理提供融合编排的能力,特征工程性能 2+ 倍提升。在计算层面,静态图运行时提供 Fallback 能力,支持动态输入,通过“张量计算”将非亲和操作转为张量运算,充分释放 AI 算力。
昇思 MindSpore2.0 构建了电磁仿真、流体力学、生物计算三个套件,同时构建融合框架能力,提供函数式微分、计算图编译加速,支撑 AI4S 突破前研特性。其中 MindSporeElec 大大加速电磁仿真的效率,小到我们手上的手机或者耳机、大到无线基站的天线阵列都能实现 10 倍级效率的仿真模拟,大大提升了产品设计的效率;MindSporeFlow 是面向流体仿真的套件,它能高效模拟飞机起飞至飞行阶段中飞机机翼及机体流场的时空演化,为飞机气动设计提供价值性参考;MindSporeSPONGE 则是面向生物计算的分子模拟工具,基于此工具华为昇思联合昌平实验室等科研机构完成了蛋白质折叠的训练与推理全流程,并且在参加全球持续蛋白质结构预测竞赛 CAMEO 中成绩连续三次保持全球第一的排名。
目前,昇思 MindSpore2.0 正在作为 AI+ 科学计算融合的新一代框架,不断在效率提升、易用性、创新性等方面推动 AI 框架持续演进。
三、AI 框架开源开放,联合打造可以使能伙伴的“ AI 基础设施”
在技术演进的长河中,硬件系统都需要软件来“使能”,所以在这个 AI2.0 时代,AI 框架高速发展,这意味着,除了对物理计算量的硬件要求外,软件的开发和调度效率也面临着巨大的挑战。在此背景之下,AI 框架既要如同汽车方向盘一般,给 AI 用户提供便捷的操作接口,也要像变速箱和传动轴一般,将算力合理高效的调度,发挥出系统最佳的性能。可以说,AI 框架作为 AI 根技术,在 AI 基础设施中承担着操作系统的关键角色。
正如昇思 MindSpore 开源社区理事长丁诚在峰会上所说的那样:“在整个 AI 技术体系中,AI 框架南向使能多样化算力,北向孵化各类创新算法模型,处于人工智能技术体系的核心中坚,是人工智能的创新源泉。”
我们看到,昇思 MindSpore 作为新时代的 AI 框架,始终坚持开源开放,自 2020 年 3 月 28 日开源以来,其社区已累计 1.3 万贡献者,474 万下载量,被评为最具创新活力的 AI 开源社区,已在 200 多所高校中开设了人工智能教学课程,有超过 900 篇顶会论文基于昇思研究和发表,并且基于昇思原生孵化的大模型已达 20 多个;同时昇思已经服务了超过 5500+ 的企业,并依托大模型和科学智能原生创新成果,成立了遥感、流体、多模态 3 大产业联合体,加速技术成果转化;同时昇思面向端边云全场景开放,已适配了国内主流的 AI 芯片和硬件设备超过 20 款。
其实我们从本次峰会上,昇思 MindSpore2.0 发布过程中就不难看出昇思 MindSpore 团队在开源和组织使能方面的努力。
比如 Pytorch 生态作为当前 AI 框架的最大生态,如何迎接 MindSpore 用户便成为了 MindSpore2.0 需要重点考虑的问题。于是昇思 MindSpore 通过提供 Pytorch 兼容套件、SAapter ,用以原生 MindSpore 框架构建完全对标 pytorch 接口能力,来提升 pytorch 生态迁移能力。目前启智社区配套 MS2.0 版本已发布 MSAdapter 工具,从已完成 70+ 主流 pytorch 模型迁移来看,模型迁移平均修改代码量< 15% ,平均迁移周期从 1 人月提升到 1 人周左右。
又比如 MindSpore 从 2020 年开始孵化大模型,21 年年初和鹏城实验室联合发布了千亿参数的 NLP 大模型。同时和中科院自动化所合作发布了紫东太初、和空天院合作发布了空天灵眸大模型,和武汉大学合作发布了 luojia 遥感大模型,和商飞合作发布了东方御风大模型。去年还和鹏城实验室合作孵化了鹏城神农蛋白质大模型,入围了戈登贝尔奖。
在近 2 年半的时间里,MindSpore 和业界各大科研院所、高校、企业合作孵化了 20 多个大模型,覆盖了计算机视觉、自然语言处理、多模态、语音、科学计算、AIGC 等领域。其中有 6 个是千亿参数以上的大模型。在众多大模型实践中,MindSpore 也逐步催熟了整体的大模型解决方案,为用户提供了一站式的大模型能力。
而我们也正是通过这些积淀,才有理由相信,昇思 MindSpore 开源社区在各界伙伴的支持下,将有效把握人工智能和产业变革的机遇,在人工智能行业前沿方向的探索方面将在产业中起到模范带头作用。在昇思 MindSpore“加强人工智能基础软硬件建设,坚持开源开放,赋能千行百业”的不变追求下,人工智能技术在全产业界发展的未来值得我们期待。
评论