网易伏羲文本大模型“玉言”的开发遇到了哪些挑战?是如何解决的?网易伏羲多模态预训练的应用探索有哪些?对于想要入局 AIGC 的人有什么注意事项?为解答这些问题,InfoQ 采访了网易伏羲 NLP 研究组负责人张荣升~
嘉宾介绍:张荣升,网易伏羲 NLP 研究组负责人。在 ICLR、ACL、EMNLP、NAACL、AAAI 等国际顶级会议上发表了近二十篇论文,研究方向涉及预训练模型、多模态、文本生成、对话生成等;其有着丰富的大模型技术研究和应用经验,其中文本大模型“玉言”系列曾登顶中文语言理解测评基准 FewCLUE 小样本榜单和 CLUE 分类榜单,并应用在歌词辅助创作、智能对话、剧情生成等文本落地场景,另外多模态理解和生成大模型的研究也在互联网搜索推荐及众多 AI 绘画场景中应用落地。
InfoQ:张老师,文本大模型“玉言”的起源是什么?在做的过程中遇到了哪些挑战与问题?这些问题最后都是如何解决的?有哪些事情是可以吸取经验教训?关于“玉言”模型的应用场景,您认为最突出的是哪些?
张荣升:大模型起源:伏羲从 2018 年底就开始训练自己的文本预训练模型,并且经过 4 年多时间的积累,训练模型的参数从 1 亿增长到百亿甚至千亿的规模,在这个过程中我们积累了很多预训练技术算法和工程方面的经验,并且我们的《超大规模预训练云平台》也申请到了浙江省科技计划“尖兵”项目,有了浙江省政府的支持,我们也开发出了“玉言”系列的文本大模型。
我们遇到的挑战及如何解决:大模型训练的算力要求和实际落地时推理成本是两个主要的问题。
针对大模型训练,除了构建自己的预训练集群,我们也会注重不同模型参数之间的复用,例如我们一开始训练的文本大模型是 GPT 自回归的 Transformer 架构,其在语言理解能力上相比 Bert 这种双向的 Transformer 架构要弱一些,在打榜 FewCLUE 任务时,我们基于 50 亿参数的 GPT 模型初始化,并使用 PrefixLM 的方式进行二次训练,以较低的训练成本让模型更好的适应理解任务。
另外在大模型应用推理时,伏羲自研的 EET 推理框架(https://github.com/NetEase-FuXi/EET)能大幅降低 Transformer 结构模型的显存占用并提升推理速度 1~8 倍。
这些问题在大家训练大模型的过程中是比较常见的,充分的利用现有模型的能力可以帮助我们节省算力和时间,同时也欢迎大家来使用我们开源的 EET 推理框架。
关于“玉言”模型的应用场景:“玉言”模型重要的应用场景是剧情生成、对话生成等文本生成式场景,并且为了提升这方面能力,我们在预训练的过程中用了与这些应用场景更契合的大量高质量小说数据。
InfoQ:文图生成方面,例如 AI 绘画,如何使得其产生的内容可控?例如准确生成你要的内容?在和我们设计总监沟通的过程中,我们发现,当给一些关键词,他无法生成我们想要的图片,例如我们专题需要宣传,但是给他输入关键词,他不按照这个方向设计,直接给你一张图,无法商用。这个如何实现呢?不知道未来距离商用,或者说替代设计师方面还有多远的距离?
张荣升:要想使得内容可控,我认为有两方面:
首先是风格的可控性:如果用户有自有项目的绘画风格,那最好是能够用一些已有的项目图片在基础模型上进行微调来增强生成的可控性;
其次,引入额外的条件输入:除了输入关键词之外,一方面用户可以输入参考图,并通过模型加噪的强度来控制生成的图片与参考图的相似性;另一方面可以借助最近很火的 ControlNet 网络能力,支持线稿、深度图、人体姿势等方面的控制维度,或者用户也可以根据自己想要控制的属性训练模型,从而保证生成图片的可控性。
至于你谈到的替代设计师这一问题:我觉得已经具备商用的能力了,但不是等于 AI 取代设计师,我认为设计师有 AI 难以取代的独特审美和专业能力,学会合理的利用 AI 工具,通过人机协作提升工作效率才是未来的方向。
InfoQ:您谈到了多模态预训练,在 AIGC 领域的应用探索有哪些?
张荣升:AIGC 领域的应用探索主要有两方面:
1. 首先我们在开发专业的美术设计辅助工具,我们知道美术成本占游戏开发的很大一部分,常见的游戏美术设计包括场景原画,角色原画,图标制作等,因此为了降本增效,我们基于多模态预训练能力构建了“丹青约”绘画平台,旨在为美术同学提供专业的辅助创作工具,我们有较好的中文领域理解能力,并支持用户自定义风格的模型训练。
2. 另外,我们也将多模态能力应用到多种场景的玩法上,例如在永劫无间游戏的时装营销中用户可以生成自己的服装、进行云音乐头像的二次元风格迁移、沉浸式会议系统网易瑶台中上线动态时装等功能。
InfoQ:AIGC 现在各家产品多样化,关于 AIGC 工具的商业化,您有什么样的思考?
张荣升:我认为未来基座模型会掌握在有实力训大模型的大公司或者研究机构手上,而 AIGC 公司的商业化更多的机会在细分垂类场景,例如设计、教育、虚拟陪伴等场景的 AIGC 专业辅助工具或者产品应用。
InfoQ:您如何看待 AIGC 技术对于社会和人类的影响?
张荣升:AIGC 技术对于社会和人类是一种新的生产方式,并且恰当地使用有助于提升各行各业的生产效率。例如在美术辅助设计领域,据我们美术同学反馈 AI 绘画可以极大节省和游戏策划的沟通成本,并且在美术设计的多个环节提升效率,如图标设计、角色原画等场景甚至可以节省 50%以上的时间;再比如音乐创作包含编曲、作曲、作词等环节,其中的每一步都可以引入 AI 的协助,不管是给音乐人提供灵感,还是基于 AI 开发一些有趣的音乐玩法,都是值得期待和探索的。
InfoQ:您有哪些建议给予想要从事 AIGC 研究的人?
张荣升:(1)注重数据和人机协作的重要性:从 GPT-3 到 ChatGPT,GPT-4 的发展可以看出,模型参数的扩张已经不是深度学习最重要的方面了,更多的在于人机协作积累高质量数据以及 AI 和人类理解的 Alignement,这也是提升 AIGC 效果的重要方向,值得大家重视。
目前我们伏羲的思路正是围绕数据闭环和人机协作进行探索,以多智能体强化学习为理论基础,面向智能体编程(AOP)为实现方式,构建了一套实时人机协作的有灵众包平台。让机器在帮助人类与环境交互完成任务的过程中,即模仿学习人类的认知或决策能力,又能学习出一套仿真的反馈评价机制,从而在孪生环境中更高效地进化学习。
(2)AIGC 引入了更多的创新机会:近期大模型技术的发展,使 AI 生成的内容(文本、图像、3D、视频、音乐等)质量能达到工业应用的水平,对各行各业结合 AIGC 进行创新带来了新的机会,不管是专业的辅助工具,还是开发新的应用场景都是值得大家探索的。
InfoQ:简单介绍一下现在伏羲的研究和应用方向吗?
张荣升:网易伏羲成立于 2017 年,是网易游戏旗下专门从事泛娱乐人工智能研究和转化应用的部门人工智能研究方面,网易伏羲的研究方向主要包括强化学习、图像 动作、虚拟人、自然语言、用户画像、大数据和云计算平台等,已拥有数字虚拟人、智能捏脸、智能创作、智能反外挂、智能对战匹配、智能竞技机器人等多项行业领先技术。
目前,网易伏羲已在世界顶级学术会议发表论文 160 余篇,申请发明专利 400 余项。在为网易众多产品提供高质量人工智能技术的同时,为了让人工智能技术惠及更多领域,网易伏羲积极推动前沿人工智能技术在线下实体产业的转化应用。
网易伏羲开发了专注于面 向虚实世界的实时⼈机协作在线任务平台,通过研发数字孪生引擎工具和平台、智能体核心能力模型,制定相关标准,构建行业生态等,为机器智能提供更多训练场景及数据,为智能制造等行业任务解决人力问题,为人们提供更多便捷有趣的工作机会。
活动推荐:
在 4 月 21-22 日,InfoQ 即将在上海举办一场 ArchSummit,内容涵盖人工智能前沿技术、AIGC 应用探索、金融业数字化转型探索、架构标准化和质量评估、大数据+架构、DataOps 落地实践、ToB 软件质量保障、制造业数字化转型架构创新、架构师成长、以及企业架构演进、数字化转型下的应用现代化、架构稳定性保障等专题。可扫码下方海报了解更多...
评论