大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。
一、重点发现
本周,大模型的训练数据版权和生成内容安全引发关注。一方面,OpenAI 与 Stack Overflow 的训练数据合作引发社区用户不满,Autodesk 推出新模型时,其训练数据来源也遭遇质疑,这都持续展现了民众对于自身创作内容被用于训练大模型的担忧情绪。另一方面,AI 生成内容引发的造假、欺诈等安全问题,仍受到持续关注,本周 OpenAI 和 Tiktok 先后宣布将判断和标记 AI 生成的内容。
应用方面,从年初到本月频繁的信息露出表示 OpenAI 要发布自己的 AI 搜索产品了(现在已经明确否认了),但搜索领域老玩家谷歌和微软持续投入探索, AI 搜索新玩家的 Perplexity 已经在测试 Pages 新功能了,国内也有秘塔科技、360、月之暗面、天工等企业推出相关产品。AI 搜索领域将迎来哪些变化,我们拭目以待。
二、具体内容
大模型持续更新
5 月 9 日,阿里云正式发布通义千问 2.5 大模型。通义千问 2.5 相比通义千问 2.1 有多项能力提升,理解能力提升 9%,逻辑推理提升 16%,指令遵循提升 19%,代码能力提升 10%。
开源领域
5 月 6 日,DeepSeek 推出了开源 MOE 模型 DeepSeek-V2。该 MOE 模型总共包含 2360 亿个参数,每个 token 将激活 210 个参数。与此前发布的 DeepSeek-67B 相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5%的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提高了 5.76 倍。目前,该模型已上线 Hugging Face 和魔搭 ModelScope 社区,并在 DeepSeek 开放平台上线 API 接口。
5 月 8 日,IBM 研究院在 Hugging Face 和 Github 开源编程模型 Granite Code Models 家族,模型包含 3B、8B、20B 和 34B 四种参数规格。Granite Code 模型在不同类型的代码相关任务上,例如代码生成、解释、修复、编辑、翻译等,展示了其解决多样化编码任务的能力。所有模型都是在 IBM 的 AI 伦理原则指导下,使用许可允许的数据进行训练的,由 IBM 的法律团队指导,以确保企业可信赖地使用。
多模态领域
来自南开大学和字节跳动的团队,提出了用于生成一致的图像和视频以讲述复杂故事的新模型 StoryDiffusion。与 IP-Adapter 和 PhotoMaker 等方法相比,StoryDiffusion 在保持角色一致性的同时,还能更好地控制文本提示,生成与描述更匹配的图像和视频。StoryDiffusion,以《StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation》论文发表。
5 月 8 日,Autodesk 研究团队宣布推出 3D 生成模型「Bernini」 ,以支持从 2D 图像、文本和点云直接生成 3D 模型。但其 X 平台上的评论大多关于其训练数据,质疑 Autodesk 训练数据的来源。
科研领域
5 月 8 日,谷歌 DeepMind 发布了新一代预测蛋白质结构的 AlphaFold 3 模型,能够帮助科学家更精确地针对疾病机制,从而开发出更有效的治疗药物。相关论文《Accurate structure prediction of biomolecular interactions with AlphaFold 3》发布于 Nature。
应用探索
新产品新应用/功能
5 月 7 日,OpenAI 在官网宣布将推出 DALL·E 3 的一款内容识别器工具。内容识别器将能帮助用户识别 AI 工具生成的内容。据内部测试,该工具识别 DALL·E 3 生成图片的准确率达到了 98 %。据透露,OpenAI 还将在 2025 年之前推出一款媒体管理器,以帮助媒体和内容创作者,更好的控制自己的知识产权内容是否会被 OpenAI 搜集以训练其 AI 模型。
5 月 7 日,Meta 正在探索一套供广告客户使用的生成式 AI 工具。据悉该功能将帮助现有 1000 万的广告主,通过现有的产品图片,生成多版营销物料和广告文案。此项功能很快将由 Llama 3 提供支持。
5 月 8 日,零一万物宣布上线一站式 AI 工作平台—万知,上线会议纪要、周报、财报或论文分析、PPT 制作等功能。能够善用表格、简易思维导图等多种形式输出更有质量的内容,支持实时访问和整合互联网信息,同时可以实现 5000 页文档的超长上下文阅读。目前,万知支持中英双语,用户可通过网页端和微信小程序「万知 AI」使用。
5 月 9 日,阿里云北京峰会消息,小米旗下「小爱同学」与阿里云通义大模型达成合作,强化其在图片生成、图片理解等方面的多模态 AI 生成能力,并在小米汽车、手机等多类设备落地。微博、众安保险、完美世界等企业也宣布接入通义大模型,将大模型应用于社交媒体、保险、游戏等领域。
5 月 9 日,Tiktok 宣布将引入一项新技术,旨在帮助其标记 AI 生成的图像和视频。该项名为「内容凭证」的数字水印技术由 Adobe 主导开发,最初在 Adobe 内部使用,并已向包含 OpenAI 在内的其他公司开放使用。
5 月 10 日,AI 搜索厂商 Perplexity 目前正在对一项名为「Perplexity Pages」的新功能进行邀测,旨在增强其平台内的内容创作能力。通过该功能,用户可以直接基于 AI 搜索的内容,进行「初学者」或「专家」等指定目标受众的文章生成和后续的修改和配图选择工作,并完成文章的发布和分享。
5 月 10 日,AI 语音公司 ElevenLabs 在社交媒体上宣布推出了其最新的文本生成歌曲产品「ElevenLabs Music」,与 Suno 和 Udio 展开竞争。目前,ElevenLabs Music 仍处于早期预览版。
终端 AI
5 月 9 日,惠普宣布推出多款商用 AIPC 新品,包括面向大型企业用户的 EliteBook 高端 AI 商务本、面向中小型企业客户的战系列 AI 商务本,以及面向算力用户的 ZBook 移动工作站和新的 Z 系列 AI 一体机。在个人应用方面,惠普推出 AI 服务产品 AI 小惠,小惠基于智谱开源大语言模型,采用中国惠普的知识数据库和真实案例训练,为用户提供自然语言交互模式的本地服务大模型。
智能体
5 月 5 日,清华研究团队公开了一个名为「Agent Hospital」的模拟医院,在这个医院中,所有的医生、护士、患者都是由 LLM 驱动的智能体,可以自主交互,并模拟了包括分诊、挂号、咨询、检查、诊断、治疗、随访等环节的整个诊病看病的过程。研究团队的核心目标是,让 AI 医生学会在 Agent Hospital 中实现疾病的诊疗和诊疗的自我进化。研究成果收录于论文《Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents》。
5 月 5 日,特斯拉在 X 账号上发布了其人形机器人 Optimus 的最新进展视频,展现了其分拣电池、执行工厂任务的能力。在视频中,Optimus 实现了对 4680 型电池的精确分类并放入电池托盘。Optimus 最新步速约 0.6 米/秒,与特斯拉 2023 年 12 月发布的更新视频相比,速度提高了 30 %。
基础设施
5 月 6 日, Hugging Face 开源了机器人开发库「LeRobot」,LeRobot 不仅仅是一个软件包,而且是一个全面的平台,包括用于共享、可视化数据和训练 SOTA 模型的多功能库。用户可以通过 LeRobot 访问大量预训练模型,以快速启动他们的项目。
5 月 6 日,OpenAI 与全球最大的技术问答社区 Stack Overflow 宣布建立新的 API(应用程序编程接口)合作伙伴关系。两家公司表示,通过此次合作,OpenAI 的模型将提升编程问题的回答能力。但目前,已有部分 Stack Overflow 社区用户表达不满,并尝试通过修改帖子内容来表达抗议,但 Stack Overflow 管理员迅速将这些改动还原,并暂停相关用户的账号。此前 2 月,Stack Overflow 宣布与谷歌的 Gemini Cloud 项目达成了类似的协议。
5 月 6 日,阿里达摩院团队发布新研究成果,将蒙特卡洛树搜索(MCTS)对大语言模型进行性能增强,这使得数据清洗过程基本无需人工标注解题步骤,并有效提升大模型的数学成绩。研究成果收录于论文《AlphaMath Almost Zero: process Supervision without process》。
5 月 7 日,苹果新一代芯片 M4 亮相。M4 芯片基于第三代 3nm 工艺构建,包含最多 4 个高性能核心和 6 个高能效核心。官网数据显示,M4 比 M2 芯片的专业渲染性能快 4 倍,CPU 性能快 1.5 倍。同时升级神经网络引擎,为 iPad Pro 带来重量级的 AI 驱动力。
5 月 8 日,OpenAI 在官网发布了关于其 AI 模型行为规范(Model Spec)的公开讨论稿,以指导如何期望模型行为以及如何在冲突出现时评估权衡。
5 月 9 日,AI 初创公司 Datology AI 完成了 4600 万美元的 A 轮融资,距离其 2 月 22 日完成的种子轮融资不到 3 个月。该公司致力于通过数据整理解决 AI 训练数据集偏见和复杂度的问题。
报告推荐
Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心近期发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~
报告预告
AGI 究竟是什么?AI Agent 如何助力人工智能走向 AGI 时代?在营销、金融、教育、零售、企服又有哪些典型应用和案例?欢迎大家持续关注 InfoQ 研究中心即将发布的《中国 AGI 市场发展研究报告 2024》。
评论