文生视频模型“卷”出新天际；多家手机厂商 AlI in Al，终端AI时代来临？|大模型一周大事

导语：大模型的快节奏发展，让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态，为广大读者提供全面的行业回顾和要点分析。现在，让我们回顾过去一周的大模型重大事件吧。

一、重点发现

在过去一周内，OpenAI 视频生成产品 Sora 的发布无疑成为了全球讨论的热点，这标志着人工智能技术在视频生成领域取得了重大突破，它降低了视频制作门槛，促进了内容创作的多样性和便捷性，为未来的视频产业带来了无限可能。中信建投、国泰君安、申万宏源、招商证券等 10 家券商在研报中均表示 Sora 是人工智能发展进程的里程碑，这预示 AGI（通用人工智能）将加速到来，众多行业将迎来颠覆式变革。

当然，Sora 讨论度爆发的原因是多方面的，在应用潜力方面，传统的内容创作工作流有望被颠覆，生成式 AI 在视频创作和世界模型的大踏步进步将实现对视频、3D、游戏等下游应用场景的渗透；在技术创新方面，Sora 仅根据提示词便可以生成 60 秒的高清视频；在产品质量方面，Sora 创造的视频在时长、画幅选择、场景复杂度以及角色多样性的处理上都表现出了极高的水准；在社会关注度方面，Sora 的发布在科技圈内迅速引发了广泛关注与热烈讨论，吸引了众多媒体的争相报道，进而形成了强大的舆论影响力，这无疑进一步推动了公众对 Sora 的讨论热情。

二、具体内容

大模型持续更新

多模态领域

1、北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM（Large Gaussian Model），实现了从单视角图片或文本输入只需 5 秒钟即可生成高分辨率高质量的三维物体。

2、谷歌提出了一种具备空间推理能力的视觉语言模型：SpatialVLM，以赋予视觉语言模型空间推理能力。

3、OpenAI 正式发布了文本到视频生成模型 Sora，继 Runway、Pika、谷歌和 Meta 之后，OpenAI 终于加入视频生成领域的战争。

4、亚马逊正式推出了语音生成模型 BASE TTS。

5、来自香港中文大学 MMLab、Avolution AI、上海人工智能实验室、商汤研究院的研究人员共同提出视频生成模型 AnimateLCM-SVD-xt。

6、阿里巴巴团队推出并开源了一款万能图片生成工作台 SCEPTER Studio。不用代码，直接在 Web 界面当中就能完成模型的训练与微调，并管理相关数据。

7、字节跳动也推出了一款创新性视频模型——Boximator，可以通过文本精准控制生成视频中人物或物体的动作。

8、由 Stability AI 公司开发的新一代 AI 图像生成器——Stable Diffusion 3 发布，在文本处理能力、色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面都有了显著的提升。

9、谷歌正式推出开源大语言模型 Gemini Pro 1.5，可以实现高达 100 万个 Token（约 70 万个单词）的超长上下文理解。

开源领域

1、谷歌 Gemma 系列正式上线，全面对外开放，提供 2B（20 亿参数）和 7B（70 亿参数）两种尺寸版本。

2、法国阿维尼翁大学、南特大学和 Zenidoc 的研究团队开发了一个专为生物医学领域量身定制的开源模型——BioMistral。

3、UC 伯克利的研究者整理了一个包含各种视频和书籍的大型数据集，并且提出了大世界模型（ Large World Model ，LWM），同时将其开源。该模型利用 RingAttention 技术对长序列进行可扩展训练，在大型的多样化视频和图书数据集上进行训练，实现了对语言、图像和视频的理解与生成能力。

科研领域

1、前 Google DeepMind 科学家联手创建 Biooptimus，旨在构建首个通用生物学 AI 模型。

2、Iambic、英伟达、加州理工学院开发多尺度深度生成模型 NeuralPLexer，可以仅使用蛋白质序列和配体分子图输入直接预测蛋白质-配体复合物结构。

基础设施/工具

1、微软发布了一份特定领域大模型应用建设流程指南，该指南提出了一个全面的大语言模型流程，用于生成高质量的、行业特定的问题和答案。该方法包含一个系统化的过程，包括鉴别和收集涵盖广泛农业主题的相关文档，然后清理和结构化这些文档，以便使用基本的 GPT 模型生成有意义的问答对。生成的问答对随后根据其质量进行评估和筛选。

2、Hugging Face 上的一篇博客介绍了一种可配置稀疏混合专家架构语言模型（MoE）实施方法，并且给出了基于 PyTorch 的详细代码，也许有助于打算在这个方向深耕的研究者们快速试验自己的新方法。

3、谷歌 TPU 创业团队，名为 Groq 的初创公司开发出一种机器学习处理器（大模型专用芯片），据称在大语言模型任务上彻底击败了 GPU—— 比英伟达的 GPU 快 10 倍，而成本仅为 GPU 的 10%，只需要十分之一的电力。

4、Hugging Face 开源 Al 训练合成数据集 Cosmopedia，该数据集内容均由 Mixtral 7b 模型汇总生成，收录了 3000 万以上文本文件，包含大量教科书、博客文章、故事小说、WikiHow 教程等内容，共计 250 亿个 Token。

5、社交平台 Reddit 将授权数据给谷歌训练 AI，合同价值约每年 6000 万美元。

应用探索

智能体

1、吉林大学人工智能学院发布了一项利用视觉大语言模型直接控制电脑 GUI 的最新研究—《ScreenAgent: A Vision Language Model-driven Computer Control Agent》，该工作提出了 ScreenAgent 模型，首次探索在无需辅助定位标签的情况下，利用 VLM Agent 直接控制电脑鼠标和键盘，实现大模型直接操作电脑的目标。

终端 AI

1、2024 年 2 月 20 日，OPPO 在深圳举办 AI 战略发布会，发布由 OPPO AI 超级智能体和 AI Pro 智能体开发平台组成的 OPPO 1+N 智能体生态战略，官宣与超千万用户共同迈进 AI 手机时代，加速手机行业迈向 AI 的全新阶段。

2、2024 年 2 月 18 日，国产手机品牌魅族宣布进行 Al in Al 战略调整，将停止传统“智能手机”新项目的开发，全力投入新一代 AI 设备。

3、微软 AI PC 将在今年完成首秀。供应链指出，微软将于 2024 年中旬，先推以 AI PC 为主的 Windows 11 更新版，并将与高通在 Windows on ARM 及英特尔的 x86 系统整合，在 2024 年台北国际电脑展（Computex）亮相。

除了每周的动态更新，InfoQ 研究中心也将以季度为周期，发布《大模型季度监测报告》，跟踪大模型行业的最新动态和相关产品测试。

第一期《大模型季度监测报告 23Q4》预计将于 2024 年 3 月底正式发布，届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点、价值观和中文特色五大维度展开。如您期望 InfoQ 对旗下产品进行测试，或想要参与报告内容共建，欢迎联系微信：Bettycbj1996（添加好友请注明来意）

创作场景

文生视频模型“卷”出新天际；多家手机厂商 AlI in Al，终端 AI 时代来临？|大模型一周大事