整理 | 华卫

Sora 毫无疑问带来 AI 大模型的全新玩法，大模型可基于任意文字生成视频，包括 Runway 的 Gen 系列、微软的 Nuwa、Meta 的 Emu、谷歌的 Phenaki/VideoPoet、智谱 CogVideo 等。

7 月 26 日，智谱 AI CEO 张鹏在智谱 Open Day 上宣布，AI 生成视频模型清影（Ying）正式上线智谱清言，只需要 30 秒时间就能生成 6 秒时长、1440x960 清晰度的 3:2 比例视频。当日起，所有 C 端用户都能通过清影（Ying）体验到 AI 文生视频、图生视频能力。

PC 端链接：https://chatglm.cn/video

移动端链接：https://chatglm.cn/download?fr=web_home

输入一段文字后（俗称 Prompt），用户可以选择自己想要生成的风格，包括卡通 3D、黑白、油画、电影感等，配上清影自带的音乐，就能够生成充满 AI 想象力的视频片段。

除了文本生成视频，也可以到清影上玩图片生成视频。图生视频带来了更多的新玩法，包括表情包梗图、广告制作、剧情创作、短视频创作等。同时，基于清影的「老照片动起来」小程序也会同步上线，只需一步上传老照片，就能让凝练在旧时光中的照片灵动起来。

现在，清影（Ying）API 已同步上线大模型开放平台 bigmodel.cn，企业和开发者通过调用 API 的方式，体验和使用文生视频以及图生视频的模型能力。

据了解，清影（Ying）的付费方案是：在首发测试期间，所有用户均可免费使用，不限次数。此后，付费 5 元可解锁一天（24 小时）的高速通道权益，付费 199 元可解锁一年的付费高速通道权益。

清影上线后，我们也第一时间测试了它的实际效果。

文生视频

先来看看对于可爱动物的视频生成效果。我们输入了以下两个提示词：

prompt1：两只小浣熊打架抢苹果

prompt2：一只奶牛猫在看猫和老鼠的动画片

图生视频

再来看看对于人类的视频生成效果，我们输入了一张“仕女拉小提琴”的图片：

得到的视频如下：

背后自研技术，推理速度比前代提升 6 倍

据介绍，清影（Ying）底座的视频生成模型是 CogVideoX，它能将文本、时间、空间三个维度融合起来，参考了 Sora 的算法设计；它也是一个 DiT 架构，通过优化，CogVideoX 相比前代（CogVideo）推理速度提升了 6 倍。

并且，智谱自研了一个端到端视频理解模型，用于为海量的视频数据生成详细的、贴合内容的描述，这样可以增强模型的文本理解和指令遵循能力，使得生成的视频更符合用户的输入，能够理解超长复杂 prompt 指令。

在内容连贯性上，智谱 AI 自研高效三维变分自编码器结构（3D VAE），将原视频空间压缩至 2%大小，配合 3D RoPE 位置编码模块，更有利于在时间维度上捕捉帧间关系，建立起视频中的长程依赖。

该生成式视频模型的研发中，Scaling Law 继续在算法和数据两方面发挥作用。“我们积极在模型层面探索更高效的 scaling 方式。”张鹏表示：“随着算法、数据不断迭代，相信 Scaling Law 将继续发挥强大威力。”

bilibili 作为合作伙伴也参与并支持清影的研发过程。同时，合作伙伴华策影视也参与了模型共建。

此外，智谱 AI 生成式视频研发得到北京市的大力支持，海淀区是智谱 AI 总部所在地，为智谱 AI 开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持。智谱 AI 生成式视频研发算力支持则来自于亦庄集群，目前北京亦庄人工智能公共算力平台已建成。

创作场景

智谱上线视频生成模型：30 秒生成 6 秒时长，免费不限次！B 站也有研发功劳？

文生视频

图生视频

背后自研技术，推理速度比前代提升 6 倍