最大参数300亿！阶跃星辰与吉利联合开源两款多模态大模型_生成式 AI_李冬梅

QCon北京「鸿蒙专场」火热来袭！即刻报名，与创新同行~ 了解详情 



 写点什么



大小：822.07K时长：04:40

2025 年 2 月 18 日，阶跃星辰和吉利汽车集团联合宣布，将双方合作的阶跃两款 Step 系列多模态大模型向全球开发者开源。其中，包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V，以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。即日起可在跃问 APP 内体验。

吉利汽车集团 CEO 淦家阅表示：“吉利致力成为智能汽车 AI 科技的引领者和普及者，早在 2021 年，吉利就围绕芯片、软件操作系统、数据和卫星网搭建了端到端的自研体系和生态联盟，构建了完善的‘智能吉利科技生态网’，驱动用户在智能驾驶、智能座舱上的体验不断进化。目前，吉利全栈自研的星睿 AI 大模型已经与阶跃 Step-Video-T2V、Step-Audio 等大模型完成了深度融合，将为用户带来更智能、更高阶的座舱交互与智驾出行体验，推动 AI 科技在智能汽车领域的普及。”

据了解，这也是阶跃星辰首次开源其 Step 系列基座模型。阶跃星辰创始人、CEO 姜大昕博士表示：“阶跃星辰一直以实现 AGI 为目标坚持研发基座大模型。我们深知 AGI 的实现离不开全球开发者的共同努力，开源的初心，一方面是希望跟大家分享最新技术成果，为开源社区贡献一份力量；另一方面，我们相信多模态模型是实现 AGI 的必经之路，但目前尚处于早期阶段，期待与社区开发者集思广益，共同拓展模型技术边界，并推动产业落地。”

阶跃 Step-Video-T2V：300 亿参数，可直接生成高分辨率视频

阶跃 Step-Video-T2V 是目前全球范围内参数量最大、性能最好的开源视频生成大模型。阶跃 Step-Video-T2V 模型的参数量达到 300 亿，可以直接生成 204 帧、540P 分辨率的高质量视频，这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。

从生成效果来看，阶跃 Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力，且语义理解和指令遵循能力突出，能够高效助力视频创作者实现精准创意呈现。用户可以在跃问网页端和跃问 App 上体验阶跃 Step-Video-T2V 的视频生成能力。

为了对开源视频生成模型的性能进行全面评测，阶跃星辰还发布并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题，旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。

Step-Video-T2V-Eval 评测结果

评测结果显示，阶跃 Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现，均显著超过市面上既有的效果最佳的开源视频模型。

据了解，目前在跃问网页端和跃问 App 上，都可以体验阶跃 Step-Video-T2V 的视频生成能力。

阶跃 Step-Audio：业内首款产品级开源语音交互模型

据阶跃星辰介绍，这款阶跃 Step-Audio 是行业内首个产品级的开源语音交互模型，能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地高质量对话。模型生成的语音具有超自然、高情商等特征，同时也能实现高质量的音色复刻并进行角色扮演，满足影视娱乐、社交、游戏等行业场景下应用需求。

在 LlaMA Question、Web Questions 等 5 大主流公开测试集中，阶跃 Step-Audio 模型性能均高于行业内同类型开源模型，取得了最高得分。阶跃 Step-Audio 在 HSK-6（汉语水平考试六级）评测中的表现尤为突出，是更懂中国话的开源语音交互大模型。

StepEval-Audio-360 基准测试

此外，由于目前行业内语音对话测试集相对缺失，阶跃星辰自建并开源了多维度评估体系 StepEval-Audio-360 基准测试，从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等 9 项基础能力的维度对开源语音模型进行全面测评。通过人工横评后的结果显示，阶跃 Step-Audio 的模型能力十分均衡，且在各个维度上均超过了此前市面上效果最佳的开源语音模型。

发布

暂无评论

创作场景

最大参数 300 亿！阶跃星辰与吉利联合开源两款多模态大模型

阶跃 Step-Video-T2V：300 亿参数，可直接生成高分辨率视频

阶跃 Step-Audio：业内首款产品级开源语音交互模型

评论

PlacementRules in SQL 初试

TiDB监控Prometheus磁盘内存问题

TiKV源码略读-Config

伴鱼数据库之MongoDB数据在线迁移到TiDB

DM 分库分表 DDL “乐观协调”模式介绍

带着问题读 TiDB 源码：Power BI Desktop 以 MySQL 驱动连接 TiDB 报错

TiDB4PG 之兼容 Gitlab

TiDB架构浅析

回顾下Hackathon中的TiCheck

备份的 “算子下推”：TiDB BR 简介

TiDB 社区专栏：让技术人员成为更好的读者/作家

Ti-Click：通过浏览器快速搭建 TiDB 在线实验室 | Ti-可立刻团队访谈

分布式数据库TiDB在百融云创的探索与实践

大量 SET autocommit 导致的 TiDB Server CPU 高案例

5分钟搞定 MySQL 到 TiDB 的数据同步

Dumpling 导出表内并发优化

专栏技术文章发布指南&奖励

x86和ARM混合部署下的两地三中心方案验证

关于TiDB数据脱敏的一些想法

TiDB BR 备份至 MinIO S3 实战

使用 KubeSphere 快速部署 Chaos Mesh

发生即看见，一切可回溯 | TiDB 故障诊断与性能排查探讨

DM 分库分表 DDL “悲观协调” 模式介绍

前缀索引在特殊场景下的优化尝试

有关 TiDB 升级的二三事——教你如何快乐升级

在TiDB中实现一个关键字——Parser篇

关于我作为前端报名 TiDB Hackthon 2021 然后被毫无悬念地淘汰这档事

使用 TiUP 安装部署 TiDB 集群实验流程

TiDB如何修改alter-primary-key参数

DBA之伤-truncate/drop

TiDB学习之路

创作场景

最大参数 300 亿！阶跃星辰与吉利联合开源两款多模态大模型

阶跃 Step-Video-T2V：300 亿参数，可直接生成高分辨率视频

阶跃 Step-Audio：业内首款产品级开源语音交互模型

评论

电子书

大厂实战PPT下载