写点什么

最大参数 300 亿!阶跃星辰与吉利联合开源两款多模态大模型

  • 2025-02-19
    北京
  • 本文字数:1533 字

    阅读完需:约 5 分钟

大小:822.07K时长:04:40
最大参数300亿!阶跃星辰与吉利联合开源两款多模态大模型

2025 年 2 月 18 日,阶跃星辰和吉利汽车集团联合宣布,将双方合作的阶跃两款 Step 系列多模态大模型向全球开发者开源。其中,包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃Step-Audio。即日起可在跃问 APP 内体验。

 

吉利汽车集团 CEO 淦家阅表示:“吉利致力成为智能汽车 AI 科技的引领者和普及者,早在 2021 年,吉利就围绕芯片、软件操作系统、数据和卫星网搭建了端到端的自研体系和生态联盟,构建了完善的‘智能吉利科技生态网’,驱动用户在智能驾驶、智能座舱上的体验不断进化。目前,吉利全栈自研的星睿 AI 大模型已经与阶跃 Step-Video-T2V、Step-Audio 等大模型完成了深度融合,将为用户带来更智能、更高阶的座舱交互与智驾出行体验,推动 AI 科技在智能汽车领域的普及。”

 

据了解,这也是阶跃星辰首次开源其 Step 系列基座模型。阶跃星辰创始人、CEO 姜大昕博士表示:“阶跃星辰一直以实现 AGI 为目标坚持研发基座大模型。我们深知 AGI 的实现离不开全球开发者的共同努力,开源的初心,一方面是希望跟大家分享最新技术成果,为开源社区贡献一份力量;另一方面,我们相信多模态模型是实现 AGI 的必经之路,但目前尚处于早期阶段,期待与社区开发者集思广益,共同拓展模型技术边界,并推动产业落地。”

阶跃 Step-Video-T2V:300 亿参数,可直接生成高分辨率视频


阶跃 Step-Video-T2V 是目前全球范围内参数量最大、性能最好的开源视频生成大模型。阶跃 Step-Video-T2V 模型的参数量达到 300 亿,可以直接生成 204 帧、540P 分辨率的高质量视频,这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。

 

从生成效果来看,阶跃 Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出,能够高效助力视频创作者实现精准创意呈现。用户可以在跃问网页端和跃问 App 上体验阶跃 Step-Video-T2V 的视频生成能力 。

 

为了对开源视频生成模型的性能进行全面评测,阶跃星辰还发布并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。



Step-Video-T2V-Eval 评测结果

 

评测结果显示,阶跃 Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。

 

据了解,目前在跃问网页端和跃问 App 上,都可以体验 阶跃 Step-Video-T2V 的视频生成能力 。

阶跃 Step-Audio:业内首款产品级开源语音交互模型

据阶跃星辰介绍,这款阶跃 Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地高质量对话。模型生成的语音具有超自然、高情商等特征,同时也能实现高质量的音色复刻并进行角色扮演,满足影视娱乐、社交、游戏等行业场景下应用需求。



在 LlaMA Question、Web Questions 等 5 大主流公开测试集中,阶跃 Step-Audio 模型性能均高于行业内同类型开源模型,取得了最高得分。阶跃 Step-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是更懂中国话的开源语音交互大模型。



StepEval-Audio-360 基准测试


此外,由于目前行业内语音对话测试集相对缺失,阶跃星辰自建并开源了多维度评估体系 StepEval-Audio-360 基准测试,从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等 9 项基础能力的维度对开源语音模型进行全面测评。通过人工横评后的结果显示,阶跃 Step-Audio 的模型能力十分均衡,且在各个维度上均超过了此前市面上效果最佳的开源语音模型。


2025-02-19 09:484635
用户头像
李冬梅 加V:busulishang4668

发布了 1059 篇内容, 共 675.9 次阅读, 收获喜欢 1220 次。

关注

评论

发布
暂无评论

基于图数据库构建知识图谱平台应用实践

星环科技

精细管理,智慧决策:商品企划系统如何提升鞋服品牌运营效率?

第七在线

AIGC下一步:如何用AI再度重构或优化媒体处理?

阿里云CloudImagine

云计算 视频云 AIGC

关于 yarn 的中央仓库 registry.yarnpkg.com

伤感汤姆布利柏

低代码与国产化部署:软件开发的未来趋势与应用实践

不在线第一只蜗牛

低代码 软件咖啡 国产化部署

TikTok直播专线,全程稳定的专属网络

Ogcloud

Tik Tok直播 Tik Tok直播网络 Tik Tok 海外直播 直播专线

新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

星环科技

Pygame:实现Python游戏开发的跨平台梦想

技术冰糖葫芦

API 文档

自学习的现实应用:构建智能系统的新思路

测吧(北京)科技有限公司

测试

坐标 DISTRIBUTECH,TDengine 发力海外电力行业

TDengine

tdengine 时序数据库

智达方通总经理蔡志宏先生受邀参与哈工大京津冀校友发展研讨会,共话科技创新与发展新篇章

智达方通

智达方通 企业绩效管理 预算管理 哈工大 校友会

白话大模型③ | 我们为何需要机器学习运营平台?

星环科技

深入理解训练集、验证集和测试集在模型训练中的作用

测吧(北京)科技有限公司

测试

白话大模型① :AI分析能做什么?在实际落地中会碰到什么问题?

星环科技

自学习概念探析:构建稳定模型的核心思想

测吧(北京)科技有限公司

测试

Apache Calcite 一条 SQL 的查询计划生成之旅【上】

LakeShen

开源 sql 优化器 apache 社区 Apche Calcite

白话大模型② | 如何提升AI分析的准确性?

星环科技

Spark在分布式造数工具中的应用探索

测吧(北京)科技有限公司

测试

从历史视角看人工智能:专家系统、机器学习与深度学习

测吧(北京)科技有限公司

测试

如何选择合适的数据提升模型性能

测吧(北京)科技有限公司

测试

软件测试学习笔记丨docker 搭建常用服务器与平台命令

测试人

Docker 软件测试 自动化测试 测试开发

数据闭环构建技巧:确保模型稳定性与数据质量

测吧(北京)科技有限公司

测试

数据闭环的建立:确保模型发展的可持续性

测吧(北京)科技有限公司

测试

Spark技巧大揭秘:构建分布式造数工具加速工作效率

测吧(北京)科技有限公司

测试

item_get-根据ID取商品详情(shopee.item_get):提高跨境电商交易效率的关键

技术冰糖葫芦

API 文档

关于Python中math 和 decimal 模块的解析与实践

不在线第一只蜗牛

Python 开发语言 模块开发

AI PPT软件有哪些?这5款堪称神器,职场白领必备!

彭宏豪95

职场 PPT 在线白板 办公软件 AIGC

TikTok直播:是否需要专线,以及加速的方法有哪些?

Ogcloud

海外直播专线 Tik Tok直播 Tik Tok直播网络 直播加速 海外直播

最大参数300亿!阶跃星辰与吉利联合开源两款多模态大模型_生成式 AI_李冬梅_InfoQ精选文章