QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

豆包视频生成大模型正式发布,首次突破多主体互动难关

  • 2024-09-24
    北京
  • 本文字数:1081 字

    阅读完需:约 4 分钟

大小:581.81K时长:03:18
豆包视频生成大模型正式发布,首次突破多主体互动难关

字节跳动正式宣告进军 AI 视频生成。9 月 24 日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型,面向企业市场开启邀测。

 

  • 多动作多主体交互能力示例:

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • 一致性切镜能力示例:

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      “视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展 AI 视频的创作空间和应用落地。”火山引擎总裁谭待表示。

       

      据火山引擎介绍,豆包视频生成模型基于 DiT 架构,通过高效的 DiT 融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法更是攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。

       

      据悉,豆包视频生成模型经过剪映、即梦 AI 等业务场景打磨和持续迭代,来达到具备专业级光影布局和色彩调和、画面视觉极具美感和真实感的目的。深度优化的 Transformer 结构则大幅提升豆包视频生成的泛化能力,支持 3D 动画、2D 动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例,不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景,也能为专业创作者和艺术家们提供创作辅助。


      目前,新款豆包视频生成模型正在即梦 AI 内测版小范围测试,未来将逐步开放给所有用户。剪映和即梦 AI 市场负责人陈欣然认为,AI 能够和创作者深度互动,共同创作,带来很多惊喜和启发,即梦 AI 希望成为用户最亲密和有智慧的创作伙伴。

       

      此外,豆包大模型不仅新增视频生成模型,还发布了豆包音乐模型和同声传译模型,已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。

       

      火山引擎在这次发布会上还披露了豆包大模型的使用量。据悉,截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,相比 5 月首次发布时增加十倍,多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。

       

      此前,豆包大模型公布低于行业 99%的定价,引领国内大模型开启降价潮。谭待认为,大模型价格已不再是阻碍创新的门槛,随着企业大规模应用,大模型支持更大的并发流量正在成为行业发展的关键因素。

       

      谭待介绍,业内多家大模型目前最高仅支持 300K 甚至 100K 的 TPM(每分钟 token 数),难以承载企业生产环境流量。例如某科研机构的文献翻译场景,TPM 峰值为 360K,某汽车智能座舱的 TPM 峰值为 420K,某 AI 教育公司的 TPM 峰值更是达到 630K。为此,豆包大模型默认支持 800K 的初始 TPM,客户还可根据需求灵活扩容。

       

      “在我们努力下,大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能,卷更好的模型能力和服务。”谭待说道。

      2024-09-24 16:397843

      评论 1 条评论

      发布
      用户头像
      生成的都是欧美人?
      2024-09-30 11:00 · 北京
      回复
      没有更多了
      发现更多内容

      Rhinoceros 7 (犀牛7)中文直装破解版 三维建模软件

      Rose

      现在有什么赛道可以干到退休?

      王中阳Go

      Go 面试

      5家券商综合评级上升 6月券商App终端业务体验评测报告发布

      博睿数据

      电脑风扇控制软件Macs Fan Control Pro mac破解版下载

      Rose

      文献解读-群体测序-第二十四期|《中国西部一个连续临床疑似儿童原发性腔毛运动障碍队列的临床和遗传特征》

      INSVAST

      基因测序 基因数据分析 生信服务

      四大核心能力再升级 Bonree ONE 3.0引领全域可观测进入next level

      博睿数据

      运维安全审计系统定义以及作用详细讲解

      行云管家

      软件 安全运维 运维审计 运维安全

      青岛等保测评公司名称是什么?在哪里?电话多少?

      行云管家

      等保 堡垒机 等级保护 等保测评

      当 Meme 与 TON 融合,两大顶流标签会带来什么机会?

      区块链软件开发推广运营

      dapp开发 区块链开发 链游开发 NFT开发 公链开发

      MobPush标签推送新范式,精准触达再升级!

      MobTech袤博科技

      开发者 产品动态

      技术同学的职场生存指南

      老张

      职业规划 认知提升 打工人 职场发展

      上万次实践总结,原来这些才是敏捷测试要遵循的原则

      敏捷开发

      编程 敏捷开发 极限编程 敏捷实践 持续改进

      什么是海外云手机?海外云手机有什么用?

      Ogcloud

      云手机 海外云手机 云手机海外版 手机群控 海外社媒营销

      【首席战略官分享】业务流程管理的演变与挑战

      望繁信科技

      业务流程管理 流程挖掘 流程智能 望繁信科技

      智谱发布 AI 生成视频模型「清影」;TikTok 推出听歌搜短视频功能丨 RTE 开发者日报

      声网

      50万年——黑客找到你IPv6地址的时间

      国科云

      当当网商品列表数据采集丨当当网商品列表数据接口

      tbapi

      当当网 当当网商品列表数据接口 当当网商品详情接口 当当网API接口

      天猫商品详情API返回值中的商品类型与分类

      技术冰糖葫芦

      API 文档 API 测试 API 优先 API Hub

      如何安装 微信伴侣WechatTweak for mac(微信防撤回、多开助手)

      Rose

      第十二期双周精选

      AutoMQ

      淘宝API接口测试的详细步骤

      Noah

      AutoMQ 与 Timeplus 达成战略合作强强联手

      AutoMQ

      云计算 云原生 后端

      如何通过 CloudCanal 实现从 Kafka 到 AutoMQ 的数据迁移

      AutoMQ

      GOGC 2024 等你来

      非凸科技

      开源 技术 招聘 GOGC

      极限编程要完全遵守的12个实践!

      敏捷开发

      程序员 敏捷开发 软件开发 代码规范 极限编程

      汇聚数字智慧 构建新质未来——《CMG数字中国》融媒体节目正式上线

      江湖老铁

      时至今日,我们还要必须用敏捷开发吗?

      敏捷开发

      Scrum 敏捷开发 企业管理 代码规范 敏捷团队

      百行代码实现 Kafka 运行在 S3 之上

      AutoMQ

      MobTech旗下核心SDK产品已全面适配HarmonyOS NEXT鸿蒙星河版

      MobTech袤博科技

      Java 开发者 产品动态

      豆包视频生成大模型正式发布,首次突破多主体互动难关_AI&大模型_褚杏娟_InfoQ精选文章