写点什么

AI 创投公司 ElevenLabs 推新模型,可文字生成各式语音

  • 2024-02-21
    北京
  • 本文字数:1127 字

    阅读完需:约 4 分钟

大小:595.73K时长:03:23
AI 创投公司 ElevenLabs 推新模型,可文字生成各式语音

ElevenLabs,一家 AI 语音克隆初创公司,最近推出了一项创新技术,旨在为视频内容添加逼真的声音效果。这项技术特别针对那些缺乏声音背景的视频,类似于早期的默片。想象一下,就像 1895 年路易斯·卢米埃尔导演的《火车进站》一样,原本静默无声的场景,现在可以通过 AI 技术增添生动的声音,从而为观众带来更加丰富的观影体验。


ElevenLabs 利用文本到音效的模型,通过简单的文字提示,比如“海浪撞击”、“金属铿锵声”或“鸟鸣声”,就能生成相应的声音,并将其叠加到视频上。他们最近发布的一分钟预告片展示了这一技术的能力,不仅包括城市背景下的脚步声、海浪声、火车的咔哒声,甚至还有未来机器人的机械声和好莱坞风格的宣传片人声,所有这些都是通过文本提示生成的。


ElevenLabs 的这项新技术,虽然还未正式发布,但已经预示着它将为内容创作者提供一个全新的工具,使他们能够为原本无声的视频片段添加丰富的声效,包括脚步声、波浪声和氛围声等。这不仅为 AI 生成的内容开辟了新的领域,也为任何需要背景音效的视频,如 Instagram 视频、商业广告或视频游戏预告片等提供了无限可能。


不过,要生成准确的模拟效果并不是件容易的事,需要系统同时对文本和视频像素进行学习,以精确映射视频和音频之间的关系。这项技术的发展受到了包括英伟达 AI 科学家 Jim Fan 在内的业界专家的关注,他们认为,要完美模拟声效,需要考虑许多因素,这还是非常有挑战的。


活动推荐:

AICon 全球人工智能与大模型开发与应用大会暨通用人工智能开发与应用生态展·2024 即将于 5 月 17-18 日举行。这是一场主要面向工程师、产品经理、数据分析师的大模型会议,会议聚焦大模型训练与推理、AI agent、RAG、多模态大模型等热门方向,会议不仅安排了精彩的演讲,还策划了包括闭门会议、圆桌交流、大模型应用互动展演等多种社交活动,一方面为参会人员提供宝贵的交流学习、拓展人脉的机会,另一方面也为相关企业和机构提供一个展示自身实力和成果的舞台。


目前已确认出席嘉宾:

林咏华,北京智源人工智能研究院,副院长兼总工程师

谢剑,百川智能,技术联合创始人

余锋(褚霸),蚂蚁集团,蚂蚁超级计算部负责人,专题出品人

张佶,阿里巴巴,通义实验室 NLP 资深算法专家

杨萍,字节跳动,Code AI 团队技术负责人

李鑫 博士,科大讯飞,AI 研究院副院长、科研部部长

郭瑞杰,阿里巴巴,总监

陈祖龙,阿里巴巴,企业智能算法负责人

杨浩 博士,华为,文本机器翻译实验室主任

张科,蚂蚁集团,AI Infra 负责人

孟二利,小米,AI 实验室机器学习团队技术主管,专题演讲嘉宾

崔慧敏,中科加禾,创始人 & CEO

汪晟杰,腾讯,资深产品经理

陈鸿,蚂蚁集团,资深算法专家

陶万杰,马上消费金融,算法总监

季超,科大讯飞,人形机器人总负责人


更多精彩议题上线中... 详细内容可点击这里查看。

2024-02-21 14:174970

评论

发布
暂无评论
发现更多内容

ipfs存储服务器的优势在哪里?ipfs怎么挖矿?

IPFS怎么挖矿 ipfs存储服务器的优势

为什么宁可提拔一个新同事当领导,也不提我这个来十年的老员工呢?

非著名程序员

认知提升 个人提升 职场成长 8月日更

你知道Kafka创建Topic这个过程做了哪些事情吗?(附视频)

石臻臻的杂货铺

大数据 kafka 源码 运维

virtlet是什么?virtlet如何管理虚拟机?

谐云

网络安全界基于知识的识别和映射提出网络空间资源分类明细

郑州埃文科技

极光开发者周刊【No.0806】

极光JIGUANG

运维安全第一步,采购堡垒机做好权限控制!

行云管家

堡垒机 安全运维 企业资产 事前授权

循序渐进带你全方位剖析原型链

加百利

大前端 原型链 自学 8月日更

高效率程序员都在用什么工具?

狐哥说技术

效率工具

Serverless与WebSocket的聊天工具

刘宇

Serverless websocket

碳中和将为中国带来什么? 绿色转型如何驱动经济跃升?

CECBC

到底该怎么定义 To B SaaS 产品

姜雨生

SaaS 标准化 To B业务 行业深度

php 精度问题

一个大红包

8月日更

消息推送技术干货:美团实时消息推送服务的技术演进之路

JackJiang

消息推送 即时通讯 IM push

当新零售遇上 Serverless

Serverless Devs

阿里云 Serverless 云原生

Vue进阶(二十): 请求方式详解

No Silver Bullet

ajax Vue axios 8月日更 请求方式

毕业总结

Presley

一文看懂低代码的现状、打法、机会和挑战

小博

中台 云原生 PaaS SaaS/IaaS/PaaS 低代码开发平台

【SpringCloud技术专题】「原生态Fegin」打开Fegin之RPC技术的开端,你会使用原生态的Fegin吗?(上)

洛神灬殇

SpringCloud OpenFegin Fegin 8月日更

未来的价值互联网主要建立在NFT上

CECBC

Golang 实现 RTP

声网

音视频 rtp

架构训练营 - 模块三 - 作业

姑射仙人

#架构实战营

Activiti工作流---简单开发平台,请假实例演示

金陵老街

Java SpringBoot 2 Vue 3 Activiti

波宝TronLink钱包模式系统开发|波宝钱包模式功能介绍

量化系统19942438797

如何改进新员工的入职体验?

石云升

用户体验 入职 体验设计 8月日更

C++20 四大特性之一:Module 特性详解

网易云信

后端

区块链DAPP钱包开发|波场DAPP开发钱包

Geek_23f0c3

区块链 DAPP智能合约交易系统开发 波场DAPP

生产环境全链路压测-影子库落地

国隆

番外4. Python OpenCV 中鼠标事件相关处理与常见问题解决方案

梦想橡皮擦

8月日更

全国有待形成数据资产市场 区块链、人工智能或成重要支撑技术

CECBC

快照保护是什么意思?快照的原理是什么?

行云管家

镜像 数据保护 快照 数据安全

AI 创投公司 ElevenLabs 推新模型,可文字生成各式语音_AI&大模型_李忠良_InfoQ精选文章