AI 创投公司 ElevenLabs 推新模型，可文字生成各式语音

ElevenLabs，一家 AI 语音克隆初创公司，最近推出了一项创新技术，旨在为视频内容添加逼真的声音效果。这项技术特别针对那些缺乏声音背景的视频，类似于早期的默片。想象一下，就像 1895 年路易斯·卢米埃尔导演的《火车进站》一样，原本静默无声的场景，现在可以通过 AI 技术增添生动的声音，从而为观众带来更加丰富的观影体验。

ElevenLabs 利用文本到音效的模型，通过简单的文字提示，比如“海浪撞击”、“金属铿锵声”或“鸟鸣声”，就能生成相应的声音，并将其叠加到视频上。他们最近发布的一分钟预告片展示了这一技术的能力，不仅包括城市背景下的脚步声、海浪声、火车的咔哒声，甚至还有未来机器人的机械声和好莱坞风格的宣传片人声，所有这些都是通过文本提示生成的。

ElevenLabs 的这项新技术，虽然还未正式发布，但已经预示着它将为内容创作者提供一个全新的工具，使他们能够为原本无声的视频片段添加丰富的声效，包括脚步声、波浪声和氛围声等。这不仅为 AI 生成的内容开辟了新的领域，也为任何需要背景音效的视频，如 Instagram 视频、商业广告或视频游戏预告片等提供了无限可能。

不过，要生成准确的模拟效果并不是件容易的事，需要系统同时对文本和视频像素进行学习，以精确映射视频和音频之间的关系。这项技术的发展受到了包括英伟达 AI 科学家 Jim Fan 在内的业界专家的关注，他们认为，要完美模拟声效，需要考虑许多因素，这还是非常有挑战的。

活动推荐：

AICon 全球人工智能与大模型开发与应用大会暨通用人工智能开发与应用生态展·2024 即将于 5 月 17-18 日举行。这是一场主要面向工程师、产品经理、数据分析师的大模型会议，会议聚焦大模型训练与推理、AI agent、RAG、多模态大模型等热门方向，会议不仅安排了精彩的演讲，还策划了包括闭门会议、圆桌交流、大模型应用互动展演等多种社交活动，一方面为参会人员提供宝贵的交流学习、拓展人脉的机会，另一方面也为相关企业和机构提供一个展示自身实力和成果的舞台。

目前已确认出席嘉宾：

林咏华，北京智源人工智能研究院，副院长兼总工程师

谢剑，百川智能，技术联合创始人

余锋（褚霸），蚂蚁集团，蚂蚁超级计算部负责人，专题出品人

张佶，阿里巴巴，通义实验室 NLP 资深算法专家

杨萍，字节跳动，Code AI 团队技术负责人

李鑫博士，科大讯飞，AI 研究院副院长、科研部部长

郭瑞杰，阿里巴巴，总监

陈祖龙，阿里巴巴，企业智能算法负责人

杨浩博士，华为，文本机器翻译实验室主任

张科，蚂蚁集团，AI Infra 负责人

孟二利，小米，AI 实验室机器学习团队技术主管，专题演讲嘉宾

崔慧敏，中科加禾，创始人 & CEO

汪晟杰，腾讯，资深产品经理

陈鸿，蚂蚁集团，资深算法专家

陶万杰，马上消费金融，算法总监

季超，科大讯飞，人形机器人总负责人

更多精彩议题上线中... 详细内容可点击这里查看。

创作场景

AI 创投公司 ElevenLabs 推新模型，可文字生成各式语音