报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

成本最高降 90%!百度发布端到端语音语言大模型,已在文小言上线

  • 2025-04-01
    北京
  • 本文字数:729 字

    阅读完需:约 2 分钟

大小:383.32K时长:02:10
成本最高降90%!百度发布端到端语音语言大模型,已在文小言上线

3 月 31 日,百度发布业界首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约 50%-90%。当日,文小言宣布品牌焕新,率先接入该模型,还带来多模型融合调度、图片问答等功能升级。



文小言最核心的三个场景依然是:搜、创、聊,支持这三个核心场景下有各种模型和技术。相比产品本身形象的升级,最重要的有两件事情:开放和应用,即能够兼容各种优秀先进模型、把各种先进模型能力用

 

文小言除了视觉变化,内核已经从单引擎大模型驱动,变成由多模型引擎驱动。更新后的文小言支持“多模型融合调度”,通过整合百度自研的文心 X1、文心 4.5 等顶尖模型,并接入 DeepSeek-R1 等第三方优质模型,实现了多模型间的智能协同。

 

百度自研大模型不但能“看”,更能“说”和“听”,背后就是其端到端语音大模型。新的端到端语音模型体验比原来会很大的提升,比如能够识别儿童的含糊发音,理解能力更符合儿童的习惯。

 

接入全新的端到端语音语言大模型后,文小言不仅能支持更拟真的语聊效果,而且支持重庆、广西、河南、广东、山东等特色方言。据介绍,语音大模型具备极低的训练和使用成本,极快的推理响应速度,语音交互时,可将用户等待时长从行业常见的 3-5 秒降低至 1 秒左右。

 

用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求灵活选择单一模型完成特定任务,大幅提升响应速度与任务处理能力。

 

同时,文小言还加强了图片问答功能,用户拍摄或上传图片,以文字或语音提问即可直接获取深度解析。例如,拍摄一道数学题可实时生成解题思路与视频解析;上传多款商品图可对比参数、价格,辅助购物决策;拍摄杯子设计图后,AI 可自动解析风格并生成同款手机壳、支架等周边产品。



2025-04-01 16:252

评论

发布
暂无评论

泪目!跳槽太不容易,蚂蚁金服三轮面试,四个小时灵魂拷问

Java 面试

Tubacle挖矿系统APP开发搭建

扩展ADO.net实现对象化CRUD(.net core/framework)

Spook

.net ORM ado

Bi Token质押挖矿软件系统开发方案

区块链的正确应用方式与前景

CECBC

企业资产数据大屏,打破固有管理思维僵局,杜绝资产无效流失

一只数据鲸鱼

数据可视化 资产管理 金融资产 金融大屏

话题王者第三季,舍我其谁~

InfoQ写作社区官方

话题讨论 热门活动

我看 JAVA 之 线程同步(下)

awen

Java synchronized JOL 锁升级

内蒙古公安重点人员管控研判平台建设方案

AI框架中图层IR的分析

华为云开发者联盟

mindspore IR

千亿级数据迁移 mongodb 成本节省及性能优化实践(附性能对比质疑解答)

杨亚洲(专注MongoDB及高性能中间件)

MySQL 数据库 mongodb 架构 分布式数据库mongodb

秀出天际的SpringBoot笔记,让开发像搭积木一样简单

蜜蜂圈软件开发|蜜蜂圈APP系统开发

浪潮云说丨浪潮云智能对话,想你所想,无限畅聊

百度工程师手把手教你实现代码规范检测工具

百度开发者中心

百度 代码规范

GaussDB(for Redis)揭秘:Redis存算分离架构最全解析

华为云开发者联盟

redis 华为云 GaussDB(for Redis) 存算分离架构 中国系统架构师大会SACC

UC生态系统APP开发详情

Test

bobcatzoo

2021Android高级面试题及答案,Android篇

欢喜学安卓

android 程序员 面试 移动开发

基于 BDD 理论的 Nebula 集成测试框架重构(下篇)

NebulaGraph

分布式数据库 测试 图数据库 BDD

anyRTC视频连麦demo上线啦!

anyRTC开发者

音视频 WebRTC 直播 视频直播 直播连麦

【全球软件大会】华为前端工程师分享:华为云官网的智能化实践

华为云开发者联盟

算法 智能化 华为云官网 全球软件大会 内容分发

智安小区建设,智慧安防小区改造建设方案

在C++中,你真的会用new吗?

华为云开发者联盟

c++ 内存 new new operator operator new

7月日更,红心向党,党员入驻,即送马克杯~

InfoQ写作社区官方

7月日更 热门活动

你不知道的 Linux 使用技巧

学神来啦

测量电压调节器输出纹波和开关瞬变的方法

不脱发的程序猿

硬件研发 输出纹波测量 开关瞬变测量 电源测试 测量电压调节器

2021Android高级进阶学习资料,已拿意向书!

欢喜学安卓

android 程序员 面试 移动开发

35K成功入职:蚂蚁金服面试Java后端经历!「含面试题+答案」

Java 编程 程序员 架构 面试

圆梦腾讯之路!6面阿里、5面字节、4面腾讯,终斩腾讯Offer

Java 编程 架构 面试

区块链技术如何赋能医学成像?

CECBC

成本最高降90%!百度发布端到端语音语言大模型,已在文小言上线_AI&大模型_褚杏娟_InfoQ精选文章