写点什么

成本最高降 90%!百度发布端到端语音语言大模型,已在文小言上线

  • 2025-04-01
    北京
  • 本文字数:729 字

    阅读完需:约 2 分钟

大小:383.32K时长:02:10
成本最高降90%!百度发布端到端语音语言大模型,已在文小言上线

3 月 31 日,百度发布业界首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,实现超低时延与超低成本,在电话语音频道的语音问答场景中,调用成本较行业均值下降约 50%-90%。当日,文小言宣布品牌焕新,率先接入该模型,还带来多模型融合调度、图片问答等功能升级。



文小言最核心的三个场景依然是:搜、创、聊,支持这三个核心场景下有各种模型和技术。相比产品本身形象的升级,最重要的有两件事情:开放和应用,即能够兼容各种优秀先进模型、把各种先进模型能力用

 

文小言除了视觉变化,内核已经从单引擎大模型驱动,变成由多模型引擎驱动。更新后的文小言支持“多模型融合调度”,通过整合百度自研的文心 X1、文心 4.5 等顶尖模型,并接入 DeepSeek-R1 等第三方优质模型,实现了多模型间的智能协同。

 

百度自研大模型不但能“看”,更能“说”和“听”,背后就是其端到端语音大模型。新的端到端语音模型体验比原来会很大的提升,比如能够识别儿童的含糊发音,理解能力更符合儿童的习惯。

 

接入全新的端到端语音语言大模型后,文小言不仅能支持更拟真的语聊效果,而且支持重庆、广西、河南、广东、山东等特色方言。据介绍,语音大模型具备极低的训练和使用成本,极快的推理响应速度,语音交互时,可将用户等待时长从行业常见的 3-5 秒降低至 1 秒左右。

 

用户可以选择“自动模式”,一键调用最优模型组合,也可根据需求灵活选择单一模型完成特定任务,大幅提升响应速度与任务处理能力。

 

同时,文小言还加强了图片问答功能,用户拍摄或上传图片,以文字或语音提问即可直接获取深度解析。例如,拍摄一道数学题可实时生成解题思路与视频解析;上传多款商品图可对比参数、价格,辅助购物决策;拍摄杯子设计图后,AI 可自动解析风格并生成同款手机壳、支架等周边产品。



2025-04-01 16:255793

评论

发布
暂无评论

关于风险管理,如何将思维从项目升维到项目群?

光环PMO社群

项目管理 项目经验

CODING 项目协同 2.0 —— 让协作有条不紊

CODING DevOps

DevOps 研发管理 CODING 项目协同

赋能“数字金融”,CODING 再下数城

CODING DevOps

研发管理 数字化转型 CI/CD 代码管理 可视化软件

模块四课后作业 - 设计千万级学生管理系统的考试试卷存储方案

渐行渐远

架构实战营

啥是ElasticSearch全流程,看这篇我也懂了

热爱java的分享家

Java 程序人生 编程语言 经验分享 ES

等级保护对象是指什么?是指整个单位吗?

行云管家

云计算 网络安全 等保 等级保护 等保2.0

ICCV 2021口罩人物身份鉴别全球挑战赛冠军方案分享

阿里云CloudImagine

阿里云 计算机视觉 视频云 ICCV2021 ICCV

Python Qt GUI设计:QLineEdit和QTextEdit文本框类(基础篇—13)

不脱发的程序猿

PyQt GUI设计 Python Qt QLineEdit QTextEdit

一文解析数据库的三生三世

Zilliz

数据库 oracle 数据库设计 Milvus

黄峥、张一鸣、李斌都曾上榜!100个未来独角兽:超越估值看见星辰大海

创业邦

springboot连接Nexus私服

小鲍侃java

11月日更

您有一份阿里云云原生直播攻略待查收

阿里巴巴云原生

阿里云 Kubernetes 云原生 线下活动

阿里P8手敲出来这份565页凤凰架构分布式手册,惨遭GitHub直接封杀

热爱java的分享家

Java 面试 编程语言 经验分享 凤凰架构

架构师书籍推荐:2021年必看的架构师图书

华章IT

架构师

云账户是什么意思?有什么用?

行云管家

云计算 公有云 私有云 混合云 云资源

修复SecurityException: getDataNetworkTypeForSubscriber问题

Changing Lin

11月日更

盲盒开发

能耗能源管控平台开发,能源管理云平台搭建

电微13828808271

12.04 深圳站 | Serverless Developer Meetup 开放报名啦!

阿里巴巴云原生

阿里云 Serverless 云原生 深圳 线下活动

CSS布局(二)之多列布局

Augus

CSS 11月日更

渗透实战:内网域渗透

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

90后女博士谈反内卷,称科研不应攀比论文数,“唯论文论”何时休?

百度开发者中心

开发者 内卷化

互联网+质量基础设施服务平台,NQI一站式线上平台开发

电微13828808271

ArkUI 3.0让多设备开发更简单|HDC2021技术分论坛

HarmonyOS开发者

HarmonyOS

.Net6 miniAPI JWT鉴权授权的多种实现

面向对象的猫

netcore NET6

干掉 XML Mapper,新出的 Fluent Mybatis 真香

AI乔治

Java sql 架构 mybatis

如何使用FL Studio效果器制作镶边音效

懒得勤快

【语言】Java 日期 API 的使用技巧

恒生LIGHT云社区

Java 编程语言

使用 Resilience4j 框架实现重试机制

码语者

Java 重试机制 Reslience4j

主客体命名法

少个分号

使用命令模式重构播放器控制条

Tom弹架构

Java 架构 设计模式

成本最高降90%!百度发布端到端语音语言大模型,已在文小言上线_AI&大模型_褚杏娟_InfoQ精选文章