写点什么

火山引擎 RTC 联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级

  • 2025-01-22
    北京
  • 本文字数:1871 字

    阅读完需:约 6 分钟

大小:961.39K时长:05:28
火山引擎RTC联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级

在大模型时代,硬件设备正以前所未有的速度智能化升级,成为人工智能领域成长最快的赛道之一。在 2025 年的国际消费电子展(CES)上,我们看到“万物皆可 AI”的景象,而实时音视频也成为了用户与 AI 硬件重要的交互方式。


例如,陪伴类机器人如智能儿童玩具、AI 宠物,用户可以与它们进行聊天,进行问答、倾诉或求夸夸。同时,这些机器人还能通过设备上的摄像头和视觉传感器,智能识别用户表情、动作以及周围物品和环境,从而提供更加丰富和贴心的互动反馈。此外,智能家居、教育硬件以及智能穿戴设备等产品也在不断迭代升级,AI 与硬件的结合正逐渐渗透到我们生活的方方面面,提升生活的便捷性。


图片来自 MIXI、URTOPIA、Enchanted Tools、ElliQ、ThinkAR 官网


大模型与应用发展迅速的当下,机遇与挑战同在,初涉大模型和硬件结合的厂商,想要在硬件设备中加入自然流畅的 AI 实时语音功能,可能会面临到一些挑战,例如:


技术复杂变化快,研发成本高:厂商如果选择自行搭建音视频传输和编排语音大模型组件,还须依据硬件芯片特性开展深度优化调试工作,整体投入大。而且,多模态融合正成为交互趋势,研发工作的复杂程度也会进一步增加。


3-5s 的反馈,响应延迟优化棘手:随着硬件设备加速智能化,用户对语音交互的实时性和准确性有了更高的期待。然而,许多厂商在初步集成 AI 实时语音功能时,常常面临 3 到 5 秒的整体响应延迟。特别是在网络条件不佳(如信号弱或网速慢)的环境中,这种延迟可能会进一步延长,并且可能导致关键信息的丢失,严重影响 AI 反馈内容的质量。


交流像用“对讲机”,交互体验有待提升:市面上大多初代智能硬件的对话功能还不够成熟,用户在与 AI 互动时,需要持续按键输入,与人们日常生活中随时随地自然交流的习惯相去甚远,体验生硬如用“对讲机”。此外,AI 返回内容若不符合预期或过长,用户无法实时打断,缺乏灵活性,难以满足用户对智能硬件的期待和需求。


> 一站式 Turnkey 解决方案,功能全面快速接入


火山引擎视频云 RTC 联合乐鑫、移远等物联网芯片制造商、解决方案供应商,推出「实时对话式 AI 嵌入式硬件」解决方案。硬件设备通过方案的 AI 语音交互框架即可无缝对接火山引擎 RTC 的实时通信能力和云端智能体服务,实现与豆包大模型超低时延、流畅的交互。


在端侧,芯片集成了先进的音频处理技术,包括自动唤醒功能和音频 3A 等,以提升音频输入的清晰度。同时,火山引擎 RTC 提供音视频传输,并具备抗弱网特性,以及智能体管理功能,确保设备即使在网络条件不佳的情况下也能稳定通话。在云端,智能体服务则可提供 Function calling 和知识库支持,使得硬件设备能够提供个性化服务和智能决策,满足用户的深层次需求。

实时对话式 AI 嵌入式硬件方案架构


现在,实时对话式 AI 嵌入式硬件解决方案已开源,无需复杂的开发流程和适配兼容,即可快速高效地为硬件设备加入 AI 实时语音功能,一天内即可完成集成跑通。


方案接入流程


以乐鑫(ESP32-S3)为例,开源嵌入式硬件解决方案 Demo:

https://www.volcengine.com/docs/6348/1438400


 > 升级 AI 互动体验,向精品“爆款”迈进


在智能硬件市场竞争日趋激烈的当下,企业要想打造一款能够在市场上脱颖而出的爆款产品,除了产品设计要满足用户需求外,优质的用户交互体验也成为产品成功的关键。「实时对话式 AI 嵌入式硬件」解决方案致力于优化 AI 语音通话体验,让用户拥有流畅、自然、真实的 AI 互动。

实时响应,低时延体验

针对硬件场景,在保持极低功耗的同时,实现端到端响应延时可低至 1 秒,为用户提供实时的互动体验,让沟通更加丝滑。

稳定流畅,抗弱网能力

火山引擎 RTC 基于全球部署的实时传输网络,保障用户最后一公里的接入体验,即使在网络条件不佳,如丢包率高达 80%的情况下,可保证通话稳定,并且语义信息的完整传输,不丢失任何重要内容。

交互自然,智能打断

用户无需通过按键或其他输入方式,即可享受自然流畅的双向通话体验。毫秒级人声检测和打断响应,支持随时精准打断,让交流更加灵活。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00

    ToyCity(粑老师 IP)采用一站式方案实现 AI 语音通话


    在 2024 年火山引擎冬季 FORCE 原动力大会上,火山引擎视频云携手乐鑫科技、ToyCity、FoloToy 和魂伴科技,共同推出了创新的“硬件+对话式 AI 智跃计划”,一起见证 AI+硬件加速融合。当前「实时对话式 AI 嵌入式硬件」解决方案已成功应用于 IP 玩具、AI 机器人、智能家电等诸多硬件品类,为 IP 玩具注入数字生命(如视频演示),让 AI 机器人交互更加丰富生动,使智能家电因个性化服务而更具吸引力。


    随着 AIoT 市场和大模型的不断扩展,各类硬件的感知和智能水平将实现空前提升。我们期望与众多芯片制造商及智能硬件合作伙伴携手,共同推动硬件智能化的快速发展,让智能硬件不仅仅是工具,更是理解、陪伴我们的生活伙伴。

    2025-01-22 17:023

    评论

    发布
    暂无评论

    阿里工作10年,我总结出了这份1071页Spring全家桶核心笔记

    三十而立

    局域网IP扫描软件:IP Scanner Pro激活版

    真大的脸盆

    Mac IP 局域网管理 IP扫描工具 局域网扫描

    JetBrains CLion 2023中文版安装教程CLion 2023新功能

    理理

    C/C++ CLion 2023 JetBrains CLion破解版

    长安信托:拥抱数字信托,探索多项目管理新路径

    万事ONES

    基于 Nginx&Lua 实现自建服务端埋点系统

    亚马逊云科技 (Amazon Web Services)

    Amazon

    Excelize 入选 2022 中国开源创新大赛优秀项目

    xuri

    golang 开源 Go 语言 Excelize OOXML

    基于 Flink ML 搭建的智能运维算法服务及应用

    Apache Flink

    大数据 flink 实时计算

    深度学习基础入门篇[二]:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解 1.基础指

    汀丶人工智能

    人工智能 机器学习 深度学习 算法评价指标

    2023Java岗面试,进互联网大厂必备Java面试八股文真题解析

    程序知音

    Java java面试 后端技术 八股文 Java面试八股文

    Higress GitHub star 突破 1k,来自社区开发者和用户的寄语

    阿里巴巴云原生

    阿里云 云原生 Higress

    关于验证码,你不知道的一些问题!

    宙哈哈

    php html 记录 验证码

    深入探索Go语言的unsafe包,揭秘它的黑科技和应用场景!

    王中阳Go

    golang 高效工作 面试题 黑科技 Go 语言

    AI开发实践:关于停车场中车辆识别与跟踪

    华为云开发者联盟

    人工智能 华为云 华为云开发者联盟 企业号 4 月 PK 榜 车辆检测

    AntDB数据库携超融合流式实时数仓亮相第25届中国高速公路信息技术化大会

    亚信AntDB数据库

    AntDB AntDB数据库 企业号 4 月 PK 榜

    Flink SQL 在美团实时数仓中的增强与实践

    Apache Flink

    大数据 flink 实时计算

    Autodesk AutoCAD 2024 Mac(cad2024) v2024.3 支持M1 兼容Mac13系统

    理理

    mac软件下载 M1芯片 cad2024激活版 Autodesk AutoCAD

    autodesk maya 2023最新中文版 Maya动画和建模软件

    理理

    Autodesk Maya maya破解版 玛雅2023下载

    SketchUp Pro(草图大师2023)中文版 Mac/win

    理理

    SketchUp Pro 2023 SketchUp Pro中文版 草图大师2023下载

    一文快速了解火山引擎A/B测试平台

    字节跳动数据平台

    大数据 AB testing实战 A/B 测试 企业号 4 月 PK 榜

    LeetCode题解:136. 只出现一次的数字,哈希表,JavaScript,详细注释

    Lee Chen

    JavaScript LeetCode

    目前led显示屏厂家存在的问题

    Dylan

    制造 行业 LED显示屏

    从逻辑到硬件:如何转换PCB布局?

    华秋PCB

    工具 电路 PCB PCB布局 PCB设计

    远程调试为何要亲历现场,也许也可以这样解决

    石臻臻的杂货铺

    远程调试

    2023年成都.NET线下技术沙龙来了!大咖分享,报名从速

    MASA技术团队

    .net dapr MASA

    解决Parallels Desktop 18.2.0提示“由于临界误差,不能启动虚拟机”的问题

    理理

    Parallels Desktop 18 pd18虚拟机 PD虚拟机不能联网

    从Spring的AOP看Synchronized锁失效和事务失效的情况

    做梦都在改BUG

    Apache Paimon 在同程旅行的探索实践

    Apache Flink

    大数据 flink 实时计算

    从零学习SDK(2)SDK的基本概念和组成部分

    MobTech袤博科技

    【干货】验证码的常见类型总结

    宙哈哈

    php html 验证码 短信验证码

    恶意爬虫?能让恶意爬虫遁于无形的小Tips

    宙哈哈

    Python html nginx 爬虫

    建木在 Rainbond 上使用实践

    北京好雨科技有限公司

    云原生 CI/CD #Kubernetes# rainbond 企业号 4 月 PK 榜

    火山引擎RTC联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级_字节跳动_火山引擎视频云_InfoQ精选文章