写点什么

火山引擎 RTC 联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级

  • 2025-01-22
    北京
  • 本文字数:1871 字

    阅读完需:约 6 分钟

大小:961.39K时长:05:28
火山引擎RTC联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级

在大模型时代,硬件设备正以前所未有的速度智能化升级,成为人工智能领域成长最快的赛道之一。在 2025 年的国际消费电子展(CES)上,我们看到“万物皆可 AI”的景象,而实时音视频也成为了用户与 AI 硬件重要的交互方式。


例如,陪伴类机器人如智能儿童玩具、AI 宠物,用户可以与它们进行聊天,进行问答、倾诉或求夸夸。同时,这些机器人还能通过设备上的摄像头和视觉传感器,智能识别用户表情、动作以及周围物品和环境,从而提供更加丰富和贴心的互动反馈。此外,智能家居、教育硬件以及智能穿戴设备等产品也在不断迭代升级,AI 与硬件的结合正逐渐渗透到我们生活的方方面面,提升生活的便捷性。


图片来自 MIXI、URTOPIA、Enchanted Tools、ElliQ、ThinkAR 官网


大模型与应用发展迅速的当下,机遇与挑战同在,初涉大模型和硬件结合的厂商,想要在硬件设备中加入自然流畅的 AI 实时语音功能,可能会面临到一些挑战,例如:


技术复杂变化快,研发成本高:厂商如果选择自行搭建音视频传输和编排语音大模型组件,还须依据硬件芯片特性开展深度优化调试工作,整体投入大。而且,多模态融合正成为交互趋势,研发工作的复杂程度也会进一步增加。


3-5s 的反馈,响应延迟优化棘手:随着硬件设备加速智能化,用户对语音交互的实时性和准确性有了更高的期待。然而,许多厂商在初步集成 AI 实时语音功能时,常常面临 3 到 5 秒的整体响应延迟。特别是在网络条件不佳(如信号弱或网速慢)的环境中,这种延迟可能会进一步延长,并且可能导致关键信息的丢失,严重影响 AI 反馈内容的质量。


交流像用“对讲机”,交互体验有待提升:市面上大多初代智能硬件的对话功能还不够成熟,用户在与 AI 互动时,需要持续按键输入,与人们日常生活中随时随地自然交流的习惯相去甚远,体验生硬如用“对讲机”。此外,AI 返回内容若不符合预期或过长,用户无法实时打断,缺乏灵活性,难以满足用户对智能硬件的期待和需求。


> 一站式 Turnkey 解决方案,功能全面快速接入


火山引擎视频云 RTC 联合乐鑫、移远等物联网芯片制造商、解决方案供应商,推出「实时对话式 AI 嵌入式硬件」解决方案。硬件设备通过方案的 AI 语音交互框架即可无缝对接火山引擎 RTC 的实时通信能力和云端智能体服务,实现与豆包大模型超低时延、流畅的交互。


在端侧,芯片集成了先进的音频处理技术,包括自动唤醒功能和音频 3A 等,以提升音频输入的清晰度。同时,火山引擎 RTC 提供音视频传输,并具备抗弱网特性,以及智能体管理功能,确保设备即使在网络条件不佳的情况下也能稳定通话。在云端,智能体服务则可提供 Function calling 和知识库支持,使得硬件设备能够提供个性化服务和智能决策,满足用户的深层次需求。

实时对话式 AI 嵌入式硬件方案架构


现在,实时对话式 AI 嵌入式硬件解决方案已开源,无需复杂的开发流程和适配兼容,即可快速高效地为硬件设备加入 AI 实时语音功能,一天内即可完成集成跑通。


方案接入流程


以乐鑫(ESP32-S3)为例,开源嵌入式硬件解决方案 Demo:

https://www.volcengine.com/docs/6348/1438400


 > 升级 AI 互动体验,向精品“爆款”迈进


在智能硬件市场竞争日趋激烈的当下,企业要想打造一款能够在市场上脱颖而出的爆款产品,除了产品设计要满足用户需求外,优质的用户交互体验也成为产品成功的关键。「实时对话式 AI 嵌入式硬件」解决方案致力于优化 AI 语音通话体验,让用户拥有流畅、自然、真实的 AI 互动。

实时响应,低时延体验

针对硬件场景,在保持极低功耗的同时,实现端到端响应延时可低至 1 秒,为用户提供实时的互动体验,让沟通更加丝滑。

稳定流畅,抗弱网能力

火山引擎 RTC 基于全球部署的实时传输网络,保障用户最后一公里的接入体验,即使在网络条件不佳,如丢包率高达 80%的情况下,可保证通话稳定,并且语义信息的完整传输,不丢失任何重要内容。

交互自然,智能打断

用户无需通过按键或其他输入方式,即可享受自然流畅的双向通话体验。毫秒级人声检测和打断响应,支持随时精准打断,让交流更加灵活。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00

    ToyCity(粑老师 IP)采用一站式方案实现 AI 语音通话


    在 2024 年火山引擎冬季 FORCE 原动力大会上,火山引擎视频云携手乐鑫科技、ToyCity、FoloToy 和魂伴科技,共同推出了创新的“硬件+对话式 AI 智跃计划”,一起见证 AI+硬件加速融合。当前「实时对话式 AI 嵌入式硬件」解决方案已成功应用于 IP 玩具、AI 机器人、智能家电等诸多硬件品类,为 IP 玩具注入数字生命(如视频演示),让 AI 机器人交互更加丰富生动,使智能家电因个性化服务而更具吸引力。


    随着 AIoT 市场和大模型的不断扩展,各类硬件的感知和智能水平将实现空前提升。我们期望与众多芯片制造商及智能硬件合作伙伴携手,共同推动硬件智能化的快速发展,让智能硬件不仅仅是工具,更是理解、陪伴我们的生活伙伴。

    2025-01-22 17:027278

    评论

    发布
    暂无评论

    tensorflow实现CNN模型垃圾分类算法

    AI_robot

    iOS开发:git上传代码到开源中国的步骤,以及pod的更新方法

    花花

    ios

    tensorflow实现深度卷积生成对抗网络(DCGAN)生成手写数字图片

    AI_robot

    民国最出名的女作家,为什么是她?

    了了Vita

    NodeJs中Buffer与Stream理解

    小风以北

    stream 原理 Node buffer

    tensorflow实现cifar10彩色图像多类别分类

    AI_robot

    阿里天猫3面(Java研发):GC回收+Redis Hash算法+架构部署+秒杀等

    钟奕礼

    Java 编程 程序员 架构 面试

    最新阿里蚂蚁金服四面(已拿offer)Java技术面经总结

    钟奕礼

    Java 编程 程序员 架构 面试

    Java面试过了京东五面之后,发现掌握了这些技术也没有那么难

    钟奕礼

    Java 编程 程序员 架构 面试

    tensorflow实现像素级图像分割算法

    AI_robot

    keras深度学习框架

    AI_robot

    阿里巴巴研究员叔同:云原生是企业数字创新的最短路径

    阿里巴巴中间件

    云计算 Serverless 容器 云原生 Faas

    在项目启动时(无request)获取Tomcat端口号

    waitmoon

    Java

    看完这篇文章,你起码对分析视频卡顿有点思路了

    小驰笔记

    android 音视频 camera 引航计划

    云图说|将源端MongoDB业务搬迁至华为云DDS的几种方式

    华为云开发者联盟

    mongodb 数据迁移 华为云文档数据库服务 DDS 文档数据库

    Android 高通Camx架构学习 - 第1章

    小驰笔记

    android 音视频 camera 引航计划

    tensorflow实现低分辨率灰度图像分类算法

    AI_robot

    寻找音乐API接入正版音乐曲库?了解HIFIVE音乐开放平台!

    曲多多(嗨翻屋)版权音乐

    音乐api 正版曲库 音乐sdk

    一个数组通过配置随机抽取组成小数组

    waitmoon

    Java

    这可能是全网关于Camera慢动作录像(SlowMotion)介绍最全的文章了

    小驰笔记

    android 音视频 camera 引航计划

    区块链底层Baas平台搭建,区块链政务底层平台开发

    深入分析小程序运行环境框架原理

    小风以北

    小程序 编译原理 框架 工作原理

    最全Java架构师技能树:Java编程+网络+设计模式+数据库+分布式

    钟奕礼

    Java 编程 程序员 架构 面试

    专访孙立坚:印度经济发展实力几何 ?

    了了Vita

    UUID不失精度,长度改进

    waitmoon

    Java uuid

    NodeJs 介绍

    小风以北

    nodejs 新特性

    tensorflow实现两种图像风格融合 即神经风格迁移

    AI_robot

    《月亮与六便士》:给你500万,你会用它买套房子还是周游世界?

    了了Vita

    【译】ECMAScript 2021: 最终功能集确定

    清秋

    JavaScript ecmascript 翻译 ES6 新闻

    推荐16款强大的Twitter视频下载器(2021精选)

    科技猫

    twitter 软件 网站 分享 视频下载

    如何在游戏中快速集成聊天功能

    LeanCloud

    游戏开发 即时通讯 聊天室 sdk

    火山引擎RTC联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级_字节跳动_火山引擎视频云_InfoQ精选文章