AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

火山引擎 RTC 联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级

  • 2025-01-22
    北京
  • 本文字数:1871 字

    阅读完需:约 6 分钟

大小:961.39K时长:05:28
火山引擎RTC联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级

在大模型时代,硬件设备正以前所未有的速度智能化升级,成为人工智能领域成长最快的赛道之一。在 2025 年的国际消费电子展(CES)上,我们看到“万物皆可 AI”的景象,而实时音视频也成为了用户与 AI 硬件重要的交互方式。


例如,陪伴类机器人如智能儿童玩具、AI 宠物,用户可以与它们进行聊天,进行问答、倾诉或求夸夸。同时,这些机器人还能通过设备上的摄像头和视觉传感器,智能识别用户表情、动作以及周围物品和环境,从而提供更加丰富和贴心的互动反馈。此外,智能家居、教育硬件以及智能穿戴设备等产品也在不断迭代升级,AI 与硬件的结合正逐渐渗透到我们生活的方方面面,提升生活的便捷性。


图片来自 MIXI、URTOPIA、Enchanted Tools、ElliQ、ThinkAR 官网


大模型与应用发展迅速的当下,机遇与挑战同在,初涉大模型和硬件结合的厂商,想要在硬件设备中加入自然流畅的 AI 实时语音功能,可能会面临到一些挑战,例如:


技术复杂变化快,研发成本高:厂商如果选择自行搭建音视频传输和编排语音大模型组件,还须依据硬件芯片特性开展深度优化调试工作,整体投入大。而且,多模态融合正成为交互趋势,研发工作的复杂程度也会进一步增加。


3-5s 的反馈,响应延迟优化棘手:随着硬件设备加速智能化,用户对语音交互的实时性和准确性有了更高的期待。然而,许多厂商在初步集成 AI 实时语音功能时,常常面临 3 到 5 秒的整体响应延迟。特别是在网络条件不佳(如信号弱或网速慢)的环境中,这种延迟可能会进一步延长,并且可能导致关键信息的丢失,严重影响 AI 反馈内容的质量。


交流像用“对讲机”,交互体验有待提升:市面上大多初代智能硬件的对话功能还不够成熟,用户在与 AI 互动时,需要持续按键输入,与人们日常生活中随时随地自然交流的习惯相去甚远,体验生硬如用“对讲机”。此外,AI 返回内容若不符合预期或过长,用户无法实时打断,缺乏灵活性,难以满足用户对智能硬件的期待和需求。


> 一站式 Turnkey 解决方案,功能全面快速接入


火山引擎视频云 RTC 联合乐鑫、移远等物联网芯片制造商、解决方案供应商,推出「实时对话式 AI 嵌入式硬件」解决方案。硬件设备通过方案的 AI 语音交互框架即可无缝对接火山引擎 RTC 的实时通信能力和云端智能体服务,实现与豆包大模型超低时延、流畅的交互。


在端侧,芯片集成了先进的音频处理技术,包括自动唤醒功能和音频 3A 等,以提升音频输入的清晰度。同时,火山引擎 RTC 提供音视频传输,并具备抗弱网特性,以及智能体管理功能,确保设备即使在网络条件不佳的情况下也能稳定通话。在云端,智能体服务则可提供 Function calling 和知识库支持,使得硬件设备能够提供个性化服务和智能决策,满足用户的深层次需求。

实时对话式 AI 嵌入式硬件方案架构


现在,实时对话式 AI 嵌入式硬件解决方案已开源,无需复杂的开发流程和适配兼容,即可快速高效地为硬件设备加入 AI 实时语音功能,一天内即可完成集成跑通。


方案接入流程


以乐鑫(ESP32-S3)为例,开源嵌入式硬件解决方案 Demo:

https://www.volcengine.com/docs/6348/1438400


 > 升级 AI 互动体验,向精品“爆款”迈进


在智能硬件市场竞争日趋激烈的当下,企业要想打造一款能够在市场上脱颖而出的爆款产品,除了产品设计要满足用户需求外,优质的用户交互体验也成为产品成功的关键。「实时对话式 AI 嵌入式硬件」解决方案致力于优化 AI 语音通话体验,让用户拥有流畅、自然、真实的 AI 互动。

实时响应,低时延体验

针对硬件场景,在保持极低功耗的同时,实现端到端响应延时可低至 1 秒,为用户提供实时的互动体验,让沟通更加丝滑。

稳定流畅,抗弱网能力

火山引擎 RTC 基于全球部署的实时传输网络,保障用户最后一公里的接入体验,即使在网络条件不佳,如丢包率高达 80%的情况下,可保证通话稳定,并且语义信息的完整传输,不丢失任何重要内容。

交互自然,智能打断

用户无需通过按键或其他输入方式,即可享受自然流畅的双向通话体验。毫秒级人声检测和打断响应,支持随时精准打断,让交流更加灵活。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00

    ToyCity(粑老师 IP)采用一站式方案实现 AI 语音通话


    在 2024 年火山引擎冬季 FORCE 原动力大会上,火山引擎视频云携手乐鑫科技、ToyCity、FoloToy 和魂伴科技,共同推出了创新的“硬件+对话式 AI 智跃计划”,一起见证 AI+硬件加速融合。当前「实时对话式 AI 嵌入式硬件」解决方案已成功应用于 IP 玩具、AI 机器人、智能家电等诸多硬件品类,为 IP 玩具注入数字生命(如视频演示),让 AI 机器人交互更加丰富生动,使智能家电因个性化服务而更具吸引力。


    随着 AIoT 市场和大模型的不断扩展,各类硬件的感知和智能水平将实现空前提升。我们期望与众多芯片制造商及智能硬件合作伙伴携手,共同推动硬件智能化的快速发展,让智能硬件不仅仅是工具,更是理解、陪伴我们的生活伙伴。

    2025-01-22 17:028440

    评论

    发布
    暂无评论

    Java HashMap 和 HashSet 的高效使用技巧

    小万哥

    Java 程序人生 编程语言 软件工程 后端开发

    四种领导风格的大白话理解

    芃篙君

    管理

    你知道h.265吧?但关于AV1编码格式你也来了解一下吗?

    Geek_ee6d52

    跨端轻量JavaScript引擎的实现与探索

    京东科技开发者

    arthas火焰图async-profiler在云交易中的运用

    京东科技开发者

    人工智能的本质是编程+数学吗?

    算法的秘密

    聊聊CWE 4.14 与 ISA/IEC 62443中,如何保障工业软件的安全性

    华为云开发者联盟

    安全 开发 华为云 华为云开发者联盟 工业软件

    印度股票盘开发

    GangguHK

    虚位以待!OpenHarmony开发者激励计划持续招募中

    OpenHarmony开发者

    OpenHarmony 开发者激励计划

    NineData全方位支持 TDSQL:打造企业级数据库新体验

    NineData

    tdsql 数据对比 SQL开发 迁移同步 不停机迁移

    度小满轩辕:金融行业的大模型实战派

    脑极体

    AI

    ✅inventory hint,解决热点数据如何高效更新

    派大星

    :MySQL 数据库 java 编程 热点数据

    Libcomm通信库:GaussDB(DWS) 为解决建联过多的小妙招

    华为云开发者联盟

    数据库 后端 华为云 华为云开发者联盟 华为云GaussDB(DWS)

    【教程】oc代码混淆_OC代码混淆工具

    从keys命令出发-浅谈redis的字典和字典迭代器

    京东科技开发者

    1688 API接口与ERP系统的集成与应用

    Anzexi58

    ERP接口 API 文档

    ChatGPT是什么意思?从产品简介、替代软件到应用场景等全方位解读!

    彭宏豪95

    人工智能 在线白板 AIGC ChatGPT 效率软件

    re:Invent 产品体验与感受分享:Amazon ElastiCache Serverless 缓存的即时扩展

    亚马逊云科技 (Amazon Web Services)

    Serverless

    两会热议高质量发展 华大北斗用芯领航

    江湖老铁

    火山引擎RTC联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级_字节跳动_火山引擎视频云_InfoQ精选文章