11 月 4 日,在2021腾讯数字生态大会云智能专场上,腾讯云小微发布基于新一代多模态人机交互技术的全新数智人产品矩阵,共包括 5 款全新数智人产品,拥有文旅导览、金融客服、多语种主播、手语主播等不同职业身份和技能,可提供定制化角色服务。此外,腾讯云小微与腾讯 AI Lab 联合发布了全新技术品牌——腾讯语音智能,为设备提供在复杂语音环境下,从输入到输出交互体验全面升级的全链路的 AI+声学技术解决方案。
腾讯云小微 5 款数智人亮相
值得一提的是,在本届腾讯数字生态大会多个专场上,数智人也承担起了主持工作。“数智人正在走进我们的生活,在企业中承担岗位职责,为用户创造前所未有交互智能体验同时,提升企业服务效率和品牌形象。”腾讯智能产品副总裁、腾讯教育副总裁李学朝表示,腾讯云小微新一代数智人整合了语音交互、自然语言理解、图像识别等 AI 能力,融合AI Lab前沿 AI 技术以及搜狗数字人团队丰富的业务模式,目前已经在金融、传媒、文旅、出行等多各业务场景领域发挥价值。
据了解,腾讯云小微数智人是腾讯云智能战略的重要组成部分。
技术方面,通过 NLP、知识图谱、视觉等全栈 AI 底层能力,让数智人拥有形象表现力、识别力和感知理解能力,可识别超 34 种语种、方言,拥有超过 46 万垂直行业场景热词库,在多业务场景中都能做到“听得清、听得懂、会表达”。其次,3D 超写实、3D 写实、3D 半写实、2D 真人、2D 卡通五种数智人的风格可满足各类场景服务需求,拥有超细微面部情感表情以及数百种肢体动作,在形象选择方面,不但可支持定制化需求,还获得了腾讯海量 IP 形象授权,助力品牌与用户心智产生更紧密的连接。
应用方面,数智人已经在金融、文旅、传媒、教育等行业领域提供交互服务。例如,在文旅领域,数智人化身导游,在故宫、龙门石窟等景区提供 AI 导览服务,为游客提供个性化游览路线推荐,景点文物讲解等多种服务。
未来,数智人技术将重点向融合文字、听觉、视觉、触觉、肢体动作等多维度感知的多模态交互方式演进。
腾讯发布语音智能全新品牌
会上,腾讯云小微与腾讯 AI Lab 联合发布了全新技术品牌——腾讯语音智能。
据介绍,相对于传统解决方案,腾讯语音智能在技术上实现了一系列升级:通过采用一体化的基于全神经网络的方案,极大提升了在复杂场景下语音采集、降噪分离和增强的效果,从而为人人通话或机器识别提供了更清晰易懂的语音;通过使用基于语音语义联合优化的多领域识别器,让机器对于各种复杂语音的识别率也得到极大提升,可以更好地进行转写、理解、和回复。
在前端技术上,腾讯语音智能通过研发全神经网络波束成型方案、构建集合全链路的神经网络模型方案、首创用三种模态进行语音分离的工作模式,可有效应对环境噪声干扰人声的问题,实现了场景深度定制,多模块自动联合优化,在复杂声学环境中大幅度降低了语音收集的错误率。数据表示,经过多模态语音分离再进行语音识别,错误率可降低相对 50%,经过多模态分离并联合进行多模态的语音识别,错误率可进一步降低相对 25%。
在后端处理环节,腾讯语音智能研发了“语音-语义结合的多领域在线识别系统”、“全双工交互及闲聊拒识”、“端到端高性能离线识别系统”等技术方案,运用深度学习建模、前后端联合优化、语音-语义联合优化等技术手段,很好地满足了不同应用场景下,对于语音交互在识别率、鲁棒性、资源消耗和用户体验等多方面的要求。
未来,随着行业和场景需求的迭代升级和智能终端的快速发展,智能语音的应用将拥有越来越大的发展空间。腾讯语音智能也将持续专注语音智能技术,发展连续对话、多模态交互等能力。
评论