速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

明略科技 CTO 郝杰:会话式 AI 应该是“静悄悄”的辅助智能

  • 2022-08-04
  • 本文字数:4316 字

    阅读完需:约 14 分钟

明略科技CTO郝杰:会话式AI应该是“静悄悄”的辅助智能

AI 一定要落在实处,一定要追求它能落地成功。不要做飘在天上的“阳春白雪”。


明略科技新任 CTO:一位平衡型的技术管理者


今年 4 月 27 日,明略科技官宣了一则任命消息,宣布任命郝杰为首席技术官(CTO),全面主持研发部门的管理工作,负责制定技术方向与路线,搭建研发体系与流程,输出高质量的产品研发能力,保持技术领先性,构建技术壁垒。


明略科技创始人、CEO 吴明辉表示,郝杰加入后,将进一步强化明略科技在人工智能技术领域的产研能力及技术布局。


郝杰是语音语义领域的技术大牛。


资料显示,郝杰是清华大学信号与信息处理专业博士,IEEE Senior Member,是国际顶级 AI 学术大赛 20 个细分赛道第一名获得者。加入明略科技前,郝杰是 OPPO 语音语义首席科学家,更早之前,他曾担任东芝(中国)首席科学家、五八集团技术专家,率先在工业界实现了语音和语义技术的产品化落地,主导研发成功了中国最早量产的汽车前装语音导航,世界上最早量产的电视机语音唤醒、离线口语翻译手机软件等。


郝杰在接受 InfoQ 采访时表示,在 To C 的软硬一体化的人工智能领域做了 3 年后,他非常看好 To B 企业智能服务赛道的崛起,这促使他加入了明略科技。


郝杰形容自己是一位平衡型的技术管理者。


这种“平衡”一方面体现在他的履历上。在此前 20 多年的职业生涯中,郝杰既在跨国公司工作过,也在本土企业工作过;在传统制造业工作过,也在互联网公司工作过;曾在软硬一体化和偏偏硬件的公司工作过,也在纯粹的软件公司工作过。在产研追求上,郝杰既讲求务实地落地,也追求行走在学术前沿。在技术管理方面,郝杰也有着平衡型的人才观,他崇尚纺锤形的人才梯队的合理性,讲究头部人才、肩部人才均衡搭配。

下一阶段研发重点:明智中台


郝杰告诉 InfoQ,他是以创业的心态加入明略科技的。


在他看来,明略科技正处在第三次“创业”的阶段。第一次“创业”是在 2006 年,吴明辉创办了广告舆情监测系统 — 秒针系统;第二次“创业”是 2014 年,明略数据成立,通过数据提供支持分析决策的行业人工智能解决方案;第三次“创业”从 2019 年开始做会话智能平台 — 明智工作。


“这个过程中,不仅伴随着产品线的扩展,明略自身的组织也发生了多次变化和调整,故我将其看作是三次创业”。


目前在应用层,明略科技聚焦两大产品线 — 秒针产品线和明智产品线。秒针产品线,专注媒体投放、效能改善,针对舆情分析,挖掘营销效能、新产品研发方向等场景。明智产品线包括 SCRM 营销服一体化、智能助理、OA 增强、销售增强、会话智能等场景。


这两大产品线都建立在一个产研底座 —— 明智中台上。


明智中台既是一个数据中台,也是一个 AI 能力中台。它不仅仅是一个技术平台,明略科技还往这个底座上扩充了一些新的概念、能力和功能,明智中台上有可以独立售卖的产品单元,如客户数据中台和营销自动化(CDP+MA)等产品模块。


郝杰表示,明智中台将是今年研发部门的发力重点,会在这个底座上方做一些偏前端的应用,可以使其灵活地、积木式地组装明智中台上的能力,低成本地快速包装成一些面向客户的创新产品。


“如果没有明智中台,我们的产品矩阵就变成了一大片独立的产品了,彼此之间关系不大,各自为战,这样产研效率比较低”,郝杰说道。


有了明智中台,就可以把众多的前端产品或应用产品中的众多模块间的相同点做抽象,把共通的部分沉淀在明智中台里。例如,很多应用产品模块中都具备搜索、推荐、问答、数据分析等功能,专门的团队将这些功能下沉到明智中台,一次性封装好,就像积木一样,做成一个个公共组件(Common Building Blocks,CBB)。


明智中台,就成了公共组件的集合体,应用产品经理可以根据用户需求,选择明智中台中的若干个 CBB,进行简单的、轻量级的封装,来实现产品功能。这样,产研效率就大幅提升,而且降低成本,提升了标准化产品的毛利率。


郝杰表示,他加入明略后,带领研发团队的一个重要的工作目标是打造标准化的产品。“只有标准化程度高了,复用率才高,才能从一个场景迁移到另一个场景,从一个行业迁移到另一个行业,且在迁移的过程中,降低定制开发或二次开发成本,提高毛利率”。


在 TO B 行业,打造标准化的流程尤其重要。因为 TO B 行业的客户经常有五花八门的需求,但如果企业一直难以拒绝一些定制化的开发需求,久而久之,To B 软件开发公司就沦为客户的外包公司,自身收入的毛利率也会因此降低。明略科技正在打造一套 IPD 集成产品开发流程,聚焦标准化产品打造,这套流程能够将标品的需求和定制开发的需求区分开来。

明智工作:提供会话智能的 AI 能力


接下来,郝杰及其团队在应用产品上的重点将主要放在明智工作上。


在秒针和明略数据时期,在过去十几年服务各行业客户的过程中,明略科技发现,各行业的企业对营销服务流程透明化的需求增加。企业希望员工的销售过程可以量化测量,“可见可测”能够驱动提升成单率和客户的满意度,这正是明略工作这款产品诞生的背景。


明智工作的核心是会话智能的 AI 能力。明智工作基于腾讯企业微信,帮助各行各业的销售解答用户的问题。利用数据和会话分析,帮助销售做销售管理、商机转化、销售卡点、销售旅程等。通过会话智能的 B2B 产品,可以帮助销售快速、低成本地获取营销过程中的素材、话术等以获取知识,捕捉最佳销售话术、销售实践等,加以推广,提升整体销售效率。


明略科技推出的软硬一体化的会话智能产品“灵听”,可以针对线下门店做语音收集、识别、转写、分析,销售最佳话术的赋能培训等。例如在线下的连锁药店或商场中的化妆品柜台店员,有一部分佩戴着明略科技的智能语音工牌。这些店员的销售过程会被录制下来,上传到服务器,进行数据的收集、整理和分析,帮助销售解答顾客的问题。


上述应用场景背后采用了声学、语音识别、语义理解、意图识别、话术理解、质检等 AI 技术。其中,声学和语音识别技术是明略科技的特色技术,在处理智能语音工牌数据的服务器上,运行的都是明略自己的声学和语音识别算法,针对线下门店的声学环境,就录音环境、混响音响等声学条件做了专门的定制优化,也针对线下门店所需要的销售赋能、销售增强的一系列流程 SOP 做了专门的调优。“这样达成的语音识别就不是通用的语音识别了,而是线下会话智能专用的语音识别,识别率明显高于供应链上的第三方”,郝杰说道。


郝杰表示,与服务于 To C 赛道的手机语音助手、智能音箱等需要唤醒的被动机器人不同,明略在 TO B 赛道上强调的是主动机器人。


在企微侧边栏,明智工作可以预制主动机器人, 相当于人类的助理。侧边栏的主动机器人会“跳”出来帮用户解答问题,它能实时监听对话,并从中挖掘关键词,这些关键词会作为搜索查询词,搜索后台的文档库、话术库、素材库、产品库、聊天问答的剧本库等,搜索到一些相关的能够“命中”问题的文档,构建出搜索页面里一个短的列表,在侧边栏上,用户只要一点鼠标,就立刻发给对话者。

落地之道:“贪食蛇”策略

会话智能产品如何实现应用落地?


如果用一个坐标轴来表示,横轴的长度代表垂直行业的个数,纵轴的长度代表场景的个数,那么,垂直行业乘以水平的场景构成的二维平面上会被划分成 N 个格子,一个格子代表一个细分行业、细分场景。


这就是明略科技的会话智能产品的应用蓝图,明略希望,未来能够覆盖到整个二维平面 80%以上。


郝杰详细介绍了这个应用蓝图的实现路径。


“我们采取‘贪食蛇’的策略,围绕着头部行业、重点场景,逐步提升扩展覆盖率”,选择三到五个头部(重点)行业、三到五个重点场景,在二维平面上,就选择了一个相对聚焦的由十几个方格构成的局部(蓝图)。就像玩‘贪吃蛇’游戏,就近吞并。这与人工智能的贪心算法类似,先‘吃’下来一个行业头部的几个重点场景,把几个大客户拿下来。之后,行业中的中长尾的客户也就能拿下来了,采取头部带动中长尾这样的扩张策略,实现对场景逐步覆盖”。


在多行业、多场景、大范围的应用会话智能过程中,常常遇到一些挑战,例如,如果技术识别率或准确率上不去怎么办?很多 To C、To B 的公司做智能类的应用常常会遇到的一个技术瓶颈是,准确率做到百分之八十就上不去了,这样的准确率,用户并不会买单。


在这种情况下,要提升识别率,就需要挖掘特定场景下的行业知识、先验知识。通常,要先进行标签化,因为人类的认知就是从简单的分类给事物打标签做起的。因此,在先验知识或行业知识中,最重要的就是分类标签。在明智中台里,有各种各样的标签,如客户中台里的客户标签,业务中台里面,与业务流程相关的标签等。目前明略已积累了各行各业各种场景下数量庞大的标签。


此外,还需要在算法和标签库的先验知识的基础上做改造。比如,语音识别算法,在没有线下门店相关行业和场景的标签库前提下就是一个通用的语音识别标签库。把标签库里的这些词汇预先编入到通用的语音识别词典中去,就构建出一个包含了新词、热词的更大的搜索网络。


“在此基础上,针对专门性的场景,通用的语音识别率、准确率可能在 60%-75%之间。而依靠对场景的理解和建模,依靠这些先验知识,能将识别率拔升到 75%-90%之间”,郝杰表示,这是明略科技在 To B 赛道上的生存之道。

会话式 AI 的发展现状和趋势


现阶段,不止明略,会话智能是很多企业尤其是大厂竞相布局的赛道。


不过,现在关于会话智能,还没有一个相对成熟的定义。郝杰认为,会话智能就是在工作会话流中,在人与人交流过程中,能适时出现的一些辅助智能。


值得注意的是,在业内,一种说法是对话式 AI,明略将其翻译成会话式 AI。会话和对话有什么区别?字面意思上看,对话对应的英文单词是“dialog”,会话对应的是“conversation”。


另一方面,“会话”和 To C 领域的“对话”不同。To C 赛道更多的是人机之间的沟通,AI 就是一个语音助手。而 To B 赛道中的会话智能本质上是人与人之间的会话,如单聊、群聊等,它不应该受到太多的机器打扰。“如果机器能够提供一定的智能,这种智能最好是在需要的时机悄悄出现,然后悄悄退下去,因为它只是一种辅助性的智能”。郝杰表示。


它辅助的仍然是人和人之间的沟通。它以人类助理的形式出现。人类助理能做到的事,尽可能的让机器助理做到。与等人呼唤才出来的助理(被动机器人)不同,明略的主动机器人“蹲守”在所有的会话聊天过程中。在人人沟通的过程中,如果能在侧边栏或者某一个角落预置一些主动性的机器人,实时推荐一些与业务流程密切相关的知识和信息,对提升交流的效率很有帮助。

写在最后:AI 落地一定要落在实处


“像我这种一辈子搞 AI、搞算法的人,我们比较相信算法和知识的结合。如果光搞算法,抛开场景,抛开行业认知,就搞不好 AI”。采访最后,郝杰谈到了包括会话智能在内的 AI 技术的未来。


郝杰认为,“AI 一定要落在实处,做 AI 一定要追求它能落地成功。不要做飘在天上的‘阳春白雪’。这要求我们一方面吃透算法,一方面要融会贯通知识,通过深耕行业实现融会贯通”。

2022-08-04 10:503620
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 538.8 次阅读, 收获喜欢 1977 次。

关注

评论

发布
暂无评论
发现更多内容

Python基础之:Python中的类

程序那些事

Python Python3 程序那些事

在npm发布自己的组件

空城机

JavaScript 大前端 npm 4月日更 自定义组件

MySql数据库列表数据分页查询、全文检索API零代码实现

crudapi

全文检索 API crud crudapi 列表查询

Hexo + Material + Github 搭建博客

U2647

博客 4月日更

业务随行:用户的网络访问策略还能这么玩

华为云开发者联盟

网络 通信 安全组 IP地址 业务随行

今天是个开心的日子

return

CMS前世今生

叫练

CMS JVM 垃圾收集

飞桨与龙芯完成兼容性认证

百度大脑

飞桨

Kubernetes 稳定性保障手册 -- 可观测性专题

阿里巴巴云原生

Serverless 容器 云原生 k8s 存储

那些我磕过的音视频项目总结

梅芳姑

清明节特辑 |记忆存储、声音还原、性格模仿……AI可以让人类永生吗?

华为云开发者联盟

AI 语音合成 清明节 对话机器人 VR/AR

短视频编辑:基于ExoPlayer可实时交互的播放器

梅芳姑

重磅官宣:Nacos2.0 发布,性能提升 10 倍

阿里巴巴云原生

Java 容器 微服务 云原生 应用服务中间件

Python OpenCV 之图像乘除与像素的逻辑运算,图像处理取经之旅第 17 天

梦想橡皮擦

Python OpenCV 4月日更

2021年Android面经分享,赶紧收藏!

欢喜学安卓

android 程序员 面试 移动开发

程序员面试指北:如何更高效的准备面试

邴越

Java 面试 求职 招聘

NAC公链主打应用而生的NA(Nirvana)公链有什么过人之处?

区块链第一资讯

自己搭建一个语音聊天室

anyRTC开发者

ios android 音视频 WebRTC RTC

Serverless 可观测性的过去、现在与未来

阿里巴巴云原生

Serverless 容器 开发者 云原生 调度

【LeetCode】直方图的水量Java题解

Albert

算法 LeetCode 4月日更

2021年Android工作或更难找,原理+实战+视频+源码

欢喜学安卓

android 程序员 面试 移动开发

定义边缘计算架构需考虑的三个方面

边缘计算

如何实现微信8.0爆炸和烟花表情特效

梅芳姑

SCF—BSS3.0的“公路网”

鲸品堂

工具 框架搭建 流式计算框架

8x Flow 业务建模法(一):你能分清业务和领域吗?

胡皓

领域驱动设计 DDD 架构设计 事件风暴 业务建模

百度智能云发布云智一体的AI开发全栈模式

百度大脑

百度智能云

实时数据仓库的发展、架构和趋势

网易数帆

数据仓库 实时计算 实时数仓 iceberg 批流一体

Rust从0到1-所有权-引用和借用

rust 引用 所有权 借用

OpenTelemetry 简析

阿里巴巴云原生

容器 开发者 云原生 k8s 监控

Netty HashedWheelTimer 时间轮源码详解

Yano

Java 架构 Netty

用DeBug的方式,带你掌握HBase文件在Snapshot的各种变化

华为云开发者联盟

HBase 元数据 数据迁移 数据备份 Snapshot

明略科技CTO郝杰:会话式AI应该是“静悄悄”的辅助智能_AI&大模型_刘燕_InfoQ精选文章