AI 从 2012 年开始热度一直居高不下,俨然成为 IT 行业的新宠,与各行各业的结合也成为 AI 落地进程中的主流方向。AI 技术如今已经成为 IT 行业的新宠,与各行各业的结合也成为 AI 落地进程中的主流方向,智慧城市的最新发展和现状是怎样的?如何更好的实现云上强大 AI 能力的价值落地?NLP 和对话机器人有哪些典型落地场景和未来趋势?
12 月 21 日上午,在 AICon 全球人工智能与机器学习技术大会「华为云 AI 技术应用和实践专场」上,来自华为云三位技术专家分别就“华为云自然语言和对话机器人技术详解和应用场景”、“AI+城市智能体:聚焦新一代智慧城市的 PISC 架构”、“华为云 HiLens:端云协同 AI 平台,助力企业快速智能化转型”主题详解了相关技术与应用。InfoQ 对本专场的精华内容做了部分梳理和总结,相关的 PPT 下载和视频将在本文中以链接的形式分享给大家。
自然语言、对话机器人技术详解及应用场景
随着智能助理、对话机器人、智能音箱等产品的兴起,NLP 的风口正在到来,NLP 领域突破不断,预训练模型的出现,迁移学习和多模态被越来越多的普遍使用,企业市场也涌现出丰富的应用场景。语言理解成为人工智能皇冠上的明珠。在华为云 Andy Yao 的演讲中,他整体梳理了华为云自然语言、对话机器人技术详解及应用场景。
1. 语音语义技术发展历程
人类使用自然语言沟通的逻辑是:听到——>理解——>回答,而从计算机的角度,要想实现语音语义识别,需要 4 项技术与之对应:语音识别 ASR、语言理解 NLU、语言生成 NLG 和语音合成 TTS。
语音识别的发展:1952~1990 年是模板匹配阶段,主要针对小词汇量、孤立词识别;1990~2010 年,开始用统计模型做语音的识别;到了 2010 年以后,基于神经网络的模型如 CTC 出现,让语音识别的模型变得非常清晰简单;最近几年出现的 attention demo,效果可以达到商业化应用标准。
语音语义技术在行业的应用:一方面是虚拟的个人助手,另一项重要应用是智能客服,三是公司内部 IT 热线。
2. 智能语言和对话机器人的应用
Andy Yao 介绍道,华为 EI 语音语义团队基本上覆盖了三方面的线上服务,一是自然语言处理服务,包括 NLP 基础能力如分词,文本相似度等,也包括语言生成、语言理解、知识图谱、机器翻译等高阶能力;二是语音交互服务,包括语音识别,语音合成、语音扩展的能力;三是更加智能的交互技术,包括多轮问答、电话机器人等。
对话式智能在企业场景中的应用
对话式智能在企业中的应用,包括售前引导、售后服务以及智能外呼。其中,售前引导通过智能导购多轮对话,增加商业机会并减少运营成本;售后服务通过故障问答、售后咨询等提高客服效率,提升服务体验;而智能外呼由机器人自动执行外呼电话任务,例如营销、满意度回访,预约等,并自动生成呼叫语义报告,提升企业运营效率和客户满意度。
在构建整个解决方案时,迁移学习在 NLP 领域可以解决很多场景的问题,这一点被越来越看好。比如开发者训练了某一个特定领域的模型,并积累了大量数据,但是当进入新领域时必然面临到现有数据少的难题,而通过迁移学习则可以把训练好的模型迁移到新的场景上,用现有的、较少的数据训练出好的模型,从而解决客户的问题。
智能对话分析/质检
在呼叫中心里,尤其是呼叫量比较大的时候,需要分析客服与客户的互动是否符合规范,以前都由专门的质检人员监听录音反馈信息。现在可以用机器替代人工,用自然语言理解和语音识别去做全量质检,不仅可以得到质检的结果,还可以得到商业的分析,用客户提供的反馈优化产品。
自然语言的情感分析
华为 VMALL 商城里面有大量的用户评价,对于一个公司来说,了解用户真实的反馈是非常有价值的,对商品评论自动过滤,负面评论供人工审核解决问题;对于属性级别的情感分析,辅助细粒度商业分析和决策。
3. 语音语义未来发展趋势
NLP 会迎来黄金 10 年。华为云致力于把学术界最前沿的技术应用到商业场景里面,解决客户的具体问题。
Voice UI 会成为下一个趋势,聊天机器人将无处不在。现在越来越多的应用场景,各种不同的垂直领域都会有聊天机器人代替人工做一些工作,无论是售前咨询、售后服务、辅助购买等都会有机器人去引导你,辅助你把这个流程走完。所以习惯与机器人互动是接下来每个人要做的事。
未来五到十年,机器人会具备分析大量文本的能力。从阅读、分析、理解到最后生成一个总结报告,所有的内容都是由机器人去完成。
情感化、个性化的定制成为流行。高德地图中,使用明星语音引导就是例子,未来会有越来越多定制化的语音需求,满足不同场景的应用。
AI+城市智能体:聚焦新一代智慧城市的 PISC 架构
第二位嘉宾是华为美国研究所技术副总裁、城市智能体首席科学家齐国君从城市智能体的角度,以智能交通为例,系统地介绍了基于人工智能技术的 PISC 架构在交通态势感知(Perception)、推理(Inference) 到决策(Strategy)和控制(Control)上的应用。此外,他还详细讲解了基于胶囊投影的深度学习算法(Capsule Projection Networks)、交通图计算(Graph Computing)以及各种交通策略以及控制算法的实现。
1. 智慧城市发展现状
智慧城市最早起源于 2008 年 11 月 RBM 提出的智慧星球,直到 2012 年,RBM 陆续从智慧星球概念中推出智慧城市。也是在 2012 年深度学习技术在计算机视觉取得非常大的成果后,智慧城市的落地应用才变得可行起来。
有一个最经典的智慧城市解决方案——PC,P 就是感知,C 就是控制。通过对交通路网上的交通流进行实时分析,对交通流在不同的入口,甚至精确到不同的车道上的情况都有一个精确的感知结果。根据感知分析的结果,对路口的红绿灯进行流量控制,比如通过调节感应率的时间,实现最小化等待时间,防止出现二次排队的现象,从而制定合适的红绿灯方案。
但 PC 结构是有本质上的缺点。一是 PC 得到的感知结果实际上是局部的,缺少对全局交通态势的认识。二是对于交通动态变化的分析和控制,由于规则不固定,很难做到最优的策略。三是认知与决策的鸿沟。也就是如何把感知上升到认知,并且把认知翻译成能够执行的策略和控制的方法。
为了解决这三个问题,华为云在 PC 结构基础上构建出一个 PISC。
2. PISC 总体架构
PISC 就是在 PC 结构基础上,在 P 与 C 之间加入 I(推理)和 S(决策)。
加入 I(推理),目的是把局部的感知信号叠在一起形成全局交通态势的认知。比如对单点的交通流的信息推理,如何发现拥堵的区域,如何找到早高峰的数据,如何发现出入口的拥堵,不仅需要对当前态势进行推断,还要对交通态势随着时间的变化进行预测。
把认知结果翻译成 S(决策)。在决策里非常需要交警的专业知识和经验的引入。结合 AI 的控制技术、控制手段,形成一整套策略,并把策略通过红绿灯信号或者是导流屏或者导流短信实施下来。
现在最常用的感知技术是摄像头技术,在此基础上提出新的一种更加高效的、精度更高的深度学习框架——胶囊投影。其思路是:分类,对每一个类别做一个胶囊子空间,每个子空间有特定识别的语义。做投影之后,它的长度跟角度利用胶囊网络最核心的思想,可以得到胶囊投影进行分类。在不改变网络复杂度的情况下,以网络的容量、参数规模和运算时间来做度量复杂度。在同样复杂度下能够比其他深度学习的网络分类准确率提高 20%以上。
另外,利用多模态的数据对多模态进行感知。选择多模态。一是因为电警数据有死角,需要结合其他多传感器的数据,比如地磁跟雷达数据,扩大探测范围,形成互补;二是要采集浮动车数据。利用浮动车数据,把浮动车低采样、低密度的数据恢复成高采样、全路网的数据。
智能交通决策控制是把认知的信号通过推理的方法上升到感知跟语义信号的高度之后,就可以识别出来拥堵区。为了把语义地图转换成可以执行的控制交通策略,首先要把语义地图做一个表达,通过语义地图原始输入的 data,把它翻译成交通地图做一个全景表达的 representation,在这个过程中可以把专家的知识输入进去,就是 Graph 作为输入,然后专家的指挥数据作为一个输出,作为有监督的训练,这种方法是一种模仿型的自动决策的方法。
除了模仿型方法之外,我们也可以利用强化学习的方法,强化学习仍然是基于 Graph Representation 全局的表达,但是这个时候不是用专家的知识,而是用全区的可以评估的指标。
这两种方法可以融合起来,既可以把专家给出来的指挥策略作为信号,也可以用 AI 技术、强化学习来训练神经网络。
PISC 方案已经在很多城市进行试点,有的已经进行全方案的部署。以一个北京路口为例,利用 TrafficGO 系统把平均延误时间下降 25%,全干道平均延误下降 15%,这是用第三方浮动车数据测出来的结果,可见人工智能技术在试点的路口已经取得了好的结果。齐国君博士在演讲中提到,随着智慧城市建设的大力投入和深入开展,EI 人工智能技术在高效疏导交通拥堵,提高城市出行效率,及时响应交通事故和其他紧急事件,快速建立应急车辆的绿色通道,以及保障和提高民生, 建成人和生态环境和谐发展的智能城市体等方面发挥关键性的作用。
华为云 HiLens:端云协同 AI 平台
在 AI 技术实际落地过程中,诸多场景如摄像头智能监控、医疗影像分析、智能车载系统等遇到数据上云成本高、计算延时大、隐私风险、AI 应用开发上手困难、AI 应用本地维护困难等挑战,极大的阻碍了云上强大 AI 能力的价值落地。因此,将云上 AI 能力便利的部署到离应用场景更近的边缘或终端设备上,能很好解决这一系列问题。在 2018 年 10 月召开的华为全联接大会上,华为云重磅发布了一站式视觉 AI 应用开发、部署和管理服务平台——HiLens,以解决当下“端-边-云”场景下亟待解决的开发问题。
在本次大会现场,华为云 HiLens 研发负责人魏磊也带来了相关演讲,详细拆解了 HiLens 平台架构及关键能力。演讲伊始,魏磊先整体讲解了华为云 EI 布局,并引入对 HiLens 的介绍。
目前,云上 AI 服务落地依然存在很多的问题和挑战,主要的五项包括成本、延时、场景、隐私及边缘端侧 AI 应用的部署和维护难。针对高成本、低延时、复杂场景、数据安全和部署维护等问题,华为云推出了 HiLens 平台服务。
其主要能力包括:一、可以管理高达百万量级的设备;二、通过在算法和业务层面将 AI 的应用拆分成端的部分和云的部分。以摄像头监控行业为例,在家用摄像头上可以做人形、人脸比对、家庭成员的搜索等等,华为将预处理或者基础的能力放在低成本的摄像头上,然后输出小图传输到云侧进行比对,并在端侧把大量的数据忽略掉,所以成本会大幅降低;三、HiLens 平台构建的也是一个 Skill Market 的生态,到 2019 年,华为和第三方合作伙伴开发的针对各个行业的几百个技能、应用,都会放到 Skill Market 里。
HiLens 的整个平台架构主要分为三个部分,最上层是针对行业已经实现的应用,下层分成端侧和云侧,端侧主要是基于不同的芯片、不同 OS 系统开发的整个 AI 技能在端侧运营的软件,包括算法成本和库、基本图像、语音处理的部分软件等,通过一套叫 Skill Framework 的服务提供给开发者,开发者可以简单高效地可以在端侧运行应用或技能;云侧主要提供边缘设备的管理,也包括应用开发和数据的管理。例如,在设备上产生的数据可以从端侧软件推到云侧做一个视觉化存储。
接着,魏磊还系统梳理了 HiLens 平台所包含的几大特性和关键能力:
一、针对 Skill 生态的开发者做 Skill 服务。模型依然是 AI 应用开发的核心,在华为云上, 模型的开发可以使用 ModelArts,或者通过线下的导入到上面来,然后通过 Framework 将模型打包成技能,就可以下发到 HiLens 支持的边缘或者终端设备上。
二、端侧算法开发框架 Skill Framework 检测。Skill Framework 封装了视频分析算法基础组件,如图像处理、推理、日志等,开发者通过少量代码即可开发自己的 Skill,同时,HiLens 还可结合芯片进行性能优化,提供 Python 和 C++接口,在 HiLens 平台上开发的 Skill 可以运行到任何基于华为海思芯片的设备上。
三、模型优化、自动模型转换及压缩能力。包括网络蒸馏、通道剪枝、权重稀疏化、量化、模型转换等。
四、上文中所提到的丰富的 Skill Market,方便模型快速构建。
五、设备实时采集视频流传输到云端,可视化管理多路视频流。
目前,HiLens 具备非常丰富的应用场景。例如,在智能园区中可精准追踪行人轨迹、识别车牌 &车型等;在智慧家庭中实现陌生人告警、异常声音检测等;此外,在智能车载、智慧工地等场景中,HiLens 也可以发挥其功用,达成对疲劳驾驶检测、安全和姿态监测等。
评论