万字长文:用人工智能技术打造虚拟生命

2019 年 10 月 28 日

万字长文:用人工智能技术打造虚拟生命

导读:近年来,作为人工智能时代的入口级产品,聊天机器人得到了快速的发展,然而从用户体验上来看,大多数产品都远低于大众预期。本次分享,将分析聊天机器人产品所面临的技术和落地难题,引出聊天机器人的下一代范式-虚拟生命,并详细阐述如何使用人工智能技术,包括语音、图像、自然语言处理以及知识图谱技术等,打造具有认知智能的虚拟生命。


分为 4 个部分:


  • 聊天机器人困境及破局

  • 虚拟生命核心技术及落地

  • 工程实践中的其他问题

  • 结束语


聊天机器人困境及破局


1. 分享两个观点


1.1 人工智能技术真的很牛



左上角列出的是 DeepMind 出品的 AlphaGo,它打败了世界最顶尖的选手,后续又出了很多新的版本,又打败了柯洁;左下角是 IBM 新出的辩论机器人,辩论机器人可以和人类辩手针对某个问题进行辩论,战绩也非常不错;中间是大家熟悉的波士顿动力机器人,可以完成各种复杂动作;右边,是把人工智能技术用在游戏中,比如星际争霸二。所以大家就会有种感觉,人工智能技术真的是上天入地,无所不能。既然人工智能技术和深度学习技术已经如此优秀了,是不是所有问题都可以解决呢?答案当然是否定的。比如 AlphaGo 可以下围棋,但是不能端茶倒水。有人开玩笑说,战胜人工智能最好的办法就是把它的插头拔掉。


1.2 聊天机器人好傻


举例来说,前段时间亚马逊爆出“隐私门“ – 亚马逊音箱 Echo 在半夜突然笑了一声,把用户吓得半死。也就是说,Echo 在不停的监听用户的语音。市场上还可以看到其他的智能音箱产品,如小米的“小爱同学”,我们自己做的“公子小白”,“叮咚音箱”,“天猫精灵”,还有百度带屏的“小度在家”,还有很多叫不上名字的。市场上充斥着大量的机器人产品,但无一例外都是“不智能”的,尤其是在多轮对话中。虽然小冰已经做到了第六代的情感引擎技术,但我们在与小冰聊天的过程中,还会发现很多矛盾的、上下文不一致的点。为什么聊天机器人做不好?这就是我们想要聊的核心。我们期待机器人能够模拟人类对话,在这个过程中,需要什么样的技术积累呢?我们看一下 2018 年最新的 Gartner 技术曲线


2. Gartner 技术曲线



蓝色的点,表示 5-10 年可以达到成熟的技术;黄色的三角形,表示超过 10 年才能成熟的技术。知识图谱技术和通用人工智能技术,是达到机器人和人类自由对话中必不可少的技术。知识图谱目前处于上升初期,还需要 5-10 年才能成熟;通用人工智能,也处于初步阶段,需要 10-20 年做到成熟。


可以看出,在做产品过程中,技术的发展是不匹配的,远没达到人类需要的期望值。尤其是在做聊天机器人的过程中,需要用到自然语言处理 ( NLP ) 技术,目前也没有办法实现真实的自然交互。


3. NLP 为什么这么难


周明老师说过,语言智能是人工智能皇冠上的明珠。人工智能技术在深度学习的加持下,在图像、声学中都取得了重大突破,但在语言智能技术上却有很多阻碍。


举例来说,《绿林俊杰》是一本武侠小说,但百度贴吧里林俊杰粉丝却开始炸锅,说林俊杰最近做了什么事情,为什么被“绿”了?这也是 NLP 较难解决的问题。



再如右边的例子,这是一本讲什么的书?还有:男生和女生表白,“我好喜欢你哦,可不可以亲亲你”,女生说“不要脸”,男生说“那我亲嘴好了”,这就是在理解过程中,人类都容易犯的错误,存在很多歧义。这就是为什么 NLP 如此难做的原因。


4. 人是怎么对话的



我们想模拟人类对话的过程,但人类是怎么对话的呢?


上图是我梳理的人类对话要素。比如我是男生,我对一个女生说,“今天天气很不错”,这句话代表的意思和很多因素有关:这句话的上下文是什么;我和这个女生是什么关系;我自己的静态世界观是什么;我现在的情绪;我们现在所处的环境等。如我上午坐电梯的时候,电梯非常挤,对女同事说,“今天天气很不错”,是为了化解尴尬;如果这个女生是我的女朋友,我的意思可能是,“今天天气很不错,要不我们出去玩儿”;如果是分手多年的女友,在大街上偶遇,“今天天气很不错”,就很可能代表“你最近过的好吗”。在不同的场景、上下文中,同样的句子会代表不同的含义。


目前的聊天机器人,是通过文字来猜测人类对话意图的。而人类有强纠错功能,如在回答提问者的问题时,会根据接下来的回复,来纠正对意图的理解偏差,但机器人做不到。机器人回复效果做的最好的,是用 IR ( 信息检索 ) 技术,从大量语料库中,检索出比较合适的回复语。这也是为什么单轮对话可以做的很好,多轮对话做的差的原因。


微软亚研的宋老师,从事小冰的研发,有一天问他母亲 ( 非 AI 相关从业者 ) 说,“如果机器人可以打败人类最顶尖的围棋选手,你觉得机器人厉害吗?”。他妈妈说,“厉害”。又问说,“如果小冰机器人可以和你聊天,那这个技术厉害吗?”妈妈说,“不厉害”。宋老师问为什么,母亲回答“不是每个人都会下围棋,但每个人都会说话啊”。可以看到,人类已经是非常擅长说话了,让机器来模拟人类对话,是非常困难的一件事。


5. 时代 VS 入口


作为一个 80 后,我经历了 4 个时代:


  1. IT时代,我当时有一台386电脑,16M内存,玩DOS版的仙剑奇侠传。

  2. 互联网时代,有了Google搜索,可以和世界各地的人聊天,当时用MSN和网上的人练习英文。

  3. 移动互联网时代。它的到来,是随着iPhone的出现到来的,发生了两件事情的变革:效率的提升和交互方式的改革。效率的提升,使得很多事情在手机端解决,可以实时点餐,实时叫车,这是在互联网时代无法实现的事情。交互方式的改变,我们习惯使用触摸、语音的方式和机器交互。

  4. AI时代,以微软CEO纳德拉代表性的一句话说,人工智能时代的入口是语音技术、语音产品。人类是最擅长用语音聊天的,AI时代,一定会出现一款以语音交互为入口的一款产品。


每个时代都有一个入口:


  • IT时代的入口:PC电脑

  • 互联网时代的入口:浏览器

  • 移动互联网时代的入口:触屏手机

  • AI时代的入口:语音交互类产品


每个时代都会诞生一家伟大的公司:


  • IT时代:微软

  • 互联网时代:Google

  • 移动互联时代:Apple

  • AI时代的伟大公司,现在还不知道。现在都是在争抢入口,无论是天猫精灵还是小米,都是想占据入口


6. 聊天机器人体系



下面跟大家聊一聊聊天机器人,从聊天机器人的体系开始说起。包括三个方面:1.框架;2.产品;3.平台。


  • 框架,用来实现产品的框架,比如用亚马逊的alexa实现了Echo音箱;

  • 产品,我们能看到或者使用到的终端,比如小冰或者siri;

  • 平台,小冰这款产品是没有硬件形态的,所以需要一个平台来承载这样的产品形态,所以会诞生微信、微博这样的平台,来承载小冰。把这些平台称为聊天机器人的平台。


从产品的分类看,产品分为主动交互和被动交互:


  • 主动交互是更进一步的智能化产品,可以主动推荐、关怀、提醒,这部分不在我们今天的讨论范围,现在每家都做的不好;

  • 被动交互方面,是大家见到的主流聊天机器人,被动交互是一问一答的形式,又可分为闲聊、任务对话、问答三个部分。


下面聊这几部分产品是如何实现的:


  • 闲聊很简单,比如我跟机器人说“今天天气不错”,机器人回复,“今天天气也很不错”

  • 任务对话,比如订票,是为了去完成某个目的,“给我订张票“, “查下某个人的电话号码”,“今天天气怎么样”。

  • 问答,是想要得到具体的答案,比如“特朗普的妻子是谁?” “姚明的女儿是谁?” “珠穆朗玛峰有多高?”基本上都是一问一答。


问机器人,“你知道大川的电话号码吗”,机器人回答“知道”,再问“能告诉我大川的电话号码吗?” 机器人答 “可以”。这句话本来是任务型对话的,想要大川的电话号码,但机器人用安全的回复来闲聊,这是无意义的对话,也是聊天机器人中存在的问题。


7. 三要素



人工智能三要素:算法、算力、数据


chatbot 三要素:人工 > 数据 > 算法


人工堆一些规则,用大规模的 QA 数据,就能做到非常好的效果。完全不需要任何算法的加持。也有可能会需要检索的算法,怎样用 index 的方法使数据库的检索更快。但目前还是以人工和数据为主,算法排在最下面的层次。


8. 人工智能的人格化和 IP 化



既然 chatbot 的效果这么差,用什么方法来破局呢?怎么让 chatbot 更加有吸引力?这就是人格化和 IP 化。如在 chatbot 中植入智能的 IP,比如王俊凯,吴亦凡,比如大白,这对于粉丝和非粉丝的吸引力都会提高。


9. 多模态交互


另外,可以通过多模态交互,使得交互更生动,如手势交互、视觉交互、语音交互,还可以看到动作、视频、形象,用这种多模态的方式来吸引用户,这也是可以优化机器人表现的一种方式。这就是为什么在讲聊天机器人的下一代范式,一定是虚拟生命的形态。



虚拟生命核心技术及落地


虚拟生命,是用人工智能技术来描述虚拟生命的主要特征,利用多形态和多模态进行交互,具备强大的感知和认知能力,并进一步实现自我认识和自我进化。虚拟生命,最早提出是在 2017 年 CCF 的 paper 中,讲虚拟生命应该具备的能力。


1. 人工生命:人造生命 VS 虚拟生命



生命分为两种:生物学上创造的碳基化合物;另一种是计算机技术创造的硅基生命体。这是在生命的定义上所走的两条不同的路。


2. 虚拟生命能力范畴



可以看下虚拟生命应该具备的能力,包括看、听、说、动作,进一步会拥有思考的能力。


3. 虚拟生命技术范畴



分解到细节,有两种范围:


  • 基于认知的多模态交互;

  • 具有生命感的表达。


接下来的内容重点讲图像、声学、知识图谱、NLP,以及在歌曲上的技术落地。


3.1 语音技术:耳朵和嘴巴


首先看语音技术。语音技术相当于虚拟生命的耳朵和嘴巴,因为要听人类的语言并转化成文字,这也是大家熟知的语音识别,ASR。国内有多家公司,讯飞是目前较好的一家语音识别公司。语音合成也涌现了很多用深度学习做语音合成的公司。在深度学习之前,一直在用传统的方法进行语音的合成,随着深度学习方法的出现, 语音合成技术的门槛大大降低,相关资料很多,这里不细讲。


3.1.1 个性化语音合成



个性化语音合成。语音合成分成三个部分,第一部分是前处理,最后一个是后处理。中间的是算法,分两个部分:端到端的深度学习算法,vocoder 技术。图中是 seq2seq 的语音合成技术的算法,称为 Tacotron,现在已经有了第二代。百度的 Deepvoice 也有类似的算法,功能实践中,现在看到的还是以 Tacotron 的技术为主。在语音合成的技术中,虽然能快速搭建框架,但真正在做语音合成的过程中,需要花费 3 个月的时间,才能真正做好。在聊天机器人的实现过程中,对语音合成速度有极高的要求,如对不同的语音秒数,5 秒,10 秒,有不同的要求,如低于 50ms、100ms 的语音合成技术,这就考验了整个 seq2seq、声码器的处理效率;还有在前处理过程中,如何处理更多的多音字,比如“你好”,这个词中,你读三声 ( 汉语声调有 6 种,升平阳平上声去声,外加轻声和 3 转 2 )。你在“你好”中的发音为 2 声。


3.1.2 后处理优化



可以看到汉字中有很多变调的情况出现,所以要针对这个情况做处理,还需要针对不同的设备,如在手机端或者电脑端播放,做不同的后处理。这也需要花大量的时间调整。如在后处理优化的时候,左边的图,是优化前的图,在合成男声的图时,发现男声比女声的难合成,通过一些处理方法,把左边的声谱图,变成右边的声谱图,使声音更加均匀。所以称声音处理师为百万调音师。类似于演唱会上的调音师的功能,声音调整成到和硬件最匹配的状态。这些是在声学上的落地。


3.2 图像技术:眼睛和身体


再看图像技术,图像技术相当于虚拟生命的眼睛和身体,因为图像技术中有计算机视觉,可以通过摄像头看到场景和用户,这是在人脸识别、场景识别用到的技术。还有个技术是 3D 重建技术,可以根据动漫的原型图,或者照片, 来自动生成 3D 模型,通过一定的加工,可以把身体生成出来。由于 3D 也属于图像技术,非常成熟了,不再多说。大概说下在 3D 重建中使用的方法。


3.2.1 人脸重建



人脸重建中,目前用的最主流的方法是这样的,分两个工作流,上面的是在做 3D 模型,下面的是在做 shader 渲染 ( 想象石膏像,希腊图像中有很多白色石膏像,如果我们想把石膏像中用颜色把鼻子、眼睛、耳朵涂出来,这就是 shader 渲染 )。石膏像生成、把纹理贴到石膏像上,就可以生成最终的 3D 模型。Git 上有开源的 PRNet,3DMM 等经典算法,大家可以看下。


3.3 NLP 技术:基本交互



NLP 技术解决的问题是聊天机器人的基本交互,分为 5 个模块,核心的有 3 个:NLU、NLG、对话管理。整个交互模式是通过一个输入,到理解判断意图,到对话管理中解决槽位填充,到 NLG 中生成比较自然的回复,输出给用户,这是我们在 NLP 基本交互技术中的经典框架。


3.3.1 问答



问答时,聊天机器人分为 3 类:闲聊、问答、任务对话。问答是一问一答,如果是用最简单的方法正则模板,可以在代码中写很多正则模板,来一个 query 在正则模板中匹配,然后在建立好的字典库中,查找“科大讯飞”属于哪个字典库,最后查到属于 Firm 的名称,直接把科大讯飞的实体抽取出来,然后查已经建立好的数据库,比如建立了一个 key 和 value 的数据库,分别对应每个公司的股票代码,就会查到答案是 00230。这就是问答的最简单的做法。在做问答的过程中,还有语义解析、文本解析等方法。检索性的做法是在工程中用的最多、也是最有效最简单的方法。


3.3.2 对话



对话是一个任务型的对话,是为了解决带有目的性的任务。比如用户问“给我推荐 10 块钱以内的人工智能概念股,要最近涨幅靠前的几个”。这句话带给我们的信息,需要 NLU、DM 和 NLG 这几个模块来解决。在 NLU 中需要判断意图,假设用分类模型判断出来意图是查询个股,然后开始填槽,包括时间、概念和排名。查找到了时间是“最近”,概念是“人工智能”,价格是“10 块钱以内,涨幅靠前”。把这些信息变成标准槽位,起始时间是 4 月 8 日,对话管理中,根据 DST,接下来要做的事情是,给用户推荐排名最高的结果。这是 DPO 的事情。DST dialogue state tracking,DPO:dialogue policy optimization。最终推荐的结果是通过 NLG 给用户返回一句话,给用户返回一句话:为您推荐 4 月 8 日到 12 日,每股十元以内的人工智能概念股票,涨幅前十位分别是:XXX。


3.3.3 闲聊



闲聊做的最好的是检索型的,怎么做的呢?比如,用户有一个语料,“你穿的衣服好漂亮”,我们已经建立好了很多的 QA pairs,现在要做的事情,就是把这句话放在数据库中,进行相似度匹配,把最相似的句子挑出来,得到上面表格这两句,对这两个句子做 ranking,得到最好的。这里最关键的技术是 matching 技术,怎样从数据库中找到相似句子?


3.3.3.1 Matching 算法



TF-IDF,最大子串,基于字的相似度匹配,这里想提的是计算语义相似度的 matching 算法。有两种典型做法:基于表达的算法,和基于交互的算法。这是想解决基于语义相似、句子不相似时,怎样做好 matching。


先看基于表达怎么做,基于表达最早的论文是诺亚方舟实验室在 2014 年发表的,提出 2 种算法:ARCI 和 ARC II。把两个句子分别进行向量化,向量化的做法:word2vec,或 embedding 技术。把词嵌入,把词表示为一个向量,句子的向量矩阵,对它们做卷积操作,在每个句子上做卷积操作,最后得到定长向量后,做多层感知机,计算匹配度,在分别句子操作后,最后一层做相似度计算。这是基于表达的方法。


基于交互的经典算法,是在 2016 年发表的,在各大比赛中都取得了较好的成绩。怎么做的呢? 一开始就把两个句子揉在一起,对两个句子的每一个 word,都进行一次 similarity 的操作,这有多种方法,可去看论文,其实就是把两个句子,揉成一个矩阵。在这个矩阵上做卷积操作,最后经过多层感知机,输出 score。


这两种方式最典型的区别,一个是分开做的,一个是一开始就揉一起了。感兴趣的可以看下北大的严睿老师,对 matching 做过专题分享,网上可以搜到 PPT。


3.3.4 工程方案汇总



想要做 chatbot 蛮简单的,在工程方案汇总之后,NLU 不用自己做,可以使用 jieba 分词,或者哈工大的分词,意图解析可以使用训练数据跑一个 fastText 或者 BERT、transformer,得到解析;人物对话,需要自己写一些规则,功能也可以不用自己做,可以用海知智能的如意平台上很多技能拿来用。问答技能可以用模板搜索数据库中的答案,就可以了。闲聊基于检索,把一问一答的 QA 库存在 ES 中,使用相似度匹配放在句子中抽取出来。唯一需要写代码的,是写规则。NLG 通过配置来实现。这就是最简单的工程方案汇总。这只是最简单的方案,如果要做成产品,还需要考虑很多时间响应的事情。比如在大规模的用户并发的情况下,如何保证每条语句的返回结果都是 500ms 内的,此时如果用深度学习技术,就达不到这样的效果。在工程实现过程中,需要考虑很多效率因素。


说到 NLP 之后,谈一谈知识图谱:


3.4 知识图谱:跨越感知和认知的桥梁



现在,知识图谱技术在学界、工业界,都公认是从感知智能通往认知智能的桥梁。是真正解决机器人认知智能的方法,来看下为什么这么说:


知识图谱技术,可以为聊天机器人带来什么进展?如果有了 KG 技术,可以通过记忆模块,抓取用户输入,下面举例说明怎么做。用户在与 chatbot 聊天的过程中,不断抽取用户的知识图谱,把它存在简单的 mysql 或者图数据库,存成用户的知识图谱,知道了喜好、性别、年龄,图谱可以动态更新。有了图谱就可以提供更多的个性化推荐服务,如日程、关怀等。比如今天被老板骂了,可以查到用户是做什么的,老板是谁,主动关怀一句“你们老板太抠门了“。这是 KG 在个性化推荐上可以做的事情。


简单聊一下 KG 的本质:



简单说,KG 是知识+图。这是最简单的解释。想象一下,传统的数据是到 information 级别的,从 data 到 information,到 knowledge,再到 wisdom,是不断凝练的过程。这是上世纪初学者提到的 DIKW 体系。什么是数据,“姚明身高是 2.26m“。2.26 是数据,“身高是 2.26”这是 information;把姚明用节点表示出来,节点周围加上属性,比如姚明的妻子是叶莉,姚明效力的球队是上海队、中国队等;把这些知识总结成图的形式,就是知识图谱的最简单的定义。把知识以图的形式来表示。



知识图谱实现的过程中,用到了这些模块,从知识来源到知识应用,共 5 层。从不同的知识来源,加工后,得到知识图谱,知识图谱之上,可以用知识映射的手段,做问答、推理、联想、推荐、数据增强等。比如问答,通过知识检索、实体发现、实体对齐、实体消歧,在百科知识图谱上做出来的结果。这是知识图谱的整个体系。



流程上看是这样的,数据,到知识映射,到知识表示,形成百科知识图谱,通过知识检索、实体链接,做成上层应用。这个图是最基本的知识图谱构建引擎。


3.4.1 KG schema



知识图谱不得不谈 schema。


schema 是知识图谱的灵魂。一个形象的比喻,如果把 schema 看成是骨架,整个知识图谱就是一个人。如果把知识图谱看做一棵大树,schema 是它的树干树枝。如果没有 schema,数据就会比较散,没有标准。这里列出来的是一个简单的例子,事物下有人物、地点、艺术。艺术下有油画、戏剧、雕塑。这其实是一个分类体系。如果学编程,知道什么是类和对象。类相当于 KG schema,对象相当于实体。比如任务科学家,下面有个屠呦呦,他是一个实体,科学家是一个 class。


3.4.1.1 实体属性上下位



构建 schema 的过程中,有很多可参考的资料,比如 schema.org 以及 cnSchema,我们在这些 schema 的基础上,定义了自己的知识图谱。


构建 schema 的过程中,会发现很多关于实体属性上下位的事情。在拥有这个东西之后,做问答,可以很方便地进行语义解析,比如问“特朗普的老婆是谁”,可以通过老婆的同义词,查找到,“特朗普的老婆是谁” = ““特朗普的妻子是谁”” = “特朗普的配偶是谁”。可以知道特朗普和梅拉尼娅属于夫妻关系,使用实体属性上下位的方法,会对问答推理带来作用。


3.4.2 KG 构建


3.4.2.1 数据来源


首先是数据来源,可以是半结构化、非结构化的数据,我们用的有百度、萌娘百科,二次元领域的聊天机器人需要用到萌娘百科,知乎、维基百科等。


3.4.2.2 知识表示



用什么来表示知识?知识以什么形式存在,以及知识图谱的存储。可以用原生的图模式,也可以用 RDF ( resource description framework,经典的三元组形式 )。主谓宾的形式表示。


3.4.2.3 知识补全



利用 schema 做知识补全,比如在百度百科上发现,陈道明有一条边,妻子,指向杜宪,杜宪的百科中,没有提到陈道明是她的老公,此时用 schema 的定义,来反推,杜宪的老公是陈道明,用这种方法,可以把知识补全。可以直接把知识自动化补全。


3.4.2.4 知识扩展



知识扩展层面,举一个例子,4 月 3 日,“奶茶妹妹”卸任刘强东旗下“嫩绿茶”董事。“奶茶妹妹”和“嫩绿茶”两个实体,不太清楚指的是谁。这里可以通过 NLP 中的实体链接技术来判断,奶茶妹妹其实指的是章泽天,嫩绿茶其实是指“嫩绿茶叶有限公司”。可以把知识补全到知识图谱中,奶茶妹妹卸任,指不是嫩绿茶的现任董事,而是历任董事,可以更新到图数据库中。


3.4.2.5 新知识发现



新知识发现,是知识图谱要做的一个非常重要的工作。现在网络流行词很多,需要不断爬取、发现新知识。比如什么叫互联网创业公司,主营业务是 P2V,是 PPT to VC。如果项目是 Python 写的,就是一个 machine learning 的项目。什么是“不满式创业”,这都是知识发现要做的事情。


3.4.2.6 知识更新



刚才讲到章泽天,也是知识更新的层面。需要爬取这些热搜,不断增量更新整个知识库,这里面又牵扯到是否要全量更新,每个月做一次全量更新;增量更新,只需要更新节点,可以更新一跳关系,两跳关系,现任妻子变成前任妻子,现任董事变成前任董事,这都是知识更新要做的。


3.4.2.7 问答



问答方面,牵扯到问答领域几种典型的方法,有基于语义解析、基于模板、基于深度学习、基于检索的。融合了多种 NLP 技术,如问 CEO 国籍,狗尾草可能是一种植物,也可能是一个公司,CEO 可能是首席执行官,也可能是别的意思,通过基本的 NLP 处理和实体连接等技术把实体关系找出来,然后语义组合之后,变成 sparql 的查询语句,要找的答案其实是狗尾草的 CEO 是谁,是邱楠,邱楠的国籍是中国,然后通过比较自然的方式回复给用户。


(1)理解用户



比如突然发现明天是我生日,可以抽取出我的生日日期。当时做 PPT 的时候是 1 月 18 日,记住用户的生日是 1 月 19 日。比如想要个女朋友,判断性别是男,情感状态是单身,讨厌甜食。“弹个吉他给你听吧”,才艺就是吉他。怎么抽取用户的信息,保存在图谱中,这个信息,可以给用户更多的推送。这是理解用户的过程。


(2)推理机



推理有推理机,类似于知识补全。比如知道了某个人,是一个男性的母亲,就可以知道性别是女,这里蓝色的是已经有的,黄色的是需要推理得到的知识。比如她的奶奶是这个人,她又是这个人的女儿,那么她的性别应该是女,这是推理中用到的方法。


(3)推理规则 QA



可以使用比较型、上下文、聚合型、多跳型,上面是规则推理的例子。


(4)联想:歌曲推荐



比如用户通过音乐播放记录,知道用户听了四首歌,都指向了周杰伦,下次要推荐歌手的时候,会以更大的概率推荐周杰伦的歌曲。这是在歌曲推荐中的应用。还有一些信息提供,比如用户提到飞机,可以通过上下位关系,查找相应的实体,提供信息。



3.4.2.8 知识存储



根据实际情况看,传统关系型数据库能解决的问题,尽量不用图数据库,如 ES 是用到的较多的数据库,效率足够高;RDF 图数据库, jena 是有代表性的 RDF 图数据库;Neo4j 是有代表性的原生图数据库,可以根据不同的情况使用。


3.4.3 构建知识图谱的成本



是否需要构建知识图谱,是要考虑成本的。比如 Cyc,每一条知识图谱的成本是 5.71 美元, DBpedia,1.85 美分一条。因为它出现的比较晚,可以用深度学习技术提升构建知识图谱效率,来降低成本。


公开的知识图谱,放了部分数据在上面,也可用这个网址查询。



3.5 音乐技术:表现


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.5x
    网页全屏
    全屏
    00:00


    Demo


    这里播放一个视频。目的是根据不同的音乐跳不同的舞蹈,前面是机械舞,后面是古风舞。这里用到了音乐检测技术。下面是 onsite detection 的流程图:



    音乐属性检测包括多方面,如节奏、韵律、鼓点,有了这样的技术,产品在跳舞时,会把节拍卡的很好,表现会很强。



    自动作曲方面,机器人可以自动作曲和演唱。在 Magenta 的技术上做了改进,使用 ABABB 的形式,主歌副歌主歌副歌副歌,韵律表现:C 跳到 G,再跳到 M,F,C,来体现音乐生成的感情色彩。这也是我们在做的有意思的尝试。


    00:00
    02:59


    3.6 虚拟生命的发展阶段



    虚拟生命,现在还是在 1.0 的阶段,还有很长的路要走。


    其应用场景,如车载,风控等:



    工程实践中的其他问题


    1. 多要素妥协



    最后再谈下工程方面的问题,即使有很好的技术,也不一定能能做出好的产品。做好产品是多重要素的特性,不仅要考虑卖给谁、怎么卖、卖什么,还要考虑系统性能,以及投入多少的人力,以及整个市场是蓝海市场,还是红海市场。尤其是 chatbot 市场,已经不是红海市场,完全变成血海市场,chatbot 的产品是需要慎重考虑的,用什么形式进入市场。


    2. 商业模式



    前段时间较火的,夸夸机器人,刘知远老师在清华的夸夸机器人群里的聊天记录。聊天机器人可以不停夸你。会有人买单吗? 否定的。根本上来讲,这不是一个刚性需求。感兴趣的话我们可以线下继续讨论商业模式的问题。


    最后,大家可以看下我们推出的 Gowild AI Virtual Engine ( GAVE ) 人工智能虚拟生命引擎,已经应用到我们的产品中,也欢迎大家到我们的官网了解更多信息:


    https://www.gowild.cn/



    本次分享就到这里,谢谢大家。



    作者介绍


    邵浩,日本国立九州大学工学博士。狗尾草智能科技有限公司合伙人,人工智能研究院院长,带领团队打造了聊天机器人产品“公子小白”及 AI 虚拟生命产品“琥珀·虚颜” 的交互引擎。上海市静安区首届优秀人才,兼任中国中文信息学会青年工作委员会委员,语言与知识计算专委会委员,中国计算机学会 YOCSEF 上海学术委员会委员,语音对话与听觉专业组委员,中文信息技术专委会委员。研究方向为人工智能,共发表论文 50 余篇,出版了业内第一本聊天机器人著作,主持多项国家级及省部级项目,曾在联合国、WTO、亚利桑那州立大学、香港城市大学等任访问学者。


    本文来自 DataFun 社区


    原文链接


    https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247494628&idx=1&sn=a8357c3d7588af8fdb21d0801b32b183&chksm=fbd75988cca0d09e6a58688e5adcbd577275766e368bf4a44f533d6d05fd504e3fe82eb2337a&scene=27#wechat_redirect


    2019 年 10 月 28 日 08:001349

    评论

    发布
    暂无评论
    发现更多内容

    金蝶2019财报在此——比头条更精彩

    人称T客

    忙于数字化转型,你避坑了吗?

    人称T客

    一个产品最不重要的东西

    Neco.W

    产品 外包 产品经理

    市场调研分析师走向末法时代

    人称T客

    3亿办公族合力,第三代SaaS抵达战场

    人称T客

    kube-prometheus抓取jvm监控指标

    天飞

    Java JVM Prometheus kubernete

    汇总一下Intellij IDEA常用的牛逼插件

    公众号:V5codings

    c++代码整洁之道

    程序喵大人

    c c++ C#

    Spring Security 如何将用户数据存入数据库?

    江南一点雨

    Java spring Spring Cloud Spring Boot spring security

    游戏夜读 | 写游戏用什么语言?

    game1night

    分布式系统选主怎么玩

    奈学教育

    分布式系统

    极客时间学习心得:用分类和聚焦全面夯实技术认知

    Anfernee Hu

    学习

    程序员的修行之路-培养工作兴趣

    牧马人

    程序员人生

    5天掌握以太坊 dApp 开发

    陈东泽 EuryChen

    比特币 区块链 智能合约 以太坊 dapp

    首厚智能:嵌入 SpreadJS 表格组件,搭建实验室信息管理系统(LIMS)

    Geek_Willie

    SpreadJS 实验室管理系统 Lims

    Java开发架构篇:DDD模型领域层决策规则树服务设计

    小傅哥

    领域驱动设计 DDD 小傅哥 重构

    python实现·十大排序算法之冒泡排序(Bubble Sort)

    南风以南

    Python 排序算法 冒泡排序

    SaaS生态比拼,谁会是这场PK中的主角?

    人称T客

    用Serverlss部署一个基于深度学习的古诗词生成API

    刘宇

    自然语言处理 学习 Serverless

    Spring Security+Spring Data Jpa 强强联手,安全管理只有更简单!

    江南一点雨

    Java spring Spring Boot spring security

    程序员的修行之路-人生是一场修行

    牧马人

    程序员人生

    永中云转换新升级 文档在线预览增添更多选择

    DT极客

    一个前端工程师与死神的较量

    陈辰

    前端工程 压力 医院 生活质量 工程师

    BPM产业数字观察:中国市场趋向成熟,蛰伏的BPM即将醒来

    人称T客

    《3个月9门课,谈下我的极客时间学习活动的心得》

    王伟鹏

    k8s上运行我们的springboot服务之——热点数据

    柠檬

    redis

    用友2019财报:你们看到的是数字,我却看到了office

    人称T客

    为什么要云原生?

    Aaron_涛

    架构 云原生

    Linux 常用命令

    Jayli

    Linux

    教你快速升职加薪(毒鸡汤,慎服……)

    无箭的丘比特

    团队管理 企业文化 个人成长 团队建设

    一文搞懂Spring依赖注入

    麦叔

    万字长文:用人工智能技术打造虚拟生命-InfoQ