自百分点 2009 年成立,已经 10 年。
10 年间,百分点经过多次转型,逐步形成了目前的企业级(To B)、政府级(To G)和 SaaS 服务三大业务体系,服务着国内、外上万家企业。2017 年,百分点实现盈利,过去三年中保持着高质量、规模化增长。
10 年间,百分点完成了 5 轮融资,总金额超过 10 亿元人民币。E 轮融资的完成,意味着百分点数据智能头部企业地位的确立。
而这一切的背后,离不开技术硬核的支撑。作为技术型企业,百分点在技术上投入重资,并且坚持自主创新,一直走在技术和应用最前沿,拥有过百项大数据及人工智能领域软著与专利、国内最大的行业应用模型库及行业知识图谱库。
如果仔细研究百分点的产品和解决方案,除了大数据外,出现频率最高的一个词则是“认知智能”技术,可能很多人都知道人工智能,听过深度学习和神经网络,但 “认知智能”是什么?百分点为何要重资投入这项技术,并且还上升到了技术战略层面,还为此成立了认知智能实验室?
智能进化三部曲:感知、认知、决策**
百分点首席算法科学家苏海波
百分点首席算法科学家苏海波表示,人工智能有三个阶段,分别是感知智能、认知智能、决策智能。
目前,认知智能并没有标准化的定义。百分点认为,认知是对信息(尤其是语言)的认知,智能是指智能的分析和决策,具体是从海量的非结构化数据中挖掘出有价值的信息,洞察信息之间的关系,辅助用户进行分析和决策。目前,感知方面的技术和应用都已经成熟,下一个十年是认知智能发展的黄金十年,百分点去年年底成立认知智能实验室也是为了把握这个重要的发展机遇,为客户提供业界领先的认知智能技术和产品服务。
感知智能三大里程碑
近年来,人工智能技术发展非常迅猛,但怎么让机器拥有人一样的智能,如何衡量机器的智能化水平呢? 拿感知智能来举例,就必须要提到感知智能技术领域的三大里程碑事件。
第一个里程碑,自然图像识别。2011 年,当时的自然图像识别率还只能达到 74.8%,而人对自然图像识别率可以达到 95%,因此,当时技术来做这个事情是没法用的,但随着深度学习技术的出现,机器对自然图像的识别率超过了 96%,也就是说,超越了人。
第二个里程碑,人脸识别。2013 年,机器对人脸的识别率只能达到 96.3%,而人对人脸的识别率可以达到 99.1%,同样是因为深度学习技术,机器对人脸的识别超过了 99.7%,也一举超过了人,这是第二个里程碑。
第三个里程碑,语音识别。到 2016 年底,微软、谷歌等公司都宣称其语音识别技术的错误率已经低于 4%,而专业速记员的错误率是 5.9%。
三大里程碑表明,机器在感知智能方面已经全面超越了人。我们看到,感知智能方面的应用也越来越普及,如火车站、酒店的人脸身份验证等。人工智能因此将从第一阶段感知智能,进入到第二阶段的认知智能。
认知智能的困境和方向
那么如何来衡量机器认知语言的智能化水平?这件事比感知的衡量要复杂很多,苏海波说。
为此,他还举例子进行了说明,比如说,“某手机厂商 2019 年推出某款新手机,它没有广告宣传的好,在变焦拍照时需要支架支持”,这句话在人理解起来比较容易,很清楚的知道“它”指的是“某手机厂商”还是“手机”,但机器理解这句话却不容易。
人类在读一句话时,会结合句子中每个词的常识和经验来理解整句话的含义,机器读到这句话只是接收了一系列符号,并不知道每个词背后的语义信息的,所以这就是为什么机器认知语言这么难,也没有像感知一样存在标准化的测试任务,能表明机器的感知水平是否超过了人类。
目前只能用一系列的自然语言测试任务,从各个角度来刻画机器的认知语言水平。例如通过舆情分析来判断内容的整体情感、口碑分析识别出手机的防抖功能差、阅读理解回答句子中的“它”具体指的是什么……这些语言认知任务对于机器来说,一个比一个难,即使把这些问题解决了,也不能说明机器拥有人类一样的认知智能水平,所以目前很难给认知智能下一个具体量化的定义。
为了更好地理解认知智能,首先需要弄清楚,人类的认知是从哪里来的?
对于这个问题的研究,目前业界有三大流派:
第一个流派是符号主义,本质是实现人的思维和知识。该学派认为人类的知识和思维过程可以用某种符号来进行描述,核心是找到知识的符号表示和计算方式,知识图谱和专家系统就是符号主义的代表作。
第二个流派是连接主义,它把人的智能归结为人脑的高层活动的结果,强调智能活动是由大量简单的单元通过复杂的相互连接后并行运行的结果,其中人工神经网络和深度学习就是其典型代表性技术。
第三个流派是行为主义,源自于控制论,是一种基于“感知-行动”的行为智能模拟方法。它认为人类的智能是通过后天与环境不断的交互过程中学习得到的,强化学习和机器人是行为主义中的代表性技术。
对于这三个流派,每个流派都有对应的优点,但同样存在缺陷和不足。例如连接主义中的深度学习,达到了很好的预测精度,但是它缺乏可解释性,而且需要大量的标注样本,而符号主义则有良好的可解释性,行为主义则不需要标注样本。所以这三个流派中的单独任意一个流派都难以让机器达到人类的认知水平,未来最有可能的一条实现路线就是将这三个流派进行融合,目前业界大的技术方向也是按照这个路线在发展。
三类可行的融合
▲ 深度学习+迁移学习
深度学习需要依赖大量的标注样本,才能训练出好的结果。但在实际遇到的问题中,标注数据往往是不足的,而且标注工作的代价高,这时就可以把深度学习和迁移学习相融合,把领域 A 的知识迁移到领域 B。比如百分点认知智能实验室研发的舆情情感分析系统,对比采用传统的深度学习模型,需要标注 10,000 个样本,才能达到 80%左右的分类效果,但百分点采用了深度迁移学习,只需要 1,000 个样本,就能达到 80%左右的分类效果。
▲ 深度学习+知识图谱
深度学习结合知识图谱代表着联接主义和符号主义流派的融合,它的基本思路是:从知识图谱中学习到知识表示,这些知识可以融入深度学习模型中,实现对自然语言的更好理解,这是深度学习模型与知识图谱不断互相促进的过程。如果知识图谱的规模越大、质量越高,就会有越来越好用的自然语言理解模型,它们是共同发展的。认知智能实验室在具体的实践方面,已经在探索实践如何将自然语言处理与快消零售、公安的知识图谱相结合,提高这两个领域的语言认知水平。在联接主义和符号主义流派的融合方面,还有目前特别热门的图神经网络,也就是 GNN 技术,它为深度学习模型赋予了一定的因果推理能力,弥补了深度学习模型的软肋。
▲ 深度学习+强化学习
深度学习结合强化学习,代表着联接主义和行为主义流派的融合。深度学习和强化学习分别于 2013 年和 2017 年被《麻省理工学院科技评论》评选为十项突破性技术之一,它们的结合会在通向强人工智能的道路上发挥关键作用,AlphaGo 就是深度学习结合强化学习技术的产物。
目前在智能对话中,深度学习结合强化学习被应用的比较多,通过用户模拟器和机器人对话,给出对话的反馈信号,通过深度学习模块进行意图识别和任务中的槽位信息提取,再通过强化学习模块对模拟器产生的大量样本进行模型训练。深度强化学习的优势在于无需标注样本,可以大大节省人工标注的人力投入,目前百分点认知智能实验室的自主研发的智能对话机器人产品也在重点研发该项技术。
百分点的认知智能业务战略
百分点的认知智能业务战略可以用一句话来描述,基于 NLP、知识图谱和智能交互等认知智能技术,辅助提升企业的市场化决策和政府的公共安全决策效率。在具体的认知智能应用产品上,百分点通过智能舆情分析系统和 DeepQuest,帮助企业客户提高市场化决策水平,另外,通过 DeepFinder 和 DeepInsight,助力政府公安客户提高公共安全决策水平。除此之外,百分点也推出了众多认知智能通用型产品,比如智能校对、机器翻译、智能对话机器人和智能商业分析系统等。
写在最后
据了解,虽然百分点认知智能实验室是 2018 年才成立,但目前已经有了不少具体的技术探索成果,例如深度迁移学习,深度强化学习,以及深度学习和知识图谱的融合等。
目前,百分点基于认知智能技术打造出的两款主打产品 DeepQuest、DeepFinder,正在不少项目中落地。DeepQuest 今年已经发布 2.0 版本,荣获“2019 星河奖·优秀大数据产品奖”。DeepFinder 荣获 “2017-2018 中国人工智能市场年度创新产品”,百分点去年底发布了 DeepFinder 2.0,今年升级到 3.0 版本。
评论