成立三年有余,AI 前线见证了这个领域内的技术演进和迭代:Theano 功成身退、PyTorch 和 TensorFlow 两强争锋、预训练模型层出不穷、明星创企坠落… 从火爆到渐趋冷静,2019 年,我们欣喜地看到自然语言处理、计算机视觉等技术取得了不同程度的进步,并在各行各业开始落地。面对即将开始的 2020 年,AI 还有多少可能呢?
2019 年,我们经历了什么样的 AI 浪潮?
在此之前,《生成式深度学习》(Generative Deep Learning)(O’ Reilly Media 2019 年出版)一书作者 David Foster 为我们进行了回顾。
强化学习
如果用一句话来描述 2019 年的人工智能现状,那很可能是:“强化学习(Reinforcement Learning )回归,看起来将永存”。
这个领域已经存在几十年,从概念上来讲,它听起来比监督式学习更像是一种合理的创造智能的学习机制。然而,直到 2015 年,DeepMind 才获得了人们的关注,当时 DeepMind 使用深度 Q 学习(Deep Q-learning)创建了 Atari(雅达利) 游戏的智能体,这是一种结合了经典强化学习算法和深度神经网络的算法。2018 年,OpenAI 也通过 解决 Montezuma’s Revenge (一款被认为难度特别高的 Atari 游戏),从而在这一领域确立了自己的地位。
在过去的几个月里,围绕强化学习开展的工作越来越多,这些工作重新唤起了学术界对强化学习的信念,在过去,人们曾经认为强化学习效率低下,过于简单,无法解决复杂的问题,甚至连游戏的问题也不能解决。
自然语言处理
自 2018 年底以来,人们的注意力已经从过去的词嵌入转移到预训练语言模型,这是自然语言处理从计算机视觉中借鉴来的一种技术。
自 Google BERT 、 ELMo 和 ulmfit 等系统在 2018 年底推出以来,自然语言处理一直风头正茂,但今年的聚光灯被 OpenAI 的 GPT-2 给“夺走了”,它的表现引发了人们对 自然语言处理系统的道德使用的大讨论。
计算机视觉技术
对人工智能来说,创造虚假但又逼真的人物和物体的图像,已经不再是前沿领域了。从 2014 年生成对抗网络的引入 到 2019 年 NVDIA 开源的 StyleGAN ,都在对此进行证明。2019 年,人工智能创造的艺术品甚至脱离了过去几年的假设性讨论,成为了今天 博物馆装置和拍卖 的一部分。
计算机视觉还被应用于一些具有重大商业和社会意义的领域,包括自动驾驶车辆和医学。但是,人工智能算法在这些领域中的应用自然是缓慢的,因为它们直接与人类生活直接互动。至少到目前为止,这些系统还不是完全自主的,它们的目的,在于支持和增强人类操作员的能力。
2020 年,我们需要直面的问题
在 2020 年即将到来之际,AI 前线团队结合自己对行业的观察列举了未来一年可能的技术趋势。
深度迁移学习将基于预训练模型有更多改进
2019 年,由于预训练模型 BERT 以及 GPT 2.0 的发展,深度迁移学习成为 AI 领域的热门词汇。准确地说,预训练模型是自然语言处理领域新的 baseline,如果要在完全不依赖 BERT 的基础上,提出一个与 BERT 效果相当或者更好的新模型,目前来看可能性非常低。业界大部分 NLP 成果均是基于 BERT 的各种改进或者在对应业务场景上进行应用的,而且 BERT 的改进方向比较多,已经出现各种可用的变种 。
目前,XLNet、RoBERTa 等各种 BERT 的改进预训练模型,虽然是通过增加预训练的数据进一步提升效果,但除了增加数据,还做了许多模型方面的优化,这些突破都不是仅仅依靠堆数据就能带来的成果。
2020 年,深度迁移学习将基于预训练模型的演进而出现更多改进,比如对性能要求较高的场景需要对模型做一些改进和方案上的优化,双向语言模型有可能出现训练和预测不一致的现象,以及在长文本处理、文本生成任务上的不足。同样值得期待的是,该领域未来可能会出现更加轻量级的在线服务模型。拓展到自然语言处理领域,除了不断提升预训练模型的效果,未来如何更好地与领域的知识图谱融合,弥补预训练模型中知识的不足,也是新的技术突破方向。
图神经网络的应用边界将继续扩展
图神经网络(GNN,Graph Neural Networks)是 2019 年 AI 领域最热门的话题之一。虽然深度学习目前已经在诸多领域得到了显著的应用成果,但因果推理和可解释性仍是短板,这几年学术界和工业界都在探索新的方向。图神经网络是用于图结构数据的深度学习架构,将端到端学习与归纳推理相结合,业界普遍认为其有望解决深度学习无法处理的因果推理、可解释性等一系列瓶颈问题,是未来 3 到 5 年的重点方向。
展望来年,最可以确定的一点是 GNN 依然会保持如今快速发展的态势。从理论研究上看,不断解构 GNN 相关的原理、特色与不足,进而提出相应改进与拓展,是非常值得关注的部分,如动态图、时序图、异构图等。另外,一直以来研究 GNN 所用的标准数据集,如 Cora、PubMed,相对来说场景单一、异构性不足,难以对复杂的 GNN 模型进行准确评价。针对这一问题,近期斯坦福大学等开源的 OGB 标准数据集有望大大改善这个现状,在新的评价体系下,哪些工作能够脱颖而出,值得期待。
从应用上看,除了在视觉推理、点云学习、关系推理、科研、知识图谱、推荐、反欺诈等领域有广泛应用外,在其他的一些场景,如交通流量预测、医疗影像、组合优化等,也出现了一些 GNN 相关的工作。大体上看,如何准确有效地将图数据与 GNN 二者有机结合到相关场景,是应用上需要着重考虑的,相信来年,会出现更多这样的工作来拓展 GNN 的应用边界。此外,GNN 要真正在工业界大规模落地,底层系统架构方面仍需做大量工作。业界期待着一个更为开放、高性能,且支持超大规模分布式图网络计算的主流平台的出现。
知识图谱的自动化构建将成重要发展趋势
作为认知智能领域核心技术之一,目前知识图谱已运用到语音助手、聊天机器人、智能问答等热门的人工智能应用场景,并覆盖泛互联网、金融、政务、医疗等众多领域。尽管发展火爆,但现在知识图谱在构建和落地过程中还面临着诸多挑战:对人工构建的依赖度还较高,仍然缺乏从大规模数据里获取的手段;知识图谱的构建技术成本很高等。为解决上述问题,目前有很多公司都在做一些自动化构建知识图谱的探索工作,如明略科技开发了自动图谱构建工具,将一些中间构建过程自动化;腾讯正在基于聚类算法和强化学习结合的模式开发 schema 自动构建和根据反馈调整知识图谱的能力…
今年,知识图谱构建技术已经从过去的完全人工编辑,进化到了场景化定制 NLP 知识抽取配合人工模板和审核的模式,正在经历人工构建 - 群体构建 - 自动构建这样的技术路线。自动化构建知识图谱的特点是面向互联网的大规模、开放、异构环境,利用机器学习技术和信息抽取技术自动获取互联网信息。
2020 年,可以预见的是,大规模知识图谱的自动化、高质量构建将成为重要的发展趋势,具体来看,知识图谱的 schema 自动构建和图表示推理将成为关注的重点;另一方面,随着知识图谱在各个行业深入落地, 会有更多面向领域知识图谱的自动化构建方案涌现出来,比较看好医疗、智能金融等相关知识图谱及推理应用建设。随着 5G 的到来,5G 知识图谱的构建也值得期待。
5G 时代,多模态将为 AI 等领域带来新的活力
所谓“模态”,包括视觉、听觉、语义等,多模态即使用计算机将多种“感官”信息的融合。近年来,人工智能技术的蓬勃发展使得机器智能不断进步,多模态机器学习让机器像人类一样具有视觉、听觉和语义感知、理解和决策能力,正成为未来人工智能发展的必然方向,在自然人机交互、自动驾驶、VR/AR 等领域有巨大的应用价值。
伴随着 5G 时代的到来,多模态在信息处理、内容理解与创作、用户画像、个性化推荐等方面都将迸发出新的活力。主要表现在以下几点:
借助于多模态信息处理,小规模样本数据和非监督的内容理解将会有一定的突破。当前内容理解主要以数据驱动,需要大量的标注样本。多模态包含比单模态更丰富的信息,并且存在一定的信息冗余,通过多模态之间信息相互增强和补充,在小规模样本数据和非监督内容理解方面比单模态更有优势。
多模态与知识图谱的结合,利用基于有监督深度学习的模型分别理解各个模态,同时结合知识图谱深入理解多模态中各模态的内部关系,进而提供更准确高效的方案。
目前无论单模态内容理解还是多模态内容理解,都是以数据驱动的技术,如何将所“感知”到的东西进行推理,以避免不合逻辑的识别结果也是未来研究的重点。
AI+ 产业落地值得关注
在产业落地方面,AI+ 金融、AI+ 教育、AI+ 医疗等都取得了不错的成绩。以金融领域为例,金融行业应用 AI 的难点并不在于单纯的技术能力上,因为金融行业对于数据安全和隐私问题的要求天然要比其他行业更高。相对来说,金融行业的数字化、信息化基础相对其他行业更加完善,不少企业都拥有了自己的云化基础设施。
在这种情况下,其他行业可能直接对接 API 就能应用上人脸识别、文字识别等模型,但对于金融行业来说这种部署模式可能还相对粗糙。这时比较明显的两种部署方式分别是:一是技术服务者调整云化方案,通过私有云、混合云等多种部署,满足金融行业的特殊需求;二是金融机构选择自己研发或采购技术,对自身云平台的能力进行 AI 更新。
预计在 2020 年,整个产业会涌现出更多优秀实践案例,这些案例会不断填补 AI 在不同场景下的不足,这些实践中,哪些经验值得借鉴?哪些坑需要规避?哪些场景戳中了痛点?哪些场景实际上是伪需求?这些都需要我们一一鉴别。
AI 前线将做些什么?
过往,AI 前线报道并追踪了大量 AI 技术在不同领域的落地实践,比如腾讯优图将计算机视觉技术应用于医疗领域的案例,但是这远远不够。
2020 年,AI 前线将继续追踪技术迭代,为读者朋友带来更多该领域内的最新发展现状。与此同时,AI 前线将重点关注 AI+ 金融、AI+ 教育、AI+ 医疗三大领域的落地实践,探寻 AI 技术在不同领域落地的难点和现状。
目前内容团队有全职编辑四人,组长钰莹,组员刘燕、陈思、冬梅(金牌译者),此外另有两位 InfoQ 高级技术编辑蔡芳芳和 Tina 担任顾问。未来,AI 前线希望更加注重原创性、内容精细化、文字的流畅与易读性,将更多有趣、有意义、有亮点、有启示的案例分享给从业人员。同时也欢迎业界、专家朋友向我们投稿,投稿邮箱:lisa.zhao@geekbang.com。
不仅如此,本公众号还将与 AICon 全球人工智能与机器学习技术大会深度合作,在会前、会中、会后为你报道来自 Google、Uber、英特尔、阿里巴巴、腾讯、百度、京东、滴滴、美团、小米等一系列海内外科技公司的技术实践。
以下为过去不久的 AICon 全球人工智能与机器学习技术大会北京站详情:
在这里,你不仅可以看到国内外 AI 领域最前沿的技术,还能看到这些技术的最佳实践。
各位 AI 领域的从业者,你们只管用代码点亮梦想,我们负责点亮你们。
2019 年精选文章:
《爆款新模型全面碾压 BERT?预训练语言模型井喷的 2019》
《独家专访阿里集团副总裁贾扬清:我为什么选择加入阿里巴巴?》
《我用 Rust 徒手重写了一个 Spark,并把它开源了》
《自动驾驶狂欢落幕:靠一个demo就敢宣称落地的时代过去了》
评论