自然语言理解(NLP)素有“人工智能皇冠上的明珠”盛誉,这也意味着语言与知识等认知层面的技术突破将进一步促进 AI 深入发展。AI 在向更深层次进化,语言与知识技术的重要性愈加凸显。语言与知识技术是人工智能认知能力的核心,以语言和知识为研究对象,让机器像人一样掌握知识、理解语言的自然语言处理技术,对于人工智能发展至关重要。
百度 NLP 十年,完成技术布局已经形成
8 月 25 日,在百度大脑语言与知识技术峰会上,百度 CTO 王海峰全面分享了百度语言与知识技术完整布局和最新成果。
首先,知识图谱是机器认知世界的重要基础,百度打造了大规模知识图谱,拥有超过 50 亿实体和 5500 亿事实,并在不断演进和更新。百度知识图谱应用于各行各业,每天的调用次数超过 400 亿次。
其次,在融入知识的基础上,语言理解能力不断增强。2019 年 3 月,百度提出知识增强的语义理解框架 ERNIE,在深度学习的基础上融入知识,同时具备持续学习能力,曾登顶全球权威数据集 GLUE 榜单,首次突破 90 分,刷新榜单历史。基于知识图谱和语义表示,突破了阅读理解、对话理解以及跨模态深度语义理解等技术。
第三,语言生成是语言与知识技术中的重要组成部分。基于预训练技术的经验,百度提出基于多流机制的语言生成预训练技术,兼顾词、短语等不同粒度的语义信息,显著提升生成效果。百度也探索了多文档摘要生成,通过图结构语义表示引入篇章知识,在单文档和多文档摘要生成效果都有提升。
应用系统层面,在对话系统和机器翻译等领域,百度提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型 PLATO 等,并推出智能对话定制和服务平台 UNIT,帮助开发者高效构建智能对话系统,实现规模化应用。百度翻译支持 200 多种语言,每天响应超过千亿字符的翻译请求,支持超过 40 多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。
百度语言与知识技术已在在互联网、金融、医疗、教育等诸多领域发挥作用。
演讲最后,王海峰对语言与知识技术的进一步发展做了展望。他表示,复杂知识表示和快速构建技术,知识与深度学习进一步融合,深度融合感知和认知的跨模态语义理解技术,模型可解释性和鲁棒性等等,仍有很多技术难题需要持续研究和解决。但对于未来,仍充满信心。
推出 5 款产品的新发布
王海峰首次发布了百度大脑语言与知识产品全景图。百度集团副总裁吴甜接续发布语义理解技术与平台文心、智能文档分析平台 TextMind 和 AI 同传会议解决方案 3 大新产品,同时发布了 6 项升级,包括智能创作平台的 3 个场景方案、以及智能对话定制与服务平台 UNIT 的 3 项全新升级。
语义理解技术与平台文心,基于深度学习平台飞桨打造,依托语义理解核心技术,集成预训练模型、NLP 算法集、端到端开发套件和平台,提供一站式 NLP 开发与服务,让开发者更简单、高效地定制企业级 NLP 模型。文心已运用到大量真实应用场景中,具备工业级落地实力。
全新发布的智能文档分析平台 TextMind,基于 OCR、NLP 技术,以文档解析为核心能力,支持文档对比与文档审核,具备“多快好省”的核心优势,促进企业办公智能升级。
百度大脑智能创作平台针对媒体应用场景再升级,全新推出智能策划、智能采编、智能审校三大媒体场景方案,进一步助力媒体人更快、更好地创作。
智能对话定制与服务平台 UNIT 升级 3 大特性:更智能的任务式对话理解、极致便捷的表格问答和融合通用的新对话引擎。此次 UNIT 全新升级的三大能力,将进一步降低任务式对话、智能问答的定制成本,并融合通用对话能力,提升交互体验。
全新发布的 AI 同传会议解决方案,覆盖会议全场景、全流程,旨在打造用户随身的“会议同传专家”。吴甜现场展示了如何只用一台电脑和一部手机快速搭建一套同传服务,只需点点鼠标、打几个字,就能快速获得专业的同传服务。
发布数据、算力两大计划
让机器像人一样理解语言、掌握知识的自然语言处理技术,是人工智能中认知智能的核心;对语言信息的处理能力也是一个国家的核心竞争力。我们每天都在使用的搜索、翻译、信息流推荐、时刻回应你每个需求的智能助手等,背后都是语言与知识技术在发挥作用。
这样大规模的产业化应用也对技术提出了新挑战。包括模型需要具有全面的、处理多个子任务的能力;在跨领域数据上具有较好的泛化能力;在应用中有足够的鲁棒性以保证安全等等。此外,这些大规模应用对语义理解提出了更高的要求,要求模型具备一定的常识、背景知识甚至推理能力;同时随着内容承载形式的多元化,也需要模型具有多模态融合的内容理解能力等。
为突破上述瓶颈,百度联合中国计算机学会、中国中文信息学会发起中文自然语言处理数据共建计划 — 千言,解决数据稀缺问题。
千言一期由来自国内 11 家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读理解等 7 大任务,20 余个中文开源数据集,包括开放域对话、阅读理解、机器同传、情感分析、语义解析、信息抽取和文本相似度等。
为了使千言能够提供一站式的数据浏览、下载和评测的科研体验,百度还对所有数据进行了处理,每个任务都有统一的数据格式和评测,并在此基础上提供了基线系统,帮助加速模型的研发。
百度技术委员会主席吴华表示,百度计划在未来 3 年,面向 20 多个任务,收集和建设不少于 100 个中文自然语言处理数据集,覆盖语言与知识技术全部领域。
除数据外,算力是语言与知识技术发展中面临的另一大挑战。超大规模深度学习模型带来显著效果提升的同时,算力的需求也呈现出指数级的增长。算力的缺乏已经成为了许多开发者、研究人员进行技术研发的一大瓶颈。
为此,百度发布了语言与知识算力共享计划。通过 AI STUDIO 平台,百度将提供算力支持,为语言与知识技术开发者助力。吴华表示,后续百度会邀请“千言”数据集的使用者,百度语言与知识开源开放的用户以及更多中文语言与知识技术开发者、研究人员免费使用这些算力。
本次会上,百度还推出了以王海峰为代表的百度 NLP“十年十人”。
评论