近期，谷歌推出了通用版AutoML Natural Language，它可以利用机器学习揭示电子邮件、聊天日志、社交媒体帖子等文本的结构和含义，并支持分类、情绪分析和实体提取等任务。谷歌方面表示，通用版AutoML Natural Language 在文本和文档实体提取方面具有很大的改进，它可以提供自定义实体提取功能，从而在文档中标识那些没有出现在标准语言模型中的特定于域的实体。

谷歌之前发布了AutoML Natural Language，其目的是为了将其Cloud AutoML机器学习平台应用到自然语言处理领域。经过数月的beta版测试，AutoML现在已经面向全球客户推出了通用版，支持分类、情绪分析和实体提取等任务，还支持不同的文件格式，包括本地和扫描的PDF文件。

AutoML Natural Language 的特性

通过反复训练，AutoML Natural Language利用机器学习来揭示电子邮件、聊天日志、社交媒体帖子等文本的结构和含义。它可以从上传的文本或谷歌云存储文档中提取关于人、地点和事件的信息，它支持用户训练自己的自定义AI模型，以达到对情绪、实体、内容和语法等进行分类、检测和分析的目的。此外，它还提供了自定义实体提取功能，从而可以在文档中标识那些没有出现在标准语言模型中的特定于域的实体。

AutoML Natural Language有超过5000个分类标签，并支持对多达100万个文档进行训练，文档的大小最大可达10MB，这使得它非常适合“复杂”的用例，比如理解法律文件或对具有大型内容分类需求的组织进行文档分割。自从它问世以来，在这几个月中它已经得到了改进，特别是在文本和文档实体提取方面。谷歌方面表示AutoML Natural Language现在考虑增加用于模型训练和预测的上下文(例如文档的空间结构和布局信息)，以提高对发票、收据、简历和合同中的文本的识别能力。

AutoML Natural Language 的应用

此外，谷歌表示，AutoML Natural Language现在已经获得FedRAMP的中度授权，这意味着它已经根据美国政府的规范进行了审查，可以获得一些对模型训练有显著影响的数据了。这一进展，以及新引入的允许客户创建数据集、训练模型和预测的功能，还有将数据和相关的机器学习处理保持在单个服务器区域内的功能，都很方便联邦机构对产品的使用。

赫斯特集团已经在使用AutoML Natural Language来帮助组织其国内和国际杂志的内容，日本出版商日经集团(Nikkei Group)也在利用AutoML Translate来发布不同语言的文章。Chicory是第三个早期使用者，它利用AutoML为Kroger、亚马逊(Amazon)和Instacart等杂货零售商开发定制数字购物和营销解决方案。

AutoML Natural Language的未来

Natural Language的产品经理Lewis Liu在一篇博客文章中解释说，最终目标是为需要定制机器学习模型的组织、研究人员和企业提供一种简单、实用的模型训练方法。“自然语言处理是揭示文本结构和意义的重要工具，”他说。“我们通过更好的微调技术和更大的模型搜索空间，与谷歌人工智能研究合作，不断提高模型的质量。我们还引入了更高级的特性来帮助自动自然语言更好的理解文档。”

值得注意的是，AutoML是在AWS Textract之后推出的。AWS Textract是亚马逊针对文本和数据提取的机器学习服务，于今年5月推出。微软在Azure文本分析方面也提供了类似的服务。

原文链接：
https://venturebeat.com/2019/12/12/google-launches-automl-natural-language-with-improved-text-classification-and-model-training/

创作场景

谷歌推出通用版 AutoML Natural Language，支持分类、情绪分析等任务