谷歌推出通用版AutoML Natural Language,支持分类、情绪分析等任务

2019 年 12 月 27 日

谷歌推出通用版AutoML Natural Language,支持分类、情绪分析等任务

近期,谷歌推出了通用版AutoML Natural Language,它可以利用机器学习揭示电子邮件、聊天日志、社交媒体帖子等文本的结构和含义,并支持分类、情绪分析和实体提取等任务。谷歌方面表示,通用版AutoML Natural Language 在文本和文档实体提取方面具有很大的改进,它可以提供自定义实体提取功能,从而在文档中标识那些没有出现在标准语言模型中的特定于域的实体。


谷歌之前发布了 AutoML Natural Language,其目的是为了将其 Cloud AutoML 机器学习平台应用到自然语言处理领域。经过数月的 beta 版测试,AutoML 现在已经面向全球客户推出了通用版,支持分类、情绪分析和实体提取等任务,还支持不同的文件格式,包括本地和扫描的 PDF 文件。


AutoML Natural Language 的特性


通过反复训练,AutoML Natural Language 利用机器学习来揭示电子邮件、聊天日志、社交媒体帖子等文本的结构和含义。它可以从上传的文本或谷歌云存储文档中提取关于人、地点和事件的信息,它支持用户训练自己的自定义 AI 模型,以达到对情绪、实体、内容和语法等进行分类、检测和分析的目的。此外,它还提供了自定义实体提取功能,从而可以在文档中标识那些没有出现在标准语言模型中的特定于域的实体。


AutoML Natural Language 有超过 5000 个分类标签,并支持对多达 100 万个文档进行训练,文档的大小最大可达 10MB,这使得它非常适合“复杂”的用例,比如理解法律文件或对具有大型内容分类需求的组织进行文档分割。自从它问世以来,在这几个月中它已经得到了改进,特别是在文本和文档实体提取方面。 谷歌方面表示 AutoML Natural Language 现在考虑增加用于模型训练和预测的上下文(例如文档的空间结构和布局信息),以提高对发票、收据、简历和合同中的文本的识别能力。


AutoML Natural Language 的应用


此外,谷歌表示,AutoML Natural Language 现在已经获得 FedRAMP 的中度授权,这意味着它已经根据美国政府的规范进行了审查,可以获得一些对模型训练有显著影响的数据了。这一进展,以及新引入的允许客户创建数据集、训练模型和预测的功能,还有将数据和相关的机器学习处理保持在单个服务器区域内的功能,都很方便联邦机构对产品的使用。


赫斯特集团已经在使用 AutoML Natural Language 来帮助组织其国内和国际杂志的内容,日本出版商日经集团(Nikkei Group)也在利用 AutoML Translate 来发布不同语言的文章。Chicory 是第三个早期使用者,它利用 AutoML 为 Kroger、亚马逊(Amazon)和 Instacart 等杂货零售商开发定制数字购物和营销解决方案。


AutoML Natural Language 的未来


Natural Language 的产品经理 Lewis Liu 在一篇博客文章中解释说,最终目标是为需要定制机器学习模型的组织、研究人员和企业提供一种简单、实用的模型训练方法。“自然语言处理是揭示文本结构和意义的重要工具,”他说。“我们通过更好的微调技术和更大的模型搜索空间,与谷歌人工智能研究合作,不断提高模型的质量。我们还引入了更高级的特性来帮助自动自然语言更好的理解文档。”


值得注意的是,AutoML 是在AWS Textract之后推出的。AWS Textract 是亚马逊针对文本和数据提取的机器学习服务,于今年 5 月推出。微软在 Azure 文本分析方面也提供了类似的服务。


原文链接:


https://venturebeat.com/2019/12/12/google-launches-automl-natural-language-with-improved-text-classification-and-model-training/


2019 年 12 月 27 日 08:001015
用户头像
张之栋 InfoQ编辑

发布了 91 篇内容, 共 33.0 次阅读, 收获喜欢 151 次。

关注

评论

发布
暂无评论
发现更多内容

成长为软件教练的三千大道之一

华为云开发者社区

Java 敏捷开发

开源GitHub标星30K的腾讯Redis笔记,阿里技术专家看到都赞不绝口

小Q

Java 学习 编程 架构 面试

你应该知道的数仓安全——默认权限实现共享schema

华为云开发者社区

数据库 数据 schema

手把手教你使用ModelArts的自动学习识别毒蘑菇分类

华为云开发者社区

学习 AI 图像识别

嗯,挺全乎儿的,Spring Boot 多环境配置都在这里了,你喜欢哪种?

比伯

Java spring 编程 程序员 架构

不服!阿里P8手写489页SQL优化通关手册,解决你百思不得其解问题

996小迁

sql 程序员 架构 面试 计算机

阿里又出一座丰碑!P9级架构师整合出最新最全微服务1700页手册,下载下来慢慢啃

Java架构追梦

Java 架构 微服务 springboot SpringCloud

58个基础案例+2个综合案例带你探索微服务的神秘世界

小Q

Java 学习 编程 面试 开发

Nacos配置中心和服务的注册发现

牛初九

微服务 Spring Cloud nacos spring cloud alibaba

隧道视野效应 - 认知局限

石云升

教育 认知 隧道视野效应

28天刷完这份内容多大349页的阿里Java面试通关手册,我成功闯进了字节跳动!

Java架构之路

Java 程序员 架构 面试 编程语言

太牛了,腾讯T4Java技术专家手撸的Redis技术笔记,一周内下载量已突破30W。

Java架构之路

Java 程序员 架构 面试 编程语言

linux下定位多线程内存越界问题实践总结

小Q

Java Linux 学习 面试 多线程

架构师训练营 1 期 -- 第八周笔记

曾彪彪

极客大学架构师训练营

如何使用JavaScript实现前端导入和导出excel文件(H5编辑器实战复盘)

徐小夕

Java node.js 前端 React 数据可视化

JVM-技术专题-关闭与关闭钩子

李浩宇/Alex

架構師訓練營第 1 期 - 第 08 周作業

Panda

架構師訓練營第 1 期

2020年区块链发展及产业升级交流会成功举办

WX13823153201

从 Android 到 Java:如何从不同视角解决问题?

Java架构师迁哥

LeetCode题解:剑指 Offer 22. 链表中倒数第k个节点,递归,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

《迅雷链精品课》第四课:区块链技术发展趋势

迅雷链

区块链

天秀!这份由阿里数位大牛编写的777页高可用架构+MySQL

马士兵老师

Java MySQL 编程语言 高并发 架构师

架构师训练营 -week08-作业

大刘

极客大学架构师训练营

程序员在编程过程中,经常会在代码中使用到“where 1=1”,这是为什么呢?

小Q

Java 数据库 学习 架构 面试

“先加密后签名”是不是安全?看完这篇就秒懂!

华为云开发者社区

安全 加密 签名

朋友推荐我这份阿里面试通关手册,我却选择了字节的offer

小Q

Java 学习 程序员 架构 面试

炸了!一口气间了我18个JVM问题!

云流

Java 面试 jvm调优 JVM垃圾回收原理

看完之后,不要再说不懂代理IP了!

前嗅大数据

大数据 静态IP 代理IP 短效代理 动态IP

python+flask编写一个简单的登录接口例子

测试人生路

Python 接口测试

解密猫晚直播技术:如何保障全球200多个国家和地区同时在线狂欢?

阿里云视频云

30秒系列 | 巧用百度翻译提取图片中的文字

山下青城

图片识别 30秒 小技能

谷歌推出通用版AutoML Natural Language,支持分类、情绪分析等任务-InfoQ