写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013499
用户头像

发布了 731 篇内容, 共 457.7 次阅读, 收获喜欢 2003 次。

关注

评论

发布
暂无评论
发现更多内容

从头开始(概率)学HMM:精讲第一课-隐马尔可夫模型定义

herosunly

AI 引航计划 内容合集

模块九作业

VE

架构实战营

仁兄,可曾听闻OpenVINO

cv君

AI 引航计划

【设计模式】第一篇 - 组合模式

Brave

组合模式 10月月更

uni-app 在mac电脑连接安卓手机进行真机调试

达摩

uni-app app调试

JavaScript 脚本优化的 10 个技巧

devpoint

JavaScript 性能优化 10月月更

架构实战营 模块九 作业

脉醉

架构实战营

浅谈人工智能的历史

Nydia

AI驱动!7款开发者必备生产力工具

Jackpop

从头开始(概率)学HMM:精讲第二课-学习问题(BW算法)

herosunly

AI 引航计划 内容合集

从头开始(概率)学HMM:精讲第三课-概率计算问题

herosunly

AI 引航计划 内容合集

手把手带你做好项目管理|引航计划|管理

石云升

项目管理 管理 引航计划 技术专题合集

中国法定数字货币(DCEP)全面启航!全国普及势在必行

CECBC

在线HTTP请求/响应头转JSON工具

入门小站

工具

自我提升:高效能人士的7个习惯学习笔记

程序员架构进阶

自我管理 自我提升 10月月更

【布隆过滤】大数据+查重过滤+爬虫领域精选算法

cv君

AI 引航计划

原创万字总结人工智能技术栈与学习路线 下集 进阶篇

cv君

AI 引航计划

推荐2个网站,牛x就完事了!

Jackpop

设计电商秒杀系统

gawaine

架构训练营

数据库:B/B+树

正向成长

B+树 B树

为什么赛博朋克里总少不了日本元素?

脑极体

如虎添翼!6款备受欢迎的Edge浏览器插件

Jackpop

基于深度学习的医学图像分割(一)

cv君

AI 引航计划

决策树——从原理走向实战

cv君

AI 引航计划

电商秒杀系统

feitian

原创万字总结人工智能技术栈与学习路线 上集 基础篇

cv君

AI 引航计划

924清退在即,你的币转入数字货币钱包了吗?

CECBC

自定义Vue脚手架模板之:Vue-Cli源码分析

Brave

源码 vue cli 10月月更

手把手带你做好团队管理|引航计划|管理

石云升

团队管理 管理 引航计划 技术专题合集

Vue3 + TypeScript 开发实践总结

程序员海军

大前端 Vue3 引航计划

linux之history使用技巧

入门小站

Linux

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章