写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013477
用户头像

发布了 731 篇内容, 共 454.8 次阅读, 收获喜欢 2003 次。

关注

评论

发布
暂无评论
发现更多内容

第四周课后作业

iHai

极客大学架构师训练营

架构师 0 期 | 互联网巨头不是一天练成的

刁架构

极客大学架构师训练营

从维基百科架构看互联网架构

破晓_dawn

架构师训练营--第四周作业

_MISSYOURLOVE

极客大学架构师训练营 第四周作业

极客大学架构师训练营 系统架构 淘宝架构 第四次作业

John(易筋)

极客时间 系统架构 极客大学 极客大学架构师训练营 淘宝架构

总结

chenzt

第四周作业一

慵秋

极客大学架构师训练营

架构师第四周

Tulane

架构师训练营-week4-学习总结

晓-Michelle

极客大学架构师训练营

week4作业

强哥

极客大学架构师训练营

架构师训练营 第四周 作业

CR

极客大学架构师训练营

大型互联网产品架构技术体系梳理

lei Shi

架构师训练营第四课作业

曾祥斌

大规模复杂系统如何架构(二)?

李小匪

架构 架构师

架构师训练营 -Week 04

华乐彬

学习 极客大学架构师训练营

week4 作业

Gavin

week4 总结

Gavin

典型的大型互联网应用系统的技术方案

极客大学架构师训练营 互联网架构

系统架构知识是架构师的常识而不是能力(第 4 周学习总结)

李德政

极客大学架构师训练营

【架构课作业 - 第四周】

Nelson

极客大学架构师训练营

架构师训练营(第 4 周作业)

李德政

极客大学架构师训练营

Week4: 学习总结

Geek_165f3d

Week4:课后作业

Geek_165f3d

架构师训练营第四周 - 总结

桔子

Week4作业

王志祥

极客大学架构师训练营

大型互联网系统使用的技术方案

stars

互联网系统架构的挑战和变迁

破晓_dawn

【第四周】学习总结——架构演进、模式、技术和案例分析

三尾鱼

极客大学架构师训练营

架构师训练营第四周 - 作业

桔子

案例讲解,设计模式定义

秤须苑

思考

纯纯

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章