HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013391
用户头像

发布了 731 篇内容, 共 449.2 次阅读, 收获喜欢 2002 次。

关注

评论

发布
暂无评论
发现更多内容

架构实战营 模块五课后作业

iProcess

架构实战营

【LeetCode】目标和Java题解

Albert

算法 LeetCode 6月日更

git stash误使用drop删掉本地保存,恢复代码一次记录

良知犹存

git

spring-beans 注册 Beans(三) ConfigurationClassPostProcessor处理BeanDefinition流程

梦倚栏杆

模块5作业 微博评论高性能高可用计算架构

TH

架构实战营

用Docker的方式编译OpenVINO

IT蜗壳-Tango

6月日更

模块5-”微博评论“的高性能高可用计算架构

小遵

模块5 学习总结

TH

架构实战营

模块五:课后作业

黄先生

架构实战营模块5

阿体

”微博评论“的高性能高可用计算架构

thewangzl

新手模拟实现call和apply

前端树洞

大前端 js this JavaScrip

从水晶宫到甲秀楼:在数博会读懂智慧城市的“大工业时代”

脑极体

设计微博系统中”微博评论“的高性能高可用计算架构

贯通

#架构实战营

架构模块5作业

高亮

架构训练营

JVM之内存管理

邱学喆

JVM 内存管理 垃圾回收算法 垃圾回收器

运动居然成了我的奢侈品?

悟空聊架构

程序员 程序人生 运动 6月日更

【Vue2.x 源码学习】第六篇 - 数据代理的实现

Brave

源码 vue2 6月日更

模块5作业

大肚皮狒狒

前端vue在可视化大屏领域的工作实践

孙叫兽

Vue 可视化 eCharts 可视化地图 引航计划

react源码解析7.Fiber架构

全栈潇晨

react.js react源码

架构训练营——模块五作业——微博评论

开拓纪

架构训练营 模块五 微博评论

架构实战营模块五作业

冷大大

作业 架构实战营 模块五

Proxy 对象简介

编程三昧

JavaScript 大前端 ES6 Proxy

模块五-微博评论高性能高可用计算架构

华仔架构训练营

作业

CR

架构实战营5 作业

梦寻解语花

架构实战营

模块五 作业

薛定谔的指南针

架构实战营

架构实战营 模块五作业

Dylan

架构实战营

如何画好架构图 (建议收藏)

悟空聊架构

流程图 架构图 6月日更 processon 原理图

【Flutter 专题】110 页面间小跳转 (四)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 6月日更

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章