报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013531
用户头像

发布了 731 篇内容, 共 460.5 次阅读, 收获喜欢 2004 次。

关注

评论

发布
暂无评论
发现更多内容

圣诞节

Tiger

28天写作

使用模版自动化 Amazon IoT 设备创建及证书注册过程

亚马逊云科技 (Amazon Web Services)

IoT

前端CI/CD上如何保证依赖安装速度达到优解?

梁龙先森

前端 构建脚本

Certificate Vending Machine – Amazon IoT 设备接入 Amazon IoT 平台解决方案

亚马逊云科技 (Amazon Web Services)

IoT

Amazon ES现更名为Amazon OpenSearch Service并支持OpenSearch 1.0

亚马逊云科技 (Amazon Web Services)

IoT

利用Amazon Lambda实现Amazon IoT设备证书的即时注册

亚马逊云科技 (Amazon Web Services)

IoT

左手自研,右手开源,技术揭秘华为云如何领跑容器市场

华为云开发者联盟

Docker 开源 Kubernetes 容器 云原生

1个通用工具平台+多个热点场景工具套件,助力开发者快速构建应用

华为云开发者联盟

云计算 低代码 开发工具 devcloud 应用构建

这一期总结

张老蔫

28天写作

深圳买房记

hackstoic

房地产

HDZ城市行深圳站 | AIoT时代,如何抓住智联生活的战略机会点?

华为云开发者联盟

AIOT HarmonyOS 华为云IoT 智联生活 PLC-IoT

什么是 AQS 及源码分析

Ayue、

AQS

HarmonyOS(鸿蒙)——单击事件的四种写法

李子捌

28天写作 21天挑战 鸿蒙系统 12月日更

物联网场景中灵活实施对设备的控制管理

亚马逊云科技 (Amazon Web Services)

IoT

Capgemini 如何利用 Amazon IoT 通过农业洞察监控农田

亚马逊云科技 (Amazon Web Services)

IoT

Amazon IoT Core 服务成本优化

亚马逊云科技 (Amazon Web Services)

IoT

华为云GaussDB新产品特性亮相DTC2021,重磅新品开源预告

华为云开发者联盟

数据库 华为云 GaussDB 同城双集群 内存引擎

🍃【Spring专题】「原理系列」SpringMVC的运行工作原理(补充修订)

码界西柚

spring springmvc 12月日更 流程解析

利用 Cognizant APEx 2.0 和 Amazon IoT SiteWise Edge 提高产品质量

亚马逊云科技 (Amazon Web Services)

IoT

设计千万级学生管理系统的考试试卷存储方案

drizzle

「架构实战营」

Linux之which命令

入门小站

Linux

构建安防视频云存,和传统安防视频业务的烦恼说再见!

亚马逊云科技 (Amazon Web Services)

IoT

PassJava 开源 (六) :整合Spring Cloud Alibaba Nacos组件

悟空聊架构

28天写作 passjava 悟空聊架构 12月日更 naocs

【CSS 学习总结】第五篇 - CSS 变量 var

Brave

CSS 12月日更

Linux 命令 less 全知全会

hedzr

Linux less

Kubernetes 集群部署 Metrics Server 获取集群 Metric 数据

zuozewei

Kubernetes 性能监控 12月日更

Servlet基础知识与新手常遇到的错及解决方法(01)

海拥(haiyong.site)

服务器 28天写作 12月日更

给弟弟的信第23封|如何写一篇文章?

大菠萝

28天写作

荐书📚——《剑指Offer》专项突破版

宇宙之一粟

推荐书籍 12月日更

在线上传图片二维码识别解析

入门小站

工具

收集、处理并监控设备数据——Amazon IoT SiteWise Edge“一网打尽”

亚马逊云科技 (Amazon Web Services)

IoT

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章