写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013440
用户头像

发布了 731 篇内容, 共 451.9 次阅读, 收获喜欢 2002 次。

关注

评论

发布
暂无评论
发现更多内容

LED租赁屏常用于哪些场合?

Dylan

商业 活动 LED LED display LED显示屏

生产进度拖延、成本高企,你还愿意继续忍受吗?

天津汇柏科技有限公司

低代码开发平台 软件定制开发 AI人工智能 生产管理

实践分享:借助Leangoo领歌免费敏捷工具精细化Sprint Backlog管理

顿顿顿

敏捷开发 敏捷项目管理 敏捷工具 scrum工具 敏捷迭代管理

VMware Workstation 17.6 Pro 发布下载,新增功能概览

sysin

vmware Workstation

2024 年 Web3 融资情况解析:公售项目占比超八成,散户抱团取暖

TechubNews

GreatSQL执行Update失败案例分析

GreatSQL

Vision Pro开发实践

京东零售技术

Vision pro

ShareMouse for mac鼠标键盘共享工具 附ShareMouse激活码

理理

2023年央企安全威胁盘点

芯盾时代

身份安全 央国企数字化转型 弱口令

Mac风扇控制软件 Macs Fan Control Pro

理理

一文把视频审核架构说得明明白白

京东零售技术

架构 视频审核

VMware Fusion Pro 13虚拟机详细功能介绍

理理

【文件比较神器】Beyond Compare 5

理理

好玩的mac科幻探险游戏 :无人深空No Man‘s Sky中文版

理理

火山引擎携手南开大学、中国国航、协和医院,加速各行业AI能力落地

新消费日报

应用开发“取经路”,华为应用市场送出全周期服务“助攻”

脑极体

AI

VMware Fusion 13.6 发布下载,新增功能概览

sysin

vmware fusion

2024年IDEA最新安装破解激活教程,亲测可用

理理

电商数据驱动决策:京东商品详情API返回值的力量

技术冰糖葫芦

api 网关 API Explorer API 策略 pinduoduo API

GitHub Star 数量前 11 的开源内部工具

NocoBase

GitHub 开源 低代码 无代码 内部工具

好用的终端SSH仿真工具 SecureCRT

理理

YouTube客户端就选Clicker for YouTube Mac版

理理

多模态在京东内容算法上的应用

京东零售技术

算法

零基础能做Oracle数据库之间的迁移吗?

NineData

oracle 数据迁移 Oracle ACE NineData 增量迁移

Java开发分析JProfiler 14有哪些改进?

理理

更懂消费者 火山引擎数据飞轮助力乳企做好雪糕生意

字节跳动数据平台

大数据 数据分析 数据平台 火山引擎 增长营销

从申请到调用:一步一步教你使用1688商品列表数据接口

tbapi

1688API 1688商品列表数据接口

人工智能 | 大语言模型应用框架介绍

测试人

人工智能 软件测试

软件正在我们眼前悄然被侵蚀

财见

京东广告稀疏大模型训练与推理 GPU 优化实践

京东零售技术

广告 GPU算力

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章