写点什么

谷歌大脑:正在改变谷歌帝国的利器

  • 2014-07-24
  • 本文字数:1735 字

    阅读完需:约 6 分钟

对于一个互联网公司来讲,枯燥的数据标注工作是家常便饭。数据组经常花费大把的时间盯着屏幕,来标注所见数据的好坏、种类和重要性等等,用来提升应用的用户体验和广告点击率。互联网巨头谷歌也不能免俗,例如在其门牌号识别的项目中,就有很多工程师整日重复上述过程,面对屏幕,判断看到的图片是不是门牌号,然后标注结果。门牌号识别对于谷歌地图服务来讲是很重要的一部分,能够提供精确到大厦门牌号的导航会带来非常好的用户体验,然而,对于这些标注数据的员工来将,应用的重要度反而加重了他们标注工作的繁重度,意味着他们需要更加仔细的来辨认本来就很难区分的电话号码、胡乱的涂鸦和门牌号。

这种会让人歇斯底里的工作,在前几周得到了改善,据连线杂志报道,谷歌公司的一些员工训练出了一种机器学习算法,来辅助甚至代替标注员的工作。这并不是一种新的尝试,而传统的学习方法往往效果差强人意。但是,这一次,工程师采用了一套新的人工智能系统克服了以往的问题,这就是谷歌大脑系统。有了这个系统,街景地址识别的效率得到了极大的提升,法国街景团队提供的地址数据在一小时内就被谷歌大脑系统完成了地址识别。在这个过程中,机器学习算法起到决定性的作用,难怪业界都说谷歌公司不是一个搜索公司,而是一个机器学习公司。

谷歌大脑系统,三年前诞生于谷歌神秘X 实验室,此后一直处于内测状态,传闻中的无人驾驶汽车、广告点及系统、谷歌街景等都萌发自此实验室。其目标就是为软件工程师提供一流的机器学习算法,用于公司的各类业务中。和常规的项目不同,谷歌大脑可以看做是谷歌公司迈向一个全新领域的尝试,一如上一个十年它的创始人通过搜索和大规模广告系统开创天下一样的新颖。除了上文所述的地址识别以外,谷歌大脑还被用于其Android 手机的语音识别以及G+ 社交网络的图像搜索任务。谷歌大神Jeff Dean 声称现在谷歌内部大概有30-40 个项目在使用谷歌大脑系统,有一些已经产品化,有一些在初步尝试,与现有系统比较,都的到了比较乐观的结果。谷歌公司在大脑系统上的发力,可以看做是公司研发策略转向一种新的称作“深度学习”的人工智能方法的尝试。站在同一起跑线的,还有Facebook、微软、IBM、百度等巨头。竞争非常激烈,连线杂志近日报道,微软公司名为Adam 的深度学习系统,在其学术峰会上首次出现在公众面前。其亮点在于,识别种类更多,而使用的机器少一个数量级。和谷歌大脑不同,Adam 并不试图达到算法的极致,而是致力于解决计算性能的优化。百度公司也在今年发布了自己的深度学习战略,主要用于图片搜索和广告点击率预测。

谷歌公司在深度学习上的发力可以追溯至2011 年斯坦福教授吴恩达教授(现任百度研究院院长)加入“射月”实验小组开始,最早的报道来自纽约时报。此后的一年,纽约时报再次报道,吴教授所在团队通过一个1 万6 千台计算机的集群,通过模仿人脑思考模型,成功的基于1 亿张Youtube 截图教会了算法识别一只猫,同年,Android 手机语音识别的错误率降低了惊人的25%。然后谷歌公司就开始了一轮深度学习专家收购战,去年雇佣了著名的Geoff Hinton 教授,以及他的DNNResearch 公司,还斥资4 亿美元收购了深度学习游戏公司DeepMind。

有了深度学习,工程师可以构建从某种程度上模仿人脑学习的软件模型。然后在现有的海量数据上进行训练、调试最终施展于新的应用上。模型具有很好的重用特性,谷歌图片搜索训练的图片识别模型,也可以帮助谷歌地图。能改进搜索引擎结果的文字分析模型也可以帮助Google+。在谷歌的内网上,已经有相当数量的深度学习模型分享出来,Jeff Dean 团队负责其后端,而应用团队则负责提供相应的数据。机器学习模型的构建和训练是非常复杂的,需要多年的积累,但是使用却没有那么难。整个使用过程非常简单,下载源代码,调整一个配置文件,给出自己的数据,运行。

正如当年谷歌发布分布式模型MapReduce,最后造就了开源版本Hadoop,如日中天的谷歌大脑项目,正不断的以论文等形式进入大众开发者视野,下一个开源大脑会是什么样子?让我们拭目以待。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-07-24 21:432959
用户头像

发布了 268 篇内容, 共 122.8 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

区块链系统开发应用解决方案|去中心化应用dapp模式搭建

V\TG【ch3nguang】

五项大奖、三项评估!为行业数字化转型发展注智赋能!

天翼云开发者社区

云计算 云服务

百度智能云千帆大模型平台 2.0 产品技术解析

Baidu AICLOUD

异构计算 百度百舸 千帆大模型平台

Java基础面试题 【二】JUC

派大星

Java 面试题

私有云的优缺点是什么?与公有云的区别

青椒云云电脑

云桌面

袋鼠云产品功能更新报告07期|智能、高效、安全,一个都不能少!

袋鼠云数栈

大数据 数据中台 产品更新

BIM对电脑配置要求高 云电脑了解一下

青椒云云电脑

云电脑

Mac电脑版MarkDown写作推荐 iA Writer 激活中文最新版

胖墩儿不胖y

markdown Mac软件 Markdown 编辑器 写作软件

如何在不同服务器之间来进行安全又极速的大量数据同步?

镭速

FTP加速小技巧 | 这个工具居然能百倍加速FTP?

镭速

ftp ftp传输 ftp加速

基于Java开发的数字化询价招标采购系统(SRM系统源码)

金陵老街

spring-boot

GitHub上标星23K+的Redis进阶笔记(应用+原理+集群+拓展+源码)

小小怪下士

Java redis 程序员 java面试

GLTF编辑器的另一个作用:格式转换

3D建模设计

格式转换 GLTF glb

视频转码工具 Compressor激活中文最新版

mac大玩家j

Mac软件 视频处理工具 视频编辑软件 编辑视频

成功入选 2023 谷歌出海创业加速器,Tapdata 乘势远航

tapdata

数据采集 数据集成 Tapdata

异常检测:探索数据深层次背后的奥秘《上篇》

汀丶人工智能

数据挖掘 机器学习 异常检测

云桌面如何助力校园云办公 老师这么说

青椒云云电脑

云桌面

护航政务“云上安全”,天翼云打造自主可控政务云能力体系!

天翼云开发者社区

云计算 网络安全 云服务

百度APP iOS端包体积50M优化实践(六)无用方法清理

百度Geek说

ios 百度app 企业号9月PK榜

TDengine 用户案例合集 | 智能环保项目的时序数据处理难点与优化实践

TDengine

时序数据库 #TDengine

华为云CodeArts Check代码检查服务用户声音反馈集锦(7)

华为云PaaS服务小智

云计算 软件开发 华为云 代码检查

REST API设计原则:构建可扩展、易维护的 API

高端章鱼哥

RESTful API REST API

国泰君安期货新一代国产业务系统上线 首次使用国产分布式数据库TDSQL

Geek_2d6073

GLTF编辑器:在线模型材质编辑工具

3D建模设计

纹理处理 GLTF 材质修改

软件定义汽车时代,1 亿行代码的安全保障,极狐GitLab 这么做!

极狐GitLab

gitlab 安全 DevSecOps 汽车 安全左移

OmniFocus 3 for Mac(GTD时间管理工具) v3.15中文激活版

mac

任务管理软件 苹果mac Windows软件 OmniFocus Standard

行于“云”上,“翼”路顺畅!

天翼云开发者社区

云计算 云服务

什么是模型混合模式?

3D建模设计

3D模型 gltf编辑器

软件物料清单管理平台,让开源组件安全问题无所遁形

网安云

如何使用ChatGPT构建一个Web应用程序?

互联网工科生

应用程序 ChatGPT AI编程

谷歌大脑:正在改变谷歌帝国的利器_语言 & 开发_张天雷_InfoQ精选文章