最近,Google 的 Ground Truth 团队发布了一个新的深度学习模型,用于从带有地理定位信息的图像文件中自动抽取信息,以改进 Google 地图服务。该神经网络模型在对挑战性的 FSNS(法国街道名称识别数据集,French Street Name Signs)数据集处理上,给出了更高的准确性指标。来自 Google Brain 团队的 Julian Ibarz 和来自 Ground Truth 团队的 Sujoy Banerjee 在 Google Research 博客网站上撰文,介绍了解决现实世界图像中文本抽取问题中所用的TensorFlow 模型。
目前有十亿用户使用Google 地图软件指路、获取实时交通情况和商户信息,要为这些用户提供更好的体验,信息应必须能反映了变化中的世界。当前,街景车(Street View Car)已经采集了800 多亿张图像。要从这么大规模的图像数据集中为Google 地图发现新的或者是发生更改的信息,人工分析是不可能实现的。因此,从具有地理定位信息的图像中自动地抽取结构化信息成为团队的工作目标之一。
现在,这一新的深度神经网络模型对开发人员公开可用。它在从 FSNS 数据集街景图像中读取街道名称的任务上,达到了比其它深度神经网络更高的识别率(84.2%)。可扩展该模型实现从街景图像中抽取其它类型的信息,例如从含有店面的图像中抽取出商户的名称。
在城市、道路和商户等自然环境中做文本识别,这是一个具有挑战性的计算机视觉和机器学习问题。失真、遮挡、方向模糊、复杂背景或视角上的差别,这些因素使得从自然场景中抽取文本更具挑战性。先前在2008 年,Google 团队就使用了一个基于神经网络的模型,用于街景图像中行人面部及车辆牌照的模糊化,实现对用户隐私的保护。以该研究为基础,他们已能使用机器学习自动地改进Google 地图,实现了相关最新信息的更新。
深度学习模型还实现了如下任务的自动化:新街景图形库的标记、与命名规范一致的文本规范化处理,以及剔除与数据分析无关的文本。团队无需知道街道的名称或是该地址的具体位置,就可以直接从图像创建新的地址。例如,如果街景车汽车行驶在一条新建的道路上,该模型可以分析所街景车捕获的图像,从中抽取街道的名称和门牌号码,并在Google 地图的适当处自动地创建并定位新地址。
要在大规模的街景图像数据集上应用这些模型,Ground Truth 团队采用了机器学习芯片 TPU (张量处理单元,Tensor Processing Unit),以降低指令流水线推断(Inference)的计算代价。
查看英文原文: Enhancing Google Maps with Deep Learning and Street View
评论