写点什么

谷歌用于图像识别的机器学习模型已移植至 TensorFlow 并已开源

  • 2016-11-03
  • 本文字数:964 字

    阅读完需:约 3 分钟

随着 announcement 宣布将用于图像识别的 TensorFlow 模型,以及对新老方法的精确度和性能进行比较评测的测试方法开源,谷歌 Google 在过去几年中迈上了一段全新的旅程。2014 年的 Inception V1 ,2015 年的 Inception V2 ,以及最新发布的 Inception V3 模型逐渐完善,分别以 89.6%、91.8%,以及 93.9% 准确度的成绩位居 ImageNet 2012 图像分类测试的前五名。在使用 BLEU -4 指标衡量机器生成的注解的测试中,通过将一种自然语言的语句翻译成另一种语言并对准确度进行比较,基于TensorFlow 的方法相比原本最先进的 DistBelief 模型也取得了领先两分的成绩。

在从原有实现中移植模型,并对其进行完善的过程中,最重要的问题之一在于对图像中的对象进行分类,以及对对象进行描述并将一张图像中的对象与另一张图像中的对象进行关联。为了解决这一问题,该模型在分类操作之外增加了一个微调操作,可以让模型提取用于描述对象细节的有用信息。通过将图像分类操作拆分为多个步骤,首先识别其他操作中确定的对象,并增加形容和预处理操作,并为要处理的注解提供必要的结构,使其在语句结构上更为准确,更类人。

该模型有一个范例:识别铁轨上的火车图像,随后识别火车为黄色夹杂着蓝色。最终合成的结果识别为:黄蓝相间的火车正行驶在铁轨上。虽然在本例中模型能否确定静态图片中对象是运动中的或静止的并不重要,但所输入图像的注解在训练数据中将类似图像中的对象描述为运动中的或静止的,这很重要。

该模型可将之前学习到的图像注解中的不同元素组合在一起,针对更多图像创建全新的注解,新的图像中可以包含多个已分类对象,但所有对象并未包含在同一个训练数据集中。在这个范例中,该模型自行创建出一个之前并不存在的注解。

在对原有模型的实现与新的模型进行性能评测对比发现,在通过Nvidia K20 GPU 运行DistBelief 以及全新的基于TensorFlow 的Inception V3 进行的性能对比中,TensorFlow 的训练时间(0.7 秒)仅为DistBelief(3.0 秒)的25%。除了基于TensorFlow 的Inception V3 图像分类模型,谷歌还提到了即将发布 Inception-ResNet-v2 模型,但并未谈到有关该模型的性能评测信息。虽然未使用训练数据集,但他们会通过人工生成的图像注解作为最基础的训练数。

查看 **** 英文原文 Google Machine Learning Models for Image Captioning Ported to TensorFlow and Open-Sourced

2016-11-03 19:005573
用户头像

发布了 283 篇内容, 共 112.9 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

Win10-VMware安装CentOS7.5

vinci321

centos win10 vmware 虚拟机

PHP反射API与接口的动态分析

技术冰糖葫芦

API boy API 文档 API 性能测试

基于向量检索服务与TextEmbedding实现语义搜索

DashVector

AI 向量检索 大模型 语义搜索

用数据,简单点!奇点云2024 StartDT Day数智科技大会,直播见

奇点云

发布会 奇点云 数据云 分析云

提升医疗服务质量的基石:全面解析医疗数据治理

郑州埃文科技

数据治理

鸿蒙4.2小版本大亮点,鸿蒙5.0也不远了

FinFish

鸿蒙应用开发 小程序容器技术 鸿蒙Next 鸿蒙5.0 鸿蒙SDK

GitHub天花板!清华大佬纯手码的《python背记手册》火了!

我再BUG界嘎嘎乱杀

Python 后端 软件开发 入门 零基础

快手闪耀VALSE2024:揭秘视频生成技术,展示文生图大模型

快手技术

学术会议 学术论文

半年涨粉1000万!揭秘快意大模型在短视频互动场景中的大规模应用实践!

快手技术

短视频 机器人 #大模型

伙伴活动|W3C 标准带头人开讲 WebGPU 前沿趋势

声网

AWS Elastic Beanstalk 监控可观测最佳实践

观测云

APM AWS

DashVector + ModelScope 玩转多模态检索

DashVector

数据库 AI 向量检索 大模型

快手工程架构治理大揭秘:告别崩溃,提效神器来袭!

快手技术

架构 架构治理

加速规模化应用,火山引擎升级金融大模型服务体系

新消费日报

零成本开发!试试这6个免费的API接口平台

幂简集成

API 免费API接口 免费API 免费API接口平台

音乐弹幕?智能修音?回森K歌社区的创新玩法?(上)

快手技术

商业模式 创新 玩法

开源啦,Redis跨集群实时数据同步工具

golang 数据库 微服务、 redis 底层原理

为什么要迈进NGAIOps(下一代AIOps)

乘云数字DataBuff

AIOPS NGAIOps

DashVector x 通义千问大模型:打造基于专属知识的问答服务

DashVector

数据库 后端 向量检索 大模型

Dubbo 全链路监控技术实践

乘云数字DataBuff

dubbo 全链路监控

IntelliJ IDEA集成Baidu Comate,商城系统支付交易功能开发实战

阿Q说代码

百度 智能推荐 comate 代码助手 智能编码

云原生多云多集群Karmada|2024开源之夏8项课题邀您共创

华为云开发者联盟

Kubernetes 云原生 华为云 华为云开发者联盟 企业号2024年5月PK榜

AAAI 2024 | 基于由粗到细的视觉表征实现的高效匹配且兼顾性能的跨模态检索

快手技术

大厂程序员的一天,沉浸式体验Baidu Comate代码助手如何用于面试、代码评审……

申屠鹏会

大模型 Baidu Comate comate

基于串口通信的电子相册设计

芯动大师

Python COF 智能屏

谷歌用于图像识别的机器学习模型已移植至TensorFlow并已开源_AI&大模型_Dylan Raithel_InfoQ精选文章