Facebook开源用于目标检测的深度学习库Detectron-InfoQ



 写点什么

看新闻很累？看技术新闻更累？试试下载 InfoQ 手机客户端，每天上下班路上听新闻，有趣还有料！

一月份，在谷歌更新了 TensorFlow 图像识别 API 之后，Facebook 的研究部门 FAIR (Facebook AI Research) 宣布开源目标检测库 Detectron。这两个库都提供了最新的深度学习目标检测算法。

Detectron 是基于 Facebook 的深度学习框架 Caffe2 开发的，使用了开源协议 Apache 2.0 ，可以直接作为 Python 的库使用。Detectron 的包可以在 GitHub 上下载，包括脚本、预训练模型以及 Docker 镜像。谷歌的 TensorFlow 图像识别 API 最早于 2017 年 6 月发布，是 TensorFlow 研究项目的一部分，TensorFlow 包含了约 40 个不同的深度学习项目。

这两个库的预训练模型都已在 COCO 数据集上训练好，COCO 数据集是一个大型图像数据库，包括了目标检测、分割以及图像文本描述信息。该数据集有 80 个类，超过 20 万张标注图像以及 150 万个实例对象。Facebook 的 Detectron 和谷歌的 Tensorflow 图像识别 API 主要用于研究，暂未用于生产。

目标检测仍然是计算机视觉领域具有挑战性的一个方面，在许多计算机视觉领域的任务上都有应用。从简单的人脸检测到图像检索与视频监控。自动驾驶需要依赖于实时行人检测技术，而城市的车辆与人口数量的自动统计在城市规划中也很有价值。

目标检测面临的主要问题是自然场景下的未知目标的数量、大小和其在图像上的分布都是随机的。并且在提升精度的同时要求算法具有速度优势，这也增加了任务本身的难度。

机器学习中，静止图像中的目标检测需要同时解决两个问题。即确定图像的某个特定区域是一个目标物体并判断其种类。目前的目标检测模型建立在卷积神经网络 (CNN) 的基础上，卷积神经网络是一类结构特殊的神经网络。CNN 使用矩形滑动窗口对整个原始图像进行特征提取。

目标检测算法主要有两大类。基于 R-CNN 的方法使用多尺度滑动窗口处理不同尺寸的目标，而 YOLO(You Only Look Once) 算法使用不同的特征提取和决策方法对图像进行一次推理。早期的工作能够在目标物体的周围标记一个矩形边界 (object localization)，而最近的一些研究成果 (例如， Mask R-CNN 和 RetinaNet ) 能够在物体边缘标记出更精确的边界。这一重大的进展被称为实例分割 (instance segmentation)，对于图像中的每个像素点，都会确定其对于某一特定类的归属关系。

评论表明Tensorflow 目标检测API 更容易训练，它的GitHub 仓库包括一些可以用于安装、训练模型和迁移学习的Jupyter Notebooks，在谷歌的目标检测库中也可以获取更多的在线教程。

查看英文原文： Facebook Open-Sources Detectron, Deep-Learning Library for Object Detection

感谢无明对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

发布

暂无评论

week5. 学习总结
学习总结负载均衡一致性哈希算法
2020 年 7 月 9 日
第 206 讲 | 邵浩：人工智能新技术如何快速发现及落地（下）
如何利用技术赋能产品，得到用户和资本的认可，才是最重要的。
2019 年 4 月 17 日
Google 发布新的 TensorFlow 物体检测 API
Google发布TensorFlow物体检测API，帮助开发人员和研究人员识别图片中的物体。Google专注于提高API的易用性和性能，新的模型于6月16号发布，在基准测试中表现出良好的性能，并已经开始应用于研究工作当中。
Google 语言 & 开发架构 TensorFlow
深度学习利器：TensorFlow 程序设计
本书TensorFlow程序设计中的关键技术主要包括以下几个方面：TensorFlow编程基础及实践；TensorFlow系统架构及C/C++编程API；分布式TensorFlow技术；TensorFlow与卷积神经网络；TensorFlow与自然语言处理模型；TensorFlow在智能终端中的应用。
大数据语言 & 开发深度学习 AI TensorFlow
我的算法学习之路
一点儿经验，希望对想学算法的你有帮助
2021 年 1 月 29 日
90 后首席科学家王乃岩：我厌倦一成不变，探索自动驾驶的未知边界令我着迷 | 二叉树视频
的开发。年来带领图森未来算法团队不断探索自动驾驶技术的未知边界。。二叉树视频第七季「年少有为」第二期嘉宾特别邀请到了王乃岩，听他讲述自己的成长故事。
其他安全敏捷视频
卧槽，牛皮了！某程序员苦刷这两份算法 PDF47 天，四面字节斩获心仪大厂 offer！
最近有看到很多朋友想进大厂，四面竟然都考了算法，很多同学面对算法的问题都很头大，因为自己做项目很难用到，但是但凡高薪的职位面试都会问到。最近我整理了一份刷题宝典，这份刷题宝典，也让我进了心仪的大厂。今天给大家分享一下：
2020 年 12 月 9 日
YOLODet 最强 PyTorch 版的 YOLOv5、YOLOv4、PP-YOLO、YOLOv3 复现
#github地址：https://github.com/wuzhihao7788/yolodet-pytorch
2020 年 11 月 3 日
深度学习在 Gilt 上的应用
机器学习起源于神经网络，而深度学习是机器学习的一个快速发展的子领域。最近的一些算法的进步和GPU并行计算的使用，使得基于深度学习的算法可以在围棋和其他的一些实际应用里取得很好的成绩。时尚产业是深度学习的目标领域之一。闪购网站Gilt正在实际应用中使用深度学习技术。
大数据语言 & 开发 AI
FFMpeg 解码 API 以及在解码过程中存在的丢帧问题
在优化视频客观全参考算法（主要是PSNR, SSIM, MS-SSIM）时，我们首先利用FFMpeg提供的API（avcodec_send_packet()，avcodec_receive_frame()）对输入的两个MP4文件转成对应的YUV格式的数据文件，然后再基于这两份YUV数据文件进行计算，得到对应的结果。
2021 年 1 月 22 日
如何从 8 个维度全面比较机器学习算法？
当两种算法似乎都有效时，如何选择使用算法A，还是算法B？
文化 & 方法 AI 算法方法论
大规模数据处理在深度学习中如何应用？
在“深度学习”中，大规模数据处理应该如何应用？
2019 年 7 月 22 日
自动驾驶车辆在变道能力上取得了进步
研究人员创建出了一种算法，允许自动驾驶车辆对其周围车辆的变道情况进行预测。
语言 & 开发 AI
云上 AI 服务：云 AI 能从哪些方面帮助构建智能应用？
作为开发者，我们要真切地了解云上AI究竟有哪些能力，知道怎样让它和应用程序的开发和运行集成。
2020 年 4 月 8 日
《大数据算法》.pdf
学习大数据，你需要掌握多少种算法？
2020 年 12 月 16 日
第 17 讲 | 互联网公司深度学习 CTR 案例：Google（2）
无
2018 年 1 月 31 日
行业视角：产品经理眼中的人工智能
你理解人工智能，知道人工智能的产业发展现状如何吗？人工智能产品经理的人才结构又是怎样的呢？
2020 年 12 月 14 日
Google 的点击率系统模型
点击率预估系统是整个广告系统的核心功能之一，分享一篇难得一见的工业界级别的科技论文，来自Google广告团队。
2018 年 6 月 9 日