写点什么

雅虎开源色情图片检测神经网络

  • 2016-10-16
  • 本文字数:1064 字

    阅读完需:约 3 分钟

近期,雅虎刚刚开源了他们自己构建的一套深度学习神经网络,它专门用于自动检测图片是否含有色情内容。

NSFW(Not Suitable For Work)用于标记不适合上班时间浏览的网络内容,它的界定其实是很主观的,有的人反感的东西可能其他人并不觉得如何。雅虎的这个深度学习神经网络的定位是专注于 NSFW 中的色情图片。所以,该模型不适用于处理素描、文字、动画、暴力图片等内容。

对色情图片的鉴定并不容易,所以除了技术手段之外往往都离不开人工,于是就催生了鉴黄师这样的岗位。因为对于机器来说,图片都是些 RGB 的像素罢了,不论是花草树木,还是香车美女,摆在无欲无求的机器面前并无差异。而人,却对它有天生识别能力。美国前大法官波特·斯图尔特就有这样一句名言:“ 我看到它,才知道它是不是”。因此,机器是得向人来学习如何判定色情图片的。

该神经网络使用了 CaffeOnSpark ,这是一个基于 Hadoop/Spark 的分布式深度学习框架。雅虎已经基于已有的数据对模型进行了训练,这些数据既包括 NSFW 的,也包括 SFW(suitable for work,适合上班时间浏览)的,每张图片已明确标记好。在通过学习之后,它会为每张待鉴定的图片打出一个 NSFW 得分,表示属于 NSFW 的可能性。该值范围从 0 至 1,小于 0.2 表示很有可能是安全的,大于 0.8 表示有很大可能是 NSFW 的。如下图所示,花丛中的少女衣着保守,得分 0.001,而运动中的女孩和海边的男子虽暴露了部分肢体,但得分也仅为 0.116 和 0.074,都未达到 NSFW 的标准。想了解该模型生成和训练的更多详情,请戳这里

雅虎建议大家在使用时选择自己的阈值,因为应用场景和对 NSFW 标准的理解可能会有差异,所以开发人员最好根据自己应用对 NSFW 的定义来设定评估值。

在 Reddit 上,大家就该模型对评估的有效性展开了讨论。有人认为:

“不知道它的评估是否准确,如果能允许大家上传图片,它打出分来让大家评价一下效果就好了”

而有人就此回应说:

“我不知道你会怎么看,但我肯定不会让人把最 NSFW 的图片上传到我的服务器上的”

出于某些原因,在公共网络上放置各类 NSFW 图片的确不太合适。好在雅虎已经将此模型开源,如果各位感兴趣的话,可以自己动手实践一下,看它给出的评估是否符合你的标准。你可以通过 雅虎的文章 了解更多详细内容,模型可以在 GitHub 上下载。如果你想要搭建自己的色情图片识别系统,必须要自己提供数据,这可能对大家来说不算什么难事。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-10-16 19:005833

评论

发布
暂无评论
发现更多内容

45个 GIT 经典操作场景,专治不会合代码

程序员小富

git

深度剖析数仓CN增量备份技术

华为云开发者联盟

华为云 备份 GaussDB(DWS) 备份容灾 CN增量备份

不会Netty,你永远是个Java菜鸟

博文视点Broadview

NFT卡牌盲盒游戏系统开发搭建

薇電13242772558

NFT

加入XTransfer,和技术大咖一起大展身手!

XTransfer技术

程序员 招聘 跨境支付

深度文 | 一文看懂云原生时代 DevOps 如何选型

星汉未来

运维 云原生 降本增效

编程和英语,数学到底什么关系

北极的大企鹅

思维转换 编程思想

Web 键盘输入法应用开发指南 (5) —— 实战技巧

天择

JavaScript 键盘 实战 输入法 3月月更

编程术语的类比(二)

北极的大企鹅

学习 思维转换 编程思想

别再用 Redis List 实现消息队列了,Stream 专为队列而生

CRMEB

TiDB 5.4 发版丨新功能解读

PingCAP

编程术语的类比(一)

北极的大企鹅

思维转换 编程思想

web前端培训:js算法面试es6实现

@零度

JavaScript ES6

Apache Flink 在移动云实时计算的实践

Apache Flink

大数据 flink 开源 编程 实时计算

恒源云(Gpushare)_UNIRE:一种可以共享标签空间的方法

恒源云

OpenCV 计算机视觉 服务器

推荐 10 本 Go 经典书籍,从入门到进阶(含下载方式)

AlwaysBeta

Go golang 编程语言 书单推荐 Go 语言

java培训:多个线程同时访问一个类是否有问题方法

@零度

JAVA开发

OceanBase 推出全新品牌 slogan

OceanBase 数据库

数据库 oceanbase 品牌slogan

大数据培训:Kafka存储结构及Log清理机制

@零度

大数据 kafka log

推荐学java——SpringMVC第一课

逆锋起笔

springmvc java框架 Spring Java 3月月更

教你3种Kafka的指定副本作为Leader的实现方式

华为云开发者联盟

Leader Kafk 副本 AR顺序

带你掌握Redis数据类型:string和Hash

华为云开发者联盟

redis string hash 数据类型

云原生背景下的应用安全建设

火线安全

云原生 云安全

千万级学生管理系统的考试试卷存储方案

阿卷

架构实战营

ZStack 与龙蜥操作系统完成兼容性认证,共同打造安全可信的云+OS技术生态

OpenAnolis小助手

云计算 开源 操作系统 云平台

性能测试中过滤异常的响应时间

FunTester

性能测试 HTTP 接口测试 响应时间 FunTester

数字化时代,银行如何建设管理小程序平台促进线上金融业务发展?

FinClip

小程序 银行

福昕软件与中国船级社签署框架合作协议,共建数字船舶发展新高地

联营汇聚

【数据库】云数据库rds是什么意思?有什么优势?

行云管家

数据库 云数据库 RDS

【云计算】云计算六大优点简单说明

行云管家

云计算 IT 企业上云 IT运维

Docker原理——数据包怎么发出去

kof11321

容器 原理 容器网络方案

雅虎开源色情图片检测神经网络_语言 & 开发_冬雨_InfoQ精选文章