写点什么

雅虎开源色情图片检测神经网络

  • 2016-10-16
  • 本文字数:1064 字

    阅读完需:约 3 分钟

近期,雅虎刚刚开源了他们自己构建的一套深度学习神经网络,它专门用于自动检测图片是否含有色情内容。

NSFW(Not Suitable For Work)用于标记不适合上班时间浏览的网络内容,它的界定其实是很主观的,有的人反感的东西可能其他人并不觉得如何。雅虎的这个深度学习神经网络的定位是专注于 NSFW 中的色情图片。所以,该模型不适用于处理素描、文字、动画、暴力图片等内容。

对色情图片的鉴定并不容易,所以除了技术手段之外往往都离不开人工,于是就催生了鉴黄师这样的岗位。因为对于机器来说,图片都是些 RGB 的像素罢了,不论是花草树木,还是香车美女,摆在无欲无求的机器面前并无差异。而人,却对它有天生识别能力。美国前大法官波特·斯图尔特就有这样一句名言:“ 我看到它,才知道它是不是”。因此,机器是得向人来学习如何判定色情图片的。

该神经网络使用了 CaffeOnSpark ,这是一个基于 Hadoop/Spark 的分布式深度学习框架。雅虎已经基于已有的数据对模型进行了训练,这些数据既包括 NSFW 的,也包括 SFW(suitable for work,适合上班时间浏览)的,每张图片已明确标记好。在通过学习之后,它会为每张待鉴定的图片打出一个 NSFW 得分,表示属于 NSFW 的可能性。该值范围从 0 至 1,小于 0.2 表示很有可能是安全的,大于 0.8 表示有很大可能是 NSFW 的。如下图所示,花丛中的少女衣着保守,得分 0.001,而运动中的女孩和海边的男子虽暴露了部分肢体,但得分也仅为 0.116 和 0.074,都未达到 NSFW 的标准。想了解该模型生成和训练的更多详情,请戳这里

雅虎建议大家在使用时选择自己的阈值,因为应用场景和对 NSFW 标准的理解可能会有差异,所以开发人员最好根据自己应用对 NSFW 的定义来设定评估值。

在 Reddit 上,大家就该模型对评估的有效性展开了讨论。有人认为:

“不知道它的评估是否准确,如果能允许大家上传图片,它打出分来让大家评价一下效果就好了”

而有人就此回应说:

“我不知道你会怎么看,但我肯定不会让人把最 NSFW 的图片上传到我的服务器上的”

出于某些原因,在公共网络上放置各类 NSFW 图片的确不太合适。好在雅虎已经将此模型开源,如果各位感兴趣的话,可以自己动手实践一下,看它给出的评估是否符合你的标准。你可以通过 雅虎的文章 了解更多详细内容,模型可以在 GitHub 上下载。如果你想要搭建自己的色情图片识别系统,必须要自己提供数据,这可能对大家来说不算什么难事。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-10-16 19:005657

评论

发布
暂无评论
发现更多内容

选择好的数据产品应当避免的六大坑|StartDT Talk

奇点云

大数据

How to Choose the Right Wi-Fi Chip: IPQ4019 vs. IPQ4029 vs. IPQ4018

wallyslilly

IPQ4019 ipq4029 IPQ4018

CRISPR-detector:快速、准确地检测、可视化和注释基因组编辑事件引起的全基因组范围突变

INSVAST

基因测序 基因数据分析 生信服务 生信分析 Sentieon

API 之旅的三个阶段

NGINX开源社区

读书笔记 最佳实践 API

火山引擎VeDI在AI+BI领域的演进与实践

字节跳动数据平台

如何降低大模型训练与推理计算成本,以确保它们在软件研发中的有效应用?

思码逸研发效能

DevOps 研发效能 大模型 AI 基础设施 思码逸

GreatSQL 自动开启复制导致同步报错

GreatSQL

揭秘可观测利器:腾讯云 APM 深度融合 OpenTelemetry 和 Prometheus,助力高效指标采集与处理

腾讯云可观测平台

开放创新,释放云上生产力 | 2024华为云开源开发者论坛盛大开启,邀您相约上海

华为云开发者联盟

开源 大会

一站式视频处理软件 VideoProc Converter 4K for mac v6.6中文免激活版

理理

Easy Data Transform for mac 智能数据转换与整合

理理

基于Sermant实现xDS服务网格,获取15+倍更高性能和更低成本

华为云开源

开源 微服务治理

Mac代码管理软件:SnippetsLab for mac v2.6激活版

理理

Mimestream for Mac 管理和使用Gmail邮箱 v1.5.0激活版

理理

Milvus×Florence:一文读懂如何构建多任务视觉模型

Zilliz

微软 计算机视觉 Milvus 向量数据库 Florence

RAG搭建中,如何选择最合适的向量索引?

Zilliz

向量数据库 rag 向量索引

Transmit 5 for Mac(功能丰富的 FTP 客户端软件)

Mac相关知识分享

如何使用PHP开发一个购物网站?

科普小能手

php 电商 系统开发 购物 PHP开发

Rhinoceros 8 (犀牛8):建模实力大爆发,复杂曲面构建轻松拿捏

理理

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

新消费日报

新技术架构给集团企业身份管理体系带来的挑战

芯盾时代

身份安全 iam 数字化经济

如何评估测试工时?

老张

项目管理 软件测试 需求管理

Eudic欧路词典 for Mac(英语词典翻译查询工具)

Mac相关知识分享

FlowJo 10 for Mac(mac流式细胞分析软件)

Mac相关知识分享

即时通讯技术文集(第44期):微信、QQ技术精华合集(Part1) [共14篇]

JackJiang

即时通讯;IM;网络编程

TiKV Raft Store 内存管理的原理与实现丨TiKV 源码解读(二十三)

PingCAP

数据库 分布式 TiDB

Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

阿里云大数据AI技术

人工智能 最佳实践 PAI Qwen2.5-Coder

软件测试丨Pytest生命周期与数据驱动

测试人

软件测试

MAMP PRO for Mac(专业的Web开发环境)

Mac相关知识分享

TiDB 助力北京电信夯实电信账务系统的数据底座

PingCAP

数据库 TiDB

PHP 互斥锁:如何确保代码的线程安全?

左诗右码

雅虎开源色情图片检测神经网络_语言 & 开发_冬雨_InfoQ精选文章