写点什么

华为云与鉴黄师不得不说的那些事

  • 2019-01-02
  • 本文字数:3084 字

    阅读完需:约 10 分钟

华为云与鉴黄师不得不说的那些事

相传,在当今时代中有一个神秘的职业——鉴黄师。他们阅片无数,能听声辨位并精准审核并识别出各类违规内容加以处置。但鉴黄师工作量巨大而且人力有限难免有所纰漏,那么如何还互联网一个清静之地,真正实现精准、统一、全面的鉴别违规内容呢?华为云的内容审核服务就可以帮助鉴黄师摆脱当下面临的这一烦恼。



互联网每天都在产生大量数据,对内容的审核带来了很大的挑战,在万物互联的今天,人工审核不仅要付出巨大的劳动力而且难免有不当之处。因此,华为云推出了内容审核服务(Content Moderation),主要涵盖了文本内容检测、涉政敏感检测、视频内容审核、图片内容检测、图像反黄检测等。当前行业中,内容审核主要有人工审核和智能审核两种方式,人工审核需要大量劳动力全天候进行肉眼 + 机器辅助模式的内容审核,问题在于时效性差、风险高、而且规模过大时无法匹配;而智能审核则以 AI 技术为基础,人工判决为辅助。而在当下,能够提供智能审核技术的云平台并不少,这也就给各家企业技术选型造成了困扰。


那么如何选择适合企业而且性能卓越的云服务呢?为了让开发者全面客观的了解华为云内容审核服务性能,华为云联合 InfoQ 共同发起了一场开发者众测活动,18 名来自不同企业的开发者给出专业的建议,下面是详细的测试使用报告。

一、文本内容检测测试

在去年,国家互联网信息办公室《互联网群组信息服务管理规定》明确了互联网群组建立者、管理者应当履行群组管理责任,即“谁建群谁负责”“谁管理谁负责”,对于文本内容的云端检测更是成为重中之重。华为云在内容检测方面的服务主要有以下几种:涉黄、涉政、广告、辱骂、违禁品和灌水文本内容等,还提供自定义的文本敏感内容检测方案。


涉黄、涉政、广告、辱骂、违禁品文本测试


原理:调用华为云提供的 API,可自由设置过滤内容类型,分别为:politics(涉政)、porn(涉黄)、ad(广告)、abuse(辱骂)、contraband(违禁品)、flood(灌水),不输入默认为全部筛选。根据用户输入内容,过滤出文本内容中的“中标词句”,分别把语句放在涉及到的属性下面。返回结果如下:



自定义的文本敏感内容检测测试


原理:用户在后台文本内容检测服务上面自定义配置,并勾选不指定检测场景时启用,可对全部过滤生效。也就是自己建一个关键字库,生效规则与其他预设一致。



测试感受:


1、在涉黄、涉政、辱骂、广告等单个测试时准确无误,在多种组合的场景下,华为云也可以根据返回结果分别查看各个属性下的不同的犯规词语。


2、对于网络用语的灌水文本测试正常,检测出灌水文本反应迅速。值得一提的是,由于网络流行与变更速度很快,而华为云的网络灌水词库在进行实时更新,可以实现自我优化。


3、而在测试中,华为云最具特色的一项功能就是可以自定义词库,这项功能在内容检测标准容易变化的场景下能够更好的控制文本内容;包括政治敏感词、网络用语等词库还做到了实时更新,使得整体服务更加安全。


小结:华为云文本内容检测基本满足了常用文本检测,支持自定义词库来加以补充,再加上实时更新,使得整体开发体验更为安全和智能。

二、反黄检测服务测试

色情性感图片检测测试


原理:根据图片或者图片链接,华为云 API 返回三个维度对应的比例,分别是正常比例、色情比例、性感比例,返回值里的参数 suggestion 结果为 block,则判定为色情图片;性感图片的返回值里的参数 suggestion 结果为 pass,在三个维度的比例中性感比例最大,则认为该图片是性感图片。对于正常与色情比例接近的会返回 review,需要人工确认。


除了普通画面的图片外,华为云还支持画中画涉黄内容的检测,验证反黄检测服务可以识别小窗口涉黄图片。


测试感受:


针对黄色图片检测准确,性感图片准确,画中画涉黄检测也可以正常反馈,整体流程顺利,在特殊情况下也会提供给人工进行确认,没有发生误判情况。


小结:反黄检测针对各个企业都是一个重度需求,人工智能对图片内容检测很有必要,华为云在这方面做的不错,值得用户信赖。

三、暴恐识别服务测试

枪支刀具类测试

原理:根据图片或者图片链接,华为云 API 返回多个维度对应的比例,分别为:fire、bloody、gun、knife、flag、tiananmen、crowd、dress、symbol、normal,如果符合要求就会给出结果为 block,根据各个维度的比例大小来判断中标那个维度。这里以枪支作为例子,测试结果如下:


枪支:


人群聚集测试

验证暴恐识别服务还可以准确的识别人群聚集类图片,若是测试结果中的 suggestion 值若为 block, 且 crowd 的置信度值占比最大,则表示该图片含有人群聚集元素。


测试感受:


1、在测试中枪支图片测试正确。


2、人群聚会检测正确,使用体验流畅


3、现在聚会地点以天安门为例进行了检测,结果无误。也可以做成自定义地点,支持国内大部分标志性建筑。


小结:枪支刀具的检测可以称之为线上安检机,华为云整体表现非常卓越。但这部分服务对企业来讲,需求量并不够大,非刚需内容。

四、涉政敏感检测服务测试

原理:根据图片或者图片链接,华为云 API 返回的结果中给出识别出的名字,根据结果是否为 block,判断是否为违规图片。华为云服务,支持国家领导人、烈士与恐怖分子识别,测试结果如下:



测试感受:


1、各国国家领导人识别正确,能够正确给出姓名;多个领导人也可以识别,识别度很高;测试中中国地市以上级别领导人以及国外名人也能识别正确。


2、烈士识别方面对知名人物识别无误,而针对一些没有图片的烈士,很大一部分是后人绘画留存,可能导致识别率降低,可以通过更新学习库进行改进。


3、恐怖分子测试,一些臭名昭著的恐怖分子检测准确率很高;一些较为少见恐怖分子识别难度较高,但可以通过更新学习库增加识别准确率。


小结:华为云服务在这块中表现最好的是对国家领导人与国际高管的识别,在烈士与恐怖分子识别上处于同行业前列水准,而通过更新学习库也可以进一步增强。

五、视频内容审核服务测试

原理:需要用户上传视频,然后根据返回的任务 id 取查询视频的处理状态。状态有四种类型 created(已创建)、running(正在处理)、finish(已完成)、failed(处理失败)。测试结果可以查看 suggestion 的值,当同时检测多个场景时,suggestion 的值以最可能包含敏感信息的场景为准。即任意场景出现了 block 则总的 suggestion 为 block,所有场景都 pass 时 suggestion 为 pass,这两种情况之外则一定有场景需要 review,此时 suggestion 为 review。


测试感受:


内容视频测试准确,分析原因可能为视频资源帧相对较多,可分析图片也多 ,因而使得测试结果更准确, 测试结果可以给出具体哪一类型问题产生结果,并且可以在色情、涉政、暴恐等各个维度分别给出可能性比例。


小结:视频内容检测服务容纳的类型更多,反黄、暴恐、涉政都会有涉及,这个考验了云服务内容检测的综合功能。华为云在这一块表现不错,充分证明了自己的技术。

总结

在本次测试中,华为云在视频、图片、内容等各个方面的检测中,针对现有网络中资源较多的内容检测准确率很高,这可以显示出其在数据分析以及智能识别等领域的技术沉淀深厚;而在一些变数较高的内容识别检测时,也可以通过更新学习库以及更新检测内容标准实现准确率的提升。在实际应用中,直播行业对于内容审核依赖度非常高。华为云已经成功帮助某视频直播业务实现整体内容审核的智能化升级,审核效率提升了 90%,能够智能化检测“色情内容”、“涉政”和“暴力”等内容,并且问题视频可以在 3 分钟之内快速处理掉。


整体来看,华为云的广告语确实可以准确体现出其目前所处的行业地位:有技术,有未来,值得信赖!与开发者和行业伙伴携手前行, 前方的路依然很长。


更多华为 EI 内容审核信息,请见:https://www.huaweicloud.com/product/imagemoderation.html


2019-01-02 17:247229

评论 1 条评论

发布
用户头像
企鹅3362六295林3 高速外..网.梯.子 免.费测...试
2019-01-02 20:33
回复
没有更多了
发现更多内容

产品人生(2):从“Kanban方法”到“GTD时间管理法“

养心进行时

时间管理 看板方法 看板工具 GTD GTD时间管理

软件测试学习笔记丨黑盒测试-边界值

测试人

软件测试

通义灵码企业版正式发布,满足企业私域知识检索、数据合规、统一管理等需求

阿里巴巴云原生

阿里云 云原生 通义灵码

ETLCloud中如何执行Java Bean脚本

RestCloud

Java 脚本 ETL JavaBean

使用 Playwright 控制浏览器的启动、停止和等待

霍格沃兹测试开发学社

Polygon市值机器人

开发丨飞机丨 @aivenli

深入探究 Playwright:Frame 操作技巧

霍格沃兹测试开发学社

AI 大模型应用开发实战营毕业总结

海神名

如何快速上手 AI 大模型应用开发?天翼云弹性云主机给你答案!

编程猫

使用 Playwright 进行元素定位

霍格沃兹测试开发学社

产品人生(7):从“产品北极星指标”到“情绪北极星”

养心进行时

产品 产品经理 情绪 产品管理 情绪管理

如何打破数据管理僵局,释放数据资产价值?[AMT企源案例]

AMT企源

数据库 数据资产 数据管理 主数据

通义灵码企业版正式发布,满足企业私域知识检索、数据合规、统一管理等需求

阿里云云效

阿里云 云原生 云效 通义灵码

谈谈分布式事务原理

快乐非自愿限量之名

分布式

IM 是什么?

WorkPlus

以太ETH链市值机器人

开发丨飞机丨 @aivenli

神器!使用Python 轻松识别验证码

霍格沃兹测试开发学社

WorkPlus im(即时通讯)集成平台助力政企数字化转型升级

WorkPlus

零代码平台助力中国石化江苏油田实现高效评价体系

明道云

Playwright安装与Python集成:探索跨浏览器测试的奇妙世界

霍格沃兹测试开发学社

IM是什么意思?

WorkPlus

10分钟了解Golang泛型

俞凡

golang

有了京东商品详情数据接口,数据采集UP,UP,UP

tbapi

京东商品详情数据接口

基于51单片机的车辆倒车雷达报警系统

芯动大师

系统 51单片机 倒车

playwright使用:启动浏览器与多种运行方式

霍格沃兹测试开发学社

im(即时通讯)是什么?

WorkPlus

掌握 Playwright:元素操作技巧大揭秘

霍格沃兹测试开发学社

Pandabuy淘宝代购集运系统赢利点讲解

tbapi

淘宝代购系统 淘宝代购集运系统 Pandabuy 反向海淘

华为云与鉴黄师不得不说的那些事_服务革新_贾凯强_InfoQ精选文章