如何实现AI净网?今日头条发布反低俗工具“灵犬3.0”,背后技术原理揭秘

2019 年 8 月 01 日

如何实现AI净网?今日头条发布反低俗工具“灵犬3.0”,背后技术原理揭秘

7月30日,在字节跳动总部,今日头条最新版反低俗产品灵犬3.0发布。最新版灵犬3.0采用了“BERT+半监督学习”的技术,提高了相关文本的识别度,并且采用深度学习的方法应对图像识别场景,为“灵犬”增加了图像识别的功能。字节跳动人工智能实验室总监王长虎专门就“算法如何反低俗”做了一次分享。


灵犬是什么?


“灵犬”是一款基于今日头条反低俗模型的辅助小工具,它致力于打击低俗低质内容,净化网络空间。


对于用户输入的内容,“灵犬”会先进行提取、分词和语义识别,然后根据相关规则, 输出对应的分数、评级和结论。


自 2018 年 3 月 28 日上线以来,“灵犬”反低俗助手已经过三代技术更迭。最新版本的灵犬 3.0,对识别种类以及其自身模型进行了升级,并同时支持图片识别(反色情低俗、反血腥暴力)和文本识别(反色情低俗、反暴力谩骂、反标题党)。


灵犬背后的技术更迭


在文本识别方面,“灵犬”做了三次技术更迭。


第一代灵犬,应用的是“词向量”和“CNN(卷积神经网络)”技术;


第二代灵犬,应用的是“LSTM(长短期记忆)”和“Attention”技术;


第三代灵犬,应用的是“BERT”和半监督学习技术。


灵犬 3.0 通过“BERT”和半监督学习技术,在常见的阅读理解、语义蕴含、问答、相关性等各项任务上,有了大幅度提升。除此之外,灵犬 3.0 还使用了专门的中文语料,研发团队在保证灵犬 3.0 识别效果的前提下调整了模型结构,并通过这些技术的加成,使得灵犬 3.0 的计算效率能够达到实用水平。


据今日头条透露,灵犬 3.0 的训练数据集总量是 1.2 个 T,相当于 20 倍百度百科或者 100 倍维基百科的数据总量,其中包含了 920 万个样本,文本识别准确率从 85%提升至 91%。


在图像识别方面,灵犬 3.0 运用的解决方案是深度学习,这也是“灵犬”第一次在图片识别领域有所涉及。


据沟通会介绍,今日头条对灵犬 3.0 做了以下几方面的优化:


数据层面,灵犬 3.0 累积了上千万级别的训练样本。


计算力层面,利用分布式训练算法以及强大的 GPU 训练集群,加速模型的训练和调试。利用模型压缩技术,提升模型的预测速度。


模型层面,灵犬 3.0 针对许多困难样本做了模型结构调优,包括:


1.多尺寸问题


为应对用户上传的不同的比例的图片,今日头条专门设计了多桶模型,使得各种比例的图片都能有很好的识别效果。



2.多尺度问题


在以人为主的场景中,为应对人在图片中的面积占比变化较大的问题,今日头条引入了特征金字塔结构,对不同尺度的物体,它能提高模型提取一致性特征的能力。



3.小目标问题


为应对在图片背景中出现小范围的问题区域的问题,今日头条设计了分割辅助分类网络,使得模型能够更加专注问题区域。



此外,“灵犬”还建设了比较完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase 分析”这一套完整的流程,从而使得“灵犬”具有持续优化的能力。



反低俗需要“技术+人”


反低俗无法单一地依靠技术或人工解决。


在本次沟通会上,王长虎表示,低俗的定义相对笼统,很难完全精确地定义出来,而如果没有一个精确的区分准则,就没办法给计算机写出执行步骤让它去判断。


所以,现阶段至少在以下两方面,还有赖于人工判断。


一方面是:技术暂时难以制定标准


从文字的角度,机器只是把文字当成符号,也只能从表面去理解它,却很难理解文字背后的意思。


从图片的角度,机器只是通过识别肌肤裸露面积来判定是否违规,却不能区分一些具有历史意义和艺术性的照片。


另一方面是:标准会根据使用场景、人群、时间而变动


低俗的标准并非一成不变,而是随着社会和文化的不断发展而流变。


比如,在八十年代早期,邓丽君的歌曲曾被认为是“靡靡之音”;在淘宝店里看到内衣样式和相关的卖家秀,并不会被归类于低俗;在某些小视频 APP 青少年模式下,就不应该出现“热舞”等情况。


针对低俗判断问题的复杂性和不同判断方式的局限性,今日头条给出的结论及解决方法是:


1.不断进化技术模型;


2.结合技术和人工判断两种方式。



今日头条的反低俗系统


“灵犬”是今日头条反低俗系统的一个简化版本。


在内容审核方面,今日头条团队通常会结合人工和技术手段,用以有效地提升内容审核的效率和准确度。


在内容安全方面,今日头条团队有一套具体的内容安全机制,用以应对个人和媒体的不同用户群体。



放眼全球,打击低俗低质内容,是所有信息平台都在面临的难题,不管是国外的 Facebook、Google,还是国内的微信、今日头条,都在为解决这一系列问题而努力。


也许,“灵犬”会是一次不错的尝试,尽管它还需要进化成长。


2019 年 8 月 01 日 07:003163
用户头像
张之栋 InfoQ编辑

发布了 91 篇内容, 共 33.0 次阅读, 收获喜欢 151 次。

关注

评论

发布
暂无评论
发现更多内容

第一周:课程笔记及总结

Alex

极客大学架构师训练营

缘起:被束缚的架构师

AIK

极客大学架构师训练营

架构师训练营-作业1-食堂就餐卡系统设计

紫极

极客大学架构师训练营 架构文档

极客大学架构师训练营 总结 - 第一课

Darren

食堂就餐卡系统设计

努力努力再努力m

架构 极客大学架构师训练营

第一周:食堂就餐卡系统设计

Alex

极客大学架构师训练营

食堂就餐系统设计文档

云064

第一周作业

free[啤酒]

架构

学习总结

倪惠华

架构学习第一周作业

+╮(╯▽╰)╭/>……

架构师训练营总结

Coder

极客大学架构师训练营

食堂收费系统用例图

也良

架构师训练营-第一周总结

+╮(╯▽╰)╭/>……

week1-食堂就餐卡系统架构设计

暖丶冬

架构方法之架构设计文档【总结】

小叶

架构设计

架构师训练营总结-1

River Tree

极客大学架构师训练营 个人总结

架构师训练营丨第一周丨学习总结

Frode

极客大学架构师训练营

week1《作业一:食堂就餐卡系统设计》

任鑫

【架构训练Week01作业】Review

Rex

就餐卡系统UML图

漂泊者及其影子

极客大学架构师训练营

作业一:食堂就餐卡系统设计

梦行

极客大学架构师训练营

【架构训练Week01作业】食堂就餐卡系统设计

Rex

食堂就餐卡系统架构设计

子豪sirius

架构师训练营-作业 食堂就餐卡系统设计

netbanner

极客大学架构师训练营

食堂就餐卡系统设计(作业模拟)

潜默闻雨

架构师训练营第一周学习总结

坂田吴奇隆

极客大学架构师训练营

架构师训练营第一周学习总结

梦行

极客大学架构师训练营

架构设计第一课

Dennis

架构师到底是什么

molingwen

极客大学架构师训练营

食堂餐卡系统设计

张磊

就餐卡管理系统设计文档

倪惠华

如何实现AI净网?今日头条发布反低俗工具“灵犬3.0”,背后技术原理揭秘-InfoQ