7月30日,在字节跳动总部,今日头条最新版反低俗产品灵犬3.0发布。最新版灵犬3.0采用了“BERT+半监督学习”的技术,提高了相关文本的识别度,并且采用深度学习的方法应对图像识别场景,为“灵犬”增加了图像识别的功能。字节跳动人工智能实验室总监王长虎专门就“算法如何反低俗”做了一次分享。
灵犬是什么?
“灵犬”是一款基于今日头条反低俗模型的辅助小工具,它致力于打击低俗低质内容,净化网络空间。
对于用户输入的内容,“灵犬”会先进行提取、分词和语义识别,然后根据相关规则, 输出对应的分数、评级和结论。
自 2018 年 3 月 28 日上线以来,“灵犬”反低俗助手已经过三代技术更迭。最新版本的灵犬 3.0,对识别种类以及其自身模型进行了升级,并同时支持图片识别(反色情低俗、反血腥暴力)和文本识别(反色情低俗、反暴力谩骂、反标题党)。
灵犬背后的技术更迭
在文本识别方面,“灵犬”做了三次技术更迭。
第一代灵犬,应用的是“词向量”和“CNN(卷积神经网络)”技术;
第二代灵犬,应用的是“LSTM(长短期记忆)”和“Attention”技术;
灵犬 3.0 通过“BERT”和半监督学习技术,在常见的阅读理解、语义蕴含、问答、相关性等各项任务上,有了大幅度提升。除此之外,灵犬 3.0 还使用了专门的中文语料,研发团队在保证灵犬 3.0 识别效果的前提下调整了模型结构,并通过这些技术的加成,使得灵犬 3.0 的计算效率能够达到实用水平。
据今日头条透露,灵犬 3.0 的训练数据集总量是 1.2 个 T,相当于 20 倍百度百科或者 100 倍维基百科的数据总量,其中包含了 920 万个样本,文本识别准确率从 85%提升至 91%。
在图像识别方面,灵犬 3.0 运用的解决方案是深度学习,这也是“灵犬”第一次在图片识别领域有所涉及。
据沟通会介绍,今日头条对灵犬 3.0 做了以下几方面的优化:
数据层面,灵犬 3.0 累积了上千万级别的训练样本。
计算力层面,利用分布式训练算法以及强大的 GPU 训练集群,加速模型的训练和调试。利用模型压缩技术,提升模型的预测速度。
模型层面,灵犬 3.0 针对许多困难样本做了模型结构调优,包括:
1.多尺寸问题
为应对用户上传的不同的比例的图片,今日头条专门设计了多桶模型,使得各种比例的图片都能有很好的识别效果。
2.多尺度问题
在以人为主的场景中,为应对人在图片中的面积占比变化较大的问题,今日头条引入了特征金字塔结构,对不同尺度的物体,它能提高模型提取一致性特征的能力。
3.小目标问题
为应对在图片背景中出现小范围的问题区域的问题,今日头条设计了分割辅助分类网络,使得模型能够更加专注问题区域。
此外,“灵犬”还建设了比较完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase 分析”这一套完整的流程,从而使得“灵犬”具有持续优化的能力。
反低俗需要“技术+人”
反低俗无法单一地依靠技术或人工解决。
在本次沟通会上,王长虎表示,低俗的定义相对笼统,很难完全精确地定义出来,而如果没有一个精确的区分准则,就没办法给计算机写出执行步骤让它去判断。
所以,现阶段至少在以下两方面,还有赖于人工判断。
一方面是:技术暂时难以制定标准。
从文字的角度,机器只是把文字当成符号,也只能从表面去理解它,却很难理解文字背后的意思。
从图片的角度,机器只是通过识别肌肤裸露面积来判定是否违规,却不能区分一些具有历史意义和艺术性的照片。
另一方面是:标准会根据使用场景、人群、时间而变动。
低俗的标准并非一成不变,而是随着社会和文化的不断发展而流变。
比如,在八十年代早期,邓丽君的歌曲曾被认为是“靡靡之音”;在淘宝店里看到内衣样式和相关的卖家秀,并不会被归类于低俗;在某些小视频 APP 青少年模式下,就不应该出现“热舞”等情况。
针对低俗判断问题的复杂性和不同判断方式的局限性,今日头条给出的结论及解决方法是:
1.不断进化技术模型;
2.结合技术和人工判断两种方式。
今日头条的反低俗系统
“灵犬”是今日头条反低俗系统的一个简化版本。
在内容审核方面,今日头条团队通常会结合人工和技术手段,用以有效地提升内容审核的效率和准确度。
在内容安全方面,今日头条团队有一套具体的内容安全机制,用以应对个人和媒体的不同用户群体。
放眼全球,打击低俗低质内容,是所有信息平台都在面临的难题,不管是国外的 Facebook、Google,还是国内的微信、今日头条,都在为解决这一系列问题而努力。
也许,“灵犬”会是一次不错的尝试,尽管它还需要进化成长。
评论