QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

Google Play 的应用发现,第 3 部分:使用机器学习打击规模化的垃圾信息和恶意评论

  • 2017-03-07
  • 本文字数:1747 字

    阅读完需:约 6 分钟

InfoQ 此前翻译分享了“Google Play 的应用发现”系列文章中的“了解主题”和“使用相关App 的个性化建议”,本文是该系列的第三部分,主要介绍了Google Play 如何借助机器学习技术来打击规模化的垃圾信息和恶意评论。

在应用发现系列文章的第一部分第二部分中,我们讨论了通过使用机器学习来对App 的相关主题有一个更深入的理解,以及一个深度学习框架来提供个性化推荐服务。本问将讨论借助机器学习技术,来打击Google Play Store 应用中的垃圾信息和恶意行为,从而为10 多亿Android 用户提供一个安全可信任的应用平台。

随着应用逐渐成为人们工作和生活中越来越重要的一部分,我们认识到有至关重要的两点必须得到保证:1) Google Play 找到的App 是安全的, 2) 展现给用户的App 信息是可靠且公正的。我们的目录中已有超过1 百万的App,并且新推出App 的数量每日都在明显增加,所以需要开发可扩展的方法来精准快速地识别劣质App。为解决该问题我们双管齐下,使用多种机器学习技术来帮助打击规模化的垃圾信息和恶意行为。

识别并阻止劣质App 进入Google Play 平台

正如 Google Play 开发者政策中所述,我们不允许上架恶意的、攻击性的或者非法 App。虽然有这样的政策,但依然会有少数破坏分子试图发布欺骗用户的应用。从大量应用目录中发现违反政策的应用并不是件简单的事情,尤其是每天还有数万新应用提交。这就是在评估是否违反政策,以及一个 App 对它的潜在用户可能构成的潜在风险方面,我们拥抱机器学习技术的原因。

我们使用了多种技术,比如基于大型概率网络的词嵌入 (word embedding) 文本分析、使用 Google Brain 的图像理解以及 APK 二进制文件的静态和动态分析。这些独特的技术主要目的是探测具体的违规行为(比如,受限内容、隐私和安全、知识产权、用户欺诈),相比于人工审核这种方式会更加系统化和可靠。被算法标识出的 App,要么退回给开发者要求修复检测到的问题,要么“暂存”到我们可以证明它是安全的,或清除潜在的违规行为。因为这种 App 审核流程结合了专家分析和算法,所以开发者可以在 App 提交后的数小时里就采取必要措施(比如继续迭代或发布)。

图示攻击性内容样本的词嵌入中违反政策的 App(红点)和符合政策的 App(绿点),通过 t-SNE( t-Distributed Stochastic Neighbor Embedding )算法绘制。

阻止操纵应用评分和排名

一个 App 其自身可能是合法合规的,但一些不良分子可能企图通过刷榜来操纵该应用的评分和排名。为了给用户提供一个 App 可感知质量的准确反映,我们在努力消除这些不良企图。然而,在我们制定政策做出努力的同时,操纵行为背后的不良分子也在尝试调整和改变他们的行为策略以绕过我们的政策,从而导致了一个对抗性问题摆在我们面前。

这种情况下,除了使用传统的有监督学习方法(正如我们在本系列的第一部分或第二部分里所介绍的,这是个更加“固定”的问题),还需要开发一个可重复的流程,让我们跟破坏分子一样(至少不亚于他们)敏捷。我们通过使用一种混合策略实现了这一点,该策略使用无监督学习技术生成训练数据,这些数据被依次输入到一个传统有监督学习技术构建的模型。

利用发生在Google Play 平台上的交互、事务和行为数据,我们应用异常检测技术来识别被刷榜党盯上的App。比如,一个可疑App 的所有交互数据可能源自某一个数据中心,而一个有机交互的正常应用其交互数据一般会符合一个正常的来源分布。

接着我们使用这些App 来分离出那些密谋或精心策划来操纵评分和排名的App,还有那些轮流用于训练数据来构建识别相似App 模型的。使用有监督学习技术构建的这个模型,接下来用于扩展覆盖度以及消除Google Play Apps 平台上的刷榜行为。

图示一个通过已知恶意行为App(红色)训练过的模型,如何扩大覆盖度来检测类似的恶意行为App(橙色),同时忽略掉系统用户(蓝色)。

通过支持快速发布同时不对用户安全妥协,我们力争使Google Play 成为开发者和用户的最佳平台。上文提到的机器学习的潜力帮助我们取得了双赢,而且我们会继续在这些技术上做出创新,以确保我们的用户远离垃圾信息和恶意行为。


感谢刘志勇对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-03-07 16:551797

评论

发布
暂无评论
发现更多内容

新消费:如何度过从0到1的破局期?

石云升

学习笔记 11月日更 新消费

架构课毕业总结

伏波

架构

软件架构治理 之 架构混沌之谜

码猿外

架构 软件架构治理

面试必备!阿里内部Java面试八股文出炉,教科书式完美回答

Sakura

Java 程序员 架构 面试

赋能优秀传统文化,区块链助力讲好中国故事

CECBC

杂谈——什么是Google Fuchsia ?

思想者杰克

算法—算法的时间空间复杂度

思想者杰克

CRM WebClient UI的浏览器打印实现

汪子熙

JavaScript CRM SAP UI5 JavaScript图表库 11月日更

SAP CRM和C4C的内容管理(Content Management)

汪子熙

内容 CRM C4C 11月日更

开源项目——FLutter开发录音APP

思想者杰克

区块链+农业开启智能化生产时代 解决世界性食品及粮食安全问题

CECBC

【死磕Java并发】-----深入分析synchronized的实现原理

chenssy

死磕 Java 死磕 Java 并发

王者荣耀商城异地多活架构设计

guangbao

Eureka 源码之客户端注册

悟空聊架构

Eureka 源码剖析 注册中心 悟空聊架构

区块链的抽象与演进

CECBC

布局人工智能,银行有的不只是智能客服

CECBC

模块七作业

Geek_fc100d

「架构实战营」

20道阿里面试必问JVM面试专题(文末附送答案及JVM学习文档)

编程 程序员 JVM

如何在实际场景中使用异常检测?阿里云Prometheus智能检测算子来了

阿里巴巴云原生

阿里云 云原生 Prometheus 异常检测

北鲲云超算平台如何成为就生命科学云计算领域先行者?

北鲲云

大牛呕心力作——Kafka开发实战,助你徜徉大数据时代

redis 程序员 java编程

干货!Spring Cloud微服务架构进阶,你还不了解的都在这里

Java 程序员 架构 微服务 SpringCloud

HashMap 中的一个“坑”!

王磊

Java hashmap LinkedHashMap

开源项目——swift开发记事本APP

思想者杰克

电商秒杀系统

伏波

架构

央行数字货币即将破茧,一场大变局,震撼全球!

CECBC

十年数据库专家,呕心力作MySQL技术精粹,薪资直涨3K其实很轻松

数据库 程序员 MySQL 数据库

阿里大牛教你如何用Dubbox+SpringBoot+Docker架构,实现双11项目

编程 程序员 springboot

pygame 小游戏前的准备工作要做足

梦想橡皮擦

11月日更

云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践

阿里巴巴云原生

阿里云 云原生 实践 Fluid Alluxio

架构训练营毕业总结

小卷儿

Google Play的应用发现,第3部分:使用机器学习打击规模化的垃圾信息和恶意评论_Google_Hsu-Chieh Lee_InfoQ精选文章