AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

Google Play 的应用发现,第 3 部分:使用机器学习打击规模化的垃圾信息和恶意评论

  • 2017-03-07
  • 本文字数:1747 字

    阅读完需:约 6 分钟

InfoQ 此前翻译分享了“Google Play 的应用发现”系列文章中的“了解主题”和“使用相关App 的个性化建议”,本文是该系列的第三部分,主要介绍了Google Play 如何借助机器学习技术来打击规模化的垃圾信息和恶意评论。

在应用发现系列文章的第一部分第二部分中,我们讨论了通过使用机器学习来对App 的相关主题有一个更深入的理解,以及一个深度学习框架来提供个性化推荐服务。本问将讨论借助机器学习技术,来打击Google Play Store 应用中的垃圾信息和恶意行为,从而为10 多亿Android 用户提供一个安全可信任的应用平台。

随着应用逐渐成为人们工作和生活中越来越重要的一部分,我们认识到有至关重要的两点必须得到保证:1) Google Play 找到的App 是安全的, 2) 展现给用户的App 信息是可靠且公正的。我们的目录中已有超过1 百万的App,并且新推出App 的数量每日都在明显增加,所以需要开发可扩展的方法来精准快速地识别劣质App。为解决该问题我们双管齐下,使用多种机器学习技术来帮助打击规模化的垃圾信息和恶意行为。

识别并阻止劣质App 进入Google Play 平台

正如 Google Play 开发者政策中所述,我们不允许上架恶意的、攻击性的或者非法 App。虽然有这样的政策,但依然会有少数破坏分子试图发布欺骗用户的应用。从大量应用目录中发现违反政策的应用并不是件简单的事情,尤其是每天还有数万新应用提交。这就是在评估是否违反政策,以及一个 App 对它的潜在用户可能构成的潜在风险方面,我们拥抱机器学习技术的原因。

我们使用了多种技术,比如基于大型概率网络的词嵌入 (word embedding) 文本分析、使用 Google Brain 的图像理解以及 APK 二进制文件的静态和动态分析。这些独特的技术主要目的是探测具体的违规行为(比如,受限内容、隐私和安全、知识产权、用户欺诈),相比于人工审核这种方式会更加系统化和可靠。被算法标识出的 App,要么退回给开发者要求修复检测到的问题,要么“暂存”到我们可以证明它是安全的,或清除潜在的违规行为。因为这种 App 审核流程结合了专家分析和算法,所以开发者可以在 App 提交后的数小时里就采取必要措施(比如继续迭代或发布)。

图示攻击性内容样本的词嵌入中违反政策的 App(红点)和符合政策的 App(绿点),通过 t-SNE( t-Distributed Stochastic Neighbor Embedding )算法绘制。

阻止操纵应用评分和排名

一个 App 其自身可能是合法合规的,但一些不良分子可能企图通过刷榜来操纵该应用的评分和排名。为了给用户提供一个 App 可感知质量的准确反映,我们在努力消除这些不良企图。然而,在我们制定政策做出努力的同时,操纵行为背后的不良分子也在尝试调整和改变他们的行为策略以绕过我们的政策,从而导致了一个对抗性问题摆在我们面前。

这种情况下,除了使用传统的有监督学习方法(正如我们在本系列的第一部分或第二部分里所介绍的,这是个更加“固定”的问题),还需要开发一个可重复的流程,让我们跟破坏分子一样(至少不亚于他们)敏捷。我们通过使用一种混合策略实现了这一点,该策略使用无监督学习技术生成训练数据,这些数据被依次输入到一个传统有监督学习技术构建的模型。

利用发生在Google Play 平台上的交互、事务和行为数据,我们应用异常检测技术来识别被刷榜党盯上的App。比如,一个可疑App 的所有交互数据可能源自某一个数据中心,而一个有机交互的正常应用其交互数据一般会符合一个正常的来源分布。

接着我们使用这些App 来分离出那些密谋或精心策划来操纵评分和排名的App,还有那些轮流用于训练数据来构建识别相似App 模型的。使用有监督学习技术构建的这个模型,接下来用于扩展覆盖度以及消除Google Play Apps 平台上的刷榜行为。

图示一个通过已知恶意行为App(红色)训练过的模型,如何扩大覆盖度来检测类似的恶意行为App(橙色),同时忽略掉系统用户(蓝色)。

通过支持快速发布同时不对用户安全妥协,我们力争使Google Play 成为开发者和用户的最佳平台。上文提到的机器学习的潜力帮助我们取得了双赢,而且我们会继续在这些技术上做出创新,以确保我们的用户远离垃圾信息和恶意行为。


感谢刘志勇对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-03-07 16:551828

评论

发布
暂无评论
发现更多内容

如何实时统计最近 15 秒的商品销售额|Flink-Learning 实战营

Apache Flink

大数据 flink 实时计算

软件测试/测试开发丨学习笔记之Docker常用命令

测试人

Docker 程序员 容器 软件测试 测试开发

客户案例|某知名连锁咖啡品牌点餐小程序排障实录

观测云

可观测性 观测云 云原生可观测 可观测性用观测云

ABAQUS 在按键手感分析中的应用

思茂信息

软件设计 abaqus abaqus软件 abaqus有限元仿真 有限元仿真技术

建设数字工厂:华为云数字工厂平台接入第三方网关设备数据

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

接口测试|Fiddler介绍以及安装

霍格沃兹测试开发学社

fiddler

接口测试|HttpRunner环境变量与跨文件输出传递变量

霍格沃兹测试开发学社

HttpRunner

佳创视讯亮相深圳文博会 以科技赋能文旅产业数字化进程

科技热闻

接口测试|HttpRunner获取响应数据&extract提取值到变量

霍格沃兹测试开发学社

HttpRunner

接口测试|HttpRunner接口关联与常用断言

霍格沃兹测试开发学社

HttpRunner

谈谈数智人力建设过程中发现的问题及感悟

用友BIP

数智人力

敏捷项目管理流程及工具

顿顿顿

敏捷项目 敏捷项目管理 敏捷工具 scrum敏捷工具

SaaS产品如何用好大模型?腾讯云给出了一个参考答案

ToB行业头条

接口测试|Fiddler界面主菜单功能介绍(一)

霍格沃兹测试开发学社

fiddler

单元测试|Unittest setup前置初始化和teardown后置操作

霍格沃兹测试开发学社

HttpRunner

这样的全面预算体系才能构建一流财务体系!

用友BIP

全面预算

中原银行 OLAP 架构实时化演进

Apache Flink

大数据 flink 实时计算

Run in PaddleX 2.0,一站式搞定飞桨精选模型开发全流程!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨

WorkPlus AI助理正式上线!为企业打造定制化的AI私有助理

BeeWorks

将 NGINX 部署为 API 网关,第 1 部分

NGINX开源社区

nginx 网关 NGINX Kubernetes Gateway

接口测试|Fiddler界面主菜单功能介绍(二)

霍格沃兹测试开发学社

fiddler

2023京东全球科技探索者大会暨京东云峰会来了!

京东科技开发者

人工智能 AI 京东云 AIGC 企业号 6 月 PK 榜

【有奖征文 】AI编程:华为云CodeArts Snap入门体验

华为云PaaS服务小智

人工智能 AI

软件测试/测试开发丨学习笔记之Python运算符

测试人

Python 程序员 软件测试 运算符

接口测试|HttpRunner header处理以及发送post请求

霍格沃兹测试开发学社

HttpRunner

接口测试|Fiddler界面工具栏介绍(一)

霍格沃兹测试开发学社

fiddler

火山引擎DataTester:企业如何使用A/B实验优化商业化能力

字节跳动数据平台

A/B 测试

如何用好数智员工实现轻松采购?

用友BIP

数智底座 Pass平台 采购云

供应链协同——企业全球供应链可持续发展的基础

用友BIP

全球化 中企出海

英特尔Flex系列GPU支持数字内容创作,提高创意生产力

E科讯

上新!智能分析云助力【消费品行业】实现数智驱动

用友BIP

数据分析

Google Play的应用发现,第3部分:使用机器学习打击规模化的垃圾信息和恶意评论_Google_Hsu-Chieh Lee_InfoQ精选文章