11 月 19 - 20 日 Apache Pulsar 社区年度盛会来啦,立即报名! 了解详情
写点什么

月活近 5 亿,微博是如何做业务安全的?

  • 2019-10-29
  • 本文字数:4822 字

    阅读完需:约 16 分钟

月活近 5 亿,微博是如何做业务安全的?

如果说微信是中国社交媒体中的一极,那么,微博则是另一极。据最新数据显示,截至今年 6 月,微博月活跃用户高达 4.86 亿。 在微博上,明星、大 V 显然是“最闪亮的”,他们本身既是话题的焦点,又是流量洼地。然而,作为流量营销的重要阵地,微博却不断受到黑灰产、刷榜、刷流量等恶意行为的困扰。



拥有数亿用户,月活近 5 亿,微博是如何做业务安全的?


想弄清这个问题,我们要明白:作为社交媒体平台,安全对微博意味着什么?或者说,为什么安全对微博很重要?


微博安全研发负责人何为舟介绍,首先,因为微博的自媒体属性,一旦出现安全问题,很容易被快速传播扩散。一旦控制不好,对微博整个公司形象都有可能造成较大的负面影响。


比如,某个大 V 或明星账号被盗,发布一些不当言论,很快就会被粉丝扩散出去。这样,不论是微博,还是账号持有者,都会受到很大的影响。


“同时,微博也是政府发声的一个主要渠道,在微博上有很多政府维护的账号。这些账号一旦被不法分子利用发布不法言论,整个微博都有可能面临严重的法律后果。”他说。


此外,各大公司都存在活动资金被 黑灰产 薅走的威胁,微博上也同样存在,比如 活动拉新、让红包飞、抽奖 等。除了直接刷钱获取经济利益外,微博上还存在 粉丝大 V 刷关注度、刷榜、刷流量 的现象。粉丝群体为了让自己的“爱豆”获取更高的排名和曝光,自讨腰包进行刷量,这也是在微博上一种比较特殊的“黑灰产”。


在何为舟看来,微博的长期稳定发展,离不开安全的保驾护航。


据悉,何为舟先后就读于北京邮电大学和波士顿大学,2016 年入职微博。作为安全研发负责人,何为舟在微博主要负责业务安全的整体研发工作,包括账号安全、内容安全和活动风控等。


目前,微博的整体业务安全体系主要分为底层的基础数据支持、内部的规则管理和运算、对外的接口服务。


何为舟表示,“在这个模式上,底层以账号、IP、设备为基础维度,综合全站数据,建立统一的评分和标签体系。在内部主要是建立完善的规则管理和运算功能,对于每一个业务,对其数据的字段、使用规则、特征分布、风险结果等,都能方便的进行查看、管理和配置。”


最后,根据不同业务的需求,提供不同的接入方式,则是业务安全的对外表现形式。


再不重视业务安全,你就 Out 了

当今,互联网深入发展,传统安全的外延大大扩大。现在,人们不再简单地提网络安全、信息安全,业务安全成为新的重要点。何为舟称,“这是一个安全和黑灰产对抗升级的过程。”



以前,黑灰产通过攻击手段,进行内网渗透,然后篡改或拖去数据,就能获得一些利益。但后来,企业的安全意识逐渐加强,网络安全的建设越来越完善。对黑灰产来说,逐渐变成大公司很难攻进去,小公司进去了也没啥好处。


后来黑灰产发现,直接通过正常业务能获取的利益更大:以前好不容易拖个库,还不一定有人买;现在随便薅个羊毛,直接入账几百万。


他解释说,“相比和安全从业者做攻防对抗,和业务产品运营人员做对抗显然简单的多。随着国内互联网’烧钱’手笔越来越大,可以薅的羊毛越来越多,这促使业务黑灰产不断发展。”


既然黑灰产将目标转移到业务,安全人员自然开始做业务安全了。业务安全最近热度比较高,也是这个道理,因为业务安全造成的影响更大。以前被拖库了,只要不被曝光,可能老板都不觉得有什么影响。现在一旦被薅,几百万上千万就打水漂了。“这还是很肉痛的”。


“所以,业务安全容易被高层重视,也容易获得更多的公司支持。”他表示。


在何为舟看来,业务安全不仅非常重要,而且与网络安全有不同的侧重点。对公司来说,都是用网络安全的思维去做业务安全,这是行不通的。


第一,网络安全是技术上的攻防对抗,因此对安全能力需求较高;而业务安全是在正常业务上的资源对抗,黑灰产并不会发起传统意义上的攻击,因此对业务理解能力和数据分析能力要求更高。


他说:


“从我观察到的现象来看,业务安全的发展其实对安全从业人员产生了不小的挑战。一个算法出身的人很多时候比一个打 CTF 的人更适合做业务安全的工作。”


因此,他建议:作为安全专业出身的人,去提高自己在数据方面的一些能力,是业务安全中最为重要的品质。


第二,网络安全具备较好的通用性,每个公司的网络结构和需要的网络安全设备,都是相似的。因此,可以总结出各种安全标准、等保规范等。


何为舟表示,“但对业务安全来说,每个公司每个业务的安全需求和面临的威胁都是不一样的,很难说有一套业务安全体系能适应所有的公司。因此,业务安全需要公司对自身安全团队的持续投入,而不是像网络安全中,买几个乙方产品,然后招一两个人维护就能起到不错的效果。”


最后,安全是严格遵守木桶原理的。一个公司发展安全,可以在各个方向上的投入有所倾斜,但不能不做。


比如,一个提现页面没做参数校验,导致用户可以提现任意金额。这么一个业务逻辑漏洞,风控系统也许能够发现,但其投入成本显然会比做一次安全测试来得高。


因此,即使公司更关注业务安全,也仍然需要在网络安全上作一定的投入,来保障最基本的安全能力,这样才是安全发展上性价比最高的做法。


挑战:如何让安全跟上快速发展的业务?

虽然微博不是一家年轻公司,中间经历一段低谷,但近两年,随着热点事件的增多,热度回涨,迎来发展第二春。随之而来,各种运营活动开始快速发展。


在何为舟看来,近两年微博在安全方面遇到的最大挑战是:如何让安全跟上快速发展的业务。


“对公司内部的安全部门来说,这相当于给一个创业公司谈业务安全一样。如何不阻碍业务的发展速度,又能为业务保驾护航,我相信很多公司都会遇到类似的挑战。”他说。


当然,关键问题是如何去解决这个挑战?


他有两点看法:一是,需要与业务部门积极沟通。业务安全的深度取决于对业务的理解程度,只有理解了业务,你才能发现关键的安全问题,并提出合理的解决方案:既降低业务的接入成本,也能不影响用户体验。


只有业务能接受安全提出的解决方案,才能推动业务去接受业务安全的相关服务,并愿意付出一定的成本进行接入。


二是,需要多进行沉淀和积累,总结业务需求,搭建通用的安全体系,让业务可以更方便的接入。这样才能体现出安全部门的专业性。


微博的数据安全实践

数据安全是属于比较强的合规需求,特别是随着近几年《网络安全法》、《GDPR》等相关法规的出台,国内外相关政府部门都对微博的数据安全进行了全面的审查。


在数据安全方面,微博做的第一步是基于敏感程度,对数据进行标签,从而识别出需要严格保护的数据。


何为舟说,


“对微博来说,这一块相对简单一些:微博大部分的数据,都属于公开数据,因此没有太多的泄密风险。对公开数据,主要是防止批量抓取为主。而隐私数据比较集中,主要是微博账号关联的个人因素数据,比如手机号、身份证号等,这类数据则需要采取严格的管控措施。”


公开数据保护上,主要是构建反抓站体系,防止一些第三方公司直接使用微博的公开数据来获利。


不过,他也认为,反抓站很难完全拦截住所有的抓站请求,尤其是现在代理 ip 池越来越大的情况下。对于黑灰产来说,用户、IP、设备都不需要太多成本,因此直接拦截很容易被绕过。这也给目前的反抓站工作带来的不小的挑战,需要从签名、混淆、人机识别等多个方向进行对抗。


另外,微博也尝试通过法律手段,去起诉一些存在抓站行为的公司。在打官司中,有一个比较有意思的点经常被提到:通常认为,搜索引擎的爬虫属于合法行为,为什么个人或者公司的爬虫会非法呢?这其实也是一个法律的灰色地带,一般都需要根据具体的抓取行为去向法官解释和搜索引擎爬虫的不同。


总之,反抓站属于一个持续对抗的过程,需要通过多种途径,进行打击。


在个人隐私数据方面,因为数据分布比较集中,微博采取了集中管控的方案。账号、安全和合规部门相互配合,将需要使用到这些隐私数据的服务都封装了起来,比如:登录注册、手机号验证等。


他说,“如果业务部门需要使用这些功能,都是统一走账号安全的流程页面,业务部门是拿不到任何密码、手机号等信息的。对于账号部门的流程,合规会参与审计工作,安全部门提供安全测试和评估服务,合力保证隐私数据的安全性。”


AI 入局,业务安全如何走?

实际上,随着人工智能的快速发展和应用,很多网络攻击越来越自动化、智能化,比如黑灰产。



对于人工智能,何为舟称自己是“人工智能的黑粉”。


他说,“在我看来,当前时代下,人工智能想要很好的落地,必须具备两个关键要素:明确的标签和稳定的特征分布。因为目前人工智能的强项在于统计,不在推理。”


比如:推荐系统中,用户是否点击了推荐内容就是一个明确的标签;图像识别中,一辆汽车就是一辆汽车,没人会认为是飞机,因此“汽车”也是一个明确的标签。而稳定的特征分布,其实也是类似的道理,用户的兴趣也许会发生偏移,但不会转变成另一个人的兴趣,一辆飞机的图片也不会在某一天突然被打上汽车的标签。


基于这两个前提,人工智能就能发挥其强大的统计能力,在上万个特征维度中,挖掘出关联关系。但是,在安全领域内,这两个前提并不成立。


何为舟表示,“首先,在我了解的安全范畴内,除了金融借贷有明确的’逾期’标签,大部分的业务场景下都是不具备直接标签的。”


换句话说,没有明确的规则能够定义什么是黑产。一个团伙十几个人使用几百个手机号,那肯定是黑产了,那么一个宿舍六个人使用十个手机号,算是什么呢?


显然,这是一个特修斯之船悖论,而作为业务安全人员,则是基于多方因素去追求一个平衡点。很多时候,这个平衡点存在于安全人员的脑海中,是一种无法抽象的经验集合。这也导致了对于同一个数据,不同的安全人员会给出不同的标签来。更为讽刺的是,一旦尝试去显示的确立这个平衡点,规则也能够很轻松的被定义出来,这个时候再去谈人工智能,显然是舍近求远了。


另外,在他看来,安全不是为正常用户提供服务,而是和黑产进行对抗。在这个对抗的过程中,特征分布必然会发生持续的变化。相信很多业务安全人员都经历过,定义一个阈值之后,黑产马上就会调整频次来绕过阈值。同样的,你训练出来一个模型,黑产也会马上进行调整绕过。


在人工智能中,对抗样本的研究,也一直是一个热门方向,各类人脸识别的破解方法层出不穷。和网络安全中的攻防一样,人工智能的安全对抗中,攻方始终是占优的。因为攻方可以不按套路出牌,任意修改自身的特征分布,来破解人工智能的识别结果。


最后,业务安全要求极高的准确性、可控性和可解释性。不像在推荐系统中,推荐错了也就错了,不会有什么影响。但是业务安全中,一旦错了,就意味着影响到了正常用户的使用,或者放过了黑产。”他说。


当然,100% 的准确率是不可能的,不管是规则系统还是人工智能模型,都会有误判产生。但是规则能够快速反应,一旦发现了误判,就能够立即找到原因,并进行调整,整个周期可能一小时就完成。


而如果使用的是人工智能模型,一方面需要一定的难度去找出合理的误判解释,一方面调整模型需要一定的误判样本以及时间,整个周期可能要好几天。对于业务来说,这样的响应周期其实都是不可接受的。


他表示:


“因此,就我目前的经验来看,在业务安全中,想要利用人工智能技术直接去拦截黑产行为,是不切实际的。但是,我们可以通过降低和黑产的对抗程度,降低对时效性的需求,来提高人工智能的有效性。比如:通过无监督方式,离线判断业务数据中的黑产比例;根据特征的拟合情况,判断是否存在异常行为;挖掘异常聚类或者异常点等。”


在这种场景下,不需要人工智能实时指出哪一个 case 是黑产,只需要推测一下是否存在黑产,指明一个大概的方向,然后再由人工去介入分析评判,也能够极大的降低安全人员的工作量。


总之,现在的人工智能无法真正的和黑产进行对抗,无法独当一面。但是,作为一个辅助的分析工作,来提高安全人员的数据分析能力,人工智能还是具备其价值的。


活动推荐:


在 12 月 6-7 日北京 ArchSummit 全球架构师峰会上,何老师作为出品人,策划了“业务安全管理与技术架构”专题,邀请了美团点评、滴滴出行、微博的技术专家来分享安全话题。更多内容点击大会日程链接 https://archsummit.infoq.cn/2019/beijing/schedule


2019-10-29 10:382390
用户头像
万佳 InfoQ编辑

发布了 673 篇内容, 共 288.5 次阅读, 收获喜欢 1745 次。

关注

评论

发布
暂无评论
发现更多内容

每日算法刷题Day13-在O(1)时间删除链表结点、合并两个排序的链表、把字符串转换成整数

timerring

算法题 9月月更

计算机网络——物理层设备

StackOverflow

编程 计算机网络 9月月更

python小知识-类全知道

AIWeker

Python python小知识 9月月更

极速安装和体验k8s(Minikube)

程序员欣宸

Kubernetes 9月月更

大数据调度平台Airflow(三):Airflow单机搭建

Lansonli

airflow 9月月更

OceanBase 数据库内核实战赛「推荐官」招募令发布,让身边的优秀选手C位出道!

OceanBase 数据库

[SSM]前后台协议联调①

十八岁讨厌编程

Java 后端开发 9月月更

前端食堂技术周刊第 53 期:React Router 6.4、VS Code August 2022、2022 Google 谷歌开发者大会、Meta 开源 MemLab、Vue.js 技术内幕

童欧巴

Vue vscode React

互联网公司员工职级、研发效能度量、OKR与绩效考核

laofo

DevOps cicd 研发效能 持续交付

跟着卷卷龙一起学Camera--Demosaic

卷卷龙

ISP 9月月更

讲讲 SaaS 平台的多租户怎么设计

产品海豚湾

产品经理 多租户 产品设计与思考 SaaS平台 9月月更

史上最详细Ajax学习笔记

楠羽

笔记 ajax数据 9月月更

Drug X跨越鸿沟:一个生物科学家的新药研发跋涉记

脑极体

ESP32-C3入门教程 基础篇(二、GPIO中断、按键驱动测试)

矜辰所致

GPIO ESP32-C3 按键驱动 9月月更

C++学习---_IO_lock_t的源码学习

桑榆

c++ 源码阅读 9月月更

Flink计算框架概述

阿泽🧸

9月月更 Filnk

J-Tech & 开源之夏|什么是比快更快的向量搜索

Jina AI

搜索引擎 开源 开源之夏

[Javaweb]JSON

十八岁讨厌编程

javaWeb 后端开发 9月月更

常见监控分类概述

穿过生命散发芬芳

监控 9月月更

[SSM]前后台协议联调②

十八岁讨厌编程

Java 后端开发 9月月更

轻量化的灰度发布实践技术方案

Speedoooo

灰度发布 ab测试 轻量化

PC端小程序引擎,或许不就未来能解决桌面应用兼容性

Speedoooo

小程序 桌面开发 桌面端 桌面应用

ESP32-C3入门教程 基础篇(一、ADC采样)

矜辰所致

ESP32-C3 9月月更 ADC采样

ShareSDK 开发过程中常见问题

MobTech袤博科技

ios android sdk

什么是混合云?与公有云、私有云有啥区别?

wljslmz

云计算 公有云 私有云 混合云 9月月更

中国20强游戏公司2022上半年年报分析:复合因素下业绩增长承压,海外新兴市场蕴含增长新趋势

易观分析

游戏 海外市场

OceanBase本周活动|从0到1数据库内核实战教程;对话ACE第五期;Meetup广州站

OceanBase 数据库

JS-内置对象API-Array(数组)-(一)-改变原数组的API-篇

Sam9029

JavaScript 前端 9月月更

Flink Collector Output 接口源码解析

JasonLee实时计算

flink 源码

【字符串函数内功修炼】strncpy + strncat + strncmp(二)

Albert Edison

C语言 9月月更 strncpy strncat strncmp

精通高并发与内核 | Linux内核协程解析

小明Java问道之路

线程 进程 协程 Linux内核 9月月更

月活近 5 亿,微博是如何做业务安全的?_安全_万佳_InfoQ精选文章