写点什么

传某头部互联网公司被攻陷,攻击者利用爬虫获取 11.8 亿条数据,8 个月获利 34 万

  • 2021-06-10
  • 本文字数:3975 字

    阅读完需:约 13 分钟

传某头部互联网公司被攻陷,攻击者利用爬虫获取11.8亿条数据,8个月获利34万

经查,涉事两名攻击者非法获取某互联网公司客户信息共计 11.8 亿条,在 8 个月的时间里利用该信息经营共获利 34 万余元。最终,二人因侵犯公民个人信息罪,分别被判处有期徒刑三年六个月,有期徒刑三年三个月。

某顶级互联网公司十亿余条信息被外泄


6 月 9 日,网传某顶级互联网公司被攻陷,十亿余条信息外泄。


中国裁判文书网的一则判决书证实了该传闻。


据中国裁判文书网发布的《逯某、黎某侵犯公民个人信息一审刑事判决书》显示,2020 年 8 月 14 日,某互联网公司报称警,在 2020 年 7 月 6 日到 2020 年 7 月 13 日时,有黑产通过 mtop 订单评价接口绕过平台风控批量爬取加密数据,爬取字段量巨大,7 月 6 日至 7 月 13 日之间平均每天爬取数量 500 万,爬取内容包括买家用户昵称,用户评价内容,昵称等敏感字段。


经该公司网站排查发现,逯某有重大作案嫌疑,作案地点河南省商丘市睢阳区新城街道长江路民政局家属院,立为刑事案件。


经审理查明,被告人黎某在湖南省浏阳市成立了浏阳市泰创网络科技有限公司(自然人独资),该公司设有返利部、客服部、招商部等部门。


据悉,该公司主要是做优惠券返利的,主要利用用户的手机号加对方微信好友进行推广商品,让用户领取优惠券,对方使用优惠券成功购买商品,该公司会获得返利。


被告人逯某受雇于被告人黎某,作为公司技术员,每月工资一万元。


自 2019 年 11 月,被告人逯某在商丘市睢阳区其家中利用自己开发的爬虫软件,通过某互联网公司电商网站网页接口爬取客户的信息,并将其中客户的手机号码提供给被告人黎某,用于浏阳市泰创网络科技有限公司用于经营活动,该公司自 2019 年 11 月份至 2020 年 7 月份利用该信息经营共获利 340187.68 元。


经司法鉴定,被告人逯某通过其开发的软件爬取某互联网公司电商网站客户的数字 ID、昵称、手机号码等客户信息共计 1180738048 条,被告人逯某将其爬取信息中的客户手机号码通过微信文件的形式发送给被告人黎某使用共计 19712611 条。

涉事互联网公司安全风控员发现黑产行为


被告人逯某,因涉嫌非法获取计算机信息系统数据、非法控制计算机信息系统罪,于 2020 年 8 月 15 日被商丘市公安局新城分局刑事拘留,2020 年 9 月 22 日被逮捕。


被告人黎某,因涉嫌侵犯公民个人信息罪,2020 年 8 月 21 日被抓获,于 2020 年 8 月 22 日被商丘市公安局新城分局刑事拘留,同年 9 月 22 日被逮捕。


被告人逯某辩称,只采集了五千万条,十一亿八千万条不是我采集的,是从其它地方下载的,我采集的信息没有传播,只有电话号码,没有身份信息,没有联系任何一个用户,没有得到利润。获利只有六七万或七八万元。


被告人黎某辩称,逯某给我发的信息只是一个单纯的手机号码,没有拿这些信息做违法犯罪的事情,返利部的获利是利用该信息,其他部获利与该信息无关,愿意退出 37 万元的违法所得。


证人马某证言证实,其系某互联网公司安全风控员,2020 年 7 月 13 日,其在工作中发现,平台的评价接口存在异常流量行为,经排查后发现有黑产通过破解接口的形式进行加密数据的爬取,在 2020 年 7 月 13 日至 2020 年 7 月 20 日之间爬取了 3500 万条数据。


该互联网公司公司派工作人员前往商丘市公安局犯罪侦查支队直属二大队协查调查,通过嫌疑人逯某的电脑硬盘信息分析统计,共计 12 亿条手机号、user_nick 等加密相关信息。


国家林业局森林公安司法鉴定中心物证检验报告证实,对逯某、黎某手机数据恢复、提取、鉴定。情况说明证实,(调取逯某电脑数据库中数据的真实性说明)逯某数据库数据统计,共有 12 亿条数据,据抽样 1W 条数据进行排查属正确关系对数据。主要字段包含 user_id,user_nick,手机号,注册时间等属于某互联网公司实际认证的真实信息。

判决:黎某获刑三年六个月;逯某获刑三年三个月


商丘市睢阳区人民检察院认为,被告人逯某受雇于被告人黎某,二人违反国家规定,非法获取公民个人信息,情节特别严重,其行为均已构成侵犯公民个人信息罪。公诉机关指控罪名成立。且系共同犯罪,被告人逯某、黎某有坦白情节,且认罪认罚,对其均可从轻处罚。


综合其犯罪情节及社会危害性,依照《中华人民共和国刑法》第二百五十三条之一、第二十五条第一款、第六十七条第三款、第五十二条、第五十三条、第六十四条之规定,判决如下:


一、被告人黎某犯侵犯公民个人信息罪,判处有期徒刑三年六个月,并处罚金人民币三十五万元。


二、被告人逯某犯侵犯公民个人信息罪,判处有期徒刑三年三个月,并处罚金人民币十万元。


三、被告人黎某、逯某违法所得依法继续予以追缴上缴国库。


四、依法扣押的作案工具逯某电脑主机 5 台、电脑显示器 3 台和手机 5 个,由扣押机关依法处理。

矛盾的爬虫技术


这起案件中,被告人的主要“作案工具”之一是爬虫技术,其非法爬取了某互联网公司的十亿余条数信息。


在一些场景,爬虫技术很容易游走在违法边缘。尤其在一些金融大数据公司中,爬虫业务被广泛应用。2019 年下半年,一场严厉的监管风暴下,多家金融大数据公司接连被查,被查原因中多涉及违规利用爬虫技术的问题。


业内有这样一种说法,爬虫贡献了互联网 50% 的流量,它对于互联网的繁荣功不可没。但该技术同时也因“用途”而充满争议。爬虫是一项见不得“阳光”的技术,它广泛运用,却少有人愿意承认在使用它。因为它常常被用作非法收集信息的工具,站上数据隐私、数据安全的对立面。


“爬虫技术本身并无对错,但要看怎么用,用错了肯定违法啊”,一位程序员向 AI 前线表示,“技术无罪,关键在于人”。


网络爬虫是非常普遍的一种数据挖掘技术,它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。爬虫技术最早主要运用在搜索引擎中,它满足了人们的数据获取、分析需求。早在 1995 年,为了不越“边界”,互联网搜索引擎与网页持有者之间达成了一项“君子协定”— robot 协议,该协议规定了哪些信息该爬,哪些信息不该爬,20 多年来,该协议一直沿用至今。


在遵循 robot 协议的前提下使用爬虫技术是没有任何风险的。但往往有些“作恶者”试图越过红线,一些大数据公司打着“大数据分析”的名头违规违法爬取任何网页及访问用户的数据,致使“虫灾”泛滥。


现在的爬虫似乎无所不能,只要有账号密码都可以爬,包括电商平台、外卖平台、地图、旅行网站、共享单车、等平台的个人信息,用户的通讯录、上网地址、收货地址、聊天记录、搜索记录、支付记录,甚至央行的征信报告...总之,一切皆可爬,还可进行定制化爬取。


爬虫也是一项“矛盾”的技术。爬与反爬的“斗争”每天都在上演,力量此消彼长。


据一位资深程序员介绍,现在比较常见的反爬虫技术手段主要有,检测 Header 信息;设置 IP 访问频率,分析同一 IP 或同一设备在短时间内多次访问同一页面或进行相同操作;识别 UA、通过动态页面增加爬取难度等方式。


这几年,随着随着 AI 的发展,一些机器学习、canvas 指纹等智能反爬虫技术也被运用起来。例如,腾讯云网站管家 WAF 就将 AI 检测引擎能力,运用到了爬虫 Bot 程序检测的环节上,AI 引擎能够对站点访问流量的会话进行追踪,通过流量画像,匹配行为模型及行为标签进行识别,进而识别出爬虫 Bot 程序流量行为。


2019 年 5 月,被称为“中国版 GDPR”的《数据安全管理办法》征求意见稿发布,第 16 条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。


一位业内人士认为,技术只是工具,在获取数据时需要考虑数据到底有没有获得授权,需要几方授权,在拿到用户授权的情况下,有没有拿到网站等数据来源方的授权,这其中涉及到的权责边界应该更明确。


随着监管越来越严格,爬虫技术的使用边界也将更加明晰。互联网从业者应当怀有敬畏之心,要时时注意不要触碰边界,毕竟,爬虫只是技术,灰色的是“助恶者”。

黑产猖獗,AI 风控来“智”斗


近年来,黑产分子欺诈的手段也是“道高一尺、魔高一丈”,人机对话、网络诈骗等新兴欺诈手段增多,诈骗方法也渐趋智能化。据统计,网络黑产的从业人员超过 200 万,市场规模高达千亿级别。


例如在电商场景中,每逢节日大促,商家和平台会推出满减、优惠券、红包、积分抵现金等多种多样的促销,但消费者经常遇到失去到手的战利品和优惠券的情况,实际上,这很大可能是网络黑产们在背后动了这些原本属于消费者的奶酪。


通常情况下,在官方发布促销活动之前,黑产会通过暗网、QQ 群、微信群、黑产论坛等渠道来及时获取相关活动信息,以不法渠道购买大批量 IP、手机号和设备资源等基础资源来注册、登录电商平台,并通过自动化操作工具以及自动 / 人工打码平台来提升作恶效率。


在很多电商业务场景中,黑产会专门研究对应的业务流程并从中挖掘出存在的漏洞,再与自有核心资源和基础工具进行整合,从而把整个行为链条编写成可以自动执行的业务工具,开始全自动、大批量的进行作恶,从而获取高额利润。


依法打击黑产不仅需要监管部门、平台和商家的协作,更需要技术手段的介入。目前,很多行业如电商、金融、游戏、医疗等行业的很多企业和机构开始运用 AI 来加强大数据风控。


与传统的人工风控方式相比,AI 风控能够解决很多历史痛点问题。首先是人工效率的问题,传统体系中,人为干预因素较多,但每个人工作时间有上限。但 AI 的工作时间不会受到限制,可以 24 小时工作。


其次,AI 技术对细化客户分层的颗粒度及实现精细化管理助力颇多。AI 能够代替人工处理,能精准用户画像,提高风险识别能力。特别是处理大规模的客户方面,例如针对百万级、千万级、上亿的客户,如此大量的客户不能完全靠一个风控团队去处理,必须要借助 AI 技术进行这种大量级客户的风险识别工作。


参考链接:


https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=7987f14ab34e4480ae9dad3c009aff7d


https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247519476&idx=3&sn=92777bdba191119e51b80f9f9612932b&chksm=fbea353bcc9dbc2d85854dfa75f8213ac9a61eb8f24c96f88285b802b69af975d16988a8b9c9&scene=27#wechat_redirect

2021-06-10 13:407956
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 539.6 次阅读, 收获喜欢 1977 次。

关注

评论 5 条评论

发布
用户头像
最大的爬虫叫百度,怎么没人找他们
2021-06-25 16:24
回复
用户头像
贼喊捉贼,呵呵。
2021-06-21 11:04
回复
用户头像
凭本事爬来的不包含敏感信息的数据,小公司就被抓,还是后台不够硬。
2021-06-16 19:36
回复
用户头像
“爬虫是一项见不得“阳光”的技术”,爬虫怎么就成见不得阳光的技术了?在公共数据不够开放的今天,爬虫为大数据分析和机器学习提供资源,为技术发展起着推进的作用,而且爬虫做为一项技术,怎么还成贬义了?恐怕是人的成见在作怪吧?大公司就可以用,小公司和个人就不能用,是这个意思吗?
2021-06-15 07:43
回复
用户头像
巨头滥用用户数据,就不叫侵犯公民隐私了?
2021-06-12 08:43
回复
没有更多了
发现更多内容

基于Spring Boot+VUE Java小程序商城项目(附源码),接私活利器

Java你猿哥

Java 小程序 源码 Spring Boot Vue

万众瞩目的Nautilus Chain即将上线主网,生态正式起航

BlockChain先知

Mac电脑怎么删除VMware Fusion虚拟机系统,vmware fusion如何删除虚拟机

Rose

VMware Fusion虚拟机 Mac虚拟机 删除虚拟机教程 Win系统

Hazel for Mac(自动化清理软件)v5.2.2激活版

Rose

Mac清理软件 Hazel 下载 Hazel Mac版 自动化文件管理工具

DMG镜像制作软件:DMG Canvas 激活版

真大的脸盆

Mac Mac 软件 镜像文件制作工具 镜像文件管理

免费AI编程助手Amazon CodeWhisperer体验

米菲爸爸

实用且简洁的Python语法

进基的小张

Python 学习 经验分享 技巧分享 python小技巧

Mac版PS2023 24.5 大更新,新增4大AI功能,看完忍不住换了!

Rose

PS2023最新版 PS支持AI功能 Photoshop破解

StampedLock:高并发场景下一种比读写锁更快的锁

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 5 月 PK 榜

终极指南!Terraform的进阶技巧

SEAL安全

IaC Terraform 5月 企业号 5 月 PK 榜

volatile 底层是如何实现的?

javacn.site

实用自定义 Mac Dock 的隐藏终端命令

Rose

Mac Dock 自定义Dock

MySQL踩坑笔记,加了唯一索引还会出现重复数据?

Java你猿哥

Java MySQL sql ssm 索引

2023年互联网Java工程师高级面试八股文汇总(1260道题目附解析)

Java你猿哥

MySQL redis Spring Boot mybatis 多线程

揭秘!为何阿里P8亲身经历撰写的架构师核心笔记竟如此成功

Java你猿哥

Java 领域驱动设计 软件架构 架构师 分布式架构

科兴未来|深圳创新创业大赛开始啦!

科兴未来News

企业 深圳 #双创赛事# 新能源行业 深创赛

跨平台开发的优势:ReactNative与小程序容器

没有用户名丶

Python实现KNN算法

TiAmo

算法 决策 KNN算法

Parallels使用到期怎么办?PD17虚拟机无限试用版安装教程

Rose

Parallels Desktop 17下载 Parallels到期 PD17虚拟机 PD无限试用版

破防了!阿里大佬DDD(领域驱动设计)不破不立,GitHub直接霸榜

Java你猿哥

Java 领域驱动设计 DDD ssm 领域驱动

万众瞩目的Nautilus Chain即将上线主网,生态正式起航

股市老人

万众瞩目的Nautilus Chain即将上线主网,生态正式起航

西柚子

Amazon CodeWhisperer代码提示体验测评

查拉图斯特拉说

CodeWhisperer 代码提示

IDEA 终端命令行设置

Andy

2023-05-30:Redis6.0为什么要引入多线程呢?

福大大架构师每日一题

redis 福大大

天涯社区落幕:互联网论坛时代画上无奈的句号

石头IT视角

RocketMQ 顺序消费机制

Java你猿哥

Java RocketMQ 获取 topic等信息 ssm

简洁高效:Java代码中If-Else结构的优化实践与技巧

xfgg

Java 代码优化

性能测试的一二三

FunTester

C语言编程—函数指针与回调函数

芯动大师

传某头部互联网公司被攻陷,攻击者利用爬虫获取11.8亿条数据,8个月获利34万_AI&大模型_刘燕_InfoQ精选文章