写点什么

五年官司终败诉:爬取领英数据“完全合法”,万亿爬虫大军蠢蠢欲动

  • 2022-04-21
  • 本文字数:3574 字

    阅读完需:约 12 分钟

五年官司终败诉:爬取领英数据“完全合法”,万亿爬虫大军蠢蠢欲动

互联网爬虫战争永无休止。


这算得上是爬虫斗争历史上具有里程碑意义的一个裁决。本周一,美国法院裁定,数据分析公司 HiQ 控诉 LinkedIn 案维持原判,并且认定从公共网站收集个人资料完全合法。


LinkedIn 是微软旗下的职业社交平台,用户可以在 LinkedIn 网站建立个人档案,包括教育背景、工作经历、技能等信息。HiQ 则是一家数据分析公司,从 LinkedIn 爬取公开数据,进行整理分析后将处理结果出售给相关企业。


LinkedIn 虽拥有数据,然而数据本身是由用户提供给 LinkedIn 的。在大数据时代,一些互联网平台积累了大量用户数据,并以此建立自身资源优势:在和其他互联网企业与平台的竞争中,用户数据越多利用得越好,就越容易吸引更多用户,从而处于更有利的地位。这种滚雪球式的效应使得互联网企业往往将数据视为竞争中的核心资产。


官司打了两三回,最终偏向公共利益


在此案之前,任何访问 LinkedIn 网站的人都可以得到这些数据。在数据分析公司 HiQ 长期对 LinkedIn 的网站数据进行爬取行为后,LinkedIn 向 HiQ 发送了禁止通知函,并在函中援引了《计算机欺诈与滥用法案》(Computer Fraud and Abuse Act, “CFAA”)。


2017 年,HiQ 先发制人,作为原告方,控诉 LinkedIn 通过法律、技术等多种方式阻止其复制 LinkedIn 用户的公开个人资料,还向法院申请了临时禁令。


虽然 HiQ 公司对 LinkedIn 网站实施了网络爬虫,但美法院法官认为,这种爬虫行为并不违反法律,因为 LinkedIn 网站上的数据是公开数据,对于公开数据,即使违反对方设置的 robot 协议,也应当是被法律允许的。


这就像在白天推开一家未锁门的商店进去看看,并不能将其认定为非法侵入。因此,法院最后不仅没有认定 HiQ 公司的爬虫行为违法,甚至反过来认定 LinkedIn 的反爬虫技术违法。


负责审理此案的地方法官向 HiQ 授予了初步禁令,禁止 LinkedIn 在案件审理期间干扰 HiQ 的数据爬取工作。法官认为,《计算机欺诈与滥用法案》(将“未经授权”或者以“超出所授予访问权限”方式访问受保护计算机,认定为犯罪行为)并不适用于 HiQ 从 LinkedIn 网站收集公开数据的行为。



面对不利局面,LinkedIn 选择上诉。早在 2019 年,上诉法院就曾经支持下级法院于 2017 年在 HiQ 诉 LinkedIn 案中做出的裁决,认定网络爬取并不属于“未经授权访问受保护计算机”行为,裁定也依旧维持原判。LinkedIn 再次选择上诉。但两年之后,第九巡回法院仍然站在 HiQ 一边,并将此案发回加州北区法院。


LinkedIn 当然对此不服,随后向美国最高法院提起上诉。2020 年 3 月,LinkedIn 要求最高法院审查第九巡回法院做出裁决。该公司辩护称,其以技术手段阻止网络爬取、同时发送终止通告函件的行为,应被视为符合正常授权机制的要求。实际上,作为微软持有的社交媒体网站、LinkedIn 一直努力避免站内结果被外界直接查看,但又不希望因过度封闭而自绝于搜索引擎。


LinkedIn 方面的律师在递交给最高法院的申诉书中写道,“根据第九巡回法院的裁定,除非用密码机制将网站彻底封锁起来,否则任何一家决定部分公开网站内容的企业——包括 Ticketmaster、Amazon 等在线零售商,乃至 Twitter 等社交网络平台——都将暴露在批量部署的侵入性爬虫程序的面前。”


“而一旦选择密码封锁,则网站将无法被搜索引擎正常检索,导致人们无法经由互联网上最主要的信息获取渠道发现其中信息。”


2021 年 6 月 3 日,美国最高法院曾在另一起类似案件,即 Van Buren 诉美国政府案中,缩小过《欺诈与滥用法案》的管控范围。Nathan Van Buren 是佐治亚州的一名警察,有权限为执法目的搜索有关车牌的计算机记录。他中了联邦调查局的圈套,为私人目的搜索这些记录(应联邦调查局线人的要求,该线人提出为这些信息支付数千美元)。最终美法院对他判处了 18 个月的监禁。人们一直批评该法案未对“未经授权”和“超出授权范围”做出清晰界定。


美国高等法院在 Van Buren 案中表示,单纯违反服务条款并不符合《欺诈与滥用法案》中提出的“超出授权范围”条件。然而,基于凭证的锁闭机制是否足以作为确定“未经授权”访问的唯一方法,美国高等法院仍未能给出明确答案。


两周之后,美国最高法院决定将 HiQ 诉 LinkedIn 案发回第九巡回法院,希望结合 Van Buren 案的判例重新审视《欺诈与滥用法案》的适用范畴。但从结果来看,上诉法院虽然参考了 Van Buren 判例,但最终仍做出了维持两年前原判意见的裁定。


第九巡回法院在裁决中指出,“公共网站的一大基本特征,就是其中公开可见的部分不受访问限制;换言之,这些部分将对任何拥有网络浏览器的访问者开放。”


“也就是说,如果将这些托管公开页面的计算机视为房屋,那么公共网站设备在部署之初就没有设置任何“前门”,自然不存在提高或降低访问门槛一说。因此,Van Buren 案强化了我们的裁定,即“未经授权”概念确实不适用于公共网站。”


但院方裁决并未解决 HiQ 与 LinkedIn 之间的恩怨纠葛,只是单纯禁止 LinkedIn 继续干扰 HiQ 收集其公开网站数据、并表示不支持根据《欺诈与滥用法案》对 HiQ 的分析业务提出索赔。而案件背后真正核心的不公平竞争、隐私侵犯等问题仍未得到解决。


在邮件声明中,LinkedIn 发言人表示该公司不会放弃诉讼,将继续在法庭上寻求合理的结果。“我们对结果感到失望,但这只是一项初步裁决、案件还远未结束。我们将继续努力保护 LinkedIn 会员,特别是保护他们在网站上掌控个人信息的能力。”


此案的影响力


数据抓取行为如今被广泛应用到社会生活当中,不仅仅是在商业上的使用,还有学术研究上的应用等等。因此,本案的判决也受到极大的关注。此案的裁决得到了美国媒体的欢呼和赞誉,认为第九巡回法院的决定是档案工作者、学者、研究人员和记者的“重大胜利”。


对于争论不休的数据和隐私的归属问题,这个案件也在一定程度上进行了讨论。从第九巡回上诉法院的观点来看,其裁决支持了用户才是数据的所有者,平台只是依据用户的授权才使用这些数据,而不能完全拥有这些数据。


在 Reddit 上,网友们对 LinkedIn 发言人提起上诉的解释发起了大量嘲讽:“这样的解释即使不是荒谬的,也是冒昧的,提供数据的用户从来没有得到平台的反馈”,“保护客户隐私的说法被夸大了”,“现在谁会相信这样的解释是有意义的?”…



另一方面,数据抓取也是现代互联网生态的重要组成部分,根据 Akamai 的统计,全球互联网流量中,近 40% 的流量由爬虫所占据。在 2021 年第二季度,全球遭遇的爬虫攻击达到了 700 亿次,同比增长 15%。美国法院这一裁定,也意味着从此百亿爬虫抓取在线零售商和社交网络平台的公开信息,是合乎美国法律的。


中美法律不同,需谨慎使用爬虫技术


或许正是由于数据的重要地位,近年来中外关于数据的争议问题层出不穷。在中国,爬虫行为引发的不正当纠纷案件也不在少数。德恒律师事务所曾发布过一篇名为《爬进“不正当竞争”的虫,代价不菲》的文章,在文章中讲述道,他们以“爬虫”等关键词在北大法宝检索并筛选出自 2016 年起的爬虫类相关案件共 49 件,大部分为刑事案件,涉及侵犯著作权罪、非法经营罪、侵犯公民个人信息、诈骗罪、敲诈勒索罪等,也包括部分民商法案件,主要涉及著作权和不正当竞争纠纷。


其中一个典型案例是大众点评诉百度案。


2016 年,百度因大量使用爬虫抓取大众点评的点评信息,在百度地图中进行展示,后被大众点评诉至法院。法院审理认为,百度的行为违反了公认的商业道德和诚实信用原则,构成不正当竞争。


在大众点评诉百度的二审判决中,法官明确指出:“在自由、开放的市场经济秩序中,经营资源和商业机会具有稀缺性,经营者的权益并非可以获得像法定财产权那样的保护强度,经营者必须将损害作为一种竞争结果予以适当的容忍。本案中,汉涛公司所主张的应受保护的利益并非绝对权利,其受到损害并不必然意味着应当得到法律救济,只要他人的竞争行为本身是正当的,则该行为并不具有可责性。”


虽然技术是中立的,但是技术应用存在着边界。目前,平台的数据权属无法进行明确化的界权,所以界定法律责任的过程还是比较复杂的。也因此,随着互联网技术的发展,“爬虫”二字在中文语境逐渐带上了“贬义”色彩。


对编写网络爬虫的程序员来说,如果爬到不该爬取的数据,则存在违法的可能。“爬虫写得好,牢饭吃得早”戏称的存在,也说明了我们需要谨慎对待爬虫技术。就像 LinkedIn 平台,获取公共数据一般有两个选择:使用爬虫 /scraper (免费但有风险),使用 API(不是免费但安全),如果一定需要使用这些公开数据,需要我们做出谨慎的抉择。


参考链接:

https://www.theregister.com/2022/04/19/scraping_public_data_linkedin/

https://news.ycombinator.com/item?id=31075396

《数据抓取的边界在哪里?》:http://rmfyb.chinacourt.org/paper/html/2020-03/19/content_166271.htm?div=-1

《爬进“不正当竞争”的虫,代价不菲》:http://www.dehenglaw.com/CN/tansuocontent/0008/023370/7.aspx?MID=0902


2022-04-21 15:135674

评论

发布
暂无评论
发现更多内容

linux之awk使用技巧

入门小站

Linux

👊 【Spring技术特性】带你看看那些可能你还不知道的特性技巧哦!

洛神灬殇

Java spring Spring特性 10月月更

趣说 Node.js 的事件循环

Regan Yue

node.js Regan Yue 10月月更

区块链将规则写入代码 重构市场新制度

CECBC

018云原生之基础架构

穿过生命散发芬芳

云原生 10月月更

【Flutter 专题】133 图解自定义 ACEWaterButton 水波纹按钮

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 10月月更

【产品】论增长黑客思维如何让B端产品爆发式增长

极光一号。

云原生 用户增长 b端产品经理 增长黑客

Kafka 生产环境部署指南

Se7en

API网关Kong实战

飞鸟

kong api 网关 API Gateway

【架构实战营作业】模块五——微博评论计算架构

聆息

Gas 机制是如何运作的

Rayjun

以太坊

Minio环境搭建

飞鸟

Minio 分布式文件存储

Prometheus 基础查询(四)修饰符

耳东@Erdong

Prometheus 10月月更

在线字符串哈希/散列工

入门小站

工具

【设计模式】第四篇 - 简单工厂

Brave

设计模式 工厂模式 10月月更

微博评论高性能高可用计算架构设计

看,有只猪

linux【redhat&ubuntu】下ffmpeg-3.1安装编译及视频转码

程序员架构进阶

架构 ffmpeg 视频流 10月月更

WEB图像优化

devpoint

性能优化 image 图像格式 10月月更

Go 扇入 / 扇出

baiyutang

golang 10月月更

【LeetCode】环形链表Java题解

Albert

算法 LeetCode 10月月更

CPU、指令集、微架构概念学习

轻口味

10月月更

官方线索|科大讯飞全球1024开发者节

xcbeyond

1024我在现场

5分钟搞懂Monorepo

俞凡

git 架构

未来已来,运营商如何驱动区块链应用创新提速?

CECBC

博鳌亚洲论坛国际科技与创新论坛第二届大会区块链分论坛紧密筹备中

时空云

区块链 博鳌 亚洲论坛

初始化 Ubuntu 工作环境

看山

ubuntu 10月月更

分布式文件存储系统Minio实战

飞鸟

Minio 分布式文件存储

Linux system hardening: adding hidepid to /proc mount point

卓丁

Linux linux security proc hidepid

Spring 框架学习

风翱

spring 10月月更

人工智能解决方案 --- 智能运维(AIOps)

micklongen

人工智能 AIOPS 知识图谱 智能运维 数据工程

Win11安装PyTorch

IT蜗壳-Tango

10月月更

五年官司终败诉:爬取领英数据“完全合法”,万亿爬虫大军蠢蠢欲动_语言 & 开发_Tina_InfoQ精选文章