一步之遥即深渊:爬虫有罪?
发布时间:2019-11-5 10:57阅读:546
文 | 徐 磊 石冉冉 金融科技微洞察
经授权发布
最初的爬虫就像是一个搜索探测器,按照指定规则,通过遍历网络内容的方式,搜集、提取所需的网页数据,被技术人员储存或重新加工。我们每天使用的各大搜索引擎,其实就是利用了爬虫技术。它扒取互联网上的所有网站信息,整理好信息索引,提供给其他用户进行快速搜索和访问。发展至今天,爬虫所获得的信息多种多样,不仅扒取互联网网站上的信息,在不同场景下还扒取公民身份、电信、出行、社交、电商、银行记录等多个维度的数据。
从数据来源渠道分,爬虫可分为网页爬虫和接口爬虫。网页爬虫是根据网页上的超链接进行遍历,扒取网页的数据信息,最常用于搜索引擎。这是早期的一类爬虫。在大数据时代,新型的接口爬虫则是通过精准构造特定 API 接口的请求,来获得所需数据信息[1]。从数据访问权限分,爬虫行为可以分为4种逐渐演变的类型。最早的爬虫属于前两类,现在争议最为热门的则是第三、四类[2]。
-
第1类:完全公开信息爬虫。网站面向公众开放,无需登录身份验证即可访问。爬虫通过浏览网站,能够获取完全公开的信息。
-
第2类:附加协议的完全公开信息爬虫。网站虽然面向全体公众开放,无需登录验证即可访问,但网站设置了协议,明确禁止爬虫行为。
-
第3类:需登录一般账号访问公开信息的爬虫。网站面向不特定的公众开放注册,用户注册账号登录后可访问自己账号的信息和网站披露信息。爬虫公司就通过批量注册账号或得到用户授权委托,进入网站或特定设备扒取数据。
-
第4类:需登录特定账号访问公开信息的爬虫。网站面向需验证身份的特定人群开放注册,用户注册账号登录后可访问自己账号的信息和网站披露信息。爬虫公司借用授权账号登录,进入网站或特定设备扒取数据。
目前引起问题的爬虫公司往往是后两类。它们在网站或App上获得用户在注册协议、隐私协议中自觉或无意的授权后,就利用授权信息登录网站或接入API,获取用户个人数据以及网站数据。有些爬虫甚至具备突破网站本身设置的控制能力,获取被保护的数据。这些非完全公开、涉及用户隐私和网站商业信息的数据正是爬虫的危害来源。
非法爬虫会威胁到保存在网站服务器上的用户个人和互联网服务提供商数据,从而侵犯用户隐私和服务提供商的商业信息,会带来法律风险。在实际商业世界中,大量的案件都围绕爬虫者侵犯商业数据、形成不当竞争有关。
各国法院对于爬虫的态度相差不大,其基本原则可以归纳为:首先要获得爬虫协议授权,无授权则违法;其次,协议未禁止的行为,就不受法律保护;再次,协议本身也必须满足正当竞争要求,不能设置不合理协议。这些原则在多年的立法和司法实践中得以发展,不论是对协议还是对所谓“正当竞争”的定义和理解都经历了变迁。美国在这个方面的司法实践一直走在前头。
为了维护网站的正常运营,免遭爬虫攻击瘫痪,并避免爬虫抓取敏感信息,早期的爬虫法律界线以网站爬虫协议为准绳。1994年,大部分互联网公司以及互联网爱好者们就达成了共识,撰写了一份Robots协议(Robots Exclusion Protocol,又称“爬虫协议”),以文本文件(.txt)的形式放在网站的根目录下。网站通过Robots协议告诉搜爬虫,哪些页面可以抓取,哪些页面不能抓取。每当爬虫访问一个站点时,它会检查该站点根目录下是否有爬虫协议。站点通过协议对爬虫软件进行约束,告诉使用者哪些数据可以抓取。即便如此,爬虫协议仅仅只是一个协议,是保护网站数据和敏感信息的互联网道德规范,却不是强制性法律或程序设置,所以并非所有爬虫均会遵守该标准。在真正发生纠纷诉讼时,还需要考虑在数据获取过程中,是否侵犯及多大程度侵犯了数据属主及其代理人的利益。
爬虫协议面世25年后,今年7月,Google发布了最新的互联网公约,其中就包括了新的爬虫协议,提交给了国际互联网工程任务组(Internet Research Task Force , IETF)。新的协议没有改变原本协议的实质原则,但进一步修正规范了爬虫行为,比如新协议适用于除了Http协议外的其他网络协议,规定了协议的解析和匹配场景,且如果网站因为服务器故障而无法读取爬虫协议时,任何读取行为都是不被允许的。Google新的协议规范了现代互联网中的爬虫行为,一旦被IETF认可,将会变成最新的国际准则并被法律所认可。
但协议不是万能的,即使网站设置了协议,这个单方面协议也有可能对爬虫者没有法律效果。美国一直以《1986年计算机欺诈与滥用法》(Computer Fraud and Abuse Act of 1986,CFAA)为主要法理依据,规定若“未经授权故意访问或超过授权访问权限,从任何受保护的计算机获取信息”,那么法官就有可能根据CFAA判决爬虫侵权违法,关键词在于“未经授权”、“超过授权访问权限”和“受保护的计算机”[3]。“授权”就包括明示的爬虫协议、用户协议、告知条款等和暗示的用户登录密码等。早些年的若干个案例中,“未经授权”或“超过授权访问权限”一度是爬虫判决的准绳,爬虫公司很难胜诉。
案例1 EarthCam,Inc.vs. OxBlueCorp[4]
EC和OxBlue都是经营影像器材和解决方案的公司。EC的一个用户将自己账户密码给了OxBlue公司,希望经营类似业务的OxBlue能帮忙解决一些技术问题。后者登录了该账户密码,并抓取EC社群论坛上的大量图片等其他信息。EC控诉至法院。
法官最后还是支持了EC,判决意见是虽然CFAA并没有明确规定用户不得与他人共享账户信息,但是EC网站上明确声明出借账户信息违反了其”使用条款“。这属于CFAA认定的”超出权限“——网站只授权给当事人使用,其他人用当然超出了权限。但是,2017年hiQ公司与LinkedIn公司之间的诉讼案判决以爬虫公司的胜诉对此类案件产生了标志性的影响。
----
案例2 hiQ Labvs. LinkedIn[5]
hiQ Lab公司的主营业务就是利用爬虫从LinkedIn网站上获取公开的求职者数据,帮助企业分析和管理人力资源,招致LinkedIn的不满并采取技术反制,于是hiQ将LinkedIn告上法庭。法院令人意外地裁决了爬虫公司胜诉,原因有3条:第一,法庭认为在网站上公开的信息不是CFAA法条中阐明的“受保护的计算机”,所以没有违反CFAA,将对CFAA的解释重心从传统的“未经授权”延伸至“未经允许访问受保护的计算机”。换句话说,法院认为hiQ是上文所述的前两类爬虫,扒取的是社交媒体的公开信息。第二,根据加州反不正当竞争法(California’sUnfair Competition Law),LinkedIn将它在在职场社交领域的竞争优势转移到职场数据分析领域,是不正当的竞争行为,从而支持了hiQ公司。第三,美国最高法院最新裁定社交媒体类似于一个“现代公共广场”,用户在LinkedIn上的信息相当于公共场所言论,由此根据加州宪法对言论自由权的保护,hiQ声称LinkedIn不能限制别的公司去获取这些相当于“言论”的信息[6]。
尽管这个案件仍然有很大争议,在互联网界引起关于数据权的震动[7],该案件表明美国司法界对爬虫侵权违法问题有了更深入的认识,不再一味保护数据被扒取的一方,而从数据信息的本质上思考。数据是否公开、独占性和价值有多大等,关系到各方的合法权益,


温馨提示:投资有风险,选择需谨慎。


-
想要在国泰海通购买ETF基金,请问有哪些推荐的理财产品吗?
2025-09-22 15:03
-
证券交易费用都有哪些?收费标准是怎样的?
2025-09-22 15:03
-
【基本面】宏观面分析、行业面分析、公司面分析,分别看什么?
2025-09-22 15:03