Web 爬虫现已合法?

CSDN · 2020-02-03
江湖传言,互联网上50%以上的流量都是由爬虫创造的

编者按:本文来自微信公众号“CSDN”(ID:CSDNnews),作者:Tom Waterman,36氪经授权发布

技术无罪?江湖传言,互联网上50%以上的流量都是由爬虫创造的,很多人都表示:无爬虫就无互联网的繁荣。也正因为此,网上各种爬虫教程风靡不绝,惹各路大神小白观之参与之。但是,无节制的背后往往隐藏着风险,类似“只因写了一段爬虫,公司200多人被抓!”、“程序员爬虫竟构成犯罪?”等报道也时有发生。关于爬虫合法性的讨论,CSDN也在此前的《爬虫到底违法吗?这位爬虫工程师给出了答案》、《不要在爬虫犯罪的边缘疯狂试探!》等文章中进行了探讨——但是,关于爬虫的争论一直甚嚣尘上。

近日,美国法院驳回 LinkedIn 针对分析公司 HiQ 抓取其数据的申诉一事件,似乎又为网络爬虫的自由添砖加了瓦。决议表明:任何可公开获得且未经版权保护的数据都可供抓取!可以说,这是数据隐私和数据监管时代的历史性时刻。那么,作为开发者的你,如何看到这一事件呢?关于爬虫的风险性又该怎么定论?

以下为译文:

2019年末,美国上诉法院驳回了 LinkedIn 针对分析公司 HiQ 抓取其数据的申诉。

这项决议是数据隐私和数据监管时代的历史性时刻。这项决议表明,任何可公开获得且未经版权保护的数据都可供网络爬虫自由抓取。

但是抓取数据的商业用途仍然有限

然而,这项决议并没有授予 HiQ 或其他网络爬虫将抓取获得的数据用于商业目的的自由。

例如,网络爬虫可以在 YouTube 上搜索视频标题,但由于这些视频已获得版权,因此不可以将 YouTube 视频转发到自己的网站上。

一般来说,无论你以何种方式获取数据,数据(包括视频或音乐之类的媒体文件数据)的版权依然有效。

某些形式的网页爬虫仍然是非法的

这项决议也没有赋予网络爬虫自由地从需要身份验证的站点获取数据的权利。

例如,根据规定网络爬虫不可以登录到 Facebook 并下载用户的数据。

该规则不包括那些要求用户在认证之前必须同意使用条款的网站,因为通常这些服务条款都会禁止诸如自动收集数据之类的活动。

但是,由于公开站点无法要求用户在访问数据之前同意任何服务条款,因此用户可以自由使用网络爬虫程序从站点收集的数据。

各个网站仍然可以使用技术来限制网络爬虫

尽管如今各个公司不太可能通过法律途径应对网络爬虫程序,但他们仍然可以通过其他方式限制网络爬虫。

例如,各个网站可以使用“限速”等技术来防止爬虫程序一次下载太多网页。此外,各个网站还可以使用 CAPTCHA 等技术来测试是用户还是网络爬虫正在请求该页面。

这些技术通常用于防止恶意机器人导致网站超载,引起网站崩溃。但是,这些技术也可以广泛用于限制网络爬虫的自动抓取。

LinkedIn可能会进一步上诉

尽管美国上诉法院驳回了LinkedIn的请求,但他们可能还有最后一步棋:向美国最高法院提出上诉。

美国最高法院有权推翻上诉法院的判决,而且还可以撤销网络爬虫公开使用非版权数据的合法化。但是,并非所有上诉至最高法院的决定都能得到实际的审查。

但是,我们仍然可以认为最高法院很可能会审查本案的裁决。毕竟数据政策和相关的隐私问题是相对较新的法律,而且会对 LinkedIn 等公司产生重大的商业影响。

原文:https://towardsdatascience.com/web-scraping-is-now-legal-6bf0e5730a78

作者:Tom Waterman,数据科学家@Facebook。

+1

好文章,需要你的鼓励

参与评论
登录后才能参与讨论哦...
后参与讨论
提交评论0/1000

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

下一篇

二选一,Habana 因其出色的可扩展性技术与设计还有量产交付能力击败了 Nervana。

2020-02-03

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

为你推送和解读最前沿、最有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚集全球最优秀的创业者,项目融资率接近97%,领跑行业