正在阅读:

大数据行业罪与罚:爬虫、隐私与产权的边界

扫一扫下载界面新闻APP

大数据行业罪与罚:爬虫、隐私与产权的边界

创新型业务很容易进入法律的灰色地带,但仅仅进入灰色地带本身,并不会直接招致处罚,严重侵犯了其他人的合法利益,才是被罚甚至失去自由的根本原因。

图片来源:视觉中国

本文作者为北京市安理律师事务所高级合伙人王新锐、罗为

人在什么时候最有动力学习法律?在大数据行业,这一答案可能是“当听说同行被抓的时候”。

2019年对大数据行业的从业者来说,更是步步惊心的一年,从年初开始就不断在圈内流传各种谁被约谈、谁被调查、谁被拘留甚至逮捕的小道消息,有的迅速得到证实或被证伪,有的则一直添油加醋地流传下去。其实从总的比例来说,“出事”的大数据公司并不多,而且从各方信息来看,往往都和套路贷、暴力催收、714高炮贷款有些关系,是在扫黑除恶专项行动中“拔起萝卜带出泥”。但此起彼伏的各类案件,也让大数据行业空前地焦虑。

面对明显趋严的监管和执法,很多一线的技术人员都有个困惑:根据媒体报道,出事的公司普遍都涉及利用网络爬虫(spider)抓取数据,而“涉嫌侵犯公民个人信息”,但这不是整个互联网行业最底层、最常用的技术吗?如果爬虫都不让用了,互联网也就不存在了。而且看国外的案例,比如hiQ Labs诉LinkedIn案,不是都肯定公开抓取数据的合法性吗?

数据问题往往涉及技术、法律、商业等多个维度的问题,想说清楚并不容易。不过既然涉及到刑事犯罪的问题,说明已经很接近法律的红线和底线。哪怕法律条文规定得并不清晰(目前看确实如此),其实还是能通过对利益的追问,来识别并化解主要的风险。这不光适用于网络爬虫,对于其他新技术也是类似的。创新型业务很容易进入法律的灰色地带,但仅仅进入灰色地带本身,并不会直接招致处罚,严重侵犯了其他人的合法利益,才是被罚甚至失去自由的根本原因。

让我们来看看看网络爬虫技术,具体伤害了哪些利益?

在爬虫技术诞生的初期,被爬取方不仅不抗拒,反而很欢迎被搜索引擎爬取,因为这样才能被索引到,给自己带来更大的访问量,以及相应的广告收入,在这种情况下,爬取方和被爬取方各取所需,是双赢的结果,也相安无事。很多公司甚至通过搜索引擎优化(SEO),争取被更多地爬取到。

而当移动互联网兴起后,有一些网站上生成了海量的用户生成内容(UGC),这部分内容每一条单拿出来,价值都比较有限,而聚合在一起,价值就很大。于是部分企业利用网络爬虫大量搬运其他网站上的内容,掐头去尾、改头换面放到自己的网站上。这种情况下,内容的生产方干了很多苦活累活,但应该获得的利益却被不正当地窃取,就和爬取方产生了对立。一方守城,一方攻城,双赢变成了零和。这个背景下也出现了很多判例,大体上都是认定爬取数据搬运到自己网站上提供服务构成不正当竞争。如果爬取的只是公开数据,还只是竞争法层面的问题,最后无非是经济赔偿。但有的企业为了获取非公开数据,仗着自己强大的技术能力直接攻入对方的系统,这种情况和黑客无异,就有可能构成非法获取计算机信息系统数据罪等危害计算机信息系统安全的犯罪。

我们能看到,同样是使用网络爬虫,侵犯的利益越大,风险就越高。从业者如果从法律上无法判断,不妨换位思考,如果自己是被爬取方,是觉得完全无所谓还是会非常愤怒,并使用各种手段阻止数据被爬取。有时依据法律条文做很多分析,反而不如依据利益做的分析接近本质。

网络爬虫的使用,还有一类比较特殊的情况,即大公司公司本身不作恶,但是助恶,为一些存在严重问题的产业或场景提供服务。正如前面提到的,最近被公安机关调查的很多公司都和现金贷、套路贷、暴力催收、714高炮贷款等有关。这些场景下,模式本身就存在着比较严重的问题,被立法和监管所否定,甚至涉及严重的犯罪。由于缺乏其他有效的风控手段,尽量多地获取个人信息,以加强对借款人的控制和威慑(包括使用暴力手段和持续的骚扰)就是必然的结果。大数据公司为他们提供风控服务,未必有主观的恶意,但很容易被客户不正当的需求带着走,甚至起到“赋能”恶人的作用。一个值得注意的现象是,大数据公司中主要服务大型品牌企业、持牌金融机构的,出现问题的就比较少。而服务规模较小的互联网金融机构尤其是网络贷款平台的,就比较容易出现问题,其中的一大差别,在笔者看来就是客户需求本身是否过界。

2019年5月征求意见的《数据安全管理办法》直接对爬虫做出了规定,明确 “采取自动化手段访问收集网站数据,不得妨碍网站正常运行”,这仍然是一个不容易把握的标准。在人工智能技术广泛应用的时代,只要用深度学习的方法训练数据,就必然对数据持续饥渴,利用爬虫大规模采集数据也会持续,关于爬虫合法合规性的争论也不会在短期内结束。从技术的周期来看,很多事其实不难预测:当技术刚刚产生,业界也不知道如何应用时,采取技术中立论的态度并无不妥,完全可以观察一段时间,这个阶段执法者通常也会持有包容创新的态度;但一旦技术变得成熟,和产业深度结合,掌握技术的人就要警惕技术是否会被黑产利用,是否会成为帮凶,甚至直接成为黑产的核心技术。各种割韭菜、侵犯合法利益的玩法,随着时间累积一定会大量爆发风险,执法者就必然采取行动,而这时“助恶者”也会付出代价,尽管这种代价有时是矫枉过正甚至误伤的结果。

(注:本文仅代表作者个人观点。责编邮箱:zhoujing@jiemian.com)

未经正式授权严禁转载本文,侵权必究。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

大数据行业罪与罚:爬虫、隐私与产权的边界

创新型业务很容易进入法律的灰色地带,但仅仅进入灰色地带本身,并不会直接招致处罚,严重侵犯了其他人的合法利益,才是被罚甚至失去自由的根本原因。

图片来源:视觉中国

本文作者为北京市安理律师事务所高级合伙人王新锐、罗为

人在什么时候最有动力学习法律?在大数据行业,这一答案可能是“当听说同行被抓的时候”。

2019年对大数据行业的从业者来说,更是步步惊心的一年,从年初开始就不断在圈内流传各种谁被约谈、谁被调查、谁被拘留甚至逮捕的小道消息,有的迅速得到证实或被证伪,有的则一直添油加醋地流传下去。其实从总的比例来说,“出事”的大数据公司并不多,而且从各方信息来看,往往都和套路贷、暴力催收、714高炮贷款有些关系,是在扫黑除恶专项行动中“拔起萝卜带出泥”。但此起彼伏的各类案件,也让大数据行业空前地焦虑。

面对明显趋严的监管和执法,很多一线的技术人员都有个困惑:根据媒体报道,出事的公司普遍都涉及利用网络爬虫(spider)抓取数据,而“涉嫌侵犯公民个人信息”,但这不是整个互联网行业最底层、最常用的技术吗?如果爬虫都不让用了,互联网也就不存在了。而且看国外的案例,比如hiQ Labs诉LinkedIn案,不是都肯定公开抓取数据的合法性吗?

数据问题往往涉及技术、法律、商业等多个维度的问题,想说清楚并不容易。不过既然涉及到刑事犯罪的问题,说明已经很接近法律的红线和底线。哪怕法律条文规定得并不清晰(目前看确实如此),其实还是能通过对利益的追问,来识别并化解主要的风险。这不光适用于网络爬虫,对于其他新技术也是类似的。创新型业务很容易进入法律的灰色地带,但仅仅进入灰色地带本身,并不会直接招致处罚,严重侵犯了其他人的合法利益,才是被罚甚至失去自由的根本原因。

让我们来看看看网络爬虫技术,具体伤害了哪些利益?

在爬虫技术诞生的初期,被爬取方不仅不抗拒,反而很欢迎被搜索引擎爬取,因为这样才能被索引到,给自己带来更大的访问量,以及相应的广告收入,在这种情况下,爬取方和被爬取方各取所需,是双赢的结果,也相安无事。很多公司甚至通过搜索引擎优化(SEO),争取被更多地爬取到。

而当移动互联网兴起后,有一些网站上生成了海量的用户生成内容(UGC),这部分内容每一条单拿出来,价值都比较有限,而聚合在一起,价值就很大。于是部分企业利用网络爬虫大量搬运其他网站上的内容,掐头去尾、改头换面放到自己的网站上。这种情况下,内容的生产方干了很多苦活累活,但应该获得的利益却被不正当地窃取,就和爬取方产生了对立。一方守城,一方攻城,双赢变成了零和。这个背景下也出现了很多判例,大体上都是认定爬取数据搬运到自己网站上提供服务构成不正当竞争。如果爬取的只是公开数据,还只是竞争法层面的问题,最后无非是经济赔偿。但有的企业为了获取非公开数据,仗着自己强大的技术能力直接攻入对方的系统,这种情况和黑客无异,就有可能构成非法获取计算机信息系统数据罪等危害计算机信息系统安全的犯罪。

我们能看到,同样是使用网络爬虫,侵犯的利益越大,风险就越高。从业者如果从法律上无法判断,不妨换位思考,如果自己是被爬取方,是觉得完全无所谓还是会非常愤怒,并使用各种手段阻止数据被爬取。有时依据法律条文做很多分析,反而不如依据利益做的分析接近本质。

网络爬虫的使用,还有一类比较特殊的情况,即大公司公司本身不作恶,但是助恶,为一些存在严重问题的产业或场景提供服务。正如前面提到的,最近被公安机关调查的很多公司都和现金贷、套路贷、暴力催收、714高炮贷款等有关。这些场景下,模式本身就存在着比较严重的问题,被立法和监管所否定,甚至涉及严重的犯罪。由于缺乏其他有效的风控手段,尽量多地获取个人信息,以加强对借款人的控制和威慑(包括使用暴力手段和持续的骚扰)就是必然的结果。大数据公司为他们提供风控服务,未必有主观的恶意,但很容易被客户不正当的需求带着走,甚至起到“赋能”恶人的作用。一个值得注意的现象是,大数据公司中主要服务大型品牌企业、持牌金融机构的,出现问题的就比较少。而服务规模较小的互联网金融机构尤其是网络贷款平台的,就比较容易出现问题,其中的一大差别,在笔者看来就是客户需求本身是否过界。

2019年5月征求意见的《数据安全管理办法》直接对爬虫做出了规定,明确 “采取自动化手段访问收集网站数据,不得妨碍网站正常运行”,这仍然是一个不容易把握的标准。在人工智能技术广泛应用的时代,只要用深度学习的方法训练数据,就必然对数据持续饥渴,利用爬虫大规模采集数据也会持续,关于爬虫合法合规性的争论也不会在短期内结束。从技术的周期来看,很多事其实不难预测:当技术刚刚产生,业界也不知道如何应用时,采取技术中立论的态度并无不妥,完全可以观察一段时间,这个阶段执法者通常也会持有包容创新的态度;但一旦技术变得成熟,和产业深度结合,掌握技术的人就要警惕技术是否会被黑产利用,是否会成为帮凶,甚至直接成为黑产的核心技术。各种割韭菜、侵犯合法利益的玩法,随着时间累积一定会大量爆发风险,执法者就必然采取行动,而这时“助恶者”也会付出代价,尽管这种代价有时是矫枉过正甚至误伤的结果。

(注:本文仅代表作者个人观点。责编邮箱:zhoujing@jiemian.com)

未经正式授权严禁转载本文,侵权必究。