大数据终于走向了平稳期,发展过程中的各种隐私、合规问题也终于开始暴露了出来,昨天网络尖刀犯罪情报团队监测到一个非常有代表性的民事裁判案件,深圳市腾讯科技有限公司诉杭州快忆科技有限公司,通过针对微信公众号开发爬虫工具提供爬取结果数据包的行为,干扰了微信公众平台的正常运行,涉嫌构成不正当竞争。
近日,杭州铁路运输法院就腾讯公司提出的申请作出裁定,认为杭州快忆科技有限公司违反《微信公众平台服务协议》,开发出多款用于爬取微信公众平台各类数据的产品并以此牟利的行为,构成不正当竞争的可能性大,杭州快忆需立即停止被诉侵权行为,目前,该网站涉案的相关产品及服务已下架。
提取一下整体的案件情况,我们收集了一系列相关的内容,做了一次完整的事件分析,来对这次案件做一次腾讯侧的“还原”。
神箭手违反了哪些法律?
虽然腾讯诉讼的是以民事诉讼其反不正当竞争,但是实际上神箭手通过爬虫大规模拉取腾讯数据这件事儿上,爬取来的内容其实是在侵犯“微信公众号平台作者”的著作权,属于知识产权范畴;
设定规则模拟人的方式通过爬虫的去请求微信公众号数据,这种行为其实也是一种“资源消耗型攻击”,如果请求量足够大的线层足够多的前提下,说其向腾讯发起CC流量攻击其实也是合情合理的,所以这一点属于网络法范畴;
神箭手在其平台上提供了“微信公众号文章信息API”、“微信订阅号和最新文章API”、“微信热搜榜”、“订阅热词API”等针微信数据爬取的服务,这一点才是属于反不正当竞争范畴;
为什么选择告其反不正当竞争?
说句实话爬取微信公众号平台内容的应该会有很多,包括之前某些媒体平台也提供了将微信公众号内容爬取下来同步到自身平台的工具,当然市场上还有一些图文同步的工具,也可以做很多内容分发,但是这个性质与目前神箭手的性质完全不一样。
之前的这些“同步工具”其实都是给媒体作者用的工具,虽然爬取的方式严格来讲不合法,但是实际上在知识产权的角度来讲,这些工具都是在原作者同意的前提下,为内容创业者为提供方便的工具,并没有严重的侵犯商业权益,并且从爬取的请求角度来讲,只是部分作者用了这种工具,而且不是集中性的任务,其实对微信公众号来说确实也没有造成太大的数据压力;
神箭手不一样,神箭手是一个经营性的爬虫平台,提供爬取微信公众号爬取规则的,并通过卖节点的方式进行商业变现,所有使用神箭手平台的人,其实基本都没有获取到原作者的授权,单纯的就是在神箭手平台上定制爬虫规则、节点进行数据抓取,而且是持续高频。
新增一个爬虫节点就多一台服务器在这里进行非法“攻击请求”,这一点对微信公众号平台确实造成了实际的资源损耗和数据压力;
不懂法规的就不要上来喷腾讯乱告,腾讯告其反不正当竞争其实已经算是蛮保守的了。
爬虫涉及哪些相关法律问题?
目前国内还没有真正意义针对爬虫技术有法律或者相关规范,从技术角度爬虫存在是为了高效的收集信息,本身是没有违法违规之处,界定违规其实在于爬虫的用途,常见的爬虫是遵守中国互联网协会《互联网搜索引擎服务自律公约》中robots协议,但此内容不具备实际的法律约束,反倒是属于商业道德范畴;
目前无视robots协议抓取网站内容的行为,大部分都会以涉嫌构成《反不正当竞争法》的第二条,即违反诚实信用原则和商业道德的不正当竞争行为原则进行诉讼。
当然这也要取决于爬虫爬取的内容到底是什么,比如爬取文章可能侵犯的是原作者的“著作权”;爬取别人公司的商业数据,侵犯的即是商业秘密;爬取微博、微信、Facebook、Twitter甚至其他平台的用户(姓名、手机、邮箱)等敏感信息,侵犯的则是个人用户隐私;
维护民营企业市场竞争秩序,这样的民事诉讼一般都会依照《民法通则》、《反不正当竞争法》、《民事诉讼法》进行延展。
但侵犯公民用户隐私则可以依照《网络安全法》44条非法获取个人信息的角度进行处理,如果抓取了这些数据不但自己用还往外面卖,那么就可以参考《刑法》修正案253条侵犯公民个人信息罪进行处理。
谨慎考虑使用爬虫的风险
不是所有的爬虫都一棒子敲死,存在就都是危害别人利益的,比如像百度、谷歌、360、搜狗这些搜索引擎,其实本身都在使用爬虫技术,但是其索引抓取网页内容的方式,应用到业务里实际上是为被爬取方带来利益的,所以不但我们不希望禁止他们的爬虫,还期望更多的迎接他们的爬虫的到来,当然如果不想着爬虫抓取我的内容,我也可以直接通过搜索引擎爬虫robots协议,对其进行禁止爬取的设定,这样搜索引擎就不会抓你,自然就不会有风险。
但反之,我明令写了《许可协议》告知了不让你爬你还爬,我上了“反爬取措施”你就用非法手段绕过,高频请求对我运营平台造成了服务器高负荷的技术压力,影响我正常经营,还把爬取我的数据出去卖????
家里有矿吗?敢这样搞,不弄你弄谁啊?
写在最后
很多不良机构培训都打着大数据Python工程师培训的头衔,实际上都在引导很多不懂行业的无知小白去学习爬虫技术,这些人没有专业的法律法规科普,很容易在不明情况下走向了犯罪的道路,不是所有的公开数据都随意爬的,各位一定要有这样的认知。
还去培训机构学Python写爬虫吗,从入门到入狱的那种?
站外转载烦请注明来自公众号:网络尖刀,作者:曲子龙,公众号内容转载,可以直接在下面留言公众号ID,我在后台开放白名单。