网络爬虫是指是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
爬虫很方便,但是也会引发三个问题,如果使用不好,或许会导致法律风险。
01.骚扰问题
就好比骚扰电话一样,服务器本来是给用户访问的,但是爬虫的访问可以带来快速上万次的访问,影响服务器的性能,给本来想访问的用户带来卡顿。不过服务器这边也会有响应的防爬技术限制。
02.法律风险
不是任何数据你都可以爬取的,如果你违规获取了一些信息,是要受到法律惩罚的。想要完全出入自由的黑客还是很少的。
03.隐私泄露
爬取的很多信息可能是用户私人的内容,就会造成很多隐私泄露导致的问题,比如照片门之类的后果。
基于此,所以有了Robots协议,是每个人都要遵守的,但是也可以不遵守,就可能有法律风险。就好比红绿灯,你可以遵守也可以不遵守,你要考虑为自己的行为负责。
_______________END______________