大家好,这里是程序员晚枫,最近又看到了官方打击网络犯罪的案例,其中就有爬虫刷单的。
之前给大家科普过爬虫的风险,视频如下:《不要学Python爬虫,风险太大!》
但我仔细想了想,爬虫在业界也有一些合理合法的需求,所以今天就来讲讲,怎么写爬虫代码才不会被抓。
爬虫的常见问题
我刚入行程序员的时候就是一名爬虫工程师,那时候爬了很多网站,因为我是学法律的,所以边爬我边在心里嘀咕:这些情况会不会进去?
- 别人robots协议里明确写了不让你爬,你还爬
- 爬取了竞品平台的数据,还拿去卖了
- 通过技术手段绕过验证码等反爬措施
- 等等情况
更离谱的是,我们当时把对方网站爬崩溃了,还冒充用户打电话过去让他们恢复了,然后我们继续爬…
现在想想,还好当时对方没追究,还好没造成什么严重后果,
违反了哪些法律法规
经常进去的朋友都知道,爬虫会被抓有可能是因为违反了以下法条:
《刑法》:
- 如果爬虫还侵入对方的系统,并且对一些重要信息进行了更改,例如工资、社保等,可能触犯非法侵入计算机信息系统罪。
- 如果爬取的是用户个人信息,也可能触犯侵犯公民个人信息罪。
《网络安全法》:
- 从技术角度解释,如果爬虫导致对方网站崩溃,可能违反网络运行安全方面的规定。
- 如果爬取的是用户个人信息,可能违反个人信息保护方面的规定。
《反不正当竞争法》:
- 第2条中规定了诚实信用原则和商业道德:爬虫如果不遵守robots协议,可能会被认定为违反此条。
- 第9条中规定了对商业秘密的保护:爬虫如果通过技术手段获取了网站里不想让你访问到的信息,可能会违反此条。
- 第12条中规定了经营者不得利用技术手段,通过影响用户选择或者其他方式,实施妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:爬虫如果影响了对方网站的访问速度或稳定性,可能会违反此条。
著作权角度:
- 爬取了对方网站的内容,并且展示在自己的网站上,可能会侵犯对方的复制权和网络传播权。
上面这些是容易出问题的法律领域,建议爬虫工程师熟读,最好牢记。
这样万一进去的时候,也知道自己是怎么刑起来的。
怎么写代码才不会被抓?
针对以上法律法规,结合我写代码的经验,我总结了一些注意事项:
- 一定要遵守robots协议!老板不让你不遵守你就辞职
- 不要爬竞品平台!对手也不是傻子
- 不要把对方网站爬崩溃了!尽量控制在对方日访问量的1/4以下
- 对方明确声明禁止爬虫的,就别再用代理池继续爬了
- 不要爬取用户个人信息!任何情况下都别爬
- 对方已经发来律师函的,答应我,马上停掉爬虫并且赔礼道歉
写在后面
技术不分好坏,但使用的场景很重要。
大家还有哪些想知道的互联网法律问题,可以在评论区留言,我下次给大家整理。