常见的反爬措施和应对方案

爬虫是 Python 的一个常见应用场景 , 很多练习项目就是让大家去爬某某网站 。爬取网页的时候 , 你大概率会碰到一些反爬措施 。这种情况下 , 你该如何应对呢?本文梳理了常见的反爬措施和应对方案 。
通过User-Agent来控制访问
无论是浏览器还是爬虫程序 , 在向服务器发起网络请求的时候 , 都会发过去一个头文件:headers , 比如知乎的requests headers

常见的反爬措施和应对方案
文章插图
这里面的大多数的字段都是浏览器向服务器”表明身份“用的
对于爬虫程序来说 , 最需要注意的字段就是:User-Agent
很多网站都会建立 user-agent白名单 , 只有属于正常范围的user-agent才能够正常访问 。
爬虫方法:
可以自己设置一下user-agent , 或者更好的是 , 可以从一系列的user-agent里随机挑出一个符合标准的使用 。

常见的反爬措施和应对方案
文章插图
缺点:
容易容易伪造头部 , github上有人分享开源库fake-useragent
实现难度:

    推荐阅读