常见的反爬措施和应对方案
爬虫是 Python 的一个常见应用场景 , 很多练习项目就是让大家去爬某某网站 。爬取网页的时候 , 你大概率会碰到一些反爬措施 。这种情况下 , 你该如何应对呢?本文梳理了常见的反爬措施和应对方案 。
通过User-Agent来控制访问
无论是浏览器还是爬虫程序 , 在向服务器发起网络请求的时候 , 都会发过去一个头文件:headers , 比如知乎的requests headers
文章插图
这里面的大多数的字段都是浏览器向服务器”表明身份“用的
对于爬虫程序来说 , 最需要注意的字段就是:User-Agent
很多网站都会建立 user-agent白名单 , 只有属于正常范围的user-agent才能够正常访问 。
爬虫方法:
可以自己设置一下user-agent , 或者更好的是 , 可以从一系列的user-agent里随机挑出一个符合标准的使用 。
文章插图
缺点:
容易容易伪造头部 , github上有人分享开源库fake-useragent
实现难度:
推荐阅读
- 苹果税暴跌50%,此举会对安卓平台造成一个不好的循环
- CSG华晓在柔性工厂上的不断探索
- AMD宣布放开对英特尔CPU和英伟达GPU的兼容性限制
- 浅谈宏达电子固体钽电容器的收入/毛利率增速较小的原因
- M1芯片的MacBook发热比intel芯片版更低
- 统信软件旗下UOS系统首次公布桌面常用软件的适配进度
- 华为上线新台式机,采用AMD的锐龙4000G APU平台
- 苹果下一代iOS 15系统与最新的iPhone 12系列保持一致
- 基于PXI架构的智能型Switch Module的性能特点及应用分析
- 基于PC的DAQ测试板卡实现烟气连续监测仪器的系统设计