当我们第一次访问使用CloudFlare加速的网站时,网站就会出现让我们等待5秒种的提示,当我们需要的通过爬虫爬取这类网站的时候,应该如何爬取呢?
通过抓包,我们可以看到在等待的过程中,浏览器做了下面的三次请求【图1-2】-【图1-4】:
【图1-3】请求2带有疑似加密的请求参数请求并写入cookie字段cf_clearance
这整个过程需要的请求现在已经分析清楚了,接下来就是使用Python实现这个请求流程,不过是这样的话就配不上这个标题了。
接下来给大家介绍一个专门为了绕过这个CloudFlare开发的Python库cloudflare-scrape
使用pipinstallcfscrape安装cloudflare-scrape,同时确认本地是否安装node.js开发环境,如果没有,需要安装配置nodejs开发环境。
来源:/s/sxeqOt-s3d8M8NrqKyjhzA//09/16/反反爬-巧破 Cloudflare 5秒盾/