使用sleep间隔进行python反爬虫的方法

这篇文章主要介绍使用sleep间隔进行python反爬虫的方法，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

创新互联公司专注为客户提供全方位的互联网综合服务，包含不限于成都网站制作、网站建设、蕲春网络推广、小程序开发、蕲春网络营销、蕲春企业策划、蕲春品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；创新互联公司为所有大学生创业者提供蕲春建站搭建服务，24小时服务热线：028-86922220，官方网址：www.cdcxhl.com

步骤

要利用headers拉动请求，模拟成浏览器去访问网站，跳过最简单的反爬虫机制。

获取网页内容，保存在一个字符串content中。

构造正则表达式，从content中匹配关键词pattern获取下载链接。需要注意的是，网页中的关键词出现了两遍（如下图），所以我们要利用set()函数清除重复元素。

第三步是遍历set之后的结果，下载链接。

设置time.sleep(t)，无sleep间隔的话，网站认定这种行为是攻击，所以我们隔一段时间下载一个，反反爬虫。

具体代码

import urllib.request# url request
import re            # regular expression
import os            # dirs
import time
'''
url 下载网址
pattern 正则化的匹配关键词
Directory 下载目录
'''
def BatchDownload(url,pattern,Directory):
    
    # 拉动请求，模拟成浏览器去访问网站->跳过反爬虫机制
    headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    
    # 获取网页内容
    content = opener.open(url).read().decode('utf8')
    
    # 构造正则表达式，从content中匹配关键词pattern
    raw_hrefs = re.findall(pattern, content, 0)
    
    # set函数消除重复元素
    hset = set(raw_hrefs)
         
    # 下载链接
    for href in hset:
        # 之所以if else 是为了区别只有一个链接的特别情况
        if(len(hset)>1):
            link = url + href[0]
            filename = os.path.join(Directory, href[0])
            print("正在下载",filename)
            urllib.request.urlretrieve(link, filename)
            print("成功下载！")
        else:
            link = url +href
            filename = os.path.join(Directory, href)
            print("正在下载",filename)
            urllib.request.urlretrieve(link, filename)
            print("成功下载！")
            
        # 无sleep间隔，网站认定这种行为是攻击，反反爬虫
        time.sleep(1)
 
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(Storm-Data-Export-Format.docx)',
#              'E:\stormevents\csvfiles')
        
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(Storm-Data-Export-Format.pdf)',
#              'E:\stormevents\csvfiles')
        
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(StormEvents_details-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#              'E:\stormevents\csvfiles')
        
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(StormEvents_fatalities-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#              'E:\stormevents\csvfiles')
 
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(StormEvents_locations-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#              'E:\stormevents\csvfiles')
 
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/legacy/',
#              '(ugc_areas.csv)',
#              'E:\stormevents\csvfiles\legacy')
 
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(ugc_areas.csv)',
#              'E:\stormevents\csvfiles')

结果展示

使用sleep间隔进行python反爬虫的方法

以上是“使用sleep间隔进行python反爬虫的方法”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注创新互联行业资讯频道！

本文名称：使用sleep间隔进行python反爬虫的方法
当前网址：http://chengdu.cdxwcx.cn/article/ghpdcg.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

使用sleep间隔进行python反爬虫的方法

其他资讯

c语言中的尺寸函数 c语言长宽

vb.net时间aaa的简单介绍

php数据写入和读取 php读取数据库内容并输出

php数据库提交按钮 php提交按钮以后写入数据库

linux命令行安装文件 linux命令安装包

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

使用sleep间隔进行python反爬虫的方法

其他资讯

c语言中的尺寸函数 c语言长宽

vb.net时间aaa的简单介绍

php数据写入和读取 php读取数据库内容并输出

php数据库提交按钮 php提交按钮以后写入数据库

linux命令行安装文件 linux命令安装包

成都网站建设设计将想法与焦点和您一起共享