python分布式爬虫中的rules有什么用

这篇文章主要介绍python分布式爬虫中的rules有什么用，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

创新互联专注为客户提供全方位的互联网综合服务，包含不限于成都网站建设、做网站、开平网络推广、小程序开发、开平网络营销、开平企业策划、开平品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；创新互联为所有大学生创业者提供开平建站搭建服务，24小时服务热线：028-86922220，官方网址：www.cdcxhl.com

爬虫在找寻数据的时候，如果都随意把找到的数据搬运回来，不仅我们的内存装不下，而且会搬回来很多重复的数据，我们也没有办法一个个的进行筛选。这时候我们需要给爬虫制定带回来数据的规则，防止重复数据的产生。这样我们再来谈rules就很好理解了，可以看成是给爬虫制定的规则合集。

在rules中包含一个或多个Rule对象，每个Rule对爬取网站的动作定义了特定操作。如果多个rule匹配了相同的链接，则根据规则在本集合中被定义的顺序，第一个会被使用。

class scrapy.spiders.Rule(
        link_extractor,
        callback = None,
        cb_kwargs = None,
        follow = None,
        process_links = None,
        process_request = None
)

link_extractor：是一个Link Extractor对象，用于定义需要提取的链接（Link Extractor对象见下）。
callback：从link_extractor中每获取到链接时，参数所指定的值作为回调函数，该回调函数接受一个response作为其第一个参数。
注意：当编写爬虫规则时，避免使用parse作为回调函数。由于CrawlSpider使用parse方法来实现其逻辑，如果覆盖了 parse方法，crawl spider将会运行失败。
follow：是一个布尔(boolean)值，指定了根据该规则从response提取的链接是否需要跟进。如果callback为None，follow 默认设置为True ，否则默认为False。
process_links：指定该spider中哪个的函数将会被调用，从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。
process_request：指定该spider中哪个的函数将会被调用，该规则提取到每个request时都会调用该函数。 (用来过滤request)

有了rules给爬虫制定规范，我们就可以放心的把搜集数据的任务交给爬虫们了。

以上是“python分布式爬虫中的rules有什么用”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注创新互联行业资讯频道！

新闻名称：python分布式爬虫中的rules有什么用
URL网址：http://chengdu.cdxwcx.cn/article/jcgijh.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

python分布式爬虫中的rules有什么用

其他资讯

帝国cms的会员投稿分页帝国cms的会员投稿分页在哪

php在数据库表插入字段 php增加数据库字段

阿里云服务器和联通服务器阿里云和普通服务器的区别

腾讯云服务器主频怎么看腾讯云服务器在哪看

java代码咋认识 java代码编码方式

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

python分布式爬虫中的rules有什么用

其他资讯

帝国cms的会员投稿分页 帝国cms的会员投稿分页在哪

php在数据库表插入字段 php增加数据库字段

阿里云服务器和联通服务器 阿里云和普通服务器的区别

腾讯云服务器主频怎么看 腾讯云服务器在哪看

java代码咋认识 java代码编码方式

成都网站建设设计将想法与焦点和您一起共享

帝国cms的会员投稿分页帝国cms的会员投稿分页在哪

阿里云服务器和联通服务器阿里云和普通服务器的区别

腾讯云服务器主频怎么看腾讯云服务器在哪看