手把手教你写网络爬虫（4）Scrapy入门

上期我们理性的分析了为什么要学习Scrapy，理由只有一个，那就是免费，一分钱都不用花！

创新互联建站成都企业网站建设服务，提供网站制作、网站建设网站开发,网站定制,建网站,网站搭建,网站设计,响应式网站,网页设计师打造企业风格网站,提供周到的售前咨询和贴心的售后服务。欢迎咨询做网站需要多少钱:13518219792

咦？怎么有人扔西红柿？好吧，我承认电视看多了。不过今天是没得看了，为了赶稿，又是一个不眠夜。。。言归正传，我们将在这一期介绍完Scrapy的基础知识，如果想深入研究，大家可以参考官方文档，那可是出了名的全面，我就不占用公众号的篇幅了。

架构简介

下面是Scrapy的架构，包括组件以及在系统中发生的数据流的概览(红色箭头所示)。之后会对每个组件做简单介绍，数据流也会做一个简要描述。

手把手教你写网络爬虫（4）Scrapy入门

组件

Engine: 引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。

Scheduler: 调度器从引擎接受Request并将他们入队，以便之后引擎请求他们时提供给引擎。

Downloader: 下载器负责获取页面数据并提供给引擎，而后提供给Spider。

Spiders: Spider是Scrapy用户编写的用于分析Response并提取Item或提取更多需要下载的URL的类。每个Spider负责处理特定网站。

Item Pipeline: 负责处理被Spider提取出来的Item。典型的功能有清洗、验证及持久化操作。

Downloader middlewares: 下载器中间件是在Engine及Downloader之间的特定钩子(specific hooks)，处理Downloader传递给Engine的Response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

Spider middlewares: 是在Engine及Spider之间的特定钩子(specific hook)，处理Spider的输入(Response)和输出(Items及Requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

数据流

Scrapy中的数据流由执行引擎控制，其过程如下:

Engine从Spider获取第一个需要爬取URL(s)。
Engine用Scheduler调度Requests，并向Scheduler请求下一个要爬取的URL。
Scheduler返回下一个要爬取的URL给Engine。
Engine将URL通过Downloader middlewares转发给Downloader。
一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过Downloader middlewares发送给Engine。
引擎从Downloader中接收到Response并通过Spider middlewares发送给Spider处理。
Spider处理Response并返回爬取到的Item及新的Request给Engine。
Engine将爬取到的Item给Item Pipeline，然后将Request给Scheduler。
从第一步开始重复这个流程，直到Scheduler中没有更多的URLs。

架构就是这样，流程和我第二篇里介绍的迷你架构差不多，但扩展性非常强大。

One more thing

手把手教你写网络爬虫（4）Scrapy入门

Scrapy基于事件驱动网络框架 Twisted 编写，Twisted是一个异步非阻塞框架。一说到网络通信框架就会提什么同步、异步、阻塞和非阻塞，到底是些啥玩意啊？为啥老是有人暗示或者明示异步=非阻塞？比如Scrapy文档里：Scrapy is written with Twisted, a popular event-driven networking framework for Python. Thus, it’s implemented using a non-blocking (aka asynchronous) code for concurrency. 这种说法对吗？举个栗子：

出场人物：老张，水壶两把（普通水壶，简称水壶；会响的水壶，简称响水壶）

1. 老张把水壶放到火上，立等水开。（同步阻塞）

老张觉得自己有点傻。

2. 老张把水壶放到火上，去客厅看电视，时不时去厨房看看水开没有。（同步非阻塞）

老张还是觉得自己有点傻，于是变高端了，买了把会响笛的那种水壶。水开之后，能大声发出嘀~~~~的噪音。

3. 老张把响水壶放到火上，立等水开。（异步阻塞）

老张觉得这样傻等意义不大。

4. 老张把响水壶放到火上，去客厅看电视，水壶响之前不再去看它了，响了再去拿壶。（异步非阻塞）

老张觉得自己聪明了。

所谓同步异步，只是对于水壶而言。普通水壶，同步；响水壶，异步。虽然都能干活，但响水壶可以在自己完工之后，提示老张水开了。这是普通水壶所不能及的。同步只能让调用者去轮询自己（情况2中），造成老张效率的低下。

所谓阻塞非阻塞，仅仅对于老张而言。立等的老张，阻塞；看电视的老张，非阻塞。情况1和情况3中老张就是阻塞的，媳妇喊他都不知道。虽然3中响水壶是异步的，可对于立等的老张没有太大的意义。所以一般异步是配合非阻塞使用的，这样才能发挥异步的效用。

入门教程

创建项目

在开始爬取之前，您必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:

scrapy startproject tutorial

该命令将会创建包含下列内容的 tutorial 目录:

tutorial/
    scrapy.cfg            # 项目的配置文件
    tutorial/             # 该项目的python模块。之后您将在此加入代码
        __init__.py
        items.py          # 项目中的item文件
        pipelines.py      # 项目中的pipelines文件
        settings.py       # 项目的设置文件
        spiders/          # 放置spider代码的目录
            __init__.py

编写第一个爬虫

Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。其包含了一个用于下载的初始URL，以及如何跟进网页中的链接以及如何分析页面中的内容的方法。

以下为我们的第一个Spider代码，保存在 tutorial/spiders 目录下的 quotes_spider.py文件中:

import scrapyclass QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [            'http://quotes.toscrape.com/page/1/',            'http://quotes.toscrape.com/page/2/',
        ]        for url in urls:            yield scrapy.Request(url=url, callback=self.parse)    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)

为了创建一个Spider，你必须继承 scrapy.Spider 类，且定义以下三个属性:

name: 用于区别Spider。该名字必须是唯一的，您不可以为不同的Spider设定相同的名字。
start_urls: 包含了Spider在启动时进行爬取的url列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
parse() 是spider的一个方法。被调用时，每个初始URL完成下载后生成的Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据以及生成需要进一步处理的URL的 Request 对象。

运行我们的爬虫

进入项目的根目录，执行下列命令启动spider:

scrapy crawl quotes

这个命令启动用于爬取 quotes.toscrape.com 的spider，你将得到类似的输出:

2017-05-10 20:36:17 [scrapy.core.engine] INFO: Spider opened
2017-05-10 20:36:17 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-05-10 20:36:17 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (404)  (referer: None)
2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2017-05-10 20:36:17 [quotes] DEBUG: Saved file quotes-1.html2017-05-10 20:36:17 [quotes] DEBUG: Saved file quotes-2.html
2017-05-10 20:36:17 [scrapy.core.engine] INFO: Closing spider (finished)

提取数据

我们之前只是保存了HTML页面，并没有提取数据。现在升级一下代码，把提取功能加进去。至于如何使用浏览器的开发者模式分析网页，之前已经介绍过了。

import scrapyclass QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [        'http://quotes.toscrape.com/page/1/',        'http://quotes.toscrape.com/page/2/',
    ]    def parse(self, response):        for quote in response.css('div.quote'):            yield {                'text': quote.css('span.text::text').extract_first(),                'author': quote.css('small.author::text').extract_first(),                'tags': quote.css('div.tags a.tag::text').extract(),
            }

再次运行这个爬虫，你将在日志里看到被提取出的数据：

2017-05-10 20:38:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>{'tags': ['life', 'love'], 'author': 'André Gide', 'text': '“It is better to be hated for what you are than to be loved for what you are not.”'}2017-05-10 20:38:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>{'tags': ['edison', 'failure', 'inspirational', 'paraphrased'], 'author': 'Thomas A. Edison', 'text': "“I have not failed. I've just found 10,000 ways that won't work.”"}

保存爬取的数据

最简单存储爬取的数据的方式是使用 Feed exports:

scrapy crawl quotes -o quotes.json

该命令将采用 JSON 格式对爬取的数据进行序列化，生成quotes.json文件。

在类似本篇教程里这样小规模的项目中，这种存储方式已经足够。如果需要对爬取到的item做更多更为复杂的操作，你可以编写 Item Pipeline，tutorial/pipelines.py在最开始的时候已经自动创建了。

最后，初学者进阶的福音

想学习，基础不够？没关系，我们提供免费提供VIP基础学习课程，让你快速入门，掌握Python！

有基础的小伙伴想学习项目实战？没问题，每晚八点都有博士大牛带你学习操作项目！

只要你有一颗想学习的心，我们随时欢迎~

手把手教你写网络爬虫（4）Scrapy入门

当前题目：手把手教你写网络爬虫（4）Scrapy入门
浏览地址：http://chengdu.cdxwcx.cn/article/jjoghi.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

手把手教你写网络爬虫（4）Scrapy入门

架构简介

入门教程

其他资讯

阿尔茨海默症能活多久(老人胡言乱语还能活多久)

阿雅达岛（探访马尔代夫最美岛屿——阿雅达岛）

武则天的情敌王皇后智商究竟如何？

浙江云服务器哪家好

遐想是什么意思(遐想的暇怎么写)

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

手把手教你写网络爬虫（4）Scrapy入门

架构简介

入门教程

其他资讯

阿尔茨海默症能活多久(老人胡言乱语还能活多久)

阿雅达岛（探访马尔代夫最美岛屿——阿雅达岛）

武则天的情敌王皇后智商究竟如何？

浙江云服务器哪家好

遐想是什么意思(遐想的暇怎么写)

成都网站建设设计将想法与焦点和您一起共享