Scrapy的基础知识是什么

Scrapy的基础知识是什么，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。

创新互联建站从2013年开始，是专业互联网技术服务公司，拥有项目网站设计、做网站网站策划，项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命，1280元赣县做网站,已为上家服务,为赣县各地企业和个人服务,联系电话:18980820575

我们将在这里介绍完Scrapy的基础知识

架构简介

下面是Scrapy的架构，包括组件以及在系统中发生的数据流的概览(红色箭头所示)。之后会对每个组件做简单介绍，数据流也会做一个简要描述。

Scrapy的基础知识是什么

架构就是这样，流程和我第二篇里介绍的迷你架构差不多，但扩展性非常强大。

One more thing

Scrapy的基础知识是什么

scrapy startproject tutorial

该命令将会创建包含下列内容的 tutorial 目录:

tutorial/      scrapy.cfg            # 项目的配置文件      tutorial/             # 该项目的python模块。之后您将在此加入代码          __init__.py          items.py          # 项目中的item文件          pipelines.py      # 项目中的pipelines文件          settings.py       # 项目的设置文件          spiders/          # 放置spider代码的目录              __init__.py

编写第一个爬虫

Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。其包含了一个用于下载的初始URL，以及如何跟进网页中的链接以及如何分析页面中的内容的方法。

以下为我们的***个Spider代码，保存在 tutorial/spiders 目录下的 quotes_spider.py文件中:

import scrapy    class QuotesSpider(scrapy.Spider):      name = "quotes"        def start_requests(self):          urls = [              'http://quotes.toscrape.com/page/1/',              'http://quotes.toscrape.com/page/2/',          ]          for url in urls:              yield scrapy.Request(url=url, callback=self.parse)        def parse(self, response):          page = response.url.split("/")[-2]          filename = 'quotes-%s.html' % page          with open(filename, 'wb') as f:              f.write(response.body)          self.log('Saved file %s' % filename)

运行我们的爬虫

进入项目的根目录，执行下列命令启动spider:

scrapy crawl quotes

这个命令启动用于爬取 quotes.toscrape.com 的spider，你将得到类似的输出:

2017-05-10 20:36:17 [scrapy.core.engine] INFO: Spider opened  2017-05-10 20:36:17 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)  2017-05-10 20:36:17 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023  2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (404)  (referer: None)  2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)  2017-05-10 20:36:17 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)  2017-05-10 20:36:17 [quotes] DEBUG: Saved file quotes-1.html  2017-05-10 20:36:17 [quotes] DEBUG: Saved file quotes-2.html  2017-05-10 20:36:17 [scrapy.core.engine] INFO: Closing spider (finished)

提取数据

我们之前只是保存了HTML页面，并没有提取数据。现在升级一下代码，把提取功能加进去。至于如何使用浏览器的开发者模式分析网页，之前已经介绍过了。

import scrapy   class QuotesSpider(scrapy.Spider):      name = "quotes"      start_urls = [          'http://quotes.toscrape.com/page/1/',          'http://quotes.toscrape.com/page/2/',      ]        def parse(self, response):          for quote in response.css('div.quote'):              yield {                  'text': quote.css('span.text::text').extract_first(),                  'author': quote.css('small.author::text').extract_first(),                  'tags': quote.css('div.tags a.tag::text').extract(),              }

再次运行这个爬虫，你将在日志里看到被提取出的数据：

2017-05-10 20:38:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>  {'tags': ['life', 'love'], 'author': 'André Gide', 'text': '“It is better to be hated for what you are than to be loved for what you are not.”'}  2017-05-10 20:38:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>  {'tags': ['edison', 'failure', 'inspirational', 'paraphrased'], 'author': 'Thomas A. Edison', 'text': "“I have not failed. I've just found 10,000 ways that won't work.”"}

保存爬取的数据

最简单存储爬取的数据的方式是使用 Feed exports:

scrapy crawl quotes -o quotes.json

该命令将采用 JSON 格式对爬取的数据进行序列化，生成quotes.json文件。

如果需要对爬取到的item做更多更为复杂的操作，你可以编写 Item Pipeline，tutorial/pipelines.py在最开始的时候已经自动创建了。

看完上述内容是否对您有帮助呢？如果还想对相关知识有进一步的了解或阅读更多相关文章，请关注创新互联行业资讯频道，感谢您对创新互联的支持。

新闻名称：Scrapy的基础知识是什么
文章起源：http://chengdu.cdxwcx.cn/article/jpjoss.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Scrapy的基础知识是什么

其他资讯

阿里云服务器折扣阿里云服务器最便宜多少钱一年

路由器的nat模式的简单介绍

阿里云服务器远程连接证书阿里云服务器远程连接

如何获取腾讯云服务器ip 腾讯云服务器域名在哪里查看

go语言字节跳动招聘 gip 字节跳动

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Scrapy的基础知识是什么

其他资讯

阿里云服务器折扣 阿里云服务器最便宜多少钱一年

路由器的nat模式的简单介绍

阿里云服务器远程连接证书 阿里云服务器 远程连接

如何获取腾讯云服务器ip 腾讯云服务器域名在哪里查看

go语言字节跳动招聘 gip 字节跳动

成都网站建设设计将想法与焦点和您一起共享

阿里云服务器折扣阿里云服务器最便宜多少钱一年

阿里云服务器远程连接证书阿里云服务器远程连接