如何实现URL字段的解析

这期内容当中小编将会给大家带来有关如何实现URL字段的解析，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。

创新互联建站专注于南丹网站建设服务及定制，我们拥有丰富的企业做网站经验。热诚为您提供南丹营销型网站建设，南丹网站制作、南丹网页设计、南丹网站官网定制、成都微信小程序服务，打造南丹网络公司原创品牌,更为您提供南丹网站排名全网营销落地服务。

1.修改爬取的目标地址

我们知道如果想要爬取网站的数据需要在spiders文件中创建一个蜘蛛，创建后这个蜘蛛中会自动生成一个类，类名也是由蜘蛛名加Spider组成，如上一节中爬去csdn网站生成的：CsDNSpider类，这个类中的name也就是蜘蛛的名称，allowed_domains是允许爬取网站的域名，start_urls是需要爬取的目标网站的网址，如果需要更改爬取的目标页面，只需要修改start_urls就可以了；

import scrapy
class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['http://www.csdn.net/']
    def parse(self, response):
        pass

2.解析标题的超链接a标签的跳转地址和标题内容

那我们继续用csdn的今天推荐作为爬取信息，首先需要在CsdnSpider类中的parse(self,response)方法中使用response对象来对css选择器获取到的a元素的href值进行解析，如response.css('h3 a::attr(href)').extract()，这样就可以得到一个url地址的列表；

import scrapy
class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['http://www.csdn.net/']
    def parse(self, response):
       urls = response.css('.company_list .company_name a::attr(href)').extract()
       print(urls)

接着我们循环得到的列表，拿到每一个a标签的url地址，然后使用Request请求，需要传递两个参数，一个是url用于告诉我们接下来解析哪个页面，可以通过parse.urljoin()方法拼接页面链接，另一个是callback回调函数。

这个回调函数是我们自己定义的，也会传递一个response对象，通过这个response对象对css选择器获取的元素进行解析，这样我们就可以拿到每个解析页面的标题内容了；

import scrapy
from scrapy.http import Request
from urllib import parse
class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['http://www.csdn.net/']
    def parse(self, response):
       # 获取url
       urls = response.css('.company_list .company_name a::attr(href)').extract()
       # print(urls)
       # 解析页面
       for url in urls:
           yield Request(url = parse.urljoin(response.url, url), callback=self.parse_analyse, dont_filter=True)
    # 回调函数
    def parse_analyse(self, response):
        title = response.css('.company_list .company_name a::text').extract_first()
        print(title)

3.Request对象的介绍

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8',priority=0, dont_filter=False, errback])，一个request对象代表一个HTTP请求，通常由Spider产生，经Downloader执行从而产生一个Response；
url：用于请求的URL；
callback：指定一个回调函数，该回调函数以这个request是的response作为第一个参数，如果未指定callback则默认使用spider的parse()方法；
method： HTTP请求的方法，默认为GET；
headers：请求的头部；
body：请求的正文，可以是bytes或者str；
cookies：请求携带的cookie；
meta：指定Request.meta属性的初始值，如果给了该参数，dict将会浅拷贝；
encoding：请求的编码，默认为utf-8；
priority：优先级，优先级越高，越先下载；
dont_filter：指定该请求是否被 Scheduler过滤，该参数可以使request重复使用；
errback：处理异常的回调函数；

上述就是小编为大家分享的如何实现URL字段的解析了，如果刚好有类似的疑惑，不妨参照上述分析进行理解。如果想知道更多相关知识，欢迎关注创新互联行业资讯频道。

新闻名称：如何实现URL字段的解析
本文路径：https://chengdu.cdxwcx.cn/article/pgpcpi.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

如何实现URL字段的解析

1.修改爬取的目标地址

2.解析标题的超链接a标签的跳转地址和标题内容

3.Request对象的介绍

其他资讯

Redis集群踩到坑启动失败问题定位（redis集群启动不了）

画个火柴人第六章怎么拿到冰笔？（冰块怎么画）

如何在Linux系统中添加右键打开终端功能

数据库通过什么控制访问

数据库系统的时间错了，怎么办？ (数据库系统当前时间不正确)

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

如何实现URL字段的解析

1.修改爬取的目标地址

2.解析标题的超链接a标签的跳转地址和标题内容

3.Request对象的介绍

其他资讯

Redis集群踩到坑启动失败问题定位（redis集群启动不了）

画个火柴人第六章怎么拿到冰笔？（冰块怎么画）

如何在Linux系统中添加右键打开终端功能

数据库通过什么控制访问

数据库系统的时间错了，怎么办？ (数据库系统当前时间不正确)

成都网站建设设计将想法与焦点和您一起共享