Python多线程爬虫的使用方法是什么

本篇内容介绍了“Python多线程爬虫的使用方法是什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

成都创新互联公司-云计算及IDC服务提供商，涵盖公有云、IDC机房租用、四川乐山服务器托管、等保安全、私有云建设等企业级互联网基础服务，咨询热线：18982081108

基本开发环境

Python 3.6
Pycharm
wkhtmltopdf

一、明确需求

现在聊天谁还不发几个表情包？聊天时,表情包是我们重要的工具,更是拉进小伙伴们距离的好帮手,当聊天陷入尴尬境地时,随手一张表情包,让尴尬化为无形

二、网页数据分析

Python多线程爬虫的使用方法是什么

如图所示斗图网上面的图片数据都包含在 a 标签当中，可以尝试直接请求这个网页，查看response 返回的数据当中是否也含有图片地址。

import requests


def get_response(html_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response


def main(html_url):
    response = get_response(html_url)
    print(response.text)


if __name__ == '__main__':
    url = 'https://www.doutula.com/photo/list/'
    main(url)

在输出结果中 ctrl + F 进行搜索。

这里有一个点想要注意一下，我用python请求网页所给我们返回的结果当中，包含图片url地址是：
data-original="图片url"
data-backup="图片url"

如果想要提取url地址的话，可以用parsel 解析库，或者 re 正则表达式。之前都是使用的parsel，本篇文章就用正则表达式吧。

urls = re.findall('data-original="(.*?)"', response.text)

单页爬取完整代码

import requests
import re


def get_response(html_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response


def save(image_url, image_name):
    image_content = get_response(image_url).content
    filename = 'images\\' + image_name
    with open(filename, mode='wb') as f:
        f.write(image_content)
        print(image_name)


def main(html_url):
    response = get_response(html_url)
    urls = re.findall('data-original="(.*?)"', response.text)
    for link in urls:
        image_name = link.split('/')[-1]
        save(link, image_name)


if __name__ == '__main__':
    url = 'https://www.doutula.com/photo/list/'
    main(url)

多线程爬取全站图片（如果你的内存够大）

Python多线程爬虫的使用方法是什么

3631页的数据，什么表情都有，嘿嘿嘿

import requests
import re
import concurrent.futures


def get_response(html_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response


def save(image_url, image_name):
    image_content = get_response(image_url).content
    filename = 'images\\' + image_name
    with open(filename, mode='wb') as f:
        f.write(image_content)
        print(image_name)


def main(html_url):
    response = get_response(html_url)
    urls = re.findall('data-original="(.*?)"', response.text)
    for link in urls:
        image_name = link.split('/')[-1]
        save(link, image_name)


if __name__ == '__main__':
    # ThreadPoolExecutor 线程池的对象
    # max_workers  最大任务数
    executor = concurrent.futures.ThreadPoolExecutor(max_workers=3)
    for page in range(1, 3632):
        url = f'https://www.doutula.com/photo/list/?page={page}'
        # submit  往线程池里面添加任务
        executor.submit(main, url)
    executor.shutdown()

“Python多线程爬虫的使用方法是什么”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站，小编将为大家输出更多高质量的实用文章！

本文题目：Python多线程爬虫的使用方法是什么
转载来源：http://chengdu.cdxwcx.cn/article/pghecg.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Python多线程爬虫的使用方法是什么

基本开发环境

相关模块的使用

一、明确需求

二、网页数据分析

单页爬取完整代码

多线程爬取全站图片（如果你的内存够大）

其他资讯

go语言性能监控 go语言调试

易优cms与云优cms 易优cms好用吗

vb.net取余运算符 vb取余函数

企业信息安全产品解决方案企业信息安全策略

sharepoint火吗 sharepointonline

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Python多线程爬虫的使用方法是什么

基本开发环境

相关模块的使用

一、明确需求

二、网页数据分析

单页爬取完整代码

多线程爬取全站图片（如果你的内存够大）

其他资讯

go语言性能监控 go语言 调试

易优cms与云优cms 易优cms好用吗

vb.net取余运算符 vb取余函数

企业信息安全产品解决方案 企业信息安全策略

sharepoint火吗 sharepointonline

成都网站建设设计将想法与焦点和您一起共享

go语言性能监控 go语言调试

企业信息安全产品解决方案企业信息安全策略