利用python爬虫怎么对小说进行爬取-创新互联

本篇文章给大家分享的是有关利用python爬虫怎么对小说进行爬取，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

黄山区网站制作公司哪家好，找创新互联！从网页设计、网站建设、微信开发、APP开发、成都响应式网站建设公司等网站项目制作，到程序开发，运营维护。创新互联从2013年成立到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选创新互联。

代码

import requests
import time
from tqdm import tqdm
from bs4 import BeautifulSoup

"""
  Author:
    Jack Cui
  Wechat:
    https://mp.weixin.qq.com/s/OCWwRVDFNslIuKyiCVUoTA
"""

def get_content(target):
  req = requests.get(url = target)
  req.encoding = 'utf-8'
  html = req.text
  bf = BeautifulSoup(html, 'lxml')
  texts = bf.find('div', id='content')
  content = texts.text.strip().split('\xa0'*4)
  return content

if __name__ == '__main__':
  server = 'https://www.xsbiquge.com'
  book_name = '诡秘之主.txt'
  target = 'https://www.xsbiquge.com/15_15338/'
  req = requests.get(url = target)
  req.encoding = 'utf-8'
  html = req.text
  chapter_bs = BeautifulSoup(html, 'lxml')
  chapters = chapter_bs.find('div', id='list')
  chapters = chapters.find_all('a')
  for chapter in tqdm(chapters):
    chapter_name = chapter.string
    url = server + chapter.get('href')
    content = get_content(url)
    with open(book_name, 'a', encoding='utf-8') as f:
      f.write(chapter_name)
      f.write('\n')
      f.write('\n'.join(content))
      f.write('\n')

当前名称：利用python爬虫怎么对小说进行爬取-创新互联
网页URL：http://chengdu.cdxwcx.cn/article/desiid.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

利用python爬虫怎么对小说进行爬取-创新互联

其他资讯

怎么用html5canvas实现图片玻璃碎片特效

grails的criteria如何实现复合查询并实现结果分页

Android使用WebView实现全屏切换播放网页视频功能

如何使用es6数组includes()

SEO标题优化的示例分析

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

利用python爬虫怎么对小说进行爬取-创新互联

其他资讯

怎么用html5canvas实现图片玻璃碎片特效

grails的criteria如何实现复合查询并实现结果分页

Android使用WebView实现全屏切换播放网页视频功能

如何使用es6数组includes()

SEO标题优化的示例分析

成都网站建设设计将想法与焦点和您一起共享