python爬取网页转换为PDF文件-创新互联

爬虫的起因

成都地区优秀IDC服务器托管提供商(创新互联公司).为客户提供专业的绵阳电信机房机柜租用,四川各地服务器托管,绵阳电信机房机柜租用、多线服务器托管.托管咨询专线：028-86922220

官方文档或手册虽然可以查阅，但是如果变成纸质版的岂不是更容易翻阅与记忆。如果简单的复制粘贴，不知道何时能够完成。于是便开始想着将Android的官方手册爬下来。

全篇的实现思路

分析网页
学会使用BeautifulSoup库
爬取并导出

参考资料：

* 把廖雪峰的教程转换为PDF电子书
* Requests文档
* Beautiful Soup文档

配置

在Ubuntu下使用Pycharm运行成功
转PDF需要下载wkhtmltopdf

具体过程

网页分析

如下所示的一个网页,要做的是获取该网页的正文和标题，以及左边导航条的所有网址

python爬取网页转换为PDF文件

接下来的工作就是找到这些标签喽…

关于Requests的使用

详细参考文档，这里只是简单的使用Requests获取html以及使用代理翻墙（网站无法直接访问，需要VPN）

proxies={
 "http":"http://vpn的IP:port",
 "https":"https://vpn的IP:port",
 }

response=requests.get(url,proxies=proxies)

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

本文名称：python爬取网页转换为PDF文件-创新互联
标题来源：http://chengdu.cdxwcx.cn/article/dpiijj.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

python爬取网页转换为PDF文件-创新互联

其他资讯

怎么在linux中允许端口远程访问开放端口-创新互联

如何在laravel中安装Passport-创新互联

python中sklearn库如何实现逻辑回归-创新互联

C语言之基本运算及自动类型转换和强制类型转换-创新互联

使用云服务器如何安装lamp服务-创新互联

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

python爬取网页转换为PDF文件-创新互联

其他资讯

怎么在linux中允许端口远程访问开放端口-创新互联

如何在laravel中安装Passport-创新互联

python中sklearn库如何实现逻辑回归-创新互联

C语言之基本运算及自动类型转换和强制类型转换-创新互联

使用云服务器如何安装lamp服务-创新互联

成都网站建设设计将想法与焦点和您一起共享