Python爬虫如何使用浏览器的cookiesbrowsercookie

这篇文章给大家介绍Python爬虫如何使用浏览器的cookies browsercookie，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

成都创新互联公司长期为数千家客户提供的网站建设服务，团队从业经验10年，关注不同地域、不同群体，并针对不同对象提供差异化的产品和服务；打造开放共赢平台，与合作伙伴共同营造健康的互联网生态环境。为乌兰企业提供专业的网站制作、做网站，乌兰网站改版等技术服务。拥有十载丰富建站经验和众多成功案例,为您定制开发。

很多用Python的人可能都写过网络爬虫，自动化获取网络数据确实是一件令人愉悦的事情，而Python很好的帮助我们达到这种愉悦。然而，爬虫经常要碰到各种登录、验证的阻挠，让人灰心丧气（网站：天天碰到各种各样的爬虫抓我们网站，也很让人灰心丧气～）。爬虫和反爬虫就是一个猫和老鼠的游戏，道高一尺魔高一丈，两者反复纠缠。

由于http协议的无状态性，登录验证都是通过传递cookies来实现的。通过浏览器登录一次，登录信息的cookie是就会被浏览器保存下来。下次再打开该网站时，浏览器自动带上保存的cookies，只有cookies还未过期，对于网站来说你就还是登录状态的。

browsercookie模块就是这样一个从浏览器提取保存的cookies的工具。它是一个很有用的爬虫工具，通过加载你浏览器的cookies到一个cookiejar对象里面，让你轻松下载需要登录的网页内容。

安装

pip install browsercookie

在Windows系统中，内置的sqlite模块在加载FireFox数据库时会抛出错误。需要更新sqlite的版本：
pip install pysqlite

使用方法

下面是从网页提取标题的例子：

>>> import re>>> get_title = lambda html: re.findall('(.*?)', html, flags=re.DOTALL)[0].strip()

下面是未登录状况下下载得到的标题：

>>> import urllib2>>> url = 'https://bitbucket.org/'>>> public_html = urllib2.urlopen(url).read()>>> get_title(public_html)'Git and Mercurial code management for teams'

接下来使用browsercookie从登录过Bitbucket的FireFox里面获取cookie再下载：

>>> import browsercookie>>> cj = browsercookie.firefox()>>> opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))>>> login_html = opener.open(url).read()>>> get_title(login_html)'richardpenman / home — Bitbucket'

上面是Python2的代码，再试试 Python3:

>>> import urllib.request>>> public_html = urllib.request.urlopen(url).read()>>> opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

你可以看到你的用户名出现在title里面了，说明browsercookie模块成功从FireFox加载了cookies。

下面是使用requests的例子，这次我们从Chrome里面加载cookies，当然你需要事先用Chrome登录Bitbucket：

>>> import requests>>> cj = browsercookie.chrome()>>> r = requests.get(url, cookies=cj)>>> get_title(r.content)'richardpenman / home — Bitbucket'

如果你不知道或不关心那个浏览器有你需要的cookies，你可以这样操作：

>>> cj = browsercookie.load()>>> r = requests.get(url, cookies=cj)>>> get_title(r.content)'richardpenman / home — Bitbucket'

支持

目前，该模块支持以下平台：

Chrome: Linux, OSX, Windows
Firefox: Linux, OSX, Windows

关于Python爬虫如何使用浏览器的cookies browsercookie就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

本文题目：Python爬虫如何使用浏览器的cookiesbrowsercookie
当前链接：http://chengdu.cdxwcx.cn/article/pgoogd.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Python爬虫如何使用浏览器的cookiesbrowsercookie

安装

使用方法

支持

其他资讯

关于linux中tar命令的信息

java菜单功能代码菜单项java

java解析视频代码 java解析avro

java代码父类子类 java父类怎么调用子类方法

sap系统怎么增加会话框的简单介绍

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Python爬虫如何使用浏览器的cookiesbrowsercookie

安装

使用方法

支持

其他资讯

关于linux中tar命令的信息

java菜单功能代码 菜单项java

java解析视频代码 java解析avro

java代码父类子类 java父类怎么调用子类方法

sap系统怎么增加会话框的简单介绍

成都网站建设设计将想法与焦点和您一起共享

java菜单功能代码菜单项java