Python爬虫如何通过ip代理抓取网页

今天小编给大家分享一下Python爬虫如何通过ip代理抓取网页的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。

创新互联专业为企业提供长白网站建设、长白做网站、长白网站设计、长白网站制作等企业网站建设、网页设计与制作、长白企业网站模板建站服务，十余年长白做网站经验，不只是建网站，更提供有价值的思路和整体网络服务。

步骤：

1、urllib2库中的ProxyHandler类，通过此类可以使用ip代理访问网页

proxy_support=urllib2.ProxyHandler({})，其中参数是一个字典{‘类型':'代理ip:端口号'}

2、定制、创建一个opener

opener=urllib2.build_opener(proxy_support)

3、（1）安装opener

urlib2.install_opener(opener)

（2）调用默认的opener

opener.open(url)

针对没有反爬虫机制的网站，只要直接像上面引入ProxyHandler类进行处理，下面以访问csdn主页为例：

import urllib

url="http://www.csdn.net/"

for i in range(0,10000):

html=urllib.urlopen(url)

print html.info()

print i

当使用上述代码时，当循环到20时，就会出现下面的错误

Traceback (most recent call last):

File "C:/Users/lenovo/PycharmProjects/untitled1/jt2/__init__.py", line 19, in

html=urllib.urlopen(url)

File "C:\Python27\lib\urllib.py", line 87, in urlopen

return opener.open(url)

File "C:\Python27\lib\urllib.py", line 213, in open

return getattr(self, name)(url)

File "C:\Python27\lib\urllib.py", line 350, in open_http

h.endheaders(data)

File "C:\Python27\lib\httplib.py", line 997, in endheaders

self._send_output(message_body)

File "C:\Python27\lib\httplib.py", line 850, in _send_output

self.send(msg)

File "C:\Python27\lib\httplib.py", line 812, in send

self.connect()

File "C:\Python27\lib\httplib.py", line 793, in connect

self.timeout, self.source_address)

File "C:\Python27\lib\socket.py", line 571, in create_connection

raise err

IOError: [Errno socket error] [Errno 10060]

这是由于用的电脑的单一ip进行反复访问才被检测出来的。

下面是使用了ip代理的代码：

import urllib2

import random

def getHtml(url,proxies):

random_proxy = random.choice(proxies)

proxy_support = urllib2.ProxyHandler({"http":random_proxy})

opener = urllib2.build_opener(proxy_support)

urllib2.install_opener(opener)

html=urllib2.urlopen(url)

return html

url="http://www.csdn.net/"

proxies=["101.53.101.172:9999","171.117.93.229:8118","119.251.60.37:21387","58.246.194.70:8080"

"115.173.218.224:9797","110.77.0.70:80"]

for i in range(0,10000):

try:

html=getHtml(url,proxies)

print html.info() #打印网页的头部信息，只是为了展示访问到了网页，可以自己修改成想显示的内容

print i

except:

print "出现故障"

这段代码在测试1096次时被检测到了，要知道我的列表中仅有6个ip，倘若增加ip的个数，那么被发现的几率会不会更低。对于上面例子中的ip代理，或许过段时间就不可以使用了，这就要我们自己去搜新的IP代理来更换。还有程序中的异常处理是为了使程序可以处理ip代码访问时出现问题的情况，因为有些ip代理在访问的时候会出现故障的，这样做了可以使程序更加健壮。

#网上的ip不一定都能使用的，要多试试，或是选择黑洞http代理ip，更稳定安全

myproxies=["220.189.249.80:80","124.248.32.43:80"]

html = get_html(url,user_agents,myproxies)

print html.read()

以上就是“Python爬虫如何通过ip代理抓取网页”这篇文章的所有内容，感谢各位的阅读！相信大家阅读完这篇文章都有很大的收获，小编每天都会为大家更新不同的知识，如果还想学习更多的知识，请关注创新互联行业资讯频道。

当前名称：Python爬虫如何通过ip代理抓取网页
链接URL：http://chengdu.cdxwcx.cn/article/gsoggi.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Python爬虫如何通过ip代理抓取网页

其他资讯

iecss样式前缀 css 前缀

normalcss样式样式表定义bodycolorred表示

html5语言吐槽 html5语言代码大全

jquery结束轮询 jquery制作轮播切换效果

linux虚拟机关闭命令 linux虚拟机终端怎么退出

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Python爬虫如何通过ip代理抓取网页

其他资讯

iecss样式前缀 css 前缀

normalcss样式 样式表定义bodycolorred表示

html5语言吐槽 html5语言代码大全

jquery结束轮询 jquery制作轮播切换效果

linux虚拟机关闭命令 linux虚拟机终端怎么退出

成都网站建设设计将想法与焦点和您一起共享

normalcss样式样式表定义bodycolorred表示