Python如何爬取MM照片

这篇文章主要为大家展示了“Python如何爬取MM照片”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Python如何爬取MM照片”这篇文章吧。

创新互联建站主营镇远网站建设的网络公司,主营网站建设方案,手机APP定制开发,镇远h5小程序开发搭建,镇远网站营销推广欢迎镇远等地区企业咨询

1.URL的格式

在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1，问号前面是基地址，后面的参数page是代表第几页，可以随意更换地址。点击开之后，会发现有一些淘宝MM的简介，并附有超链接链接到个人详情页面。

我们需要抓取本页面的头像地址，MM姓名，MM年龄，MM居住地，以及MM的个人详情页面地址。

2.抓取简要信息

相信大家经过上几次的实战，对抓取和提取页面的地址已经非常熟悉了，这里没有什么难度了，我们首先抓取本页面的MM详情页面地址，姓名，年龄等等的信息打印出来，直接贴代码如下

import urllib
import urllib2
import re

class Spider:

    def __init__(self):
        self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm'

    def getPage(self,pageIndex):
        url = self.siteURL + "?page=" + str(pageIndex)
        print url
        request = urllib2.Request(url)
        response = urllib2.urlopen(request)
        return response.read().decode('gbk')

    def getContents(self,pageIndex):
        page = self.getPage(pageIndex)
        pattern = re.compile('.*?(.*?).*?(.*?)',re.S)
        items = re.findall(pattern,page)
        for item in items:
            print item[0],item[1],item[2],item[3],item[4]

spider = Spider()
spider.getContents(1)

运行结果如下

Python如何爬取MM照片

3.文件写入简介

在这里，我们有写入图片和写入文本两种方式

1）写入图片

#传入图片地址，文件名，保存单张图片
def saveImg(self,imageURL,fileName):
     u = urllib.urlopen(imageURL)
     data = u.read()
     f = open(fileName, 'wb')
     f.write(data)
     f.close()

2）写入文本

def saveBrief(self,content,name):
    fileName = name + "/">

3）创建新目录

#创建新目录
def mkdir(self,path):
    path = path.strip()
    # 判断路径是否存在
    # 存在     True
    # 不存在   False
    isExists=os.path.exists(path)
    # 判断结果
    if not isExists:
        # 如果不存在则创建目录
        # 创建目录操作函数
        os.makedirs(path)
        return True
    else:
        # 如果目录存在则不创建，并提示目录已存在
        return False

4.代码完善

主要的知识点已经在前面都涉及到了，如果大家前面的章节都已经看了，完成这个爬虫不在话下，具体的详情在此不再赘述，直接帖代码啦。

spider.py

import urllib
import urllib2
import re
import tool
import os

#抓取MM
class Spider:

    #页面初始化
    def __init__(self):
        self.siteURL = 'http://mm.taobao.com/json/request_top_list.htm'
        self.tool = tool.Tool()

    #获取索引页面的内容
    def getPage(self,pageIndex):
        url = self.siteURL + "?page=" + str(pageIndex)
        request = urllib2.Request(url)
        response = urllib2.urlopen(request)
        return response.read().decode('gbk')

    #获取索引界面所有MM的信息，list格式
    def getContents(self,pageIndex):
        page = self.getPage(pageIndex)
        pattern = re.compile('.*?(.*?).*?(.*?)',re.S)
        items = re.findall(pattern,page)
        contents = []
        for item in items:
            contents.append([item[0],item[1],item[2],item[3],item[4]])
        return contents

    #获取MM个人详情页面
    def getDetailPage(self,infoURL):
        response = urllib2.urlopen(infoURL)
        return response.read().decode('gbk')

    #获取个人文字简介
    def getBrief(self,page):
        pattern = re.compile('(.*?)
        
        
            其他资讯
            
                
                    
                            
                                php数据库内容存放在 php保存数据
                            
                        

                            
                                查看php数据编码 php设置数据库编码
                            
                        

                            
                                vb.net二维码教程 vb 二维码
                            
                        

                            
                                mysql表怎么添加约束 给表添加约束
                            
                        

                            
                                linux基本命令重启 linux命令重启weblogic服务

QQ咨询
在线咨询
官方微信
联系电话

座机028-86922220

手机13518219792
返回顶部

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Python如何爬取MM照片

1.URL的格式

2.抓取简要信息

3.文件写入简介

4.代码完善

其他资讯

php数据库内容存放在 php保存数据

查看php数据编码 php设置数据库编码

vb.net二维码教程 vb 二维码

mysql表怎么添加约束给表添加约束

linux基本命令重启 linux命令重启weblogic服务

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Python如何爬取MM照片

1.URL的格式

2.抓取简要信息

3.文件写入简介

4.代码完善

其他资讯

php数据库内容存放在 php保存数据

查看php数据编码 php设置数据库编码

vb.net二维码教程 vb 二维码

mysql表怎么添加约束 给表添加约束

linux基本命令重启 linux命令重启weblogic服务

成都网站建设设计将想法与焦点和您一起共享

mysql表怎么添加约束给表添加约束