爬取豆瓣的tp250电影名单

#       https://movie.douban.com/top250?start=25&filter=   要爬取的网页

import re
from urllib.request import urlopen

def getPage(url):
    response=urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    ret=com.finditer(s)
    for i in ret:
        ret={
            'id': i.group('id'),
            'move_name':i.group('move_name'),
            'move_d':i.group( 'move_d'),
            'move_t':i.group('move_t'),
            'content': i.group('content'),
            'infor':i.group('infor')
        }
        yield  ret

def main(num):
    url='https://movie.douban.com/top250?start=%s&filter= ' %num
    res=getPage(url)
    ret=parsePage(res)
    print(ret)
    f=open('move',mode='a+',encoding='utf-8')
    for obj in ret:
        print(obj)
        data1=str(obj).replace('\\n','')
        data2=data1.replace(' ','')
        f.write(data2 + '\n')
    f.close()

com=re.compile('(?:.*?)(?P.*?)(?:.*?)alt=(?P.*?)src(?:.*?)导演:'
            '(?P.*?) (?:.*?)
(?P.*?) (?:.*?) / (?P.*?)
(?:.*?)(?P.*?)',re.S)

count=0
for i in range(10):
    main(count)
    count+=25

当前题目：爬取豆瓣的tp250电影名单
链接URL：http://chengdu.cdxwcx.cn/article/jopjji.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

爬取豆瓣的tp250电影名单

其他资讯

微信企业名片如何设置企业微信企业名片怎么做

linux命令显示目录 linux显示目录大小的命令

加载css样式区分 css文件加载过程

包含jsp写html5的词条

电商小程序秒杀竞品小程序秒杀

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

爬取豆瓣的tp250电影名单

其他资讯

微信企业名片如何设置 企业微信企业名片怎么做

linux命令显示目录 linux显示目录大小的命令

加载css样式区分 css文件加载过程

包含jsp写html5的词条

电商小程序秒杀竞品 小程序 秒杀

成都网站建设设计将想法与焦点和您一起共享

微信企业名片如何设置企业微信企业名片怎么做

电商小程序秒杀竞品小程序秒杀