成都网站建设设计

将想法与焦点和您一起共享

爬虫到百度贴吧,爬取自己的小说-创新互联

最近在微信里看了一个小说叫《阴阳代理人》的,看到一半,发现断了,作者说把后面的部分放到了百度贴吧,去了贴吧发现,文章看起来比较费劲,乱糟糟的,所以为了我的小说,弄个了爬虫,去给我弄下来。

创新互联建站主要从事网站设计制作、网站建设、网页设计、企业做网站、公司建网站等业务。立足成都服务合阳,十多年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:13518219792
#!/user/bin/env python
# -*- coding:utf-8 -*-
import urllib2
import urllib
import re

#小说章节类
class ZHANGJIE:
    #初始化传入地址
    def __init__(self,zjUrl,Num):
        self.zjUrl = zjUrl    
        self.Num = Num    
    
    #传入页码,获得网页源代码,只看精品
    def getPage(self):
        url = self.zjUrl + str(self.Num)
        request = urllib2.Request(url)
        response = urllib2.urlopen(request)
        return response.read()

    #获取每章链接资源
    def getNum(self):
        webcon = self.getPage()
        Num = re.findall('(.*)',webcon).group(1)
        return title

    #获得小说内容并打印换行
    def getCon(self):
        webcon = self.getPage()
        try:
            con = re.search('支持兰大,一定要记得投票哦!推荐票!(.*)(

)',webcon).group(1)             con_n = re.sub('
','\n',con)             return con_n         except AttributeError:             return '广告内容,已经忽略'     #写入文件     def writeDate(self):         con_t = self.getTitle()         con_n = self.getCon()         try:             with open('/tmp/yydlr.txt','a') as f:                 f.write('\n')                 f.write('\n')                 f.write(con_t)                 f.write(con_n)         except IOError:             print '写入异常'  for i in range(3050,1650,-50):     ZJ = ZHANGJIE('http://tieba.baidu.com/f/good?kw=%E9%98%B4%E9%98%B3%E4%BB%A3%E7%90%86%E4%BA%BA&ie=utf-8&cid=0&pn=',i)     ZJ.getNum()     for i in Num_r:         NR = NEIRONG('http://tieba.baidu.com/p/',i)         NR.writeDate() print '小说已经准备好啦'

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


新闻标题:爬虫到百度贴吧,爬取自己的小说-创新互联
分享链接:http://chengdu.cdxwcx.cn/article/dhhicg.html

其他资讯