成都网站建设设计

将想法与焦点和您一起共享

太行山有Python爬取微博数据

今天就跟大家聊聊有关太行山有Python爬取微博数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

创新互联是一家集网站建设,信阳企业网站建设,信阳品牌网站建设,网站定制,信阳网站建设报价,网络营销,网络优化,信阳网站推广为一体的创新建站企业,帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿,时刻以成就客户成长自我,坚持不断学习、思考、沉淀、净化自己,让我们为更多的企业打造出实用型网站。

爬虫的最大功能之一就是整合数据,能弄到更全面的信息,真正做好大数据的分析,在这个数据说话的年代,影响是决定性的。(注意别侵权)

♦思路流程


1、利用chrome浏览器,获取自己的cookie。

2、获取你要爬取的用户的微博User_id

3、将获得的两项内容填入到weibo.py中,替换代码中的YOUR_USER_ID和#YOUR_COOKIE,运行代码。

♦完整代码

import requestsimport reimport pandas as pdimport time as tmimport random# ------------------------id = "2304132803301701"timedata = []for p in range(1,3):    page = str(p)    url = "https://m.weibo.cn/api/container/getIndex?containerid=" + id + "_-_WEIBO_SECOND_PROFILE_WEIBO&luicode=10000011&lfid=" + id + "&page_type=03&page=" + page    data = requests.get(url)    data_text = data.text    data_num = re.findall(r'\"mid\"\:\"(\d{16})\"', data_text)    num = len(data_num)    for i in range(0,num):        url_detail = "https://m.weibo.cn/detail/" + data_num[i]        html = requests.get(url_detail)        time = re.search(r'\"created_at\"\:\s\"(\w\w\w\s\w\w\w\s\d\d\s\d\d\:\d\d\:\d\d)\s\+\d{4}\s\d{4}\"', html.text)        timedata.append(time.group(1))        tm.sleep(random.uniform(1,4)) #反爬间隔        print("采集第%d页第%d条微博数据"%(p,i))name =["time"]data_save = pd.DataFrame(columns=name, data=timedata)data_save.to_csv('./data.csv')

用wordcloud等软件生成词云,它会根据信息的频率、权重按比列显示关键字的字体大小。

看完上述内容,你们对太行山有Python爬取微博数据有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注创新互联行业资讯频道,感谢大家的支持。


当前文章:太行山有Python爬取微博数据
文章源于:http://chengdu.cdxwcx.cn/article/pspiji.html