Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析

这期内容当中小编将会给大家带来有关Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。

创新互联企业建站,10年网站建设经验，专注于网站建设技术，精于网页设计，有多年建站和网站代运营经验，设计师为客户打造网络企业风格，提供周到的建站售前咨询和贴心的售后服务。对于网站建设、成都网站制作中不同领域进行深入了解和探索，创新互联在网站建设中充分了解客户行业的需求，以灵动的思维在网页中充分展现，通过对客户行业精准市场调研，为客户提供的解决方案。

前言

今天在知乎上看到一个关于【世纪佳缘找对象靠谱吗？】的讨论，其中关注的人有1903，被浏览了1940753次，355个回答中大多数都是不靠谱。用Python爬取世纪佳缘的数据是否能证明它的不靠谱？

翻了几页找到一个search_v2.php的链接，它的返回值是一个不规则的json串，其中包含了昵称，性别，是否婚配，匹配条件等等

Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析

通过url +参数的get方式，抓取了10000页的数据总计240116

需要安装的模块有openpyxl，用于过滤特殊的字符

# coding:utf-8
import csv
import json

import requests
from openpyxl.cell.cell import ILLEGAL_CHARACTERS_RE
import re

line_index = 0

def fetchURL(url):
   
    headers = {
        'accept': '*/*',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36',
        'Cookie': 'guider_quick_search=on; accessID=20201021004216238222; PHPSESSID=11117cc60f4dcafd131b69d542987a46; is_searchv2=1; SESSION_HASH=8f93eeb87a87af01198f418aa59bccad9dbe5c13; user_access=1; Qs_lvt_336351=1603457224; Qs_pv_336351=4391272815204901400%2C3043552944961503700'
    }

    r = requests.get(url, headers=headers)
    r.raise_for_status()
    return r.text.encode("gbk", 'ignore').decode("gbk", "ignore")


def parseHtml(html):

    html = html.replace('\\', '')
    html = ILLEGAL_CHARACTERS_RE.sub(r'', html)
    s = json.loads(html,strict=False)
    global line_index

    userInfo = []
    for key in s['userInfo']:
        line_index = line_index + 1
        a = (key['uid'],key['nickname'],key['age'],key['work_location'],key['height'],key['education'],key['matchCondition'],key['marriage'],key['shortnote'].replace('\n',' '))
        userInfo.append(a)

    with open('sjjy.csv', 'a', newline='') as f:
        writer = csv.writer(f)
        writer.writerows(userInfo)


if __name__ == '__main__':
    
    for i in range(1, 10000):
        url = 'http://search.jiayuan.com/v2/search_v2.php?key=&sex=f&stc=23:1,2:20.30&sn=default&sv=1&p=' + str(i) + '&f=select&listStyle=bigPhoto'
        html = fetchURL(url)
        print(str(i) + '页' + str(len(html)) + '*********' * 20)
        parseHtml(html)

二，去重

在处理数据去掉重复的时候发现有好多重复的，还以为是代码写的有问题呢，查了好久的bug最后才发现网站在100页上只有数据有好多重复的，下面两个图分别是110页数据和111页数据，是不是有很多熟面孔。

110页数据

Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析

111页数据

过滤重复后的数据只剩下 1872 了，这个水分还真大

def filterData():
    filter = []
    csv_reader = csv.reader(open("sjjy.csv", encoding='gbk'))
    i = 0
    for row in csv_reader:
        i = i + 1
        print('正在处理：' + str(i) + '行')
        if row[0] not in filter:
            filter.append(row[0])
    print(len(filter))

上述就是小编为大家分享的Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析了，如果刚好有类似的疑惑，不妨参照上述分析进行理解。如果想知道更多相关知识，欢迎关注创新互联行业资讯频道。

文章名称：Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析
网页URL：http://chengdu.cdxwcx.cn/article/jhcgoj.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析

前言

二，去重

其他资讯

岳阳头条短视频运营怎么做

企业抖音代运营价格

苏州营销短视频创意,数字化营销创意视频

泉州抖音账号(泉州抖音账号短视频seo获客哪家好呢？)

一念短视频运营

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Python爬取世纪佳缘的数据是否能证明它不靠谱的示例分析

前言

二，去重

其他资讯

岳阳头条短视频运营怎么做

企业抖音代运营价格

苏州营销短视频创意,数字化营销创意视频

泉州抖音账号(泉州抖音账号短视频seo获客哪家好呢？)

一念短视频运营

成都网站建设设计将想法与焦点和您一起共享