爬虫数据表格

这是一篇关于iaaf国际运动员跳远数据表格的爬虫经验。（今天我们只取progression项的long=jump的数据）
我个人是分了四个脚本进行运行：
首先第一个脚本。1：我们需要导入三个python的第三方库，分别是requests（用于简洁且简单的处理HTTP请求的第三方库），beautifulsoup4（从HTML和XML文件中解析出数据的第三方库），import json（JSON 是轻量级的文本数据交换格式。是用来存储和交换文本信息的语法。）
这里我加了一个：from futureimport print_function（表示不同python版本运行时不会出现问题）
2:这里我们还需要取一个‘User_Agent’：方法：打开主界面检查元素，在控制台最下方输入“alert（navigator.user.Agent）”这时会弹出一个小窗口，复制即可。（作用：用于洋装成浏览器而不是爬虫）
（'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Safari/605.1.15', }）

邯郸网站制作公司哪家好，找创新互联公司！从网页设计、网站建设、微信开发、APP开发、响应式网站开发等网站项目制作，到程序开发，运营维护。创新互联公司于2013年开始到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选创新互联公司。

3：url = 'https://www.iaaf.org/records/toplists/jumps/long-jump/outdoor/men/senior/2018?regionType=world&windReading=regular&page={}&bestResultsOnly=true'

这时我们可以利用requests，BeautiflSoup来进行处理。
db = pymongo.MongoClient().iaaf（调用数据库）
4:res = requests.get(url.format(i), headers=headers)（请求得到数据并勤变量名为res）
5:record_table = soup.findall('table', class='records-table')（定位目标） for i in tr_l: # 针对每一个tr 也就是一行
td_l = i.find_all('td') # td的列表第三项是带href
（把td_l里面的每一项赋值，组成json数据 {} 插入到mongo（在从mongo里去到herf访问生涯数据并存回这个表）
6: j_data = {}（将数据存到字典里如下：）
try:
j_data['Rank'] = td_l[0].get_text().strip()
j_data['Mark'] = td_l[1].get_text().strip()
j_data['WIND'] = td_l[2].get_text().strip()
j_data['Competitior'] = td_l[3].get_text().strip()
j_data['DOB'] = td_l[4].get_text().strip()
j_data['Nat'] = td_l[5].get_text().strip()
j_data['Pos'] = td_l[6].get_text().strip()
j_data['Venue'] = td_l[8].get_text().strip()
j_data['Date'] = td_l[9].get_text().strip()

            j_data['href'] = td_l[3].find('a')['href']
        except:
            pass
        db.athletes.×××ert_one(j_data)

  if __name__ == '__main__':
       spider_iaaf()（数据库）

下面是第二个脚本：
from futureimport print_function
import requests
from bs4 import BeautifulSoup（同样引用）
1:headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Safari/605.1.15'}
2: res = requests.get(url, headers=headers)
html = res.text
3: soup = bs(html,'html.parser')（处理文件）
div = soup.find('div', id='progression')（定位到准确文件）
4:此时如果我们想准确的定位到跳远成绩我➕了一句if语句（if "Long Jump" in text and "View Graph" in text:
tbody = i.parent.parent.table.tbody）表明再此界面有Long Jump和View Graph的就是我们所需要的数据并且返回到上两级取到tbody标签。
tbody_l.append(tbody) #并且追加到tbody。 # 拿到两个元素的tbody 一个为室外一个室内用try except，这时我们将两个数据存到字典里。最后 return indoor outdoor。
if name== 'main':
long_jump（url=）

    接下来是第三个脚本：
from __future__ import print_function

import pymongo（PyMongo是驱动程序，使python程序能够使用MongoDB数据库，使用python编写而成．）
import requests
from bs4 import BeautifulSoup
import json(JSON 是轻量级的文本数据交换格式。是用来存储和交换文本信息的语法。）)
from long_jump （脚本名）import *(引用第二个脚本)
1:db = pymongo.MongoClient().iaaf（）
2:headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Safari/605.1.15’}（同上理）
3:def get_href():
href_list = db.athletes.find()
Count = 1（负责去mongo中取href 然后访问得到的数据存到原来的表中）
4: for i in href_list：（取id 根据id把爬来的生涯数据插回去）
print(count)
5: db.athletes.update({'_id':i.get('_id')},{"$set"{"outdoor":outdoor,"indoor":indoor}})
count += 1（获得具体数据）
6:if name== 'main':
get_href()

                第四个脚本：
                from __future__ import print_function
      import xlwt（Python语言中，写入Excel文件的扩展工具。

相应的有xlrd扩展包，专门用于excel读取。）
import pymongo
1:def write_into_xls(cursor):
title =
['Rank','Mark','age','Competitior','DOB','Nat','country','Venue','Date','out_year','out_performance','out_wind','out_place','out_date','in_year','in_performance','in_place','in_date']

book = xlwt.Workbook(encoding='utf-8',style_compression=0)
sheet = book.add_sheet('iaaf',cell_overwrite_ok=True)

2:
flag = 1
db = pymongo.MongoClient().iaaf
for i in country_l:
cursor = db.athletes.find({'Nat':i})
for i in cursor:
print(i)
count_out = len(i['outdoor'])
count_in = len(i['indoor'])
count = 1
if count_out >= count_in:
count = count_out
else:
count = count_in
if count == 0:
count = 1（count 为这条数据占的行数）
3: flag = flag + count

book.save(r'iaaf.xls')（开始从第一行输入数据并且从数据库取）

if name== 'main':
write_into_xls(cursor=None)（生成文件iaaf.xls这时便可用Ecxel查看数据）
***顺便记录一下查看如何查看数据库的内容两种方法：
1: ./mongo show dbs
数据库： iaaf
use iaaf
show tables ---- athletes

    db.athletes.find()

2: pymongo db = pymongo.MongoClient().iaaf
for i in db.athletes.find():
print i

文章题目：爬虫数据表格
网页URL：http://chengdu.cdxwcx.cn/article/gpjjgd.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

爬虫数据表格

其他资讯

linux命令睡眠5秒 linux睡眠1秒

双信号路由器双信号路由器两个信号的区别

sap系统104是啥仓的简单介绍

C语言函数算最小公倍数 c语言最小公倍数的函数

c语言解函数组 c语言编程求方程组的解

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

爬虫数据表格

其他资讯

linux命令睡眠5秒 linux睡眠1秒

双信号路由器 双信号路由器两个信号的区别

sap系统104是啥仓的简单介绍

C语言函数算最小公倍数 c语言最小公倍数的函数

c语言解函数组 c语言编程求方程组的解

成都网站建设设计将想法与焦点和您一起共享

双信号路由器双信号路由器两个信号的区别