Python通过requests实现腾讯新闻抓取爬虫的方法-创新互联

最近也是学习了一些爬虫方面的知识。以我自己的理解，通常我们用浏览器查看网页时，是通过浏览器向服务器发送请求，然后服务器响应以后返回一些代码数据，再经过浏览器解析后呈现出来。而爬虫则是通过程序向服务器发送请求，并且将服务器返回的信息，通过一些处理后，就能得到我们想要的数据了。

为梁溪等地区用户提供了全套网页设计制作服务，及梁溪网站建设行业解决方案。主营业务为网站设计制作、网站制作、梁溪网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

以下是前段时间我用python写的一个爬取TX新闻标题及其网址的一个简单爬虫：

首先需要用到python中requests（方便全面的http请求库）和 BeautifulSoup（html解析库）。

通过pip来安装这两个库，命令分别是：pip install requests 和 pip install bs4 (如下图)

先放上完整的代码

# coding:utf-8
import requests
from bs4 import BeautifulSoup
 
url = "http://news.qq.com/"
# 请求腾讯新闻的URL，获取其text文本
wbdata = requests.get(url).text
# 对获取到的文本进行解析
soup = BeautifulSoup(wbdata,'lxml')
# 从解析文件中通过select选择器定位指定的元素，返回一个列表
news_titles = soup.select("div.text > em.f14 > a.linkto")
 
# 对返回的列表进行遍历
for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '标题':title,
    '链接':link
  }
  print(data)

本文标题：Python通过requests实现腾讯新闻抓取爬虫的方法-创新互联
分享路径：http://chengdu.cdxwcx.cn/article/pjcjh.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Python通过requests实现腾讯新闻抓取爬虫的方法-创新互联

其他资讯

linux文本修改命令 linux如何修改文本内容

html5长度 html长度设置

mysql汉字怎么写 mysql 汉字

html5列标签 h5列表标签

菜鸟linux命令 linux菜鸟教程guan 网

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Python通过requests实现腾讯新闻抓取爬虫的方法-创新互联

其他资讯

linux文本修改命令 linux如何修改文本内容

html5长度 html长度设置

mysql汉字怎么写 mysql 汉字

html5列标签 h5列表标签

菜鸟linux命令 linux菜鸟教程guan 网

成都网站建设设计将想法与焦点和您一起共享