怎么实现HTMLParser解析HTML

这篇文章运用简单易懂的例子给大家介绍怎么实现HTMLParser解析HTML，代码非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

创新互联专业为企业提供丹寨网站建设、丹寨做网站、丹寨网站设计、丹寨网站制作等企业网站建设、网页设计与制作、丹寨企业网站模板建站服务，10年丹寨做网站经验，不只是建网站，更提供有价值的思路和整体网络服务。

对于我们用Python实现的爬虫首要任务可以分为两个步骤，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。

假设第一步已经完成了，第二步应该如何解析HTML呢？

HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。

好在Python提供了HTMLParser来非常方便地解析HTML，只需简单几行代码：

from HTMLParser import HTMLParser
from htmlentitydefs import name2codepoint
 
class MyHTMLParser(HTMLParser):
 
  def handle_starttag(self, tag, attrs):
    print('<%s>' % tag)
 
  def handle_endtag(self, tag):
    print('' % tag)
 
  def handle_startendtag(self, tag, attrs):
    print('<%s/>' % tag)
 
  def handle_data(self, data):
    print('data')
 
  def handle_comment(self, data):
    print('')
 
  def handle_entityref(self, name):
    print('&%s;' % name)
 
  def handle_charref(self, name):
    print('&#%s;' % name)
 
parser = MyHTMLParser()
parser.feed('Some html tutorial...
END
')

feed()方法可以多次调用，也就是不一定一次把整个HTML字符串都塞进去，可以一部分一部分塞进去。

特殊字符有两种，一种是英文表示的，一种是数字表示的Ӓ，这两种字符都可以通过Parser解析出来。

小结

找一个网页，例如https://www.python.org/events/python-events/，用浏览器查看源码并复制，然后尝试解析一下HTML，输出Python官网发布的会议时间、名称和地点。

关于怎么实现HTMLParser解析HTML就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

标题名称：怎么实现HTMLParser解析HTML
文章分享：http://chengdu.cdxwcx.cn/article/jeihee.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

怎么实现HTMLParser解析HTML

其他资讯

windows7系统文件损坏的简单介绍

c语言中如何使用正弦函数 c语言中的正弦函数与余弦函数

c语言函数与调用 c语言函数调用的三种方式

go语言与java语言 go语言与java语言的区别

python函数抛出异常 python如何抛出异常

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

怎么实现HTMLParser解析HTML

其他资讯

windows7系统文件损坏的简单介绍

c语言中如何使用正弦函数 c语言中的正弦函数与余弦函数

c语言函数与调用 c语言函数调用的三种方式

go语言与java语言 go语言与java语言的区别

python函数抛出异常 python如何抛出异常

成都网站建设设计将想法与焦点和您一起共享