怎么在python中提取文本信息

怎么在python中提取文本信息？很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。

创新互联建站专注于企业营销型网站、网站重做改版、鹤庆网站定制设计、自适应品牌网站建设、HTML5、购物商城网站建设、集团公司官网建设、外贸网站制作、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为鹤庆等各大城市提供网站开发制作服务。

Python主要用来做什么

Python主要应用于：1、Web开发；2、数据科学研究；3、网络爬虫；4、嵌入式应用开发；5、游戏开发；6、桌面应用开发。

1、信息提取

先用句子分段器将文档的原始文本分成句子，再用记号赋值器将每个句子进一步分成单词。其次，给每一个句子做词性标记。以nltk中的默认工具为例，将句子分段器、分词器、词性标记器连接。

def ie_preprocess(document):
    # nltk 默认的句子分段器
    sentences = nltk.sent_tokenize(document)
    # nltk默认分词器
    sentences = [nltk.word_tokenize(sent) for sent in sentences]
    # nltk默认词性标记
    sentences = [nltk.pos_tag(sent) for sent in sentences]

2、词块划分

词块划分是实体识别的基础技术，对多个词的顺序进行划分和标记。

如Noun Phrase Chunking（名词短语词块划分）

使用正则表达式来定义一个语法，来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是，不是确定每个单词的正确单词性标记，而是根据每个单词的单词性标记，确定正确的单词块标记。

# 使用一元标注器建立一个词块划分器。根据每个词的词性标记，尝试确定正确的词块标记。
class UnigramChunker(nltk.ChunkParserI):
    # constructor
    def __init__(self, train_sents):
        # 将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组（word，tag，chunk）的列表
        train_data = [[(t, c) for w, t, c in nltk.chunk.tree2conlltags(sent)]
                      for sent in train_sents]
        # 训练一元分块器
        # self.tagger = nltk.UnigramTagger(train_data)
        # 训练二元分块器
        self.tagger = nltk.BigramTagger(train_data)
 
    # sentence为一个已标注的句子
    def parse(self, sentence):
        # 提取词性标记
        pos_tags = [pos for (word, pos) in sentence]
        # 使用标注器为词性标记 标注IOB词块
        tagged_pos_tags = self.tagger.tag(pos_tags)
        # 提取词块标记
        chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]
        # 将词块标记与原句组合
        conlltags = [(word, pos, chunktag) for ((word, pos), chunktag)
                     in zip(sentence, chunktags)]
        # 转换成词块树
        return nltk.chunk.conlltags2tree(conlltags)

看完上述内容是否对您有帮助呢？如果还想对相关知识有进一步的了解或阅读更多相关文章，请关注创新互联行业资讯频道，感谢您对创新互联的支持。

本文名称：怎么在python中提取文本信息
浏览地址：http://chengdu.cdxwcx.cn/article/jjphds.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

怎么在python中提取文本信息

Python主要用来做什么

其他资讯

Python隐藏功能有哪些

MHA的搭建

Jboss怎么修改配置JSP实时刷新

python调用函数中的数组的方法

JavaScript中怎么通过focus()方法获取焦点

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

怎么在python中提取文本信息

Python主要用来做什么

其他资讯

Python隐藏功能有哪些

MHA的搭建

Jboss怎么修改配置JSP实时刷新

python调用函数中的数组的方法

JavaScript中怎么通过focus()方法获取焦点

成都网站建设设计将想法与焦点和您一起共享