有哪些Python库可以帮你轻松的进行自然语言预处理

今天就跟大家聊聊有关有哪些Python库可以帮你轻松的进行自然语言预处理，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

成都创新互联公司专注于企业全网营销推广、网站重做改版、永年网站定制设计、自适应品牌网站建设、H5场景定制、成都做商城网站、集团公司官网建设、成都外贸网站建设、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为永年等各大城市提供网站开发制作服务。

自然语言处理是比较广泛的研究领域之一。许多大公司在这个领域投资很大。NLP为公司提供了机会，让他们能够根据消费者的情绪和文本很好地了解他们。NLP的一些最佳用例是检测假电子邮件、对假新闻进行分类、情感分析、预测你的下一个单词、自动更正、聊天机器人、个人助理等等。

解决任何NLP任务前要知道的7个术语

标记：它是将整个文本分割成小标记的过程。占卜是根据句子和单词两个基础来完成的。

text = "Hello there, how are you doing today? The weather is great today. python is awsome"  ##sentece tokenize (Separated by sentence)  ['Hello there, how are you doing today?', 'The weather is great today.', 'python is awsome']  ##word tokenizer (Separated by words)  ['Hello', 'there', ',', 'how', 'are', 'you', 'doing', 'today', '?', 'The', 'weather', 'is', 'great', 'today', '.','python', 'is', 'awsome']

停止词：一般来说，这些词不会给句子增加太多的意义。在NLP中，我们删除了所有的停止词，因为它们对分析数据不重要。英语中总共有179个停止词。

词干提取：它是通过去掉后缀和前缀将一个单词还原为词根的过程。

词形还原：它的工作原理与词干法相同，但关键的区别是它返回一个有意义的单词。主要是开发聊天机器人、问答机器人、文本预测等。

WordNet：它是英语语言名词、动词、形容词和副词的词汇数据库或词典，这些词被分组为专门为自然语言处理设计的集合。

词性标注：它是将一个句子转换为一个元组列表的过程。每个元组都有一个形式(单词、标记)。这里的标签表示该单词是名词、形容词还是动词等等。

text = 'An sincerity so extremity he additions.'  --------------------------------  ('An', 'DT'), ('sincerity', 'NN'), ('so', 'RB'), ('extremity', 'NN'), ('he', 'PRP'), ('additions', 'VBZ')]

词袋：它是一个将文本转换成某种数字表示的过程。比如独热编码等。

sent1 = he is a good boy  sent2 = she is a good girl  |  |  girl good boy  sent1 0 1 1  sent2 1 0 1

现在，让我们回到我们的主题，看看可以帮助您轻松预处理数据的库。

NLTK

毫无疑问，它是自然语言处理最好和使用最多的库之一。NLTK是自然语言工具包的缩写。由Steven Bird 和Edward Loper开发的。它带有许多内置的模块，用于标记化、词元化、词干化、解析、分块和词性标记。它提供超过50个语料库和词汇资源。

安装:pip install nltk

让我们使用NLTK对给定的文本执行预处理

import nltk #nltk.download('punkt') from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem import PorterStemmer import re ps = PorterStemmer() text = 'Hello there,how are you doing today? I am Learning Python.' text = re.sub("[^a-zA-Z0-9]"," ",text) text = word_tokenize(text) text_with_no_stopwords = [ps.stem(word) for word in text if word not in stopwords.words('english')] text = " ".join(text_with_no_stopwords) text -----------------------------------------------OUTPUT------------------------------------ 'hello today I learn python'

TextBlob

Textblob是一个简化的文本处理库。它提供了一个简单的API，用于执行常见的NLP任务，如词性标记、情感分析、分类、翻译等。

安装:pip install textblob

spacy

这是python中最好用的自然语言处理库之一，它是用cpython编写的。它提供了一些预训练的统计模型，并支持多达49种以上的语言进行标记化。它以卷积神经网络为特征，用于标记、解析和命名实体识别。

安装:pip install spacy

import spacy nlp = spacy.load('en_core_web_sm') text = "I am Learning Python Nowdays" text2 = nlp(text) for token in text2: print(token,token.idx) ------------------------------OUTPUT----------------------- I 0 am 2 Learning 5 Python 14 Nowdays 21

Gensim

它是一个Python库，专门用于识别两个文档之间的语义相似性。它使用向量空间建模和主题建模工具包来寻找文档之间的相似之处。它是设计用来处理大型文本语料库的算法。

安装:pip install gensim

CoreNLP

Stanford CoreNLP的目标是简化对一段文本应用不同语言工具的过程。这个库运行速度非常快，并且在开发中工作得很好。

安装:pip install stanford-corenlp

看完上述内容，你们对有哪些Python库可以帮你轻松的进行自然语言预处理有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注创新互联行业资讯频道，感谢大家的支持。

标题名称：有哪些Python库可以帮你轻松的进行自然语言预处理
网站网址：http://chengdu.cdxwcx.cn/article/jpgdis.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

有哪些Python库可以帮你轻松的进行自然语言预处理

NLTK

TextBlob

spacy

Gensim

CoreNLP

其他资讯

高手们都用什么牌子的VPS？（香港VPS如何购买？）

网站架设对于SEO的影响

如何更改WordPress字体大小、颜色及优化

动漫剪辑接单网站设计

winrar32位和62位哪个比较好？（windowsrar64）

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

有哪些Python库可以帮你轻松的进行自然语言预处理

NLTK

TextBlob

spacy

Gensim

CoreNLP

其他资讯

高手们都用什么牌子的VPS？（香港VPS如何购买？）

网站架设对于SEO的影响

如何更改WordPress字体大小、颜色及优化

动漫剪辑接单网站设计

winrar32位和62位哪个比较好？（windowsrar64）

成都网站建设设计将想法与焦点和您一起共享