创新互联Python教程：Python计算余弦相似度

一、余弦相似度简介

余弦相似度是一种衡量两个向量相似性的方法。在自然语言处理、信息检索、数据挖掘等领域都有广泛应用。

创新互联是一家朝气蓬勃的网站建设公司。公司专注于为企业提供信息化建设解决方案。从事网站开发，网站制作，网站设计，网站模板，微信公众号开发，软件开发，微信小程序开发，十载建站对小搅拌车等多个方面，拥有多年的网站制作经验。

二、余弦相似度计算

余弦相似度计算公式如下：

import numpy as np

def cosine_similarity(vec1, vec2):
    dot_product = np.dot(vec1, vec2)
    norm = np.linalg.norm(vec1) * np.linalg.norm(vec2)
    
    return dot_product / norm

其中，vec1和vec2都是向量，可以是list或numpy.ndarray类型。可以使用numpy.array方法将list类型转换为numpy.ndarray类型。

三、处理文本数据

1. 数据预处理

在进行余弦相似度计算之前，需要对文本进行预处理。一般包括去除停用词、分词等操作。

import jieba
import re

def preprocess_text(text):
    
    # 去除除中文、字母、数字以外的其他字符
    pattern = re.compile('[^\u4e00-\u9fa5^a-z^A-Z^0-9]')
    text = pattern.sub('', text)
    
    # 分词
    seg_list = jieba.cut(text)
    
    # 去除停用词
    stopwords = [line.strip() for line in open('stopwords.txt', 'r', encoding='utf-8').readlines()]
    words = [word for word in seg_list if word not in stopwords]
    
    return words

在此代码中，我们使用了jieba库进行中文分词，同时使用了re库去除了除中文、字母、数字以外的其他字符。

我们将停用词文本文件读入，并在函数内定义了一个stopwords变量存储停用词。然后使用列表推导式去除了停用词。

2. 构建文本向量

将文本转化为向量是余弦相似度计算的基础。我们可以使用词袋模型或TF-IDF算法生成文本向量。

下面是使用词袋模型生成文本向量的代码：

def get_text_vector(text, words_dict):
    text_vector = [0] * len(words_dict)

    for word in text:
        if word in words_dict:
            text_vector[words_dict[word]]+= 1

    return np.array(text_vector)

其中，输入参数words_dict为一个词典，用于存储每一个单词对应的序列索引。

下面是使用TF-IDF算法生成文本向量的代码：

from sklearn.feature_extraction.text import TfidfVectorizer

def get_tfidf_vector(text_list):
    tfidf_vectorizer = TfidfVectorizer(tokenizer=lambda x: x, preprocessor=lambda x: x)
    tfidf_vectorizer.fit(text_list)
    tfidf_vector = tfidf_vectorizer.transform(text_list)

    return tfidf_vector.toarray()

TF-IDF算法可以帮助我们区分文本中重要和不重要的单词，并将其转换为一个向量。这个向量表示文本中每个单词在整个语料库中的重要性。

四、应用实例

现在，我们尝试使用余弦相似度来进行文本相似性匹配。

docs = ['我喜欢打篮球', '打篮球真是太好玩了', '毛泽东是中国伟大的领袖']
words_dict = {}
text_matrix = []

for i, doc in enumerate(docs):
    words = preprocess_text(doc)
    text_matrix.append(words)
    
    for word in words:
        if word not in words_dict:
            words_dict[word] = len(words_dict)

doc_vectors = []

for words in text_matrix:
    doc_vectors.append(get_text_vector(words, words_dict))

score_matrix = np.zeros((len(docs), len(docs)))

for i in range(len(docs)):
    for j in range(len(docs)):
        score = cosine_similarity(doc_vectors[i], doc_vectors[j])
        score_matrix[i][j] = score

print(score_matrix)

在这个示例中，我们有三个文本，即'我喜欢打篮球'、'打篮球真是太好玩了'和'毛泽东是中国伟大的领袖'。首先，我们定义了一个words_dict字典，存储了每一个单词对应的序列索引。然后，我们使用preprocess_text方法对每一个文本进行预处理，生成一个处理后的列表。接下来，我们使用get_text_vector方法将每一篇文本表示为一个向量，并将这些向量储存在doc_vectors列表中。最后，我们使用cosine_similarity方法计算每一篇文本之间的余弦相似度，并将得分维护在score_matrix矩阵中。

五、总结

余弦相似度是一种常用的文本相似性度量方法，在自然语言处理、信息检索、数据挖掘等领域都有重要的应用。在实现余弦相似度计算时，需要进行文本预处理、文本向量构建和余弦相似度计算。实际应用时，可以根据需求选择不同的文本向量构建方法，比如词袋模型或TF-IDF算法。

网站栏目：创新互联Python教程：Python计算余弦相似度
转载注明：https://chengdu.cdxwcx.cn/article/cocidsd.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

创新互联Python教程：Python计算余弦相似度

一、余弦相似度简介

二、余弦相似度计算

三、处理文本数据

1. 数据预处理

2. 构建文本向量

四、应用实例

五、总结

其他资讯

Oracle数据库重新启动的方法

如何用excel画图?excel作图教程

phpjson

Kubernetes研究：网络原理及方案（网络原理基础经典版）

详解LinuxCgroup

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

创新互联Python教程：Python计算余弦相似度

一、余弦相似度简介

二、余弦相似度计算

三、处理文本数据

1. 数据预处理

2. 构建文本向量

四、应用实例

五、总结

其他资讯

Oracle数据库重新启动的方法

如何用excel画图?excel作图教程

phpjson

Kubernetes研究：网络原理及方案（网络原理基础经典版）

详解LinuxCgroup

成都网站建设设计将想法与焦点和您一起共享