今天开源社区技术小伙伴问到,如何判断2个论文或者文章相似度。然后随便了解了一下,记一下笔记
文章相似度对比属于NLP(自然语言处理)入门基础知识,涉及到的算法和思路如下
思路
1. 分词
即将两篇文章中涉及到的句子拆分为单词或词组
2. 清洗
将获得的单词,词组去掉停用词 (停用词比如符号,吗,呀,的)等没有意义的字或者词
3. 计算权重
通过清洗完成后的词,计算词在文章中出现的比重,即比重越高,则表示该词出现的频率越高
4. 计算相似度
有了2遍文章各自词的权重后,通过余弦相似度算法计算相似度
算法
涉及到的算法有如下
1. 分词算法
分词算法采用的是jieba分词,将句子分为单词
2. 计算权重
权重算法采用TF-IDF
TF-IDF是一种用于资讯检索与文本挖掘的常用加权技术,主要思想:如果一个单词在该文章中出现的频率(TF)高,并且在其它文章中出现频率很低,则认为该单词具有很好的区分能力,适合用来进行分类。
词频(Term Frequency)表示单词在该文章中出现的频率。
词频(TF) = 单词在该文章出现次数/当前文章总单词数
反问档频率(Inverse Document Frequency)表示某一个特定单词IDF可以由总文章数除以包含该单词的文章数,再将得到的商取对数得到。如果包含该单词的文章越少,则IDF越大,则表明该单词具有很好的文章区分能力。
反问档频率(IDF) = log(语料库中文章总数/(包含该单词的文章数+1))
在这里插入图片描述
TF-IDF与一个词在文档中的出现次数成正比, 与包含该词的文档数成反比。
有了IDF的定义,我们就可以计算某一个词语的TF-IDF值:
TF-IDF(x)=TF(x)*IDF(x),其中TF(x)指单词x在当前文章中的词频。
在这里插入图片描述
TF-IDF算法的优点:简单快速,结果比较符合实际情况。
TF-IDF算法的缺点:单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)
TF-IDF的应用场景:TF-IDF算法可用来提取文档的关键词,关键词在文本聚类、文本分类、文献检索、自动文摘等方面有着重要应用。
2. 相似度算法
余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。
相似性范围从-1到1:
- -1意味着两个向量指向的方向正好截然相反
- 1表示它们的指向是完全相同的
- 0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。
最常见的应用就是计算文本相似度
测试代码如下
# encoding=utf-8
import jieba
from scipy import spatial
from sklearn.feature_extraction.text import TfidfVectorizer
def cut(txt_name1, txt_name2):
with open(txt_name1, encoding = 'utf-8') as f1: # 以只读方式打开文件
txt = f1.read()
txt_encode = txt.encode('utf-8')
txt_cut = jieba.cut(txt_encode) # 切词
result = ' '.join(txt_cut)
# print(result)
with open(txt_name2, "w",encoding="utf-8") as f2: # 分词结果写入文件保存
f2.write(result)
f1.close()
f2.close()
cut(r"D:\python\test\nlp_test00.txt", r"D:\python\test\nlp_test0_0.txt") # 分别对文件调用cut方法分词
cut(r"D:\python\test\nlp_test11.txt", r"D:\python\test\nlp_test1_1.txt")
# 将停用词表从文件读出,并切分成一个数组备用
stopWords_dic = open(r'D:\python\test\chineseStopWords.txt', encoding='utf-8') # 从文件中读入停用词
stopWords_content = stopWords_dic.read()
stopWords_list = stopWords_content.splitlines() # 转为list备用
stopWords_dic.close()
with open(r"D:\python\test\nlp_test0_0.txt", encoding='utf-8') as f3:
res3 = f3.read()
with open(r"D:\python\test\nlp_test1_1.txt", encoding='utf-8') as f4:
res4 = f4.read()
corpus = [res3, res4]
# print(corpus)
vector = TfidfVectorizer(stop_words=stopWords_list)
tf_idf = vector.fit_transform(corpus)
# print(tf_idf)
word_list = vector.get_feature_names_out() # 获取词袋模型的所有词
weight_list = tf_idf.toarray()
# 打印每类文本的tf-idf词语权重,第一个for遍历所有文本,第二个for便利某一类文本下的词语权重
for i in range(len(weight_list)):
print("-------第", i + 1, "段文本的词语tf-idf权重------")
for j in range(len(word_list)):
print(word_list[j], weight_list[i][j])
# 采用余弦相似度算法
def cosine_cal(v1, v2):
cos_sim = 1 - spatial.distance.cosine(v1, v2)
return cos_sim
## 判断2个tf-idf词语权重相似度
result= cosine_cal(weight_list[0],weight_list[1])
#相似度0到1之间
print(result)
chineseStopWords.txt 是停用词文档
nlp_test00.txt和nlp_test11.txt 分别是需要判刑的文章
运行结果如图 result 则是文本相似度