文本相似度判断

今天开源社区技术小伙伴问到，如何判断2个论文或者文章相似度。然后随便了解了一下，记一下笔记

文章相似度对比属于NLP（自然语言处理）入门基础知识，涉及到的算法和思路如下

思路

1. 分词

即将两篇文章中涉及到的句子拆分为单词或词组

2. 清洗

将获得的单词，词组去掉停用词 (停用词比如符号，吗，呀，的)等没有意义的字或者词

3. 计算权重

通过清洗完成后的词，计算词在文章中出现的比重，即比重越高，则表示该词出现的频率越高

4. 计算相似度

有了2遍文章各自词的权重后，通过余弦相似度算法计算相似度

算法

涉及到的算法有如下

1. 分词算法

分词算法采用的是jieba分词，将句子分为单词

2. 计算权重

权重算法采用TF-IDF

TF-IDF是一种用于资讯检索与文本挖掘的常用加权技术，主要思想：如果一个单词在该文章中出现的频率(TF)高，并且在其它文章中出现频率很低，则认为该单词具有很好的区分能力，适合用来进行分类。

词频(Term Frequency)表示单词在该文章中出现的频率。

词频(TF) = 单词在该文章出现次数/当前文章总单词数

词频(TF)

反问档频率(Inverse Document Frequency)表示某一个特定单词IDF可以由总文章数除以包含该单词的文章数，再将得到的商取对数得到。如果包含该单词的文章越少，则IDF越大，则表明该单词具有很好的文章区分能力。

反问档频率(IDF) = log(语料库中文章总数/(包含该单词的文章数+1))
在这里插入图片描述

IDF

TF-IDF与一个词在文档中的出现次数成正比，与包含该词的文档数成反比。

有了IDF的定义，我们就可以计算某一个词语的TF-IDF值:
TF-IDF(x)=TF(x)*IDF(x),其中TF(x)指单词x在当前文章中的词频。
在这里插入图片描述

TF-IDF

TF-IDF算法的优点：简单快速，结果比较符合实际情况。
TF-IDF算法的缺点：单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）
TF-IDF的应用场景：TF-IDF算法可用来提取文档的关键词，关键词在文本聚类、文本分类、文献检索、自动文摘等方面有着重要应用。

2. 相似度算法

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。
相似性范围从-1到1：

-1意味着两个向量指向的方向正好截然相反
1表示它们的指向是完全相同的
0通常表示它们之间是独立的，而在这之间的值则表示中间的相似性或相异性。

最常见的应用就是计算文本相似度

测试代码如下

# encoding=utf-8
import jieba
from scipy import spatial
from sklearn.feature_extraction.text import TfidfVectorizer

def cut(txt_name1, txt_name2):
    with open(txt_name1, encoding = 'utf-8') as f1:  # 以只读方式打开文件
        txt = f1.read()
        txt_encode = txt.encode('utf-8')
        txt_cut = jieba.cut(txt_encode)  # 切词
        result = ' '.join(txt_cut)
        # print(result)
    with open(txt_name2, "w",encoding="utf-8") as f2:  # 分词结果写入文件保存
        f2.write(result)
    f1.close()
    f2.close()


cut(r"D:\python\test\nlp_test00.txt", r"D:\python\test\nlp_test0_0.txt")  # 分别对文件调用cut方法分词
cut(r"D:\python\test\nlp_test11.txt", r"D:\python\test\nlp_test1_1.txt")

# 将停用词表从文件读出，并切分成一个数组备用
stopWords_dic = open(r'D:\python\test\chineseStopWords.txt', encoding='utf-8')  # 从文件中读入停用词
stopWords_content = stopWords_dic.read()
stopWords_list = stopWords_content.splitlines()  # 转为list备用
stopWords_dic.close()

with open(r"D:\python\test\nlp_test0_0.txt",  encoding='utf-8') as f3:
    res3 = f3.read()
with open(r"D:\python\test\nlp_test1_1.txt", encoding='utf-8') as f4:
    res4 = f4.read()

corpus = [res3, res4]
# print(corpus)
vector = TfidfVectorizer(stop_words=stopWords_list)
tf_idf = vector.fit_transform(corpus)
# print(tf_idf)

word_list = vector.get_feature_names_out()  # 获取词袋模型的所有词
weight_list = tf_idf.toarray()

# 打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重
for i in range(len(weight_list)):
    print("-------第", i + 1, "段文本的词语tf-idf权重------")
    for j in range(len(word_list)):
        print(word_list[j], weight_list[i][j])

# 采用余弦相似度算法
def cosine_cal(v1, v2):
    cos_sim = 1 - spatial.distance.cosine(v1, v2)
    return cos_sim

## 判断2个tf-idf词语权重相似度
result= cosine_cal(weight_list[0],weight_list[1])
#相似度0到1之间
print(result)

chineseStopWords.txt 是停用词文档
nlp_test00.txt和nlp_test11.txt 分别是需要判刑的文章

运行结果如图 result 则是文本相似度

1686292660919.png

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,324评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,356评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,328评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,147评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,160评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,115评论 1赞 296
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,025评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,867评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,307评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,528评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,688评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,409评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,001评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,657评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,811评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,685评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,573评论 2赞 353