维特比算法实现词性标注


s代表句子,w代表句子中的单词,z代表单词的词性。推导式中用了一些基本的概率公式,有些地方简写了。对于维特比与HMM的概念就不再赘述。
python代码主要分为三步来实现:
1、对数据进行处理;
2、计算HMM三元组的PI、A、B;
3、维特比算法的实现。
数据集可联系私发,代码如下:

#整理数据集
tag2id,id2tag = {},{}
word2id,id2word = {},{}
res = []
for line in open('dataset.txt','r', encoding='UTF-8'):
    temp = line.rstrip().split("/")
    if len(temp)==2:
        word, tag = temp[0], temp[1]
        if word not in word2id:
            word2id[word] = len(word2id)
            id2word[len(id2word)] = word
        if tag not in tag2id:
            tag2id[tag] = len(tag2id)
            id2tag[len(id2tag)] = tag
M = len(word2id)
N = len(tag2id)


#计算PI 、A、B
import numpy as np
PI = np.zeros(N) #初始矩阵;每个词性出现在句首的概率
A = np.zeros((N,M)) #发射矩阵;A[i][j]:给定tag[i] 出现单词j的概率
B = np.zeros((N,N)) #状态转移矩阵;B[i][j]:从前一状态i转移到当前状态j的概率
pre_tag = ""
for line in open("dataset.txt","r",encoding='UTF-8'):
    items = line.rstrip().split("/")
    wordid,tagid= word2id[items[0]],tag2id[items[1]]
    if pre_tag=="": #意味着句子的开始
        PI[tagid] += 1 #先计算出现的次数
        A[tagid][wordid] += 1
    else: #如果不是句子的开头
        A[tagid][wordid] += 1
        B[tag2id[pre_tag]][tagid] += 1
    if items[0] in ["。","!","?"]: #下一个单词是新句子的开始
        pre_tag = ""
    else:
        pre_tag = items[1]

# 把频次转成概率
PI = PI/sum(PI)
for i in range(N):
    A[i] /= sum(A[i])
    B[i] /= sum(B[i])  #到此为止计算完了各个参数

#计算log值,防止出现log0
def log(ele):
    if ele == 0:
        return np.log(ele + 0.000001)
    return np.log(ele)

#利用前向最大匹配进行分词
def forwardMaxMatch(strng):
    dict = [x for x in word2id.keys()]
    result = []
    while len(strng):
        maxlength = 5 if len(strng)>=5 else len(strng)
        sub = strng[:maxlength]
        while sub not in dict and len(sub)>1:
            sub = sub[:len(sub)-1]
        result.append(sub)
        strng = strng[len(sub):]
    return "/".join(result)

#重头戏:利用维特比进行词性标注
def vertebi(x):
    x = forwardMaxMatch(x).split("/")
    res = [word2id[word] for word in x]
    T = len(res)
    ptr = np.zeros((T,N),dtype=int) #定义一个维特比篱笆网,存放下标,故指定为整型
    dp = np.zeros((T,N))
    for j in range(N):  #从前往后计算,所以要首先填充第一列
        dp[0][j] = log(PI[j])+log(A[j][res[0]]) #第一个tag是PI[j]的概率 + 词性是A[j]的情况下是单词x[0]的概率
    for i in range(1,T):  #每个单词
        for j in range(N):  #每个词性
            """"
            dp[i][j],ptr[i][j] = max(dp[i-1][k] + log(B[k][j]) + log(A[j][res[i]],k) for k in range(N))   
            这一行可代替下面六行        
            """
            dp[i][j] = -9999999999
            for k in range(N): #从前一项的每一个k可达到当前的词性j
                scores = dp[i-1][k] + log(B[k][j]) + log(A[j][res[i]]) #前一列的第k个转移过来的概率+状态转移概率(k->j)+词性为A[j]时单词正好为x[i]的概率
                if scores > dp[i][j]:
                    dp[i][j] = scores
                    ptr[i][j] = k #填充篱笆网络  当前最好路径是从k过来的
    # 把最好的tag sequence打印出来(从后到前)
    best_seq= [0]*T #找出篱笆网络最后一列中最大的值得下标
    best_seq[T-1] = np.argmax(dp[T-1])
    for i in range(T-2,-1,-1): #从后往前其次求出每个单词的词性
        best_seq[i]=ptr[i+1][best_seq[i+1]]
    result = []
    for i in range(len(best_seq)):
        result.append(x[i]+'/'+id2tag[best_seq[i]]+" ")
    return "".join(result)

sentence = input("请输入您想要进行词性标注的句子:")
print(vertebi(sentence))
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,376评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,126评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,966评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,432评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,519评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,792评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,933评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,701评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,143评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,488评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,626评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,292评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,896评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,742评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,324评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,494评论 2 348

推荐阅读更多精彩内容

  • 不知从什么时候开始,整句识别成为了拼音输入法的标配,几乎每一款输入法都有整句输入功能。重码量巨大的拼音输入也因此逐...
    罗立青阅读 2,461评论 0 7
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,166评论 1 25
  • 算法技术解构 1、Python基础知识 (1)IPythonIPython的开发者吸收了标准解释器的基本概念,在此...
    shenciyou阅读 5,280评论 0 10
  • 词性(part-of-speech)是词汇基本的语法属性,通常也称为词类。词性标注就是在给定句子中判定每个词的语法...
    吕不韦阅读 12,531评论 0 4
  • 自动化构建,代码混淆压缩,站点资源优化,打包重复的任务等已成为前端开发者们必不可少的一项技能,不仅能提高我们开发效...
    果汁凉茶丶阅读 395评论 0 3