词向量
重点在于把符号数字化,nlp中最直观的方法是one-hot representation,每个词表示为一个向量,长度为词表大小,只有一个维度值为1.优点在于,如果采用稀疏方式存储很简洁。编程实现可以用hash表给每个词分配编号,搭配上最大熵、SVM、CRF等很好用了。缺点:词汇鸿沟。
一般采用的词向量是distributed representation,表示低维实数向量。维度常见50维和100维。可以让相关或相似的词,距离上更接近,用欧氏距离或者cos夹角测量。
词向量训练
最经典:C&W 2008、M&H 2008、Mikolov 2010
语言模型,判断一句话是不是通顺。