IP属地:海南
好好活着,死后还不知道要走什么鬼路
PageRank 算法计算每一个网页的 PageRank 值,然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者,上网者...
文本预处理 (1)分句 替换\n (2)分词 jiabe jiagu,hanlp,pkuseg (3)取出标点 ,.?""; (4)...
LDA解释:假如有一篇文章text,通过里面的词,来确定他是什么类型的文章,如果文章中出现很多体育类的词,比如,篮球,足球之类的,那么主题模型就...
关系抽取需要从文本中抽取两个或多个实体之间的语义关系,主要方法有下面几类: 基于模板的方法(hand-written patterns) 基于触...
命名实体识别(Named EntitiesRecognition,NER)是自然语言处理的一个基础任务。其目的是识别语料中人名、地名、组...
基本概念 语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中,Cor...
离散表示 One-hot One-hot表示很容易理解。在一个语料库中,给每个字/词编码一个索引,根据索引进行one-hot表示。 John l...
文本数据的基本体征提取 词汇数量 (理由:负面情绪评论含有词语数量比正面情绪评论多) 字符数量 (理由:负面情绪评论含有词语数量比正面情绪评论多...