240 发简信
IP属地:海南
  • 存在的意义

    好好活着,死后还不知道要走什么鬼路

  • pagerank

    PageRank 算法计算每一个网页的 PageRank 值,然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者,上网者...

  • tf_idf 使用流程

    文本预处理 (1)分句 替换\n (2)分词 jiabe jiagu,hanlp,pkuseg (3)取出标点 ,.?""; (4)...

  • Resize,w 360,h 240
    7 LDA

    LDA解释:假如有一篇文章text,通过里面的词,来确定他是什么类型的文章,如果文章中出现很多体育类的词,比如,篮球,足球之类的,那么主题模型就...

  • Resize,w 360,h 240
    2 关系提取技术

    关系抽取需要从文本中抽取两个或多个实体之间的语义关系,主要方法有下面几类: 基于模板的方法(hand-written patterns) 基于触...

  • Resize,w 360,h 240
    1 实体提取技术

    命名实体识别(Named EntitiesRecognition,NER)是自然语言处理的一个基础任务。其目的是识别语料中人名、地名、组...

  • 6文本表示代码

    基本概念 语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中,Cor...

  • Resize,w 360,h 240
    5 文本表示

    离散表示 One-hot One-hot表示很容易理解。在一个语料库中,给每个字/词编码一个索引,根据索引进行one-hot表示。 John l...

  • 4.文本预处理

    文本数据的基本体征提取 词汇数量 (理由:负面情绪评论含有词语数量比正面情绪评论多) 字符数量 (理由:负面情绪评论含有词语数量比正面情绪评论多...