240 发简信
IP属地:北京
  • Resize,w 360,h 240
    学习笔记-n-gram中的平滑方法

    在n-gram语言模型中,一些词语的组合没有在语料中出现过,所以其统计概率会为0,但是这是不合理的。所以需要使用平滑方式调整概率值。平滑的基本思...

  • glove-论文阅读

    glove全称是Global Vectors for Word Representation,它是基于全局词频统计的词表征工具,他可以将一个单词...

  • Resize,w 360,h 240
    学习笔记-word2vec

    在nlp的世界里,词向量占据了重要的位置,它分布式的表示了单词的语义信息,大幅度的提升了下游任务的效果。 Word2vec根据预测词的方式包括两...

  • Resize,w 360,h 240
    学习笔记-简单概念记录

    语言模型:衡量一句话是句子的概率假设有句子,根据语言模型计算s的概率为通常还使用n-gram语言模型计算句子概率 1-gram语言模型(uni-...

  • Resize,w 360,h 240
    学习笔记-数据预处理

    看到一篇数据预处理很全面的文章,所以将链接贴了过来 //www.greatytc.com/p/37e529c8baa9 对上述文章的补...

  • Resize,w 360,h 240
    XGBoost: A Scalable Tree Boosting System 阅读笔记

    摘要 提升树广泛应用于机器学习的各个领域,在这篇论文中,提出了一个新的提升树方式。 1. 介绍 论文的创新点共一下四点: We design a...

  • Resize,w 360,h 240
    学习笔记-XGBOOST

    XGBOOST是GBDT模型的升级版,同样也用到了adboosting的思想 一 预备知识 XGBOOST是前向加法模型,那么有公式:设表示第n...

  • Resize,w 360,h 240
    FromWord Embeddings To Document Distances-阅读

    文本相似度是自然语言处理研究热点之一,论文提出了一种新的衡量文本相似度的方法,Word Mover’s Distance (WMD)。此方法利用...

  • Resize,w 360,h 240
    学习笔记-随机森林、提升树、GBDT

    在之前的章节里,学习了集成学习的两个代表方式:bagging和boosting,现在来看如果将bagging和boosting运用在决策树中。 ...