240 发简信
IP属地:陕西
  • Resize,w 360,h 240
    Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning

    背景:基于大规模的语言模型。在pretrain-fineTuning两阶段的范式下,pretrain 阶段,数据量较大,学习到的知识泛化能力较强...

  • Match2: A matching over Matching Model for Similar Question Identification

    任务背景:社区问答中,识别用户相似的问题。主要应用在两个产品中。1是,当用户提问时,需要一段时间后,才会有反馈。此时,可以给用户推荐相似问题的已...

  • Resize,w 360,h 240
    Multi-Sample Dropout

    1. 模型结构 orginal dropout : 对单个样本,进行单次drop out。 2. 思想 stacking方法中的子模型。事实...

  • Resize,w 360,h 240
    drop-out在有监督任务上的应用—Rdrop

    场景:有监督模型中,利用dropout的方式,增强模型的泛化能力。 drop-out在无监督学习上的应用 :用于对比学习。同个query,dro...

  • Resize,w 360,h 240
    ERNIE

    主题:根据额外的信息输入(实体),增强语言表征能力。利用大规模的文本语料库以及KG图,训练得到一个增强的语言表示模型。 问题:将额外的知识加入语...

  • 降噪自动编码器(Denoising AutoEncoder)+BERT

    背景:随着科技发展。出现处理更多的高维数据,比如图像、语音。1)传统的统计学-机器学习方法:由于数据维度过高,数据单调,噪声分布广,传统的特征工...

  • Pytorch中的DataLoader, DataSet, Sampler

    DataLoader: 数据的迭代器,数据是model直接可用的格式。分成一个个的batch。 DataSet : 根据索引,拿到数据后。对数据...

  • Resize,w 360,h 240
    python3+pytorch+horovod 安装

    最近研究poly-encoder ,用的是pytorch 进行的开发。在代码优化时,调研到torch本身的DataParallel实现,在效率上...

  • Resize,w 360,h 240
    lambdaMART-1.GBDT

    boosting思想:叠加多个弱模型,渐进的逼近真实情况。问题在于:如何保证拟合方向正确,如何叠加弱模型的结果。 问题: 以什么目标学习下一棵树...