240 发简信
IP属地:北京
  • 关于ELMo你不知道的一些细节

    今年四月份做了关于elmo复现和微调方面的工作。近期在内部和凤巢做了两次关于elmo的分享,感觉大家对这个模型较为陌生,发现其中有些细节和经验值...

  • Resize,w 360,h 240
    语义表示模型新方向《DistillBert》

    从应用落地的角度来说,bert虽然效果好,但有一个短板就是预训练模型太大,预测时间在平均在300ms以上(一条数据),无法满足业务需求。知识蒸馏...

  • 从QANet看自然语言处理如何"炫技"

    这篇文章讲讲谷歌大脑团队和 CMU 联合推出的 QANet模型,QAnet是SQUAD排行榜2018年3月份排名第一的模型。既然有Bert,为什...

  • BERT实战(源码分析+踩坑)

    最近在内部技术分享会上发现大家对Bert实践中的问题比较感兴趣,疑问点主要集中在,Bert机器资源代价昂贵,如何用较小成本(金钱和时间)把Ber...

  • Resize,w 360,h 240
    NLP突破性成果 BERT 模型详细解读

    Google发布的论文《Pre-training of Deep Bidirectional Transformers for Language...

个人介绍
每一个不曾起舞的日子,都是对生命的辜负。