240 发简信
IP属地:上海
  • Resize,w 360,h 240
    mmoe

    参考文献:https://blog.csdn.net/leon_winter/article/details/104314441 主要是多任务学...

  • Resize,w 360,h 240
    esmm

    参考文献: https://guyuecanhui.github.io/2019/11/09/paper-2018-ali-esmm/ http...

  • Resize,w 360,h 240
    lstm的梯度消失现象

    参考文献:https://www.zhihu.com/question/34878706?sort=created “LSTM 能解决梯度消失/...

  • Resize,w 360,h 240
    transformer-知识点综合

    参考链接: https://github.com/DA-southampton/NLP_ability/blob/master/%E6%B7%B...

  • Resize,w 360,h 240
    知识蒸馏-简单

    参考文献: https://github.com/DA-southampton/NLP_ability/blob/master/%E6%B7%B...

  • bert的trick理解-其他问题

    参考文献://www.greatytc.com/p/63943ffe2bab https://zhuanlan.zhihu.com/p...

  • albert-相对于bert的改进点

    参考文献: https://zhuanlan.zhihu.com/p/87562926 https://blog.csdn.net/weixin...

  • bert的trick理解-损失函数的理解

    参考文献://www.greatytc.com/p/63943ffe2bab MLM:在 encoder 的输出上添加一个分类层,用嵌...

  • bert的trick理解-双向的理解

    参考链接: https://www.zhihu.com/question/322034410/answer/794201004 elmo通过双向...