IP属地:北京
今年四月份做了关于elmo复现和微调方面的工作。近期在内部和凤巢做了两次关于elmo的分享,感觉大家对这个模型较为陌生,发现其中有些细节和经验值...
从应用落地的角度来说,bert虽然效果好,但有一个短板就是预训练模型太大,预测时间在平均在300ms以上(一条数据),无法满足业务需求。知识蒸馏...
这篇文章讲讲谷歌大脑团队和 CMU 联合推出的 QANet模型,QAnet是SQUAD排行榜2018年3月份排名第一的模型。既然有Bert,为什...
最近在内部技术分享会上发现大家对Bert实践中的问题比较感兴趣,疑问点主要集中在,Bert机器资源代价昂贵,如何用较小成本(金钱和时间)把Ber...
Google发布的论文《Pre-training of Deep Bidirectional Transformers for Language...