对命名实体识别任务(NER)进行数据增强,不像对分类任务容易,其主要原因它是序列标注任务,识别是token级别。一些常见的方法,如随机删除或替换词,词序替换等,都会很容易改变...
对命名实体识别任务(NER)进行数据增强,不像对分类任务容易,其主要原因它是序列标注任务,识别是token级别。一些常见的方法,如随机删除或替换词,词序替换等,都会很容易改变...
1、研究出发点 本次分享一篇有关embedding的文章,来自2021年ACL的paper《Modeling Fine-Grained Entity Types with B...
@小苏打gogo 欢迎~
如何利用Bert处理长文本1 前言 预训练模型Bert能处理最大序列长度为512,当面对长文本(文档级别)时候,通常是采用text truncation或者sliding window方式,让输入模型...
Introduction 今天分享一篇来自2021年NIPS会议的paper:Improving Contrastive Learning on Imbalanced See...
1 前言 关于关系抽取(三元组抽取)的方法有很多,传统的方法采用pipeline方法——先识别文本中所有实体,然后在对识别的实体对遍历判断关系类别,这类方法存在传播误差的缺陷...
前言 这两年对比学习是一个研究热点,今年的ACL会议有16篇关于对比学习的paper,今天分享其中的一篇——基于语义负样本的对比学习来提升自然语言理解(CLINE: Cont...
@Indigo_9128 是自己训练的
sentencepiece原理与实践1 前言 前段时间在看到XLNET,Transformer-XL等预训练模式时,看到源代码都用到sentencepiece模型,当时不清楚。经过这段时间实践和应用,觉得这个方...
1 前言 在NLP领域中,数据增强(data augmentation)已成为解决样本不平衡( data imbalance)或训练数据不足等问题一种有效技术。尽管通过数据增...
前言 命名实体识别(Named Entity Recognition,NER)一直是NLP中最主流,也是最基础的任务之一。尽管传统的机器学习方法(HMM,CRF等),到现在的...
@虞舜 意思是第l个指标是否预测正确
大规模文本多元标签分类(XML-CNN)1.前言 今天分享一篇大规模文本多元标签分类的paper(XML-CNN),论文标题为:Deep Learning for Extreme Multi-label Text ...
1 前言 在自然语言处理工作(NLP)中,会遇到这样的一个应用问题:如何挖掘文本中某一关键词的语义相似词或近义词?解决该问题的办法很多,比如使用近义词词库进行匹配,或检索词语...
1 前言 预训练模型Bert能处理最大序列长度为512,当面对长文本(文档级别)时候,通常是采用text truncation或者sliding window方式,让输入模型...
在2021年AAAI会议接受的论文中,有11篇是关于文本分类任务的,比我想象中的少,或许这个方向真的被研究透。因与笔者工作项目相关,自己还是将11篇论文大致过了一篇,其中几篇...
在前几期分享中,提到focal_loss,dice_loss,它们都可以解决样本不平衡性的问题。虽然paper上实验结果都验证了其效果,但在自己的数据场景下表现究竟如何。带着...
1 前言 今天分享一种利用Dice Loss来解决NLP任务中样本不平衡性问题的方法,该思路来自2020年ACL会议一篇paper《Dice Loss for Data-im...
AI守望者为您推送今日科技资讯简报: 1.物理学恐被颠覆:科学家在「最后的尝试」中发现未知粒子存在的证据[http://mp.weixin.qq.com/s?__biz=Mz...
AI守望者为您推送今日科技资讯简报: 1.为什么都2021年了,汽车还在用五年前手机上的芯片?[http://mp.weixin.qq.com/s?__biz=MzA3MzI...
AI守望者为您推送今日科技资讯简报: 1.所有判决被推翻,美最高法院:Java版权世纪大案,谷歌战胜甲骨文[http://mp.weixin.qq.com/s?__biz=M...