pytorch的一些操作

取出标签对应的样本特征

第一种操作

samples = torch.randn(6,3)
labels = torch.tensor([1,1,0,0,0,1])
# 取出label 是1 的数据
mask = labels == 1
samples[mask]
image.png

第二种操作

samples = torch.randn(6,3)
print(samples)

labels = torch.tensor([1,1,0,0,0,1])
print(labels)

# 取出标签为1
index = torch.eq(labels,1)
index = index.nonzero()[:,0]
print(index)
result = torch.index_select(samples, 0, index)
print(result)
image.png

取出预测置信度大于预测置信度阈值的数据

all_output = torch.randn(5,3)
all_output = torch.nn.Softmax(dim=1)(all_output)
max_prob, predict = torch.max(all_output, 1)
print(max_prob, predict)
print((max_prob > 0.5))
select_sample_index = torch.squeeze((max_prob > 0.5).nonzero(), dim=1)
print(select_sample_index)  # 这就是预测置信度大于阈值的数据索引
image.png

取出预测置信度大于熵阈值的数据

logits = torch.randn(5,3)
softmax_logits = torch.softmax(logits, dim=1)
print(softmax_logits)
entropy = -1.0 * ((1e-8 + softmax_logits) * torch.log(softmax_logits + 1e-8)).sum(dim=1)
print(entropy)
select_sample_index = torch.squeeze((entropy < 1).nonzero(), dim=1)
print(select_sample_index)
image.png

torch.Tensor.index_add_函数

  • 用途:比如数据样本中,相同标签的样本特征加在一起
import torch
# 五个类别,样本特征长度是3
x = torch.ones(5, 3)
# 现在有四个样本,样本特征长度是3
t = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]], dtype=torch.float)
index = torch.tensor([0, 2, 4, 2])
new_x = x.index_add(0, index, t) 

t 的第 0 行加到X的第 0 行[1, 2, 3] + 1 = 【2,3,4】
t 的第 1 行加到X的第 2 行[4, 5, 6]+1 = 【5,6,7】
t 的第 2 行加到X的第 4 行[7, 8, 9]+1 = 【8,9,10】
t 的第 3 行加到X的第 2 行 [10, 11, 12] + 【5,6,7】 = 【15, 17, 19】

image.png

样本选择。 对于token级别的任务,我们只有token级别的伪标签。在进行高质量数据选择时, 我们通常需要选择句子级别的样本。因此,我们可以计算一个句子中高质量token 占句子token的比例,比例越高,表明句子质量越好。

    def entropy_select_for_token_task(self, logits, activate):
        """
        :param logits:  batch * seq_length * label_num
        :param activate:  batch * seq_length
        :return: 句子级别的索引
        """
        # 取出activate的 token
        selected_logits = logits[activate == 1, :]   #  valid_token * num_class
        # 计算这些token 的预测熵
        entropy = -torch.sum(selected_logits * torch.log(selected_logits), dim=-1, keepdim=True).squeeze()
        # 取出符合条件的token
        select_token_index = torch.squeeze((entropy < self.entropy_threshold).nonzero(), dim=1)
        # 记录每个句子中有效token的数量
        valid_count = torch.sum(activate == 1, dim=1, keepdim=True).squeeze()
        # 计算符合条件的token 在句子中所占的比例
        valid_token_ratios = []
        start = 0
        for size in valid_count:
            end = start + size
            subset = select_token_index[(select_token_index >= start) & (select_token_index < end)]
            ratio = len(subset) / size
            valid_token_ratios.append(ratio.item())
            start = end

        valid_token_ratios = torch.tensor(valid_token_ratios).to(self.device)
        # 只有当一个句子中的有效token 超过一定的比例,我们才选择
        select_sentence_index = torch.squeeze((valid_token_ratios > self.sentence_threshold).nonzero(), dim=1)

        # 如果选择之后的样本数量为0
        if select_sentence_index.shape[0] == 0:
            self.print('注意:筛选的阈值过小,导致没有样本符合条件!!! 返回有效样本比例最高的一半样本!!!')
            # 取出 比例最好的一半的句子
            _, sort_index = torch.sort(valid_token_ratios, dim=0, descending=True)
            select_sentence_index = sort_index[:valid_token_ratios.shape[0] // 2]

        return select_sentence_index
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351

推荐阅读更多精彩内容