coherence-based label propagation over time series for accelerated active learning

时间序列数据普遍存在,但缺乏标签被认为是时间序列数据广泛适用性的障碍。同时,主动学习已被成功地应用于减少各种任务中的标记努力。因此,本文研究了一个重要的问题——时间序列主动学习。受时间序列数据中的时间一致性(连续数据点往往具有相同的标签)的启发,我们的标签传播框架(称为TCLP)自动将一个查询标签分配给精确估计的时间序列段中的数据点,从而显著提高单个查询的影响。与传统的时间序列主动学习相比,TCLP在整个时间序列中只有0.8%的数据点查询其标签时,其分类精度提高了7.1倍。

背景:时间序列点级水平

1)主动学习(Settles, 2009),一种迭代选择最有信息的数据点并向用户查询其标签的方法,可以减少高标签成本。然而,大多数主动学习方法并不适用于时间序列数据,因为它们假设数据点相互独立,在时间序列数据中显然不是这样。

2)时间序列数据具有典型的时间相干特性;也就是说,时间上连续的数据点往往具有相同的标签。片段的这种时间一致性可以在时间序列主动学习中加以利用。当某个数据点的标签从一个用户处获得时,可以将相同的标签传播到同一段的其他数据点上。这里的一个挑战是,区段长度是未知的,但需要估计。

3)如果太短,就会发出不必要的频繁查询;如果太长,则段边缘的数据点会被错误标记,从而损害学习性能(如分类精度)。因此,对片段的准确估计对于使标签传播以最少的查询数量获得最大的学习性能是很重要的

现有工作:

之前最接近我们的工作是在单时间戳监督学习中的伪标记,每个段中至少有一个数据点的标签是已知的。在他们的工作中,必须知道一个段的近似位置和真实类别,这在现实世界中往往是不切实际的。此外,已知标签在单时间戳监督学习中相对密集,而在主动学习中则非常稀疏

方案:

本文提出了一种基于时间相干标签传播(TCLP)的框架来解决时间序列主动学习中的标签传播段估计问题。TCLP从分类器模型接收每个数据点标签的类概率(即softmax输出),并估计传播标签的段的范围。由于分类器模型输出是不确定的,时间序列段是未知的。TCLP通过二次平台模型利用时间一致性来应对这一挑战,将其拟合到分类器模型输出中,以平滑连续数据点上类概率的波动。在主动学习中,寻找片段之间的边界比单时间戳监督学习更具挑战性。为了应对标记数据点的稀疏性,TCLP通过利用温度缩放(Guo et al., 2017)和平台正则化进行稀疏性感知的标签传播

总结 :要解决两个问题  一个标签边界问题,另一个是标签稀疏问题

框架

Label propagation

给定一个时间戳tq的数据点及其标签(xtq, ytq),根据其时间相干性准则估计,TCLP将标签ytq分配给时间戳范围中附近的数据点[ts: te] (ts≤tq≤te) 。我们称[ts: te]中的数据点的子序列为tq处的估计段。


对预测的片段的概率分布

分段估计完成后,将估计段(即[ts: te])中的所有数据点从DU中移除,并以ytq作为标签添加到DL中,从而进行基于一致性的标签传播。

PLATEAU MODEL FOR SEGMENT ESTIMATION(为什么要提出这样的方法)

由于时间序列数据中存在噪声,模型的输出概率在分段内不是恒定的。因此,寻找线段的一种自然方法是将平台模型与分类器模型的输出进行拟合,并将概率为1的平台置于一个估计线段中。(不理解这种设置的目标是什么)




After a model is fitted through enough rounds,the plateau is located at the center of a true segment and its width covers most of the true segment.最终,平台模型准确地代表了时间序列中的真实片段


SPARSITY-AWARE LABEL PROPAGATION

1)Balancing the class skewness


OVERALL ACTIVE LEARNING PROCEDURE WITH TCLP


使用DL, TCLP训练分类器模型fθ0,通过使用分类器模型fθr推断数据点(行2)形成校准。然后,在每个主动学习轮r, TCLP首先对softmax输出进行缩放,然后初始化一组新的平台模型Hr(行4)。将上一轮中Hr 1中的每个高原模型拟合到缩放后的输出中,然后将更新后的高原模型添加到Hr中(第6行)。然后将查询到的时间戳标签初始化新的高原模型(第7行),并将其添加到Hr中(第8行)。对Hr中任何重叠的平台进行调整,合并为一个或减少,以避免必要的重叠(第9行)。最后,查询的标签跟随Hr中的平台模型(第10行)传播,分类器模型fθr使用增强标记集DL(第11行)进行重新训练。

EVALUATION




©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容