时间序列数据普遍存在,但缺乏标签被认为是时间序列数据广泛适用性的障碍。同时,主动学习已被成功地应用于减少各种任务中的标记努力。因此,本文研究了一个重要的问题——时间序列主动学习。受时间序列数据中的时间一致性(连续数据点往往具有相同的标签)的启发,我们的标签传播框架(称为TCLP)自动将一个查询标签分配给精确估计的时间序列段中的数据点,从而显著提高单个查询的影响。与传统的时间序列主动学习相比,TCLP在整个时间序列中只有0.8%的数据点查询其标签时,其分类精度提高了7.1倍。
背景:时间序列点级水平
1)主动学习(Settles, 2009),一种迭代选择最有信息的数据点并向用户查询其标签的方法,可以减少高标签成本。然而,大多数主动学习方法并不适用于时间序列数据,因为它们假设数据点相互独立,在时间序列数据中显然不是这样。
2)时间序列数据具有典型的时间相干特性;也就是说,时间上连续的数据点往往具有相同的标签。片段的这种时间一致性可以在时间序列主动学习中加以利用。当某个数据点的标签从一个用户处获得时,可以将相同的标签传播到同一段的其他数据点上。这里的一个挑战是,区段长度是未知的,但需要估计。
3)如果太短,就会发出不必要的频繁查询;如果太长,则段边缘的数据点会被错误标记,从而损害学习性能(如分类精度)。因此,对片段的准确估计对于使标签传播以最少的查询数量获得最大的学习性能是很重要的
现有工作:
之前最接近我们的工作是在单时间戳监督学习中的伪标记,每个段中至少有一个数据点的标签是已知的。在他们的工作中,必须知道一个段的近似位置和真实类别,这在现实世界中往往是不切实际的。此外,已知标签在单时间戳监督学习中相对密集,而在主动学习中则非常稀疏
方案:
本文提出了一种基于时间相干标签传播(TCLP)的框架来解决时间序列主动学习中的标签传播段估计问题。TCLP从分类器模型接收每个数据点标签的类概率(即softmax输出),并估计传播标签的段的范围。由于分类器模型输出是不确定的,时间序列段是未知的。TCLP通过二次平台模型利用时间一致性来应对这一挑战,将其拟合到分类器模型输出中,以平滑连续数据点上类概率的波动。在主动学习中,寻找片段之间的边界比单时间戳监督学习更具挑战性。为了应对标记数据点的稀疏性,TCLP通过利用温度缩放(Guo et al., 2017)和平台正则化进行稀疏性感知的标签传播
总结 :要解决两个问题 一个标签边界问题,另一个是标签稀疏问题
框架
Label propagation
给定一个时间戳tq的数据点及其标签(xtq, ytq),根据其时间相干性准则估计,TCLP将标签ytq分配给时间戳范围中附近的数据点[ts: te] (ts≤tq≤te) 。我们称[ts: te]中的数据点的子序列为tq处的估计段。
对预测的片段的概率分布
分段估计完成后,将估计段(即[ts: te])中的所有数据点从DU中移除,并以ytq作为标签添加到DL中,从而进行基于一致性的标签传播。
PLATEAU MODEL FOR SEGMENT ESTIMATION(为什么要提出这样的方法)
由于时间序列数据中存在噪声,模型的输出概率在分段内不是恒定的。因此,寻找线段的一种自然方法是将平台模型与分类器模型的输出进行拟合,并将概率为1的平台置于一个估计线段中。(不理解这种设置的目标是什么)
After a model is fitted through enough rounds,the plateau is located at the center of a true segment and its width covers most of the true segment.最终,平台模型准确地代表了时间序列中的真实片段
SPARSITY-AWARE LABEL PROPAGATION
1)Balancing the class skewness
OVERALL ACTIVE LEARNING PROCEDURE WITH TCLP
使用DL, TCLP训练分类器模型fθ0,通过使用分类器模型fθr推断数据点(行2)形成校准。然后,在每个主动学习轮r, TCLP首先对softmax输出进行缩放,然后初始化一组新的平台模型Hr(行4)。将上一轮中Hr 1中的每个高原模型拟合到缩放后的输出中,然后将更新后的高原模型添加到Hr中(第6行)。然后将查询到的时间戳标签初始化新的高原模型(第7行),并将其添加到Hr中(第8行)。对Hr中任何重叠的平台进行调整,合并为一个或减少,以避免必要的重叠(第9行)。最后,查询的标签跟随Hr中的平台模型(第10行)传播,分类器模型fθr使用增强标记集DL(第11行)进行重新训练。
EVALUATION