1.统计特征
对时间序列进行统计分析是最容易想到的特征提取方法,这里包括的特征有:
:均值、标准差、极值、分位数、尖峰个数、缺失个数、偏差等等;
:自相关性、周期性、趋势(斜率)、频率、随机噪音等等。
2. 维度特征
维度特征是提取时间序列在时间维度上的信息,包括:
:持续时间(比如:单页面浏览时长)、时间间隔(比如:上次购买、距离现在购买的时间)
:
小时级特征:哪个时间段(0-24)
天级特征:一周中的星期几、工作日、周末、法定假日
星期级特征:一个月中的第几个星期、一年中哪个星期
月份级的特征:第几个月份
3. 窗口特征
将时间序列在时间轴上划分窗口是一个常用且有效的方法,包括滑动窗口(根据指定的单位长度来框住时间序列,每次滑动一个单位),与滚动窗口(根据指定的单位长度来框住时间序列,每次滑动窗口长度的多个单位)。窗口分析对平滑噪声或粗糙的数据非常有用,比如移动平均法等,这种方式结合基础的统计方法,即按照时间的顺序对每一个时间段的数据进行统计,从而可以得到每个时间段内目标所体现的特征,进而从连续的时间片段中,通过对同一特征在不同时间维度下的分析,得到数据整体的变化趋势。
4.基于神经网络的特征工程
这种方式通常特征的解释性差,但效果好。一般来说,训练好的网络中间层输出可以被当做特征,例如自编码器模型 “Encoder-Decoder”,如果输入输出是时间序列的话, Encoder 的输出可以当做一个输入被“压缩”的向量,那么当网络效果得还不错的时候,可以简单看做这个向量具备了这个时序的特征。
5.字典特征(BoP)
字典方法旨在将时间序列通过变换,找到划分的阈值,进而将每个时序实值划分开,对应到某个字母表中。其通过滑动窗提取不同“单词”的出现频率,作为分类依据。这种方法的优势在于速度很快,而且抗噪效果好,缺点在于会损失很多有效的时序信息,只能进行粗粒度的时序分类分析。
6.降维转换特征
与高维空间转换特征相反,提取时间序列的降维特征常出现在多维时间序列分析方面,其主要是更快捕捉复杂时间序列中的主要特征,提高分析效率与速度,包括主成分分析(PCA),tSNE,张量分解等等,可以帮助我们从相关因素的角度来理解时间序列。
7.高阶特征
若有更多的信息,我们是可以利用多个特征进行融合,比如,我有门店开业时长,平均营业额,门店销售方差等等,可以利用这些信息聚类。理由是:把类别标签,作为一个特征,相同的类别,理应具有相似的曲线,具有相似特性的数据,生成相同的数据特征。
当然有读者肯定有疑问了,聚类是无监督学习,事先无法知道聚类的个数,这里建议使用一点经验值,或者使用聚类的评估指标,如果轮廓系数,得到一个较为可靠的类别数。
时间序列中的特征Embedding
时间序列建模的时间戳与时序特征衍生思路 (qq.com)
k-shape时间序列聚类(tslearn)_fitzgerald0的博客-CSDN博客_k-shape
时间序列树模型特征工程汇总fitzgerald0的博客-CSDN博客序列特征 树模型