本文共 802 字,大约阅读时间需要 2 分钟。
SAX(符号聚合近似)是一种用于时间序列数据处理的方法,通过符号化和降维将复杂的时间序列转换为一组有限符号的序列,便于分析和检索。
SAX通过两步处理将时间序列转换为符号序列:
分段均值表示(Piecewise Aggregate Approximation, PAA)
首先将时间序列按一定规则分段,并对每个分段计算均值,减少数据的维度。符号化(Symbolization)
将每个分段的均值映射为一组离散符号(如字母 a、b、c),以表示每个分段的区间位置。通过这两步,SAX能够压缩原始时间序列为符号序列,同时保留其全局趋势特性,使数据在符号空间中便于比较。
假设输入一个时间序列 ( T = (t_1, t_2, \dots, t_n) ),长度为 ( n ),目标是将其转换为符号序列 ( S = (s_1, s_2, \dots, s_w) ),长度为 ( w )。
为了消除不同时间序列在幅度上的差异,首先对时间序列进行标准化,使其均值为 0,标量范围缩放到适当范围(如 [-1, 1] 或 [0, 1])。
将标准化后的时间序列按一定步长分段(如固定的窗口大小或动态调整窗口),对每个分段计算均值,得到一组均值值。
将每个均值值映射为离散符号,例如:
最终得到一组符号序列 ( S )。
SAX是一种高效的时间序列处理方法,能够将复杂的连续数据压缩为有限符号序列,便于后续分析和检索。
转载地址:http://lgpfk.baihongyu.com/