泰尔森估算是通过选择通过成对点的所有线的斜率的中值来稳健地将线拟合到平面中的采样点(简单线性回归)的方法。 它也被称为Sen的斜率估计,斜率选择,单中值方法,Kendall鲁棒线拟合方法,和Kendall-Theil鲁棒线。
泰尔森估算(英文:Theil–Sen estimator)是通过选择通过成对点的所有线的斜率的中值来稳健地将线拟合到平面中的采样点(简单线性回归)的方法。 它也被称为 Sen 的斜率估计,斜率选择,单中值方法,Kendall 鲁棒线拟合方法,和 Kendall-Theil 鲁棒线。 它以 Henri Theil 和 Pranab K. Sen 命名,他们分别在 1950 年和 1968 年以及 Maurice Kendall 之后发表了关于这种方法的论文。
该估计器可以有效地计算,并且对异常值不敏感。 对于偏斜和异方差数据,它可以比非鲁棒简单线性回归明显更准确,并且就统计功效而言,即使对于正态分布的数据也能很好地与非鲁棒最小二乘法竞争。它被称为“用于估计线性趋势的最流行的非参数技术”。
根据 Theil(1950)的定义,一组二维点
的 Theil-Sen 估计量是由所有样本对确定的斜率的中值 m
。点。 Sen(1968)扩展了这个定义来处理两个数据点具有相同 x 坐标的情况。在 Sen 的定义中,人们只采用仅具有不同 x 坐标的点对定义的斜率的中值。
一旦确定了斜率 m,就可以通过将 y 截距 b 设置为值 yi-mxi 的中值来确定来自采样点的线。正如 Sen 观察到的那样,这个估计量是使得 Kendall tau 秩相关系数比较 xi 的值与第 i 次观测的残差的值近似为零。
斜率估计的置信区间可以被确定为包含由点对确定的线的中间 95%的斜率的区间,并且可以通过采样点对并且确定采样的 95%间隔来快速估计。连续下坡。根据模拟,大约 600 个样本对足以确定准确的置信区间。
Theil-Sen 估计量的变化,Siegel(1982)的重复中值回归,确定每个样本点
,通过斜率的中间 mi
那一点,然后将整体估计量确定为这些中位数的中位数。它可以容忍比 Theil-Sen 估计器更多的异常值,但用于计算它的已知算法较慢。
不同的变体通过其 x 坐标的等级(具有最小坐标的点与中间坐标上方的第一点配对等)将样本点配对,并计算由这些对确定的线的斜率的中值。分数。
基于加权中值的 Theil-Sen 估计量的变化也已经被研究,基于 x 坐标差异更大的样本对更可能具有准确的斜率并因此应该获得更高权重的原则。
对于季节性数据,通过仅考虑属于同一个月或一年中同一季节的样本点对,并找出由下面确定的线的斜率的中值,可以适当地平滑数据中的季节性变化。这种限制性更强的一对。