为什么要用趋势检验
在客观世界存在各种各样随时间变动的数据,很多时候我们都想要知道数据变化随时间的发展趋势如何,常用的方式是我们使用回归的参数方法拟合出一条直线,然后判断其趋势。这样的方法往往受多方面的因素影响,比如单调的趋势不一定是线性的,也不一定能有一个显函数来表达。其次参数检验的方法受限于数据量,有时候我们得到的数据很少,不适合做回归等参数方法。比如当我们开发的APP上线新功能,我们需要在短时间内判断其是否带来用户的增长,流量的增长,以便做出相应的策略;或者当出现某种疫情的时候,我们迫切希望了解到疫情是否得到控制等...... Cox和Stuart提出的基于符号检验的非参数方法就能有效的解决之一问题
举个例子说明
以下是天津机场从1995年1月到2003年12月的108个月旅客吞吐量数据
光从数字和趋势图看,我们能否说这个趋势是增长还是减少,还是都不明显呢,似乎是增长,但是又不总是增长。
对此我们可以做如下处理
step1 做出假设
step2 取数据对
(X1,X1+c)... (X(n-c),Xn)
这里 当n为偶数 c=n/2 ; 当n为奇数 c= (n+1)/2
step3 计算符号
计算 Dt = Xt -X(t+c)
计算 S+ (Dt为正)和 S-(Dt为负) 的个数
显然,当无趋势时 S+ 或S- 服从p=0.5 的二项分布,如果S+大,则可能存在下降趋势。
所以有该检验的统计量如下:
Scala 版本
import breeze.stats.distributions._
import scala.collection.mutable.ListBuffer
/**
* 计算二项分布的分布函数
* @param binomial
* @param n
* @return
*/
def pbinom(binomial: Binomial, n: Int) = {
var p = 0.0
if (n >= binomial.n) {
p = 1
} else {
for (i <- 0 to n) {
p += binomial.probabilityOf(i)
}
}
p
}
/**
* CoxStuart趋势检验
* @param timeSeries
* @param AlternativeHypothesis
* @return
*/
def CoxStuart(timeSeries: Seq[Double],
AlternativeHypothesis: String = hypothesis.GROWTHREND) = {
val length = timeSeries.length
val ts = if (length % 2 != 0) {
timeSeries.drop(length / 2 + 1)
} else timeSeries
val pre = ts.slice(0, ts.length / 2)
val pro = ts.slice(ts.length / 2, ts.length)
val sign = new ListBuffer[Double]()
for (i <- 0 until length / 2 ) {
sign.append(pre(i) - pro(i))
}
val spositive = sign.count(_ > 0)
val snagtive = sign.count(_ < 0)
def min(n: Int, g: Int) = {
if (n > g) g else n
}
val binomial = Binomial((length / 2), 0.5)
val p = AlternativeHypothesis.toUpperCase match {
case "REDUCETREND" => pbinom(binomial, snagtive)
case "NOTREND" => pbinom(binomial, min(snagtive, spositive)) * 2
case _ => pbinom(binomial, spositive)
}
coxstuer((ts.length / 2), spositive, snagtive, p)
}
val source: BufferedSource = Source.fromFile("TJAir.csv")
val data = source.getLines().map(_.toDouble)
val coxstuer1 = CoxSturt(data.toSeq)
println("p-value =" + coxstuer1.pvalue)
Scala 算法得出 p-value = 0.004536670169793693
R 语言版本
#数据加载
TJair <- read_csv("TJAir.csv")
#绘制趋势图
plot(TJair$TJair,type = "l")
# cox_stuert 趋势检验
# 假设检验
#h0:无趋势 ,h1:上升趋势
len <- length(TJair$TJair)
clen <-if(len%%2 == 0){
len/2
} else{
(len+1)/2
}
pvcont <- TJair$TJair
D <- pvcont[1:clen] - pvcont[(clen+1):len]
## 符号计算
spositive <- sum(sign(D) == 1)
snegative <- sum(sign(D) == -1)
## 结果检验
pbinom(spositive,clen,0.5)
pbinom(spositive,54,0.5)
[1] 0.00453667
R语言 计算结果 p-value = 0.00453667
参考资料:《非参数统计》第四版 吴喜之 赵博娟