假定总体分布的具体形式未知,而是从样本数据本身来获得所需信息,对总体分布的类型和位置进行检验,这称为非参数假设检验

1. 符号检验

<aside> 📖 **符号检验(Sign Test)**是一种利用正负号的数目对某种假设作出判定的非参数检验方法。

<aside> 📖 基本思想

  1. 将总体数据分成 $n_+$ 和 $n_-$
  2. 在原假设成立和独立抽样的前提下,$n_+$ 和 $n_-$ 都是一个n重伯努利试验
  3. 因此,$n_+$ 和 $n_-$ 不能太大,也不能太小,否则就有理由拒绝原假设
  4. 由于 $n_+$ 和 $n_-$ 互补,所以我们考虑其中之一即可,实际应用中选择 $n_+$ 进行检验。 </aside>

<aside> 💡 临界值检验法

计算 $n_+$ 的两个临界值 $c_1,c_2$,使得最大的 $c_1$和最小的 $c_2$满足:

$$ \begin{aligned} P\{n_+\leq c_1\}\leq\frac\alpha2 \\ P\{n_+\geq c_2\}\leq\frac\alpha2\end{aligned} $$

2. K-S检验

<aside> 📖 柯尔莫哥洛夫-斯米尔诺夫检验 (Kolmogorov-Smirnov test)

是一种基于累计分布函数的非参数检验,用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。

</aside>

<aside> 📖 基本思想

通过比较$D_n$ 和 $D_{n,\alpha}$ 来判断是否拒绝 $H_0$

<aside> 〰️ 经验分布函数$F_n$

$$ F_n(x)=\frac{\text{number of (element in the sample} \leq x\text{)}}{n} $$

</aside>

<aside> 〰️ 检验统计量 $D_n$

$$ D_n=\sup_x{|F_n(x)-F(x)|} $$

$F(x)$ 是理想分布函数

Use supremum instead of maximum since there can be functions on open intervals.

</aside>

<aside> 〰️ Critical Value $D_{n,\alpha}$

Untitled

</aside>

</aside>

3. 秩和检验

<aside> 📖 秩和检验 (Wilcoxon Rank-Sum)

一种简单实用的双总体非参检验方法

</aside>

<aside> 📖 基本思想

若原假设 $H_0$ 成立,我们将两总体的$n_1+n_2$ 观察值放在一起,按从小到大的顺序排列:

<aside> 📖

样本数据的秩是指该数据在混合排列后的序号

</aside>

  1. $R_1,R_2$分别代表属于 $X,Y$ 的样本数据的秩和
  2. 假设 $n_1\leq n_2$,取 $T=R_1$ 作为统计量
  3. 临界值 $T_1,T_2$ 查表得到

Untitled

</aside>

<aside> 📖 大样本逼近

当两样本容量较大时,秩和检验统计量近似服从正态分布,其中

则 $U=\frac{T-\mu}{\sigma}\sim\mathbf{N}(0,1)$

所以秩和检验的拒绝域为 $|U|>z_{\alpha/2}$

</aside>

4. 卡方非参检验

<aside> 📖 基本思想

考察经验频数与理论频数偏离程度的指标

$$ \chi^2=\sum\frac{(E_i-T_i)^2}{T_i} $$

  1. 经验频数 $E_i$ 和依据某种分布假设或者独立假设所期望的次数(称为理论频数 $T_i$ )的偏差平方除以理论频数
  2. 再将这个比值相加求得一个 $\chi^2$ 统计量
  3. 当 $n$ 充分大时,此 $\chi^2$ 统计量服从一个卡方分布(皮尔逊定理) </aside>

4.1 卡方拟合优度检验

<aside> 📖 卡方拟合优度检验 (Chi-Square Goodness-of-fit Test)

根据具有明显分类特征的样本数据来判断样本所属的总体分布与某一假定分布是否有显著差异,所谓假定分布可以是我们熟悉的理论分布,如正态分布、泊松分布等,也可以是任何设定的分布。

</aside>

<aside> 📖 基本思想

  1. 根据总体信息进行分类,假设为k类:

    $A_1,…,A_k$

  2. 根据假定分布计算每个分类的概率:

    $P(A_i)=p_i,~i=1,…,k$

  3. 抽样并观察k个类出现的频数 $n_1,…,n_k$

  4. 计算检验统计量:

    $\chi^2=\sum^k_{i=1}\frac{(n_i-np_i)^2}{np_i}=\sum^k_{i=1}\frac{n_i^2}{np_i}-n$

若包含未知参数,则求得最大似然估计值后再求得估计值 $\hat{p_i}$

  1. 拒绝域:

    $\chi^2\geq\chi^2_\alpha(k-r-1)$

<aside> 📖 皮尔逊定理

若 $n$ 充分大(大于等于50),则当原假设为真时,统计量近似服从 $\chi^2(k-r-1)$ 分布,其中 $r$ 是被估计的参数的个数。

</aside>

</aside>

4.2 卡方独立性检验

<aside> 📖 卡方独立检验

利用列联表检验随机变量间是否存在关系

</aside>