假设检验中样本容量的选取（理论解读）

一、背景

本文主要讨论已知方差的单个正态总体均值 $\mu$ 的假设检验原理，力求通过可视化方法来帮助学生理解假设检验的整体流程和基本理论知识。

[这里需要补一个例子]

二、公式推导（如不喜欢数学，看图和粗体部分即可）

下面以方差已知的单个正态总体的单边检验为例进行说明。

2.1 显著性假设检验（用于拒绝 $H_0$）

已知某随机变量 $X$ 服从正态分布 $X\sim N(\mu,\sigma^2)$，其均值 $\mu$ 未知，方差为 $\sigma^2$ 已知，希望判断总体 $X$ 的均值 $\mu$ 是否大于目标均值 $\mu_0$，故提出以下假设：

$$ $$

为此，从总体中随机抽取 $n$ 个样本，其均值记为 $\overline{X}$，并定义统计 $Z$：

\[ Z=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}} \]

当 $H_0$ 成立时，不妨设总体均值 $\mu=\mu_0$（如果总体均值比 $\mu_0$ 更小，则更拒绝原假设的概率会更小），根据正态分布的线性性质（见附录），此时统计量 $Z$ 服从标准正态分布：

\[ Z=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1) \]

那么，

1）当统计量 $Z$ 的实际观测值 $z>Z_{1-\alpha}$ 时，做出拒绝原假设的判断，此时犯第Ⅰ类错误的概率不会超过 $\alpha$（弃真：总体均值确实小于等于 $\mu_0$，但却拒绝了原假设的概率，参考下图）。这里，临界值 $Z_{1-\alpha}=\Phi^{-1}(1-\alpha)$，是正态分布的反函数值，即 $Z> Z_{1-\alpha}$ 的概率小于 $\alpha$，其中 $\Phi(z)=P\{Z\leqslant z\}$ 是正态分布的分布函数。

2）当统计量的实际观测值 $z\leqslant Z_{1-\alpha}$ 时，则只能得出不能拒绝原假设的判断，而不能说接受原假设，因为我们并没有控制犯第Ⅱ类错误的概率 $\beta$（取伪：总体均值确实大于 $\mu_0$，但却接受了原假设）。

综上，显著性假设检验的功能是：通过样本观察值判断是否能推翻原假设，而不能用于证明原假设的成立。要想做出接受原假设的判断，则需要更多的信息（犯第Ⅱ类错误的概率 $\beta$ 越小，所需要的样本量 $n$ 就越大）。

2.2 控制犯第Ⅱ类错误的概率（用于接受 $H_0$）

当 $H_1$ 成立时，$\mu=\mu_0+\delta,\,\delta>0$：

\[ \frac{\overline{X}-(\mu_0+\delta)}{\sigma/\sqrt{n}}=Z-\frac{\delta}{\sigma/\sqrt{n}}\sim N(0,1) \]

此时统计量 $Z=\dfrac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}$，这时 $Z\sim {\color{blue}N\left(\dfrac{\delta}{\sigma/\sqrt{n}},1\right)}$。

hypothetical_test_2

为控制犯第Ⅱ类错误的概率不超过 $\beta$，即实际观测值落在接受域中的概率小于 $\beta$：

\[ P\{z\leqslant Z_{1-\alpha}\}=P\{z-\frac{\delta}{\sigma/\sqrt{n}}\leqslant Z_{1-\alpha}-\frac{\delta}{\sigma/\sqrt{n}}\}=\Phi\left(Z_{1-\alpha}-\frac{\delta}{\sigma/\sqrt{n}}\right)<\beta \]

即，

$$ \[\begin{align} Z_{1-\alpha}-\frac{\delta}{\sigma/\sqrt{n}}&<Z_\beta=-Z_{1-\beta} \\ &\Downarrow\\ Z_{1-\alpha}+Z_{1-\beta}&<\frac{\delta}{\sigma/\sqrt{n}}\\ &\Downarrow\\ {\color{blue}\sqrt{n}}&{\color{blue}>\frac{\sigma}{\delta}(Z_{1-\alpha}+Z_{1-\beta}):\sim:\frac{\text{离散度}}{\text{分辨率}}(\text{可靠性})} \end{align}\] $$

所以，要想同时控制犯两种错误的概率足够小，就需要足够多的样本量。观察上式右边：

分母 $\delta$ 是备择假设均值与原假设均值的差，可理解为检验的分辨率、检验精度，越精细的分辨率就需要越多的样本量。例如，分辨率提高一个数量级（$\delta\rightarrow\delta/10$），样本量需要提升两个数量级（平方关系）；
分子中的 $\sigma$ 是总体标准差，可理解为总体的离散度、集中度，总体越分散所需的样本量就越多。
分子中的 $Z_{1-\alpha}+Z_{1-\beta}$ 是两类错误对应的临界值之和，可理解为可靠性，越高的可靠性需要的样本也越多（这里没有使用“置信”是由于在显著性假设检验中其用于置信水平）。

因此，当统计量的实际观测值 $z\leqslant Z_{1-\alpha}$ 时，就可以说有足够的证据支持接受原假设了，这时犯错概率小于 $\beta$。

2.3 统计功效

为判断一个检验法的性能，下面引出功效函数。

对于一个检验问题：

\[ H_0:\theta\in\Theta_0 \quad \text{vs} \quad H_1:\theta\in\Theta_1 \]

其的拒绝域为 $W$，则统计量 $Z$ 落在拒绝域 $W$ 内的概率，称为该检验的势函数或功效函数：

\[ g(\theta)=P_\theta\{z\in W\} \]

当 $H_0$ 成立时，$g(\theta)=\alpha$ 为犯第Ⅰ类错误的概率；当 $H_1$ 成立时，$1-g(\theta)=\beta$ 为犯第Ⅱ类错误的概率。

[待补充：给出图例，说明如何看图，哪部分面积越小越好]

三、推广

[一般情况下的假设检验思路——中心极限定理的重要意义]

四、总结

[注意事项]

如何确定 A/B 测试所需的样本量

附录

【正态分布的线性性质】对于 $n$ 个相互独立且服从正态分布的随机变量 $X_i\sim N(\mu_i,\sigma_i^2)$，它们的线性和 $X:=a_1X_1+a_2X_2+\cdots+a_nX_n$ 仍服从正态分布，且 $E(X)=\mu:=a_1\mu_1+a_2\mu_2+\cdots+a_n\mu_n$，$D(X)=\sigma^2:=a_1^2\sigma_1^2+a_2^2\sigma_2^2+\cdots+a_n^2\sigma_n^2$，即 $X\sim N(\mu,\sigma^2)$。注意：相互独立这一条件是必要的，不可缺少。