线性回归

MIT Open Course

  • MIT 14.387 (Applied Econometrics: Mostly Harmless Big Data)

https://ocw.mit.edu/courses/14-387-applied-econometrics-mostly-harmless-big-data-fall-2014/

  • MIT 14.382 (Econometrics)

https://ocw.mit.edu/courses/14-382-econometrics-spring-2017/

Least Square Regression

Conditional Expectation

定义条件期望 $E[X \mid Y]$

离散形式: $$ E[X \mid Y] = \sum_{i} E[X \mid Y=y_i] \cdot P(Y=y_i) $$

Law of total expection $$ E[Y] = E[E[Y \mid X]] $$

Tower property $$ E[E[Y \mid X_1, X_2] \mid X_1] = E[Y \mid X_1] $$ 往小的 sigma-代数上投影

Conditional Variance

类似地可以定义条件方差: $$ \text{Var}(Y \mid X) = E[(Y-E[Y\mid X])^2 \mid X] = E[Y^2 \mid X] - (E[Y \mid X])^2 $$ Law of total variance $$ \text{Var}(Y) = E[\text{Var}[Y \mid X]] + \text{Var}[E[Y \mid X]] $$

类似的有条件协方差 $$ \begin{gathered} \text{Cov}(X, Y \mid Z) = E[(X-E[X\mid Z])(Y-E[Y\mid Z])\mid Z]=E[XY \mid Z] - E[X \mid Z] E[Y \mid Z] \\ \text{Cov}(X, Y) = E[\text{Cov}(X, Y \mid Z)] + \text{Cov}(E[X \mid Z], E[Y \mid Z]) \end{gathered} $$

Conditional Expection Function

定义条件期望函数 (CEF) $m(x)=\mathbb{E}[Y \mid X=x]$,它是 $Y$ 的最佳近似: $$ \forall g(X), \quad E[(Y-g(X))^2] \geqslant E[(Y-m(X))^2] $$

Best Linear Predictor

$$ \min S(\beta) := E\left[(Y-X^\prime \beta)^2 \right] $$

最优解为 $\beta=(E[XX^\prime])^{-1} E[XY]$

Projection Matrix

定义 $P=X(X^T X)^{-1}X^T$ 为矩阵 $X$ 的投影矩阵。成立 $$ PX=X(X^TX)^{-1} X^T X=X $$ $P$ 是一个将向量投影在 『X 的列向量张成的子空间』的投影算子,也就是说 $\text{Im}(P) = \mathcal{R}(X)$

$P$ 是一个实对称且幂等的矩阵,具有正交分解的表达式,其特征值为 0, 1。如果 $X \subset \mathbb{R}^{m \times k}$ 为列满秩矩阵,那么 $$ \text{tr}(P)=\text{rank} (P)=k $$ 算子 $P$ 的零化子 (annihilator) $M:=I-P$,它将 $P$ 的值域空间映射为零,也就是说 $\text{ker}(M) = \mathcal{R}(X)$,或者说 $\text{Im}(M)=\mathcal{R}(X)^\perp$ .

如果 $Z \in \mathcal{R}(X)$,则 $$ MZ = Z-PZ= O $$ 如果 $X$ 是线性回归 $y=x^\prime \beta+e$ 的数据矩阵,那么 $Py=\hat{y}, \; My=Me=\hat{e}$ 。

特别地,如果 $X=\mathbf{1}=(1, \, 1, \, \dots, \, 1)^\prime$,那么 $$ P_{\mathbf{1}} = \mathbf{1} (\mathbf{1}^\prime \mathbf{1})^{-1} \mathbf{1}^\prime = \frac{1}{n} \mathbf{1} \mathbf{1}^\prime $$ 从而有 $$ P_{\mathbf{1}} y = \frac{1}{n}\mathbf{1} \mathbf{1}^\prime {y} = \mathbf{1} \bar{y} = (\bar{y}, \, \dots, \bar{y})^\prime, \quad M_{\mathbf{1}}y = y-P_{\mathbf{1}}y = (y_1-\bar{y}, \, \dots, \, y_n-\bar{y})^\prime $$

投影矩阵的分解

假设 $[X \; Z]$ 是一个列满秩的分块矩阵,那么 $$ \begin{aligned} P_{[X \;Z]} = P_X + P_{M_X \cdot Z} = P_X + M_XZ(Z^TM_XZ)^{-1} Z^T M_X \end{aligned} $$ 容易验证,此时有 $P_{[X\; Z]}X=X$ 且 $P_{[X\; Z]}Z=Z$ . 这个公式可以这么理解:投影到 $[X \; \; Z]$ 所张成的子空间分为两部分,一部分是投影在 $X$ 上,另一部分是投影在「$Z$ 到 $X$ 的投影」上。

特别地,投影矩阵总是往小的那个子空间进行投影: $$ P_{[X \; Z]} P_{X} = P_X P_{[X \; Z]} = P_X, \quad M_X M_{[X \; Z]} = M_{[X \; Z]} M_X = M_{[X\; Z]} $$

Leverage values

$P$ 的对角线的元素称为 leverage values $$ h_{ii} = X_{i}^\prime (X^\prime X)^{-1} X_i $$

Sherman–Morrison formula

It computes the inverse of a "rank-1 update" to a matrix whose inverse has previously been computed $$ \left(A+u v^{T}\right)^{-1}=A^{-1}-\frac{A^{-1} u v^{T} A^{-1}}{1+v^{T} A^{-1} u} $$

Classic Linear Model

经典的线性模型是建立在几个假设下的:

  • Assumption 1 (Linearity): $y_i = \beta^T x_i +\epsilon_i $ for $i=1, \dots, n$
  • Assumption 2 (Exogenity): $E[\epsilon \mid X]=0$,这意味着 $E[\epsilon]=0, E[\boldsymbol{x}\epsilon] = \boldsymbol{0}$. 这个假设也叫 CIA
  • Assumption 3 (No multicollinearity): $X$ has full column rank.
  • Assumption 4 (Homoskedasticity): $\text{var}(\epsilon \mid X)=\sigma^2 I_n$

在上述假设下,最小化均方误差: $$ \min_{\beta} \; (Y-X\beta)^2 $$ 得到最小二乘解 $\hat\beta=(X^TX)^{-1}X^T Y$ 。

Finite Sample Property

性质(a) OLS是无偏估计量: $$ E[\hat{\beta} \mid X]= (X^T X)^{-1} X^T E[Y \mid X] = (X^T X)^{-1} X^T X\beta=\beta \quad $$

性质(b) OLS估计量的条件方差为: $$ \text{var}(\hat{\beta} \mid X) = ( X^T X )^{−1}X^TDX ( X^TX )^{-1} $$ 其中 $D=E[\epsilon\epsilon^T\mid X] = \text{diag}(\sigma_1^2, \dots, \sigma^2_n)$ .

注意到 $$ \text{var}(\hat{\beta} \mid X) = E[(\hat{\beta}-E[\hat{\beta} \mid X])(\hat{\beta}-E[\hat{\beta} \mid X])^T \mid X] $$ 且 $\hat{\beta} - E[\hat{\beta} \mid X] = \hat{\beta} - \beta = (X^TX)^{-1} X^T \epsilon$,所以 $$ \text{var}(\hat{\beta} \mid X) = (X^T X)^{-1} X^TE[\epsilon \epsilon^T \mid X] X(X^T X)^{-1} $$

若 $D=\sigma^2I \; (\sigma_1^2=\cdots=\sigma_n^2=\sigma^2)$,则 $$ \text{var}(\hat{\beta} \mid X)=\sigma^2(X^T X)^{-1} $$

注: unconditional mean and variance 的存在需要额外的条件 $$ \begin{gathered} E[\hat{\beta}] = E[E[\hat{\beta} \mid X]] = \beta \\ \text{var}(\hat{\beta} \mid X) = \text{var}(E[\hat{\beta} \mid X]) + E[\text{var}(\hat{\beta} \mid X)] = E[( X^T X )^{−1}X^TDX ( X^TX )^{-1}] \end{gathered} $$

性质(c) $\sigma^2$ 的估计量

如果使用矩法来估计 $\sigma^2=E[\epsilon^2]$,记 $\hat{e}_i = y_i - \hat{\beta}^T x_i, e=Y-X\hat{\beta}$ $$ \widehat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n \hat{e}_i^2 = \frac{1}{n}e ^T M e = \frac{1}{n} \text{tr}(Mee^T) $$ 于是这个估计量的期望是 $$ \begin{aligned} \mathbb{E}\left[\widehat{\sigma}^2 \mid {X}\right] & =\frac{1}{n} \operatorname{tr}\left(\mathbb{E}\left[{M e e}^{\prime} \mid {X}\right]\right) \\ & =\frac{1}{n} \operatorname{tr}\left({M} \mathbb{E}\left[{e} {e}^{\prime} \mid {X}\right]\right) \\ & =\frac{1}{n} \operatorname{tr}({M D}) \\ & =\frac{1}{n} \sum_{i=1}^n\left(1-h_{i i}\right) \sigma_i^2 \end{aligned} $$

在同方差的情况下 $$ \mathbb{E}\left[\widehat{\sigma}^2 \mid {X}\right]=\frac{1}{n} \operatorname{tr}\left({M} {\sigma}^2\right)=\sigma^2\left(\frac{n-k}{n}\right) $$ 这暗示我们使用无偏估计量 $$ s^2=\frac{1}{n-k} \sum_{i=1}^n \hat{e}_i^2 \quad \Longrightarrow \quad E[s^2 \mid X] = \sigma^2 $$

性质(d) 成立 $\text{cov}(\hat{\beta}, e \mid X) = 0$,其中 $e=Y-X\hat{\beta}$

注意到 $e=M\epsilon$, 所以 $E[e \mid X]=E[M \epsilon \mid X]=M E[\epsilon \mid X]=0$ $$ \text{cov}(\hat{\beta}, e \mid X) = E[(\hat{\beta} - E[\hat{\beta} \mid X])(e - E[e \mid X])' \mid X] $$ 于是: $$ \text{cov}(\hat{\beta}, e \mid X) = E[(\hat{\beta} - \beta)e' \mid X] $$ 注意到 $\hat{\beta}-\beta = (X^T X)^{-1}X^T \epsilon, \; e=M\epsilon$ $$ \text{cov}(\hat{\beta}, e \mid X) = (X'X)^{-1}X' E[\epsilon\epsilon' \mid X] M = \sigma^2 (X'X)^{-1}X'M=0 $$

Gauss Markov Theorem

OLS 估计量是有效的 (BLUE: Best Linear Unbiased Estimator)

对任何 $\tilde{\beta}=A' Y$,如果 $E[\tilde{\beta} \mid X]=\beta$,都有 $$ \text{var}(\tilde{\beta} \mid X) \geq \text{var}(\hat{\beta} \mid X) = \sigma^2(X^TX)^{-1} $$ 即当 $A' =X (X^TX)^{-1}$ 时,$\tilde{\beta}$ 有最小的条件方差。

令 $C=(X^TX)^{-1}X^T+D$,$\tilde{\beta}=Cy$,则 $$ E[\tilde{\beta} \mid X] = \beta \implies DX=0 $$ 而 $$ \text{var}(\tilde{\beta} \mid X) = \text{var}(\hat{\beta} \mid X) + \sigma^2 D^T D $$

Coefficient of Determination

用 $i=1, \dots, n$ 来表示样本个数,用 $j=1, \dots, k$ 来表示特征的个数。

定义 SSR (Sum of Squares Regression): $$ \text{SSR} = \sum_{i=1}^n (\hat{y}_i-\bar{y})^2 $$

SST (Sum of Squares Total): $$ \text{SST} = \sum_{i=1}^n(y_i - \bar{y})^2 $$ SSE (Sum of Squares Error): $$ \text{SSE} = \sum_{i=1}^n (y_i-\hat{y}_i)^2 = e^T e $$ 数学上,有 $\text{SST}=\text{SSR}+\text{SSE}$

定义 $R^2$ (coefficient of determination) $$ R^2 = 1 - \frac{\text{SSE}}{\text{SST}} = \frac{\text{SSR}}{\text{SST}} $$

当回归中不包含截距项时,此时 centered R-square 可能是负数,可使用 uncentered R-square: $$ R^2_{\text{uncentored}} = 1-\frac{e^T e}{y^Ty} $$

Residual Regression

将自变量做分解 $$ X = \begin{bmatrix} X_1 \\ X_2 \end{bmatrix} $$ 同时回归方程变为 $$ \begin{aligned} Y & =X^{\prime} \beta+e \\ & =X_1^{\prime} \beta_1+X_2^{\prime} \beta_2+e \end{aligned} $$ 记 $M_i = I-X_i(X_i^TX_i)^{-1}X^T_i Y$,成立 $$ \hat{\beta}_1 = (X_1^\prime M_2X_1)^{-1} (X_1^\prime M_2 Y), \quad \hat{\beta}_2 = (X_2^\prime M_1 X_2)^{-1}(X_2^\prime M_1 Y) $$ 令 $\tilde{X}_1 = M_2 X_1, \tilde{e}=M_2 Y$,于是 $\hat{\beta}_1 = (\tilde{X}_1^\prime \tilde{X})^{-1} (\tilde{X}_1 \tilde{e})$ 。这解释了 $\hat{\beta}_1$ 的由来:$Y$ 和 $X_1$ 同时消去 $X_2$ 的影响,剩余部分再做回归。

这里 $\tilde{X}_1$ 是 $X_1$ 往 $\mathcal{R}(X_2)^\perp$ 上的投影,$\tilde{e}$ 是 $Y$ 往 $\mathcal{R}(X_2)^\perp$ 的投影,于是 $\hat{\beta}_1$ 是 $\tilde{e}$ 对 $\tilde{X}_1$ 回归的系数

Frisch-Waugh-Lovell (FWL) Theorem

对于线性回归: $$ Y = X_1 \beta + X_2\beta_2 + u $$ 在两边同时乘以 $M_{X_1}$,得到一个新的回归方程 $$ M_{X_1}Y = M_{X_1}X_2 \beta_2 + M_{X_1} u $$ FWL 包含以下两部分:

  • 以上两个线性回归的 OLS 估计量的 $\beta_2$ 相等
  • 以上两个线性回归的 OLS 估计量的 residual 相等

Omitted Variable Bias

假设真实的模型是 $$ Y = X_1^\prime \beta_1 + X_2^\prime \beta_2 + e $$ 但我们使用 $$ Y = X_1^\prime \gamma + u $$ 来进行估计(缺失变量 $X_2$),这时 $$ \begin{aligned} \gamma_1 & =\left(\mathbb{E}\left[X_1 X_1^{\prime}\right]\right)^{-1} \mathbb{E}\left[X_1 Y\right] \\ & =\left(\mathbb{E}\left[X_1 X_1^{\prime}\right]\right)^{-1} \mathbb{E}\left[X_1\left(X_1^{\prime} \beta_1+X_2^{\prime} \beta_2+e\right)\right] \\ & =\beta_1+\left(\mathbb{E}\left[X_1 X_1^{\prime}\right]\right)^{-1} \mathbb{E}\left[X_1 X_2^{\prime}\right] \beta_2 \\ & =\beta_1+\Gamma_{12} \beta_2 \end{aligned} $$ 这里的 $\Gamma_{12}$ 刚好是以 $X_2$ 为因变量,$X_1$ 为自变量的回归系数矩阵。

Leave-One-Out Regression

Normal Regression

Normal Distribution

Property of the normal distribution

正态分布的概率密度函数是 $f(x)=\displaystyle\frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right)$

If $Z \sim \mathrm{~N}(0,1)$ then

  1. All integer moments of $Z$ are finite.
  2. All odd moments of $Z$ equal 0 .
  3. For any positive integer $m$

$$ \mathbb{E}\left[Z^{2 m}\right]=(2 m-1)!!=(2 m-1) \times(2 m-3) \times \cdots \times 1 $$

  1. For any $r>0$

$$ \mathbb{E}|Z|^r=\frac{2^{r / 2}}{\sqrt{\pi}} \Gamma\left(\frac{r+1}{2}\right), \;\; \Gamma(t)=\int_0^{\infty} u^{t-1} e^{-u} \mathrm{d}u $$

Properties of the multivariate normal distribution

多元正态分布的概率密度是 $f(x)=\displaystyle\frac{1}{(2 \pi)^{k / 2} \operatorname{det}(\Sigma)^{1 / 2}} \exp \left(-\frac{(x-\mu)^{\prime} \Sigma^{-1}(x-\mu)}{2}\right)$,

  1. The mean and covariance matrix of $X \sim \mathrm{~N}(\mu, \Sigma)$ are $\mathbb{E} =\mu$ and $\operatorname{var} =\Sigma$.
  2. If $(X, Y)$ are multivariate normal, $X$ and $Y$ are uncorrelated if and only if they are independent.
  3. If $X \sim \mathrm{~N}(\mu, \Sigma)$ and $Y=\boldsymbol{a}+\boldsymbol{B} X$, then $Y \sim \mathrm{~N}\left(\boldsymbol{a}+\boldsymbol{B} \mu, \boldsymbol{B} \Sigma \boldsymbol{B}^{\prime}\right)$.
  4. If $X \sim \mathrm{~N}\left(0, I_k\right)$ then $X^{\prime} X \sim \chi_k^2$, chi-square with $k$ degrees of freedom.
  5. If $X \sim \mathrm{~N}(0, \Sigma)$ with $\Sigma>0$ then $X^{\prime} \Sigma^{-1} X \sim \chi_k^2$ where $k=\operatorname{dim}(X)$.
  6. If $X \sim \mathrm{~N}(\mu, \Sigma)$ with $\Sigma>0, r \times r$, then $X^{\prime} \Sigma^{-1} X \sim \chi_r^2(\lambda)$ where $\lambda=\mu^{\prime} \Sigma^{-1} \mu$.
  7. If $Z \sim \mathrm{~N}(0,1)$ and $Q \sim \chi_k^2$ are independent then $Z / \sqrt{Q / k} \sim t_k$, student t with $k$ degrees of freedom.
  8. If $(Y, X)$ are multivariate normal

$$ \binom{Y}{X} \sim \mathrm{~N}\left(\binom{\mu_Y}{\mu_X},\left(\begin{array}{ll} \Sigma_{Y Y} & \Sigma_{Y X} \\ \Sigma_{X Y} & \Sigma_{X X} \end{array}\right)\right) $$

with $\Sigma_{Y Y}>0$ and $\Sigma_{X X}>0$ then the conditional distributions are

$$ \begin{aligned} & Y \mid X \sim \mathrm{~N}\left(\mu_Y+\Sigma_{Y X} \Sigma_{X X}^{-1}\left(X-\mu_X\right), \Sigma_{Y Y}-\Sigma_{Y X} \Sigma_{X X}^{-1} \Sigma_{X Y}\right) \\ & X \mid Y \sim \mathrm{~N}\left(\mu_X+\Sigma_{X Y} \Sigma_{Y Y}^{-1}\left(Y-\mu_Y\right), \Sigma_{X X}-\Sigma_{X Y} \Sigma_{Y Y}^{-1} \Sigma_{Y X}\right) \end{aligned} $$

Normal Regression Model

Assumption 5 (Error Normality): $\epsilon \mid X \sim N(0, \sigma^2 I_n)$ .

在线性规划 $Y=X^\prime \beta+ e$ 中假设具有独立的正态误差 $e \sim \mathrm{N} (0, \sigma^2)$,这时候最大化给定 $(x_1, x_2, \dots, x_n)$ 时有数据 $(y_1, y_2, \dots, y_n)$ 的概率可以得到参数的 MLE $$ \begin{gathered} \widehat{\beta}_{\mathrm{mle}}=\left(\sum_{i=1}^n X_i X_i^{\prime}\right)^{-1}\left(\sum_{i=1}^n X_i Y_i\right)=\widehat{\beta}_{\mathrm{ols}} \\ \widehat{\sigma}_{\text {mle }}^2=\frac{1}{n} \sum_{i=1}^n\left(Y_i-X_i^{\prime} \widehat{\beta}_{\text {mle }}\right)^2=\frac{1}{n} \sum_{i=1}^n\left(Y_i-X_i^{\prime} \widehat{\beta}_{\text {ols }}\right)^2=\frac{1}{n} \sum_{i=1}^n \widehat{e}_i^2 \end{gathered} $$ 即在正态误差的假设下,回归参数的MLE与OLS是相等的。

在正态误差的假设下,有

$$ \hat{\beta} - \beta = (X^TX)^{-1} X^T e \sim (X^TX)^{-1} X^T\mathrm{N}(0, \sigma^2) = \mathrm{N}(0, \sigma^2 (X^TX)^{-1}) $$

于是可以找到单个参数的分布以进行假设检验

$$ \widehat{\beta}_j \mid {X} \sim \mathrm{N}\left(\beta_j, \sigma^2\left[\left({X}^{\prime} {X}\right)^{-1}\right]_{j j}\right) $$

因为我们不知道 $\sigma^2$ 的真实值,这时候为了检验 $H_0: \beta_j=\bar{\beta}_j$,可以构造统计量 $$ T=\frac{\widehat{{\beta}}_j-\bar{\beta}_j}{\sqrt{s^2\left[\left({X}^{\prime} {X}\right)^{-1}\right]_{j j}}}=\frac{\widehat{{\beta}}_j-\bar{\beta}_j}{s\left(\widehat{\beta}_j\right)} \sim t_{n-k} $$

Hypothesis Testing

Wald Test

Recall when $X \sim N(0, V)$, then $X^\prime V^{-1} X \sim \chi^2_{\text{dim}(X)}$

于是,如果 $\sqrt{n} (\hat{\theta} - \theta) \sim N(0, V)$,那么 $$ W_n(\theta)=n (\hat{\theta} - \theta)^\prime V^{-1} (\hat{\theta} - \theta) \sim \chi^2_{\text{dim}(\theta)} $$

那么 $\theta$ 的拒绝域就是: $$ \{\theta : W_n(\theta) > \chi^2_{\text{dim}(\theta)}(1-\alpha)\} $$

Convergence Concept

Stochastic Order Symbols

Modes of Convergence

Convergence in probability

设 $\{X_n\}$ 是一个随机变量序列, $X$ 是一个随机变量。如果对于任意给定的正实数 $\epsilon > 0$,当 $n \to \infty$ 时,事件 $|X_n - X| > \epsilon$ 发生的概率趋近于 0,即:

$$ \lim_{n \to \infty} P(|X_n - X| > \epsilon) = 0 $$

则称随机变量序列 $X_n$ 依概率收敛于 $X$,记作 $X_n \xrightarrow{P} X$ 或 $X_n \stackrel{P}{\to} X$。

Almost sure convergence

设 $\{X_n\}$ 是一个随机变量序列, $X$ 是一个随机变量。如果事件 $\{\omega \in \Omega : \lim_{n \to \infty} X_n(\omega) = X(\omega)\}$ 的概率为 1,即:

$$ P(\lim_{n \to \infty} X_n = X) = 1 $$

则称随机变量序列 $X_n$ 几乎必然收敛于 $X$,记作 $X_n \xrightarrow{a.s.} X$ 或 $X_n \stackrel{a.s.}{\to} X$。

Convergence in mean

设 $\{X_n\}$ 是一个随机变量序列, $X$ 是一个随机变量。如果对于某个 $p \ge 1$,当 $n \to \infty$ 时,随机变量 $|X_n - X|^p$ 的期望值趋近于 0,即:

$$ \lim_{n \to \infty} E[|X_n - X|^p] = 0 $$

则称随机变量序列 $X_n$ 依 $L_p$ 范数收敛于 $X$,记作 $X_n \xrightarrow{L_p} X$ 或 $X_n \stackrel{L_p}{\to} X$。

  • 当 $p=1$ 时,称为依平均收敛依 $L_1$ 范数收敛
  • 当 $p=2$ 时,称为依均方收敛依 $L_2$ 范数收敛
Convergence in distribution

设 $\{X_n\}$ 是一个随机变量序列, $X$ 是一个随机变量。如果当 $n \to \infty$ 时,序列 $X_n$ 的累积分布函数 $F_{X_n}(x)$ 在 $X$ 的累积分布函数 $F_X(x)$ 的所有连续点上都收敛于 $F_X(x)$,即:

$$ \lim_{n \to \infty} F_{X_n}(x) = F_X(x) $$

对于所有 $F_X(x)$ 的连续点 $x$,则称随机变量序列 $X_n$ 依分布收敛于 $X$,记作 $X_n \xrightarrow{D} X$ 或 $X_n \stackrel{d}{\to} X$ 或 $X_n \Rightarrow X$。

依分布收敛是最弱的一种收敛形式。它不要求随机变量本身接近,甚至不要求它们定义在同一个概率空间上。它只要求随机变量的概率分布逐渐接近某个极限分布。换句话说,当 $n$ 足够大时,$X_n$ 取某个值的概率会接近 $X$ 取这个值的概率。

Relations
  • almost sure convergence $\implies$ convergence in probability $\implies$ convergence in distribution
  • convergence in $L_p$ ($p \ge 1$) $\implies$ convergence in probability $\implies$ convergence in distribution
Counterexamples
  1. 几乎必然收敛 不蕴含 $L_p$ 范数收敛 (Almost Sure Convergence $\not\Rightarrow L_p$ Convergence)

反例: 设概率空间是 $(\Omega, \mathcal{F}, P)$,其中 $\Omega = (0, 1)$,$P$ 是 Lebesgue 测度。 定义随机变量序列 $X_n(\omega) = n \cdot I_{(0, 1/n)}(\omega)$。 其中 $I_{(0, 1/n)}(\omega)$ 是指示函数,当 $\omega \in (0, 1/n)$ 时取 1,否则取 0。

分析:

  • 几乎必然收敛: 对于任意 $\omega \in (0, 1)$,总存在一个 $N$ (比如 $N > 1/\omega$),使得当 $n > N$ 时,$1/n < \omega$,因此 $\omega \notin (0, 1/n)$。此时 $I_{(0, 1/n)}(\omega) = 0$,所以 $X_n(\omega) = 0$。 因此,对于所有 $\omega \in (0, 1)$ (除了 $\omega=0$,但这是一个零测集),$\lim_{n \to \infty} X_n(\omega) = 0$。 所以 $X_n \xrightarrow{a.s.} 0$。

  • $L_p$ 范数收敛: 考虑 $L_1$ 范数收敛 (即 $p=1$)。我们需要检查 $E[|X_n - 0|^1] = E[X_n]$ 是否趋于 0。 $E[X_n] = E[n \cdot I_{(0, 1/n)}] = n \cdot P(\omega \in (0, 1/n)) = n \cdot (1/n) = 1$。 由于 $E[X_n] = 1$ 不趋于 0,所以 $X_n$ 不依 $L_1$ 范数收敛于 0。 对于任何 $p \ge 1$, $E[|X_n|^p] = E[n^p \cdot I_{(0, 1/n)}] = n^p \cdot (1/n) = n^{p-1}$。这对于 $p>1$ 趋于无穷,对于 $p=1$ 保持为 1。所以 $X_n$ 也不依 $L_p$ 范数收敛。

结论: 几乎必然收敛不能保证 $L_p$ 范数收敛。

  1. 依概率收敛 不蕴含 几乎必然收敛 (Convergence in Probability $\not\Rightarrow$ Almost Sure Convergence)

反例: 设概率空间是 $(\Omega, \mathcal{F}, P)$,其中 $\Omega = [0, 1)$,$P$ 是 Lebesgue 测度。 构建一个“滑动块”序列。 将 $n$ 写成 $n = 2^k + j$,其中 $k \ge 0$ 且 $0 \le j < 2^k$。 定义随机变量序列 $X_n(\omega) = I_{[j/2^k, (j+1)/2^k)}(\omega)$。 例如:

  • $n=1 \implies k=0, j=0$: $X_1(\omega) = I_{[0, 1)}(\omega)$
  • $n=2 \implies k=1, j=0$: $X_2(\omega) = I_{[0, 1/2)}(\omega)$
  • $n=3 \implies k=1, j=1$: $X_3(\omega) = I_{[1/2, 1)}(\omega)$
  • $n=4 \implies k=2, j=0$: $X_4(\omega) = I_{[0, 1/4)}(\omega)$
  • $n=5 \implies k=2, j=1$: $X_5(\omega) = I_{[1/4, 1/2)}(\omega)$
  • 以此类推...

分析:

  • 依概率收敛: 我们要看 $P(|X_n - 0| > \epsilon)$ 是否趋于 0。 对于任何 $\epsilon \in (0, 1)$,事件 $|X_n - 0| > \epsilon$ 等价于 $X_n = 1$ (因为 $X_n$ 只能取 0 或 1)。 $P(X_n = 1) = P(I_{[j/2^k, (j+1)/2^k)}(\omega) = 1) = (j+1)/2^k - j/2^k = 1/2^k$。 当 $n \to \infty$ 时,$k \to \infty$,因此 $1/2^k \to 0$。 所以 $\lim_{n \to \infty} P(|X_n - 0| > \epsilon) = 0$,即 $X_n \xrightarrow{P} 0$。

  • 几乎必然收敛: 我们要看 $P(\lim_{n \to \infty} X_n = 0)$ 是否为 1。 考虑任意一个 $\omega \in [0, 1)$。对于任意给定的 $k$,$\omega$ 总会落入某个形如 $[j/2^k, (j+1)/2^k)$ 的区间。 随着 $n$ (即 $k$) 增大,这些区间的宽度越来越小,但是它们在 $[0, 1)$ 上循环“滑动”。 这意味着对于任何 $\omega \in [0, 1)$,总有无穷多个 $n$ 使得 $X_n(\omega) = 1$,也总有无穷多个 $n$ 使得 $X_n(\omega) = 0$。 因此,对于任何 $\omega \in [0, 1)$,$X_n(\omega)$ 的值不会收敛到 0,也不会收敛到其他任何值。 所以,事件 $\{\omega : \lim_{n \to \infty} X_n(\omega) = 0\}$ 的概率为 0。 因此 $X_n$ 不几乎必然收敛于 0。

结论: 依概率收敛不能保证几乎必然收敛。

  1. 依分布收敛 不蕴含 依概率收敛 (Convergence in Distribution $\not\Rightarrow$ Convergence in Probability)

几个实变函数里的定理

Continuous Mapping Theorem

  • 如果 $X_n \to_p X$,且 $g$ 是连续函数,那么 $g(X_n) \to_p g(X)$
  • 如果 $X_n \to_d X$,且 $P(X \in \{g \text{ 的不连续点}\}=0)$,那么 $g(X_n) \to_d g(X)$

Slutzky’s Theorem

如果 $X_n \to_d X, Y_n \to_p c $ 其中 $c$ 是常数,那么 $$ \begin{aligned} & \bull \; X_n + Y_n \to _d X_n +c, \\ & \bull \; X_n Y_n \to_d cX, \\ & \bull \; X_n / Y_n \to_d X / c. \qquad (c\neq 0) \end{aligned} $$

Delta method

Delta 方法是统计学中一种非常重要的工具,用于推导渐近正态估计量的光滑函数(可微函数)的渐近分布。设 $\{\hat{\theta}_n\}_{n=1}^\infty$ 是一个随机变量序列,$\theta$ 是一个常数。如果 $\hat{\theta}_n$ 满足: $$ \sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} N(0, \sigma^2) $$

设 $g(\cdot)$ 是一个在点 $\theta$ 处可微的函数,且其一阶导数 $g'(\theta) \ne 0$。那么,我们有:

$$ \sqrt{n}(g(\hat{\theta}_n) - g(\theta)) \xrightarrow{d} N \left(0, (g'(\theta))^2 \sigma^2 \right) $$

这意味着对于足够大的 $n$, $g(\hat{\theta}_n)$ 近似服从一个正态分布:

$$ g(\hat{\theta}_n) \approx N\left(g(\theta), \frac{(g'(\theta))^2 \sigma^2}{n}\right) $$

因此,$g(\hat{\theta}_n)$ 的渐近方差为 $\text{Var}(g(\hat{\theta}_n)) \approx \dfrac{(g'(\theta))^2 \sigma^2}{n}$。

根据 Taylor 展开,有 $$ \sqrt{n}(g(\hat{\theta}_n) - g(\theta)) = g'(\theta) \sqrt{n}(\hat{\theta}_n - \theta) + \sqrt{n} R_n\xrightarrow{d} g'(\theta) \cdot N(0, \sigma^2) + 0 $$ 也可以推广到多元分布,如果 $\nabla g(\mathbf{\theta})$ 是 Jacobi 矩阵

$$ \sqrt{n}(\hat{\mathbf{\theta}}_n - \mathbf{\theta}) \xrightarrow{d} N(\mathbf{0}, \boldsymbol{\Sigma}), \quad \sqrt{n}(g(\hat{\mathbf{\theta}}_n) - g(\mathbf{\theta})) \xrightarrow{d} N \left(\mathbf{0}, \nabla g(\mathbf{\theta}) \boldsymbol{\Sigma} (\nabla g(\mathbf{\theta}))^T \right) $$

Law of Large Numbers

Central Limit Theorems

Asymptotics Property

如果估计量 $\hat{\theta}_n$ 依概率收敛到 $\theta$,则称其为一致估计量 (consistent estimator)。

性质 (a): consistency of least squares estimator $$ \hat{\beta} \xrightarrow{p} \beta $$ 对于 OLS 估计量 $\hat{\beta}$ $$ \widehat{{\beta}}=\left(\frac{1}{n} \sum_{i=1}^n X_i X_i^{\prime}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^n X_i Y_i\right)=\widehat{{Q}}_{X X}^{-1} \widehat{{Q}}_{X Y} $$ 根据LLN,有 $$ \begin{gathered} \widehat{{Q}}_{X X}=\frac{1}{n} \sum_{i=1}^n X_i X_i^{\prime} \underset{p}{\longrightarrow} \mathbb{E}\left[X X^{\prime}\right]={Q}_{X X} \\ \widehat{{Q}}_{X Y}=\frac{1}{n} \sum_{i=1}^n X_i Y_i \underset{p}{\longrightarrow} \mathbb{E}[X Y]={Q}_{X Y} \end{gathered} $$ 以下使用了 CMT $$ \widehat{{\beta}}=\widehat{{Q}}_{X X}^{-1} \widehat{{Q}}_{X Y} \underset{p}{\longrightarrow} {Q}_{X X}^{-1} {Q}_{X Y}=(E[XX'])^{-1}E[XY]=\beta $$

性质(b): asymptotic normality

注意到 $\displaystyle\sum_{i=1}^n X_i e_i$ 的期望为0,根据中心极限定理,有: $$ \Omega={E}\left[(X e)(X e)^{\prime}\right]={E}\left[X X^{\prime} e^2\right] \quad \text{ and } \quad \frac{1}{\sqrt{n}} \sum_{i=1}^n X_i e_i \underset{d}{\longrightarrow} \mathrm{~N}(0, \Omega) $$

于是 $\widehat{{\beta}}-{{\beta}}=\widehat{{Q}}_{XX}^{-1}\widehat{{Q}}_{Xe}$ 且 $$ \sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\longrightarrow} {Q}_{X X}^{-1} \mathrm{~N}(0, \Omega)=\mathrm{N}\left(0, {Q}_{X X}^{-1} \Omega {Q}_{X X}^{-1}\right) \tag{general form} $$ 此外,如果 $E[e^2 \mid X]=\sigma^2$, 那么有 $E[XX^\prime e^2]=\sigma^2 {Q}_{XX}$,因此 $$ \sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\longrightarrow} \mathrm{N}(0, \sigma^2 {Q}^{-1}_{XX}) \tag{homoskedastic} $$

性质(c): consistent estimation of $\sigma^2$ $$ s^2=\frac{1}{n-k}\sum_{i=1}^n \hat{e}_i^2 \xrightarrow{p} \sigma^2=E[\epsilon^2] $$ 证明的思路在于将 $\hat{e}_i$ 写成:

$$ \widehat{e}_i=Y_i-X_i^{\prime} \widehat{\beta}=e_i-X_i^{\prime}(\widehat{\beta}-\beta) $$

两边同时平方

$$ \widehat{e}_i^2=e_i^2-2 e_i X_i^{\prime}(\widehat{\beta}-\beta)+(\widehat{\beta}-\beta)^{\prime} X_i X_i^{\prime}(\widehat{\beta}-\beta) . $$

注意到 $\hat{\beta}\xrightarrow{p} \beta$,因此等号右边的第二项、第三项都依概率收敛到0

Maximal Likelihood Estimation

【补充一些基本的MLE的知识】

  1. Consistent: $$ \hat{\theta}_{ML} \to \theta \;\; \text{a.s.} $$
  2. Asymptotic normal: $$ \sqrt{n}\left(\hat{\theta}_{M L}-\theta\right) \xrightarrow{d} {N}\left(0, \mathcal{I}^{-1}(\theta)\right) $$
  3. Asymptotic efficient:

当参数空间是紧集,且似然函数是连续函数时,MLE 存在。

例:

  • 假设 $X \sim Bernoulli (1+1/\exp(\theta)), \Theta=R$ 观测到样本 $x=1$,此时 $L(\theta; 1)=1+1/\exp(\theta)$ 是 $\theta$ 的减函数,由于 $\Theta=R$ 不是紧集,因此 MLE 不存在。

Delta method

很多时候,除了参数本身,我们还希望估计参数的函数 $g(\theta)$,这时可以直接使用 plug-in estimator $g(\hat{\theta})$,其渐进分布有如下结果。 $$ \sqrt{n} (\hat{\theta}_n - \theta_0) \to N(0, v(\theta_0)) \quad \Longrightarrow \quad \sqrt{n} (g(\hat{\theta}_n) - g(\theta_0)) \to N(0, [g^\prime(\theta_0)]^2 v(\theta_0)) $$

其 CR 下界有如下结果: $$ \text{Var}_{\theta}[T] \geqslant \frac{[g^\prime(\theta)]^2}{nI(\theta)} $$

Cramer-Rao lower bound

Fisher information

定义 $z(x, \theta)$ 为 score function $$ z(x, \theta)=\frac{\partial}{\partial \theta} \log f(x \mid \theta) = \frac{\partial}{\partial \theta}f(x \mid \theta)\bigg/f(x \mid \theta), \quad z^{\prime}(x, \theta)=\frac{\partial^2}{\partial \theta^2} \log f(x \mid \theta) . $$ 成立 $$ E_{\theta}[z(x, \theta)] = 0, \quad \text{Var}_\theta[z(x, \theta)] = -E_{\theta}[z^\prime(x, \theta)] $$ 定义 Fisher information $I(\theta)$ $$ I_1(\theta) = \text{Var}_\theta[z(x, \theta)] = -E_{\theta}[z^\prime(x, \theta)], \quad I(\theta) = n I_1(\theta) $$ 如果 $\hat{\theta}$ 是一个无偏估计量,那么它的方差有下界 $$ \text{Var}[\hat\theta] \geqslant \frac{1}{nI(\theta)} \tag{CR lower bound} $$

Multiple parameters

$$ \begin{aligned} I(\theta) & =\int\left(\frac{\partial \ln f(y ; \theta)}{\partial \theta}\right)\left(\frac{\partial \ln f(y ; \theta)}{\partial \theta}\right)^{\prime} f(y ; \theta) d y \\ & =E\left[\left(\frac{\partial \ln f(Y ; \theta)}{\partial \theta}\right)\left(\frac{\partial \ln f(Y ; \theta)}{\partial \theta}\right)^{\prime}\right] \end{aligned} $$

$$ I(\theta) =\operatorname{cov}\left(\frac{\partial \ln f(Y ; \theta)}{\partial \theta}\right) =-E\left(\frac{\partial^2 \ln f(Y ; \theta)}{\partial \theta^2}\right) $$

UMVUE

OLS是 UMVUE

Matrix Cauchy Inequality in Expectation Form

如果 $X \in \mathbb{R}^p, Y \in \mathbb{R}^q$ 是随机向量,且 $E[YY^\prime]$ 正定,那么 $$ E[XX^\prime] - E[XY^\prime] (E[YY^\prime])^{-1}E[YX^\prime] \succ O $$

Likelihood ratio test

令 $\Theta$ 为参数空间,对假设检验 $$ H_0: \theta \in \Theta_0, \quad H_1: \theta\in \Theta_0^c $$ 似然比统计量 $$ \Lambda = \frac{\sup_{\theta \in \Theta_0} L(\theta \mid X)}{\sup_{\theta \in \Theta} L(\theta \mid X)} = \frac{L(\hat{\theta}_0 \mid X)}{L(\hat{\theta} \mid X)} $$ 其中 $\hat\theta_0$ 是在 $\Theta_0$ 上的 MLE,$\hat\theta$ 是在 $\Theta$ 上的 MLE。似然比检验拒绝 $H_0$ 如果 $\Lambda \leqslant c, \; c\in [0, 1]$。

在原假设成立的条件下,有 $$ -2\log \Lambda = 2(\log L(\hat\theta \mid X)-\log L(\hat{\theta}_0 \mid X)) \to_d \chi^2_k $$ 其中 $k$ 是参数的维数。

Generalized Least Square

将同方差性的假设弱化为 $\text{var}(\epsilon \mid X) = c^2 \Sigma$,其中 $\Sigma$ 已知,是一个正定矩阵。

令 $\tilde{Y}=\Sigma^{-1/2} Y, \tilde{X}=\Sigma^{-1/2} X, \tilde{\epsilon}=\Sigma^{-1/2} \epsilon$,这时候 $\tilde{Y}=\tilde{X}\beta+\tilde{\epsilon}$ 就是一个满足同方差假设的回归

于是有: $$ \begin{gathered} \hat{\beta}_{\text{GLS}} = (\tilde{X}^T\tilde{X})^{-1} \tilde{X}^T \tilde{Y} =(X^T\Sigma^{-1}X)^{-1}X^T\Sigma^{-1}Y \\ E[\hat{\beta}_{\text{GLS}} \mid X] = \beta \\ \text{var}(\hat{\beta}_{\text{GLS}} \mid X) = c^2\cdot (X^T\Sigma^{-1}X)^{-1} \end{gathered} $$

模型诊断

异方差检验
多重共线性检测
updatedupdated2025-12-022025-12-02