概率分布的比较
Stochastic Dominance
一阶随机占优 (First-Order Stochastic Dominance, FOSD)
若分布 $F$ 一阶随机占优于分布 $G$ (记为 $F \succ_1 G$),直观上,$F$ 所产生的结果更优或更佳。
以下三个定义是等价的:
-
期望效用: 对于所有非递减的效用函数 $u(x)$,都有: $$ \int u(x)dF(x) \ge \int u(x)dG(x) $$ 这说明无论决策者是怎么样的风险偏好,都会更倾向于选择 $F$ 而不是 $G$。
-
累积分布函数 (CDF): 对于任意 $x$,$F$ 的累积概率都不超过 $G$: $$ F(x) \le G(x) \quad \forall x $$
-
随机变量构造: 存在一个非负随机变量 $\tilde{z} \ge 0$,使得若 $\tilde{x} \sim G$,则 $\tilde{x} + \tilde{z} \sim F$ 且 $\tilde{z}\sim H(z\mid x)$。 这意味着 $F$ 可以通过在 $G$ 的基础上增加一个非负扰动得到。
二阶随机占优 (Second-Order Stochastic Dominance, SOSD)
如果 F 二阶随机占优于 G (记为 $F \succ_2 G$),直观上意味着 F 的风险比 G “更小”。前提是两个分布的均值相同。以下定义等价:
- 期望效用: 对于所有非递减且凹的效用函数 $u(x)$ (代表风险厌恶者),都有: $$ \int u(x)dF(x) \ge \int u(x)dG(x) $$
- CDF积分: 对任意 $x$,$G$ 的 CDF 积分均不小于 $F$ 的 CDF 积分: $$ \int_{-\infty}^{x} G(t)dt \ge \int_{-\infty}^{x} F(t)dt \qquad \forall x $$
- 均值保持展开 (Mean-Preserving Spread): G 是 F 的一个均值保持展开。即存在一个“噪音”随机变量 $\tilde{z}$,满足 $E(\tilde{z} \mid \tilde{x})=0$,使得若 $\tilde{x} \sim F$,则 $\tilde{x} + \tilde{z} \sim G$。
SOSD 本质是一种衡量随机变量之间风险程度的偏序[1],以上的定义跟方差 (variance) 并不相同。$X$ 二阶随机占优于 $Y$ 说明 $X$ 的方差小于 $Y$,但是反过来不一定。
Monotone Likelihood Ratio Property (MLRP)
MLRP 描述了这样一种性质:当我们观测到一个更高的结果时,我们就更有理由相信这个结果来自于一个“更高”的参数或状态。比如,观察到越高的产出,越相信员工付出了越高的努力。
假设有一个由参数 $\theta$ 决定的概率密度函数(或概率质量函数)$f(x\mid\theta)$,称这个函数族满足单调似然比性质 (MLRP),如果对于任意两个参数值 $\theta_2 > \theta_1$,似然比 (likelihood ratio) $$ L(x) = \frac{f(x\mid\theta_2)}{f(x \mid \theta_1)} $$ 是关于观测值 $x$ 的非递减函数 (non-decreasing function)。
用数学公式表达就是:对于任意 $\theta_2 > \theta_1$,只要 $x_2 > x_1$,就有:
$$ \frac{f(x_2 \mid \theta_2)}{f(x_2 \mid \theta_1)} \ge \frac{f(x_1 \mid \theta_2)}{f(x_1 \mid \theta_1)} $$
似然比 $\dfrac{f(x \mid \theta_2)}{f(x \mid \theta_1)}$ 衡量的是,相对于“低参数” $\theta_1$,“高参数” $\theta_2$ 产生观测值 $x$ 的相对可能性。
MLRP 的核心是:随着我们观测到的结果 $x$ 越来越大,这个似然比也越来越大(或至少不减小)。这说明,越大的 $x$ 越强烈地支持“参数是 $\theta_2$ 而不是 $\theta_1$”这一论断。
把不等式稍作变形,我们有一个MLRP的等价定义: $$ \frac{f(x_2 \mid \theta_2)}{f(x_1 \mid \theta_2)} \ge \frac{f(x_2 \mid \theta_1)}{f(x_1 \mid \theta_1)} $$ 以上不等式说明,令 $x_2> x_1$,有 $\dfrac{f(x_2 \mid \theta)}{f(x_1 \mid \theta)}$ 是 $\theta$ 的单调递增函数。它的含义是:当参数 $\theta$ 增大时,观测到更大 $x$ 值的可能性相对增加。
计算示例: 二项分布
假设 $X \sim \text{Binomial}(n, p)$,$n$ 固定,$p \in (0,1)$ 且 $p_2 > p_1$。似然比为: $$ L(x) = \frac{f(x \mid p_2)}{f(x \mid p_1)} = \left( \frac{p_2}{p_1} \right)^x \left( \frac{1 - p_2}{1 - p_1} \right)^{n - x} $$ 取对数得: $$ \ln L(x) = x \ln \left( \frac{p_2 (1 - p_1)}{p_1 (1 - p_2)} \right) + n \ln \left( \frac{1 - p_2}{1 - p_1} \right) $$ 因 $p_2 > p_1$,$\ln \left( \frac{p_2 (1 - p_1)}{p_1 (1 - p_2)} \right) > 0$,故 $\ln L(x)$ 关于 $x$ 线性递增。因此,二项分布满足 MLRP。
计算示例: 正态分布
假设 $X \sim \mathcal{N}(\mu, \sigma^2)$,$\sigma^2$ 固定,$\mu_2 > \mu_1$。似然比为:
$$ L(x) = \frac{f(x \mid \mu_2)}{f(x \mid \mu_1)} = \exp \left( -\frac{(x - \mu_2)^2}{2\sigma^2} + \frac{(x - \mu_1)^2}{2\sigma^2} \right) = \exp \left( \frac{2x(\mu_2 - \mu_1) - (\mu_2^2 - \mu_1^2)}{2\sigma^2} \right) $$
由于 $\mu_2 > \mu_1$,$L(x)$ 关于 $x$ 递增。因此,正态分布(方差固定)关于均值 $\mu$ 满足 MLRP。
计算示例: 均匀分布
假设 $X \sim \text{Uniform}(0, \theta)$,$\theta_2 > \theta_1$。似然比为:
$$ L(x) = \frac{f(x \mid \theta_2)}{f(x \mid \theta_1)} = \begin{cases} \frac{\theta_1}{\theta_2} & \text{if } 0 < x \leq \theta_1 \\ 0 & \text{if } x > \theta_1 \end{cases} $$
由于 $L(x)$ 在 $x \leq \theta_1$ 时为常数,在 $x > \theta_1$ 时降为 0,故 $L(x)$ 不是非递减函数。因此,均匀分布不满足 MLRP。
MLRP 与 FOSD (一阶随机占优) 的关系
MLRP 是一个比 FOSD 更强的条件。
具体而言,若 $\{f(x \mid \theta)\}$ 关于 $\theta$ 满足 MLRP,则对于 $\theta_2 > \theta_1$,$f(x \mid \theta_2)$ 一阶随机占优于 $f(x \mid \theta_1)$,即 $F(x \mid \theta_2) \leq F(x \mid \theta_1)$ 对于所有 $x$ 成立。但反之不成立。
不确定性下的决策框架
-
基本元素:
- $\theta$: 世界的状态 (state of the world),未知。
- $y$: 信号/实验结果 (signal),提供关于 $\theta$ 的信息。
- $a$: 决策者的行动 (action)。
- $u(a, \theta)$: 支付函数 (payoff)。
-
信念更新 (belief updating):
- 决策者有一个关于 $\theta$ 的先验信念 (prior belief) $p(\theta)$。
- “实验”(experiment) 由一组似然函数 $p(y \mid \theta)$ 描述。
- 观察到信号 $y$ 后,决策者使用贝叶斯法则更新信念,得到后验信念 (posterior belief) $p(\theta \mid y)$。 $$ p(\theta \mid y) = \frac{p(y \mid \theta) p(\theta)}{p(y)} = \frac{p(y \mid \theta) p(\theta)}{\int p(y \mid \theta') p(\theta') \, d\theta'} $$
-
任何一个信息结构(实验)都可以被视为一个关于后验概率的分布 $\{p(\theta \mid y)\}_{y \in Y}$ 。 根据全概率公式,所有可能的后验概率的期望必须等于先验概率: $$ E_y[p(\theta \mid y)] = \sum_y p(y) p(\theta \mid y) = p(\theta) $$ 任何满足这个条件的后验分布也能对应一个实验。
-
实验独立于先验,但是后验依赖于先验。
充分统计量
统计量(可以是向量值)是样本的函数:$T: y \to T(y)$。若 $p(y \mid \theta) = p(y \mid T(y)) p(T(y) \mid \theta)$,则称 $T(y)$ 是 $y$ 的充分统计量。此时:
$$ p(\theta \mid y) = \frac{p(y \mid \theta) p(\theta)}{p(y)} = \frac{p(y \mid T(y)) p(T(y) \mid \theta) p(\theta)}{p(y \mid T(y)) p(T(y))} = \frac{p(T(y) \mid \theta) p(\theta)}{p(T(y))} = p(\theta \mid T(y)) $$
这表明给定 $y$ 和 $T(y)$ 揭示的关于 $\theta$ 的信息是等价的。
信息的价值 (Value of Information)
- 最优决策: 在获得信号 $y$ 后 (ex post),决策者选择行动 $a$ 来最大化期望效用: $$ a^\ast(y) = \arg\max_a \int u(a, \theta) p(\theta \mid y) \, d\theta $$
- 价值函数 (Value Function): 我们可以定义一个间接效用函数 $V(p)$,它表示当决策者的信念为 $p$ 时可以获得的最大期望效用。 $$ V(p) = \max_a \int u(a, \theta) p(\theta) \, d\theta $$ 其中 $p$ 是一个关于 $\theta$ 的信念(概率分布)。
- 关键性质: 价值函数 $V(p)$ 是关于信念 $p$ 的凸函数 (convex function)。
- 这是因为 $V(p)$ 是一系列关于 $p$ 的线性函数(每个行动 $a$ 对应一个)的上包络线 (upper envelope),而线性函数的上包络线是凸的。
- 信息的价值: 一个信息系统 $Y$ 的价值 $Z_Y$ 是指,拥有该信息系统所能获得的期望效用 $V_Y$ 与仅凭先验知识决策所能获得的效用 $V(p_0)$ 之间的差额。 $$ Z_Y = V_Y - V(p_0) = \left( \int V(p_y)p(y)dy \right) - V(p_0) $$ 其中 $p_y$ 是观察到信号 $y$ 后对 $\theta$ 的后验信念。由于 $V$ 是凸函数,根据 Jensen 不等式 (Jensen's inequality),信息的价值 $Z_Y$ 总是非负的。
实验的比较 (Comparison of Experiments)
在何种条件下,我们可以断言实验 A 比实验 B “信息量更大”(more informative),且此结论对所有决策问题均成立?
布莱克威尔定理 (Blackwell's Informative Theorem): 以下陈述等价:
- 对所有决策都有利: 实验A对所有决策问题(即所有效用函数 $u(a,\theta)$)都比实验B更有价值。
- 后验概率的均值保持展开: 实验A产生的后验概率分布是实验B产生的后验概率分布的一个均值保持展开 (Mean-Preserving Spread, MPS)。
- 布莱克威尔混淆 (Blackwell Garbling): 实验B可以由实验A通过一个“混淆”过程得到。也就是说,存在一个随机矩阵 (Markov matrix) $M$,使得 $P_B = M P_A$,其中 $P_A$ 和 $P_B$ 是两个实验的似然函数矩阵。 $$ P_A=[p_{ij}]^A, \quad \text{where }\, p_{ij}^A=P(y_A=i \mid \theta=j) $$ 这意味着B的信号可以看作是先得到A的信号,然后再对其增加一些噪音。
直观理解: 一个信息量更大的实验,其产生的后验信念分布会更加“分散”或“极端”。因为它能让你在观察到信号后对真实状态更加确定(信念更接近0或1),而一个信息量更小的实验则会让你的信念停留在先验附近。由于价值函数 $V(p)$ 是凸的,更分散的后验信念会带来更高的期望价值。
布莱克威尔混淆(Blackwell Garbling)示例
假设有一个二元状态空间 $\Theta = \{\theta_1, \theta_2\}$,
信息结构 A 提供信号 $y \in \{y_1, y_2\}$,其似然函数如下:
- 当状态为 $\theta_1$ 时,$P(y_1 \mid \theta_1) = 0.9$,$P(y_2 \mid \theta_1) = 0.1$。
- 当状态为 $\theta_2$ 时,$P(y_1 \mid \theta_2) = 0.1$,$P(y_2 \mid \theta_2) = 0.9$。
用矩阵表示:
$$ P_A = \begin{bmatrix} 0.9 & 0.1 \\ 0.1 & 0.9 \end{bmatrix} $$
这个信号准确性较高,因为信号与状态强相关。
信息结构 B 提供信号 $z \in \{z_1, z_2\}$,其似然函数如下:
- 当状态为 $\theta_1$ 时,$P(z_1 \mid \theta_1) = 0.6$,$P(z_2 \mid \theta_1) = 0.4$。
- 当状态为 $\theta_2$ 时,$P(z_1 \mid \theta_2) = 0.4$,$P(z_2 \mid \theta_2) = 0.6$。
用矩阵表示:
$$ P_B = \begin{bmatrix} 0.6 & 0.4 \\ 0.4 & 0.6 \end{bmatrix} $$
这个信号准确性较低,信号与状态的关联性较弱。
为了证明 B 是 A 的混淆版本,我们需要找到一个随机矩阵 $M$(Markov matrix),使得 $P_B = M P_A$。假设:
$$ M = \begin{bmatrix} 0.625 & 0.375 \\ 0.375 & 0.625 \end{bmatrix} $$
验证计算:
$$ M P_A = \begin{bmatrix} 0.625 & 0.375 \\ 0.375 & 0.625 \end{bmatrix} \begin{bmatrix} 0.9 & 0.1 \\ 0.1 & 0.9 \end{bmatrix} = \begin{bmatrix} 0.6 & 0.4 \\ 0.4 & 0.6 \end{bmatrix} = P_B $$
结果相符,说明 $P_B = M P_A$ 成立。
矩阵 $M$ 表示从 A 的信号 $y$ 到 B 的信号 $z$ 的转换过程:
- $y_1$ 以 0.625 的概率保持为 $z_1$,以 0.375 的概率翻转为 $z_2$。
- $y_2$ 以 0.625 的概率保持为 $z_2$,以 0.375 的概率翻转为 $z_1$。
这种随机转换引入了噪音,使得 B 的信号比 A 的信号更模糊。因此,A 比 B 更具信息量。
通过构造随机矩阵 $M$,我们证明了信息结构 B 是信息结构 A 的混淆版本。这说明 A 的信号可以通过一个随机过程“劣化”为 B 的信号,从而在信息经济学中,A 被认为比 B 更优。
A1. MLRP 与后验分布的一阶随机占优是等价的
在贝叶斯统计中,一个重要的结论是,对于任何由参数 $\theta$ 定义的先验分布,通过观测数据 $x$ 或 $y$ 进行贝叶斯更新后,$x$ 的后验分布一阶随机占优于 $y$ 的后验分布[2],这一定义等价于似然函数满足单调似然比性质。
即 $$ \boxed{ \forall \text{prior } \pi(\theta), \;\; x > y \; \Longrightarrow\; p(\theta \mid x) \succeq_{\text{FOSD}} p(\theta \mid y) \quad \text{iff} \quad \frac{f(x \mid \theta)}{f(y \mid \theta)} \text{ is increasing in } \theta } $$ 一个重要的引理:如果两个概率密度函数 $ g(t) $ 和 $ h(t) $ 的似然比
$$ L(t) = \frac{g(t)}{h(t)} $$ 是关于 $ t $ 的单调非减函数,那么由 $ g(t) $ 对应的累积分布函数 $ G(t) $ 一阶随机占优于由 $ h(t) $ 对应的累积分布函数 $ H(t) $。
要证明: 对于所有实数 $ x $,都有 $$ G(x) \leq H(x) $$ 首先,注意到似然比 $ L(t) = \dfrac{g(t)}{h(t)} $ 不可能恒大于1或恒小于1。
又因为 $ L(t) $ 是单调非减函数,故存在一个点 $ t^\ast \in [-\infty, +\infty] $,使得:
- 当 $ t < t^\ast $ 时,$ L(t) \leq 1 $,即 $ g(t) \leq h(t) $
- 当 $ t > t^\ast $ 时,$ L(t) \geq 1 $,即 $ g(t) \geq h(t) $
若 $ L(t) $ 始终 $ \leq 1 $,可设 $ t^\ast = +\infty $;若始终 $ \geq 1 $,可设 $ t^\ast = -\infty $。这保证了 $ t^\ast $ 的存在性。
根据 $ x $ 与分界点 $ t^\ast $ 的相对位置分两种情况讨论。
当 $ x \leq t^\ast $ 时
此时积分区间 $ (-\infty, x] \subseteq (-\infty, t^\ast) $,所以对任意 $ t \in (-\infty, x] $,有 $ g(t) \leq h(t) $。
于是: $$ G(x) = \int_{-\infty}^{x} g(t)\,dt \leq \int_{-\infty}^{x} h(t)\,dt = H(x) $$
因此,当 $ x \leq t^\ast $ 时,$ G(x) \leq H(x) $ 成立。
当 $ x > t^\ast $ 时,
此时积分区间 $ (-\infty, x] $ 跨越了 $ t^\ast $,直接比较 $ G(x) $ 和 $ H(x) $ 较困难。我们转而比较它们的补集(生存函数):
注意到: $$ G(x) \leq H(x) \iff 1 - G(x) \geq 1 - H(x) $$ 而 $$ 1 - G(x) = \int_{x}^{\infty} g(t)\,dt, \quad 1 - H(x) = \int_{x}^{\infty} h(t)\,dt $$
由于 $ x > t^\ast $,所以对任意 $x \in [t^\ast, \infty) $,有 $ g(x) \geq h(x) $。
因此, $$ \int_{x}^{\infty} g(t)\,dt \geq \int_{x}^{\infty} h(t)\,dt \Rightarrow 1 - G(x) \geq 1 - H(x) \Rightarrow G(x) \leq H(x) $$
故当 $ x > t^\ast $ 时,不等式也成立。
综上所述,无论 $ x \leq t^\ast $ 还是 $ x > t^\ast $,均有: $$ G(x) \leq H(x), \quad \forall x \in \mathbb{R} $$
这说明累积分布函数 $ G $ 一阶随机占优于 $ H $。
MLRP ⇒ 后验分布的一阶随机占优
假设似然函数 $ f(x \mid \theta) $ 满足 MLRP,即:对于任意 $ x > y $,比值
$$
\frac{f(x \mid \theta)}{f(y \mid \theta)}
$$
是参数 $ \theta $ 的单调非减函数。
设 $ \pi(\theta) $ 是参数 $ \theta $ 的任意先验分布。根据贝叶斯定理,在观测到数据 $ x $ 后,$ \theta $ 的后验分布密度为: $$ p(\theta \mid x) = \frac{f(x \mid \theta) \pi(\theta)}{\int f(x \mid \theta') \pi(\theta')\, d\theta'} $$
我们希望证明:
如果 $ x > y $,那么由 $ x $ 更新得到的后验累积分布函数 $ F(\theta \mid x) $ 一阶随机占优于由 $ y $ 更新得到的后验累积分布函数 $ F(\theta \mid y) $。
换句话说,对所有 $ \theta $,有: $$ F(\theta \mid x) \leq F(\theta \mid y) $$ 注意到 $$ \frac{p(\theta \mid x)}{p(\theta \mid y)} = \frac{f(x \mid \theta)}{f(y \mid \theta)} \cdot \frac{\int f(y \mid \theta^{\prime}) \pi(\theta^{\prime})\, d\theta^{\prime}}{\int f(x \mid \theta^{\prime}) \pi(\theta^{\prime})\, d\theta^{\prime}} $$ 由 MLRP 能得到 $\dfrac{f(x \mid \theta)}{f(y \mid \theta)}$ 是 $\theta$ 的非递减函数,由于乘号右边与 $\theta$ 无关,$\dfrac{p(\theta \mid x)}{p(\theta \mid y)} $也是 $\theta$ 的非递减函数,这说明 $p(\theta \mid x)$ 对应的累积分布函数一阶随机占优于 $p(\theta \mid y)$ 对应的累积分布函数。
后验分布的一阶随机占优 ⇒ MLRP
由于对任意 $\theta$ 的先验,都要满足后验分布的一阶随机占优,这允许我们构造一个特殊的先验来证明 MLRP。
选择任意两个参数点 $\theta_1$ 和 $\theta_2$,使得 $\theta_1 < \theta_2$。构造一个只在这两点上有概率质量的先验分布: $$ \pi(\theta_1) = p, \quad \pi(\theta_2) = 1-p, \quad 0 < p < 1 $$
此时后验分布
$$ \pi(\theta_2|x) = \frac{f(x|\theta_2)\pi(\theta_2)}{f(x|\theta_1)\pi(\theta_1) + f(x|\theta_2)\pi(\theta_2)} = \frac{f(x|\theta_2)(1-p)}{f(x|\theta_1)p + f(x|\theta_2)(1-p)} $$
对于一个只有两点 $(\theta_1 < \theta_2)$ 的分布,FOSD 的条件简化为:更高状态 $\theta_2$ 的后验概率必须更高。即: $$ \pi(\theta_2|x) \geq \pi(\theta_2|y) $$
代入后得到 $$ \frac{f(x|\theta_2)(1-p)}{f(x|\theta_1)p + f(x|\theta_2)(1-p)} \geq \frac{f(y|\theta_2)(1-p)}{f(y|\theta_1)p + f(y|\theta_2)(1-p)} $$ 化简后最终得到 $$ \frac{f(x|\theta_2)}{f(y|\theta_2)} \geq \frac{f(x|\theta_1)}{f(y|\theta_1)} $$ 由于 $\theta_1, \theta_2$ 是任意的,上式正是 $f(\cdot \mid \theta)$ 满足 MLRP 的定义。
A2. 连续形式的单调似然比
概率密度函数族 ${f(x \mid \theta)}$ 具有单调似然比性质 (MLRP),当且仅当对于每一个努力水平 $θ^\ast$,表达式 $\dfrac{f_θ(x\mid \theta^\ast)}{f(x \mid \theta^\ast)}$ 是关于产出 $x$ 的增函数。
注意到 $$ \frac{f(x \mid \theta_2)}{f(x \mid \theta_1)} = \exp\{\ln f(x\mid \theta_2) - \ln f(x\mid \theta_1)\} = \exp \left\{ \int_{\theta_1}^{\theta_2} \mathrm{d} \left[\ln f(x\mid \theta)\right] \right\} = \exp \left\{ \int_{\theta_1}^{\theta_2} \frac{f_\theta(x \mid \theta)}{f(x \mid \theta)} \mathrm{d} \theta\right\} $$ 得证。