Contract Theory (1) —— Preliminaries

概率分布的比较

Stochastic Dominance

一阶随机占优 (First-Order Stochastic Dominance, FOSD)

若分布 $F$ 一阶随机占优于分布 $G$ (记为 $F \succ_1 G$)，直观上，$F$ 所产生的结果更优或更佳。

以下三个定义是等价的：

期望效用: 对于所有非递减的效用函数 $u(x)$，都有： $$ \int u(x)dF(x) \ge \int u(x)dG(x) $$ 这说明无论决策者是怎么样的风险偏好，都会更倾向于选择 $F$ 而不是 $G$。
累积分布函数 (CDF): 对于任意 $x$，$F$ 的累积概率都不超过 $G$： $$ F(x) \le G(x) \quad \forall x $$
随机变量构造: 存在一个非负随机变量 $\tilde{z} \ge 0$，使得若 $\tilde{x} \sim G$，则 $\tilde{x} + \tilde{z} \sim F$ 且 $\tilde{z}\sim H(z\mid x)$。这意味着 $F$ 可以通过在 $G$ 的基础上增加一个非负扰动得到。

二阶随机占优 (Second-Order Stochastic Dominance, SOSD)

如果 F 二阶随机占优于 G (记为 $F \succ_2 G$)，直观上意味着 F 的风险比 G “更小”。前提是两个分布的均值相同。以下定义等价：

期望效用: 对于所有非递减且凹的效用函数 $u(x)$ (代表风险厌恶者)，都有： $$ \int u(x)dF(x) \ge \int u(x)dG(x) $$
CDF积分: 对任意 $x$，$G$ 的 CDF 积分均不小于 $F$ 的 CDF 积分： $$ \int_{-\infty}^{x} G(t)dt \ge \int_{-\infty}^{x} F(t)dt \qquad \forall x $$
均值保持展开 (Mean-Preserving Spread): G 是 F 的一个均值保持展开。即存在一个“噪音”随机变量 $\tilde{z}$，满足 $E(\tilde{z} \mid \tilde{x})=0$，使得若 $\tilde{x} \sim F$，则 $\tilde{x} + \tilde{z} \sim G$。

SOSD 本质是一种衡量随机变量之间风险程度的偏序^[1]，以上的定义跟方差 (variance) 并不相同。$X$ 二阶随机占优于 $Y$ 说明 $X$ 的方差小于 $Y$，但是反过来不一定。

Monotone Likelihood Ratio Property (MLRP)

MLRP 描述了这样一种性质：当我们观测到一个更高的结果时，我们就更有理由相信这个结果来自于一个“更高”的参数或状态。比如，观察到越高的产出，越相信员工付出了越高的努力。

假设有一个由参数 $\theta$ 决定的概率密度函数（或概率质量函数）$f(x\mid\theta)$，称这个函数族满足单调似然比性质 (MLRP)，如果对于任意两个参数值 $\theta_2 > \theta_1$，似然比 (likelihood ratio) $$ L(x) = \frac{f(x\mid\theta_2)}{f(x \mid \theta_1)} $$ 是关于观测值 $x$ 的非递减函数 (non-decreasing function)。

用数学公式表达就是：对于任意 $\theta_2 > \theta_1$，只要 $x_2 > x_1$，就有：

$$ \frac{f(x_2 \mid \theta_2)}{f(x_2 \mid \theta_1)} \ge \frac{f(x_1 \mid \theta_2)}{f(x_1 \mid \theta_1)} $$

似然比 $\dfrac{f(x \mid \theta_2)}{f(x \mid \theta_1)}$ 衡量的是，相对于“低参数” $\theta_1$，“高参数” $\theta_2$ 产生观测值 $x$ 的相对可能性。

MLRP 的核心是：随着我们观测到的结果 $x$ 越来越大，这个似然比也越来越大（或至少不减小）。这说明，越大的 $x$ 越强烈地支持“参数是 $\theta_2$ 而不是 $\theta_1$”这一论断。

把不等式稍作变形，我们有一个MLRP的等价定义: $$ \frac{f(x_2 \mid \theta_2)}{f(x_1 \mid \theta_2)} \ge \frac{f(x_2 \mid \theta_1)}{f(x_1 \mid \theta_1)} $$ 以上不等式说明，令 $x_2> x_1$，有 $\dfrac{f(x_2 \mid \theta)}{f(x_1 \mid \theta)}$ 是 $\theta$ 的单调递增函数。它的含义是：当参数 $\theta$ 增大时，观测到更大 $x$ 值的可能性相对增加。

计算示例: 二项分布

假设 $X \sim \text{Binomial}(n, p)$，$n$ 固定，$p \in (0,1)$ 且 $p_2 > p_1$。似然比为： $$ L(x) = \frac{f(x \mid p_2)}{f(x \mid p_1)} = \left( \frac{p_2}{p_1} \right)^x \left( \frac{1 - p_2}{1 - p_1} \right)^{n - x} $$ 取对数得： $$ \ln L(x) = x \ln \left( \frac{p_2 (1 - p_1)}{p_1 (1 - p_2)} \right) + n \ln \left( \frac{1 - p_2}{1 - p_1} \right) $$ 因 $p_2 > p_1$，$\ln \left( \frac{p_2 (1 - p_1)}{p_1 (1 - p_2)} \right) > 0$，故 $\ln L(x)$ 关于 $x$ 线性递增。因此，二项分布满足 MLRP。

计算示例: 正态分布

假设 $X \sim \mathcal{N}(\mu, \sigma^2)$，$\sigma^2$ 固定，$\mu_2 > \mu_1$。似然比为：

$$ L(x) = \frac{f(x \mid \mu_2)}{f(x \mid \mu_1)} = \exp \left( -\frac{(x - \mu_2)^2}{2\sigma^2} + \frac{(x - \mu_1)^2}{2\sigma^2} \right) = \exp \left( \frac{2x(\mu_2 - \mu_1) - (\mu_2^2 - \mu_1^2)}{2\sigma^2} \right) $$

由于 $\mu_2 > \mu_1$，$L(x)$ 关于 $x$ 递增。因此，正态分布（方差固定）关于均值 $\mu$ 满足 MLRP。

计算示例: 均匀分布

假设 $X \sim \text{Uniform}(0, \theta)$，$\theta_2 > \theta_1$。似然比为：

$$ L(x) = \frac{f(x \mid \theta_2)}{f(x \mid \theta_1)} = \begin{cases} \frac{\theta_1}{\theta_2} & \text{if } 0 < x \leq \theta_1 \\ 0 & \text{if } x > \theta_1 \end{cases} $$

由于 $L(x)$ 在 $x \leq \theta_1$ 时为常数，在 $x > \theta_1$ 时降为 0，故 $L(x)$ 不是非递减函数。因此，均匀分布不满足 MLRP。

MLRP 与 FOSD (一阶随机占优) 的关系

MLRP 是一个比 FOSD 更强的条件。

具体而言，若 $\{f(x \mid \theta)\}$ 关于 $\theta$ 满足 MLRP，则对于 $\theta_2 > \theta_1$，$f(x \mid \theta_2)$ 一阶随机占优于 $f(x \mid \theta_1)$，即 $F(x \mid \theta_2) \leq F(x \mid \theta_1)$ 对于所有 $x$ 成立。但反之不成立。

不确定性下的决策框架

基本元素:
- $\theta$: 世界的状态 (state of the world)，未知。
- $y$: 信号/实验结果 (signal)，提供关于 $\theta$ 的信息。
- $a$: 决策者的行动 (action)。
- $u(a, \theta)$: 支付函数 (payoff)。
信念更新 (belief updating):
- 决策者有一个关于 $\theta$ 的先验信念 (prior belief) $p(\theta)$。
- “实验”(experiment) 由一组似然函数 $p(y \mid \theta)$ 描述。
- 观察到信号 $y$ 后，决策者使用贝叶斯法则更新信念，得到后验信念 (posterior belief) $p(\theta \mid y)$。 $$ p(\theta \mid y) = \frac{p(y \mid \theta) p(\theta)}{p(y)} = \frac{p(y \mid \theta) p(\theta)}{\int p(y \mid \theta') p(\theta') \, d\theta'} $$
任何一个信息结构（实验）都可以被视为一个关于后验概率的分布 $\{p(\theta \mid y)\}_{y \in Y}$ 。根据全概率公式，所有可能的后验概率的期望必须等于先验概率： $$ E_y[p(\theta \mid y)] = \sum_y p(y) p(\theta \mid y) = p(\theta) $$ 任何满足这个条件的后验分布也能对应一个实验。
实验独立于先验，但是后验依赖于先验。

充分统计量

统计量（可以是向量值）是样本的函数：$T: y \to T(y)$。若 $p(y \mid \theta) = p(y \mid T(y)) p(T(y) \mid \theta)$，则称 $T(y)$ 是 $y$ 的充分统计量。此时：

$$ p(\theta \mid y) = \frac{p(y \mid \theta) p(\theta)}{p(y)} = \frac{p(y \mid T(y)) p(T(y) \mid \theta) p(\theta)}{p(y \mid T(y)) p(T(y))} = \frac{p(T(y) \mid \theta) p(\theta)}{p(T(y))} = p(\theta \mid T(y)) $$

这表明给定 $y$ 和 $T(y)$ 揭示的关于 $\theta$ 的信息是等价的。

信息的价值 (Value of Information)

最优决策: 在获得信号 $y$ 后 (ex post)，决策者选择行动 $a$ 来最大化期望效用： $$ a^\ast(y) = \arg\max_a \int u(a, \theta) p(\theta \mid y) \, d\theta $$
价值函数 (Value Function): 我们可以定义一个间接效用函数 $V(p)$，它表示当决策者的信念为 $p$ 时可以获得的最大期望效用。 $$ V(p) = \max_a \int u(a, \theta) p(\theta) \, d\theta $$ 其中 $p$ 是一个关于 $\theta$ 的信念（概率分布）。
关键性质: 价值函数 $V(p)$ 是关于信念 $p$ 的凸函数 (convex function)。
- 这是因为 $V(p)$ 是一系列关于 $p$ 的线性函数（每个行动 $a$ 对应一个）的上包络线 (upper envelope)，而线性函数的上包络线是凸的。
信息的价值: 一个信息系统 $Y$ 的价值 $Z_Y$ 是指，拥有该信息系统所能获得的期望效用 $V_Y$ 与仅凭先验知识决策所能获得的效用 $V(p_0)$ 之间的差额。 $$ Z_Y = V_Y - V(p_0) = \left( \int V(p_y)p(y)dy \right) - V(p_0) $$ 其中 $p_y$ 是观察到信号 $y$ 后对 $\theta$ 的后验信念。由于 $V$ 是凸函数，根据 Jensen 不等式 (Jensen's inequality)，信息的价值 $Z_Y$ 总是非负的。

实验的比较 (Comparison of Experiments)

在何种条件下，我们可以断言实验 A 比实验 B “信息量更大”(more informative)，且此结论对所有决策问题均成立？

布莱克威尔定理 (Blackwell's Informative Theorem): 以下陈述等价：

对所有决策都有利: 实验A对所有决策问题（即所有效用函数 $u(a,\theta)$）都比实验B更有价值。
后验概率的均值保持展开: 实验A产生的后验概率分布是实验B产生的后验概率分布的一个均值保持展开 (Mean-Preserving Spread, MPS)。
布莱克威尔混淆 (Blackwell Garbling): 实验B可以由实验A通过一个“混淆”过程得到。也就是说，存在一个随机矩阵 (Markov matrix) $M$，使得 $P_B = M P_A$，其中 $P_A$ 和 $P_B$ 是两个实验的似然函数矩阵。 $$ P_A=[p_{ij}]^A, \quad \text{where }\, p_{ij}^A=P(y_A=i \mid \theta=j) $$ 这意味着B的信号可以看作是先得到A的信号，然后再对其增加一些噪音。

直观理解: 一个信息量更大的实验，其产生的后验信念分布会更加“分散”或“极端”。因为它能让你在观察到信号后对真实状态更加确定（信念更接近0或1），而一个信息量更小的实验则会让你的信念停留在先验附近。由于价值函数 $V(p)$ 是凸的，更分散的后验信念会带来更高的期望价值。

布莱克威尔混淆（Blackwell Garbling）示例

假设有一个二元状态空间 $\Theta = \{\theta_1, \theta_2\}$，

信息结构 A 提供信号 $y \in \{y_1, y_2\}$，其似然函数如下：

当状态为 $\theta_1$ 时，$P(y_1 \mid \theta_1) = 0.9$，$P(y_2 \mid \theta_1) = 0.1$。
当状态为 $\theta_2$ 时，$P(y_1 \mid \theta_2) = 0.1$，$P(y_2 \mid \theta_2) = 0.9$。

用矩阵表示：

$$ P_A = \begin{bmatrix} 0.9 & 0.1 \\ 0.1 & 0.9 \end{bmatrix} $$

这个信号准确性较高，因为信号与状态强相关。

信息结构 B 提供信号 $z \in \{z_1, z_2\}$，其似然函数如下：

当状态为 $\theta_1$ 时，$P(z_1 \mid \theta_1) = 0.6$，$P(z_2 \mid \theta_1) = 0.4$。
当状态为 $\theta_2$ 时，$P(z_1 \mid \theta_2) = 0.4$，$P(z_2 \mid \theta_2) = 0.6$。

用矩阵表示：

$$ P_B = \begin{bmatrix} 0.6 & 0.4 \\ 0.4 & 0.6 \end{bmatrix} $$

这个信号准确性较低，信号与状态的关联性较弱。

为了证明 B 是 A 的混淆版本，我们需要找到一个随机矩阵 $M$（Markov matrix），使得 $P_B = M P_A$。假设：

$$ M = \begin{bmatrix} 0.625 & 0.375 \\ 0.375 & 0.625 \end{bmatrix} $$

验证计算：

$$ M P_A = \begin{bmatrix} 0.625 & 0.375 \\ 0.375 & 0.625 \end{bmatrix} \begin{bmatrix} 0.9 & 0.1 \\ 0.1 & 0.9 \end{bmatrix} = \begin{bmatrix} 0.6 & 0.4 \\ 0.4 & 0.6 \end{bmatrix} = P_B $$

结果相符，说明 $P_B = M P_A$ 成立。

矩阵 $M$ 表示从 A 的信号 $y$ 到 B 的信号 $z$ 的转换过程：

$y_1$ 以 0.625 的概率保持为 $z_1$，以 0.375 的概率翻转为 $z_2$。
$y_2$ 以 0.625 的概率保持为 $z_2$，以 0.375 的概率翻转为 $z_1$。

这种随机转换引入了噪音，使得 B 的信号比 A 的信号更模糊。因此，A 比 B 更具信息量。

通过构造随机矩阵 $M$，我们证明了信息结构 B 是信息结构 A 的混淆版本。这说明 A 的信号可以通过一个随机过程“劣化”为 B 的信号，从而在信息经济学中，A 被认为比 B 更优。

A1. MLRP 与后验分布的一阶随机占优是等价的

在贝叶斯统计中，一个重要的结论是，对于任何由参数 $\theta$ 定义的先验分布，通过观测数据 $x$ 或 $y$ 进行贝叶斯更新后，$x$ 的后验分布一阶随机占优于 $y$ 的后验分布^[2]，这一定义等价于似然函数满足单调似然比性质。

即 $$ \boxed{ \forall \text{prior } \pi(\theta), \;\; x > y \; \Longrightarrow\; p(\theta \mid x) \succeq_{\text{FOSD}} p(\theta \mid y) \quad \text{iff} \quad \frac{f(x \mid \theta)}{f(y \mid \theta)} \text{ is increasing in } \theta } $$ 一个重要的引理：如果两个概率密度函数 $ g(t) $ 和 $ h(t) $ 的似然比

$$ L(t) = \frac{g(t)}{h(t)} $$ 是关于 $ t $ 的单调非减函数，那么由 $ g(t) $ 对应的累积分布函数 $ G(t) $ 一阶随机占优于由 $ h(t) $ 对应的累积分布函数 $ H(t) $。

要证明：对于所有实数 $ x $，都有 $$ G(x) \leq H(x) $$ 首先，注意到似然比 $ L(t) = \dfrac{g(t)}{h(t)} $ 不可能恒大于1或恒小于1。

又因为 $ L(t) $ 是单调非减函数，故存在一个点 $ t^\ast \in [-\infty, +\infty] $，使得：

当 $ t < t^\ast $ 时，$ L(t) \leq 1 $，即 $ g(t) \leq h(t) $
当 $ t > t^\ast $ 时，$ L(t) \geq 1 $，即 $ g(t) \geq h(t) $

若 $ L(t) $ 始终 $ \leq 1 $，可设 $ t^\ast = +\infty $；若始终 $ \geq 1 $，可设 $ t^\ast = -\infty $。这保证了 $ t^\ast $ 的存在性。

根据 $ x $ 与分界点 $ t^\ast $ 的相对位置分两种情况讨论。

当 $ x \leq t^\ast $ 时

此时积分区间 $ (-\infty, x] \subseteq (-\infty, t^\ast) $，所以对任意 $ t \in (-\infty, x] $，有 $ g(t) \leq h(t) $。

于是： $$ G(x) = \int_{-\infty}^{x} g(t)\,dt \leq \int_{-\infty}^{x} h(t)\,dt = H(x) $$

因此，当 $ x \leq t^\ast $ 时，$ G(x) \leq H(x) $ 成立。

当 $ x > t^\ast $ 时，

此时积分区间 $ (-\infty, x] $ 跨越了 $ t^\ast $，直接比较 $ G(x) $ 和 $ H(x) $ 较困难。我们转而比较它们的补集（生存函数）：

注意到： $$ G(x) \leq H(x) \iff 1 - G(x) \geq 1 - H(x) $$ 而 $$ 1 - G(x) = \int_{x}^{\infty} g(t)\,dt, \quad 1 - H(x) = \int_{x}^{\infty} h(t)\,dt $$

由于 $ x > t^\ast $，所以对任意 $x \in [t^\ast, \infty) $，有 $ g(x) \geq h(x) $。

因此， $$ \int_{x}^{\infty} g(t)\,dt \geq \int_{x}^{\infty} h(t)\,dt \Rightarrow 1 - G(x) \geq 1 - H(x) \Rightarrow G(x) \leq H(x) $$

故当 $ x > t^\ast $ 时，不等式也成立。

综上所述，无论 $ x \leq t^\ast $ 还是 $ x > t^\ast $，均有： $$ G(x) \leq H(x), \quad \forall x \in \mathbb{R} $$

这说明累积分布函数 $ G $ 一阶随机占优于 $ H $。

MLRP ⇒ 后验分布的一阶随机占优

假设似然函数 $ f(x \mid \theta) $ 满足 MLRP，即：对于任意 $ x > y $，比值
$$ \frac{f(x \mid \theta)}{f(y \mid \theta)} $$ 是参数 $ \theta $ 的单调非减函数。

设 $ \pi(\theta) $ 是参数 $ \theta $ 的任意先验分布。根据贝叶斯定理，在观测到数据 $ x $ 后，$ \theta $ 的后验分布密度为： $$ p(\theta \mid x) = \frac{f(x \mid \theta) \pi(\theta)}{\int f(x \mid \theta') \pi(\theta')\, d\theta'} $$

我们希望证明：

如果 $ x > y $，那么由 $ x $ 更新得到的后验累积分布函数 $ F(\theta \mid x) $ 一阶随机占优于由 $ y $ 更新得到的后验累积分布函数 $ F(\theta \mid y) $。

换句话说，对所有 $ \theta $，有： $$ F(\theta \mid x) \leq F(\theta \mid y) $$ 注意到 $$ \frac{p(\theta \mid x)}{p(\theta \mid y)} = \frac{f(x \mid \theta)}{f(y \mid \theta)} \cdot \frac{\int f(y \mid \theta^{\prime}) \pi(\theta^{\prime})\, d\theta^{\prime}}{\int f(x \mid \theta^{\prime}) \pi(\theta^{\prime})\, d\theta^{\prime}} $$ 由 MLRP 能得到 $\dfrac{f(x \mid \theta)}{f(y \mid \theta)}$ 是 $\theta$ 的非递减函数，由于乘号右边与 $\theta$ 无关，$\dfrac{p(\theta \mid x)}{p(\theta \mid y)} $也是 $\theta$ 的非递减函数，这说明 $p(\theta \mid x)$ 对应的累积分布函数一阶随机占优于 $p(\theta \mid y)$ 对应的累积分布函数。

后验分布的一阶随机占优 ⇒ MLRP

由于对任意 $\theta$ 的先验，都要满足后验分布的一阶随机占优，这允许我们构造一个特殊的先验来证明 MLRP。

选择任意两个参数点 $\theta_1$ 和 $\theta_2$，使得 $\theta_1 < \theta_2$。构造一个只在这两点上有概率质量的先验分布： $$ \pi(\theta_1) = p, \quad \pi(\theta_2) = 1-p, \quad 0 < p < 1 $$

此时后验分布

$$ \pi(\theta_2|x) = \frac{f(x|\theta_2)\pi(\theta_2)}{f(x|\theta_1)\pi(\theta_1) + f(x|\theta_2)\pi(\theta_2)} = \frac{f(x|\theta_2)(1-p)}{f(x|\theta_1)p + f(x|\theta_2)(1-p)} $$

对于一个只有两点 $(\theta_1 < \theta_2)$ 的分布，FOSD 的条件简化为：更高状态 $\theta_2$ 的后验概率必须更高。即： $$ \pi(\theta_2|x) \geq \pi(\theta_2|y) $$

代入后得到 $$ \frac{f(x|\theta_2)(1-p)}{f(x|\theta_1)p + f(x|\theta_2)(1-p)} \geq \frac{f(y|\theta_2)(1-p)}{f(y|\theta_1)p + f(y|\theta_2)(1-p)} $$ 化简后最终得到 $$ \frac{f(x|\theta_2)}{f(y|\theta_2)} \geq \frac{f(x|\theta_1)}{f(y|\theta_1)} $$ 由于 $\theta_1, \theta_2$ 是任意的，上式正是 $f(\cdot \mid \theta)$ 满足 MLRP 的定义。

A2. 连续形式的单调似然比

概率密度函数族 ${f(x \mid \theta)}$ 具有单调似然比性质 (MLRP)，当且仅当对于每一个努力水平 $θ^\ast$，表达式 $\dfrac{f_θ(x\mid \theta^\ast)}{f(x \mid \theta^\ast)}$ 是关于产出 $x$ 的增函数。

注意到 $$ \frac{f(x \mid \theta_2)}{f(x \mid \theta_1)} = \exp\{\ln f(x\mid \theta_2) - \ln f(x\mid \theta_1)\} = \exp \left\{ \int_{\theta_1}^{\theta_2} \mathrm{d} \left[\ln f(x\mid \theta)\right] \right\} = \exp \left\{ \int_{\theta_1}^{\theta_2} \frac{f_\theta(x \mid \theta)}{f(x \mid \theta)} \mathrm{d} \theta\right\} $$ 得证。

Rothschild, Michael, and Joseph E. Stiglitz. “Increasing Risk I: A Definition.” Journal of Economic Theory, no. 3 (1970): 225–243.
这是 Paul Milgrom (1981) 给出的 “observation x is more favorable than observation y” 的定义，意味着 x 带来了更多的“好消息”