Contract Theory (1) —— Preliminaries

概率分布的比较

Stochastic Dominance

一阶随机占优 (First-Order Stochastic Dominance, FOSD)

若分布 $F$ 一阶随机占优于分布 $G$ (记为 $F \succ_1 G$),直观上,$F$ 所产生的结果更优或更佳。

以下三个定义是等价的:

  1. 期望效用: 对于所有非递减的效用函数 $u(x)$,都有: $$ \int u(x)dF(x) \ge \int u(x)dG(x) $$ 这说明无论决策者是怎么样的风险偏好,都会更倾向于选择 $F$ 而不是 $G$。

  2. 累积分布函数 (CDF): 对于任意 $x$,$F$ 的累积概率都不超过 $G$: $$ F(x) \le G(x) \quad \forall x $$

  3. 随机变量构造: 存在一个非负随机变量 $\tilde{z} \ge 0$,使得若 $\tilde{x} \sim G$,则 $\tilde{x} + \tilde{z} \sim F$ 且 $\tilde{z}\sim H(z\mid x)$。 这意味着 $F$ 可以通过在 $G$ 的基础上增加一个非负扰动得到。

二阶随机占优 (Second-Order Stochastic Dominance, SOSD)

如果 F 二阶随机占优于 G (记为 $F \succ_2 G$),直观上意味着 F 的风险比 G “更小”。前提是两个分布的均值相同。以下定义等价:

  1. 期望效用: 对于所有非递减且凹的效用函数 $u(x)$ (代表风险厌恶者),都有: $$ \int u(x)dF(x) \ge \int u(x)dG(x) $$
  2. CDF积分: 对任意 $x$,$G$ 的 CDF 积分均不小于 $F$ 的 CDF 积分: $$ \int_{-\infty}^{x} G(t)dt \ge \int_{-\infty}^{x} F(t)dt \qquad \forall x $$
  3. 均值保持展开 (Mean-Preserving Spread): G 是 F 的一个均值保持展开。即存在一个“噪音”随机变量 $\tilde{z}$,满足 $E(\tilde{z} \mid \tilde{x})=0$,使得若 $\tilde{x} \sim F$,则 $\tilde{x} + \tilde{z} \sim G$。

SOSD 本质是一种衡量随机变量之间风险程度的偏序[1],以上的定义跟方差 (variance) 并不相同。$X$ 二阶随机占优于 $Y$ 说明 $X$ 的方差小于 $Y$,但是反过来不一定。

Monotone Likelihood Ratio Property (MLRP)

MLRP 描述了这样一种性质:当我们观测到一个更高的结果时,我们就更有理由相信这个结果来自于一个“更高”的参数或状态。比如,观察到越高的产出,越相信员工付出了越高的努力。

假设有一个由参数 $\theta$ 决定的概率密度函数(或概率质量函数)$f(x\mid\theta)$,称这个函数族满足单调似然比性质 (MLRP),如果对于任意两个参数值 $\theta_2 > \theta_1$,似然比 (likelihood ratio) $$ L(x) = \frac{f(x\mid\theta_2)}{f(x \mid \theta_1)} $$ 是关于观测值 $x$ 的非递减函数 (non-decreasing function)

用数学公式表达就是:对于任意 $\theta_2 > \theta_1$,只要 $x_2 > x_1$,就有:

$$ \frac{f(x_2 \mid \theta_2)}{f(x_2 \mid \theta_1)} \ge \frac{f(x_1 \mid \theta_2)}{f(x_1 \mid \theta_1)} $$

似然比 $\dfrac{f(x \mid \theta_2)}{f(x \mid \theta_1)}$ 衡量的是,相对于“低参数” $\theta_1$,“高参数” $\theta_2$ 产生观测值 $x$ 的相对可能性。

MLRP 的核心是:随着我们观测到的结果 $x$ 越来越大,这个似然比也越来越大(或至少不减小)。这说明,越大的 $x$ 越强烈地支持“参数是 $\theta_2$ 而不是 $\theta_1$”这一论断。

把不等式稍作变形,我们有一个MLRP的等价定义: $$ \frac{f(x_2 \mid \theta_2)}{f(x_1 \mid \theta_2)} \ge \frac{f(x_2 \mid \theta_1)}{f(x_1 \mid \theta_1)} $$ 以上不等式说明,令 $x_2> x_1$,有 $\dfrac{f(x_2 \mid \theta)}{f(x_1 \mid \theta)}$ 是 $\theta$ 的单调递增函数。它的含义是:当参数 $\theta$ 增大时,观测到更大 $x$ 值的可能性相对增加。

计算示例: 二项分布

假设 $X \sim \text{Binomial}(n, p)$,$n$ 固定,$p \in (0,1)$ 且 $p_2 > p_1$。似然比为: $$ L(x) = \frac{f(x \mid p_2)}{f(x \mid p_1)} = \left( \frac{p_2}{p_1} \right)^x \left( \frac{1 - p_2}{1 - p_1} \right)^{n - x} $$ 取对数得: $$ \ln L(x) = x \ln \left( \frac{p_2 (1 - p_1)}{p_1 (1 - p_2)} \right) + n \ln \left( \frac{1 - p_2}{1 - p_1} \right) $$ 因 $p_2 > p_1$,$\ln \left( \frac{p_2 (1 - p_1)}{p_1 (1 - p_2)} \right) > 0$,故 $\ln L(x)$ 关于 $x$ 线性递增。因此,二项分布满足 MLRP。

计算示例: 正态分布

假设 $X \sim \mathcal{N}(\mu, \sigma^2)$,$\sigma^2$ 固定,$\mu_2 > \mu_1$。似然比为:

$$ L(x) = \frac{f(x \mid \mu_2)}{f(x \mid \mu_1)} = \exp \left( -\frac{(x - \mu_2)^2}{2\sigma^2} + \frac{(x - \mu_1)^2}{2\sigma^2} \right) = \exp \left( \frac{2x(\mu_2 - \mu_1) - (\mu_2^2 - \mu_1^2)}{2\sigma^2} \right) $$

由于 $\mu_2 > \mu_1$,$L(x)$ 关于 $x$ 递增。因此,正态分布(方差固定)关于均值 $\mu$ 满足 MLRP。

计算示例: 均匀分布

假设 $X \sim \text{Uniform}(0, \theta)$,$\theta_2 > \theta_1$。似然比为:

$$ L(x) = \frac{f(x \mid \theta_2)}{f(x \mid \theta_1)} = \begin{cases} \frac{\theta_1}{\theta_2} & \text{if } 0 < x \leq \theta_1 \\ 0 & \text{if } x > \theta_1 \end{cases} $$

由于 $L(x)$ 在 $x \leq \theta_1$ 时为常数,在 $x > \theta_1$ 时降为 0,故 $L(x)$ 不是非递减函数。因此,均匀分布不满足 MLRP。

MLRP 与 FOSD (一阶随机占优) 的关系

MLRP 是一个比 FOSD 更强的条件。

具体而言,若 $\{f(x \mid \theta)\}$ 关于 $\theta$ 满足 MLRP,则对于 $\theta_2 > \theta_1$,$f(x \mid \theta_2)$ 一阶随机占优于 $f(x \mid \theta_1)$,即 $F(x \mid \theta_2) \leq F(x \mid \theta_1)$ 对于所有 $x$ 成立。但反之不成立。

不确定性下的决策框架

  • 基本元素:

    • $\theta$: 世界的状态 (state of the world),未知。
    • $y$: 信号/实验结果 (signal),提供关于 $\theta$ 的信息。
    • $a$: 决策者的行动 (action)。
    • $u(a, \theta)$: 支付函数 (payoff)。
  • 信念更新 (belief updating):

    • 决策者有一个关于 $\theta$ 的先验信念 (prior belief) $p(\theta)$。
    • “实验”(experiment) 由一组似然函数 $p(y \mid \theta)$ 描述。
    • 观察到信号 $y$ 后,决策者使用贝叶斯法则更新信念,得到后验信念 (posterior belief) $p(\theta \mid y)$。 $$ p(\theta \mid y) = \frac{p(y \mid \theta) p(\theta)}{p(y)} = \frac{p(y \mid \theta) p(\theta)}{\int p(y \mid \theta') p(\theta') \, d\theta'} $$
  • 任何一个信息结构(实验)都可以被视为一个关于后验概率的分布 $\{p(\theta \mid y)\}_{y \in Y}$ 。 根据全概率公式,所有可能的后验概率的期望必须等于先验概率: $$ E_y[p(\theta \mid y)] = \sum_y p(y) p(\theta \mid y) = p(\theta) $$ 任何满足这个条件的后验分布也能对应一个实验。

  • 实验独立于先验,但是后验依赖于先验。

充分统计量

统计量(可以是向量值)是样本的函数:$T: y \to T(y)$。若 $p(y \mid \theta) = p(y \mid T(y)) p(T(y) \mid \theta)$,则称 $T(y)$ 是 $y$ 的充分统计量。此时:

$$ p(\theta \mid y) = \frac{p(y \mid \theta) p(\theta)}{p(y)} = \frac{p(y \mid T(y)) p(T(y) \mid \theta) p(\theta)}{p(y \mid T(y)) p(T(y))} = \frac{p(T(y) \mid \theta) p(\theta)}{p(T(y))} = p(\theta \mid T(y)) $$

这表明给定 $y$ 和 $T(y)$ 揭示的关于 $\theta$ 的信息是等价的。

信息的价值 (Value of Information)

  • 最优决策: 在获得信号 $y$ 后 (ex post),决策者选择行动 $a$ 来最大化期望效用: $$ a^\ast(y) = \arg\max_a \int u(a, \theta) p(\theta \mid y) \, d\theta $$
  • 价值函数 (Value Function): 我们可以定义一个间接效用函数 $V(p)$,它表示当决策者的信念为 $p$ 时可以获得的最大期望效用。 $$ V(p) = \max_a \int u(a, \theta) p(\theta) \, d\theta $$ 其中 $p$ 是一个关于 $\theta$ 的信念(概率分布)。
  • 关键性质: 价值函数 $V(p)$ 是关于信念 $p$ 的凸函数 (convex function)
    • 这是因为 $V(p)$ 是一系列关于 $p$ 的线性函数(每个行动 $a$ 对应一个)的上包络线 (upper envelope),而线性函数的上包络线是凸的。
  • 信息的价值: 一个信息系统 $Y$ 的价值 $Z_Y$ 是指,拥有该信息系统所能获得的期望效用 $V_Y$ 与仅凭先验知识决策所能获得的效用 $V(p_0)$ 之间的差额。 $$ Z_Y = V_Y - V(p_0) = \left( \int V(p_y)p(y)dy \right) - V(p_0) $$ 其中 $p_y$ 是观察到信号 $y$ 后对 $\theta$ 的后验信念。由于 $V$ 是凸函数,根据 Jensen 不等式 (Jensen's inequality),信息的价值 $Z_Y$ 总是非负的。
Screenshot 2025-07-28 at 15.19.52

实验的比较 (Comparison of Experiments)

在何种条件下,我们可以断言实验 A 比实验 B “信息量更大”(more informative),且此结论对所有决策问题均成立?

布莱克威尔定理 (Blackwell's Informative Theorem): 以下陈述等价:

  1. 对所有决策都有利: 实验A对所有决策问题(即所有效用函数 $u(a,\theta)$)都比实验B更有价值。
  2. 后验概率的均值保持展开: 实验A产生的后验概率分布是实验B产生的后验概率分布的一个均值保持展开 (Mean-Preserving Spread, MPS)
  3. 布莱克威尔混淆 (Blackwell Garbling): 实验B可以由实验A通过一个“混淆”过程得到。也就是说,存在一个随机矩阵 (Markov matrix) $M$,使得 $P_B = M P_A$,其中 $P_A$ 和 $P_B$ 是两个实验的似然函数矩阵。 $$ P_A=[p_{ij}]^A, \quad \text{where }\, p_{ij}^A=P(y_A=i \mid \theta=j) $$ 这意味着B的信号可以看作是先得到A的信号,然后再对其增加一些噪音。
Screenshot 2025-07-24 at 11.51.40

直观理解: 一个信息量更大的实验,其产生的后验信念分布会更加“分散”或“极端”。因为它能让你在观察到信号后对真实状态更加确定(信念更接近0或1),而一个信息量更小的实验则会让你的信念停留在先验附近。由于价值函数 $V(p)$ 是凸的,更分散的后验信念会带来更高的期望价值。

布莱克威尔混淆(Blackwell Garbling)示例

假设有一个二元状态空间 $\Theta = \{\theta_1, \theta_2\}$,

信息结构 A 提供信号 $y \in \{y_1, y_2\}$,其似然函数如下:

  • 当状态为 $\theta_1$ 时,$P(y_1 \mid \theta_1) = 0.9$,$P(y_2 \mid \theta_1) = 0.1$。
  • 当状态为 $\theta_2$ 时,$P(y_1 \mid \theta_2) = 0.1$,$P(y_2 \mid \theta_2) = 0.9$。

用矩阵表示:

$$ P_A = \begin{bmatrix} 0.9 & 0.1 \\ 0.1 & 0.9 \end{bmatrix} $$

这个信号准确性较高,因为信号与状态强相关。

信息结构 B 提供信号 $z \in \{z_1, z_2\}$,其似然函数如下:

  • 当状态为 $\theta_1$ 时,$P(z_1 \mid \theta_1) = 0.6$,$P(z_2 \mid \theta_1) = 0.4$。
  • 当状态为 $\theta_2$ 时,$P(z_1 \mid \theta_2) = 0.4$,$P(z_2 \mid \theta_2) = 0.6$。

用矩阵表示:

$$ P_B = \begin{bmatrix} 0.6 & 0.4 \\ 0.4 & 0.6 \end{bmatrix} $$

这个信号准确性较低,信号与状态的关联性较弱。

为了证明 B 是 A 的混淆版本,我们需要找到一个随机矩阵 $M$(Markov matrix),使得 $P_B = M P_A$。假设:

$$ M = \begin{bmatrix} 0.625 & 0.375 \\ 0.375 & 0.625 \end{bmatrix} $$

验证计算:

$$ M P_A = \begin{bmatrix} 0.625 & 0.375 \\ 0.375 & 0.625 \end{bmatrix} \begin{bmatrix} 0.9 & 0.1 \\ 0.1 & 0.9 \end{bmatrix} = \begin{bmatrix} 0.6 & 0.4 \\ 0.4 & 0.6 \end{bmatrix} = P_B $$

结果相符,说明 $P_B = M P_A$ 成立。

矩阵 $M$ 表示从 A 的信号 $y$ 到 B 的信号 $z$ 的转换过程:

  • $y_1$ 以 0.625 的概率保持为 $z_1$,以 0.375 的概率翻转为 $z_2$。
  • $y_2$ 以 0.625 的概率保持为 $z_2$,以 0.375 的概率翻转为 $z_1$。

这种随机转换引入了噪音,使得 B 的信号比 A 的信号更模糊。因此,A 比 B 更具信息量。

通过构造随机矩阵 $M$,我们证明了信息结构 B 是信息结构 A 的混淆版本。这说明 A 的信号可以通过一个随机过程“劣化”为 B 的信号,从而在信息经济学中,A 被认为比 B 更优。


A1. MLRP 与后验分布的一阶随机占优是等价的

在贝叶斯统计中,一个重要的结论是,对于任何由参数 $\theta$ 定义的先验分布,通过观测数据 $x$ 或 $y$ 进行贝叶斯更新后,$x$ 的后验分布一阶随机占优于 $y$ 的后验分布[2],这一定义等价于似然函数满足单调似然比性质。

即 $$ \boxed{ \forall \text{prior } \pi(\theta), \;\; x > y \; \Longrightarrow\; p(\theta \mid x) \succeq_{\text{FOSD}} p(\theta \mid y) \quad \text{iff} \quad \frac{f(x \mid \theta)}{f(y \mid \theta)} \text{ is increasing in } \theta } $$ 一个重要的引理:如果两个概率密度函数 $ g(t) $ 和 $ h(t) $ 的似然比

$$ L(t) = \frac{g(t)}{h(t)} $$ 是关于 $ t $ 的单调非减函数,那么由 $ g(t) $ 对应的累积分布函数 $ G(t) $ 一阶随机占优于由 $ h(t) $ 对应的累积分布函数 $ H(t) $。

要证明: 对于所有实数 $ x $,都有 $$ G(x) \leq H(x) $$ 首先,注意到似然比 $ L(t) = \dfrac{g(t)}{h(t)} $ 不可能恒大于1或恒小于1。

又因为 $ L(t) $ 是单调非减函数,故存在一个点 $ t^\ast \in [-\infty, +\infty] $,使得:

  • 当 $ t < t^\ast $ 时,$ L(t) \leq 1 $,即 $ g(t) \leq h(t) $
  • 当 $ t > t^\ast $ 时,$ L(t) \geq 1 $,即 $ g(t) \geq h(t) $

若 $ L(t) $ 始终 $ \leq 1 $,可设 $ t^\ast = +\infty $;若始终 $ \geq 1 $,可设 $ t^\ast = -\infty $。这保证了 $ t^\ast $ 的存在性。

根据 $ x $ 与分界点 $ t^\ast $ 的相对位置分两种情况讨论。

当 $ x \leq t^\ast $ 时

此时积分区间 $ (-\infty, x] \subseteq (-\infty, t^\ast) $,所以对任意 $ t \in (-\infty, x] $,有 $ g(t) \leq h(t) $。

于是: $$ G(x) = \int_{-\infty}^{x} g(t)\,dt \leq \int_{-\infty}^{x} h(t)\,dt = H(x) $$

因此,当 $ x \leq t^\ast $ 时,$ G(x) \leq H(x) $ 成立。

当 $ x > t^\ast $ 时,

此时积分区间 $ (-\infty, x] $ 跨越了 $ t^\ast $,直接比较 $ G(x) $ 和 $ H(x) $ 较困难。我们转而比较它们的补集(生存函数):

注意到: $$ G(x) \leq H(x) \iff 1 - G(x) \geq 1 - H(x) $$ 而 $$ 1 - G(x) = \int_{x}^{\infty} g(t)\,dt, \quad 1 - H(x) = \int_{x}^{\infty} h(t)\,dt $$

由于 $ x > t^\ast $,所以对任意 $x \in [t^\ast, \infty) $,有 $ g(x) \geq h(x) $。

因此, $$ \int_{x}^{\infty} g(t)\,dt \geq \int_{x}^{\infty} h(t)\,dt \Rightarrow 1 - G(x) \geq 1 - H(x) \Rightarrow G(x) \leq H(x) $$

故当 $ x > t^\ast $ 时,不等式也成立。

综上所述,无论 $ x \leq t^\ast $ 还是 $ x > t^\ast $,均有: $$ G(x) \leq H(x), \quad \forall x \in \mathbb{R} $$

这说明累积分布函数 $ G $ 一阶随机占优于 $ H $。

MLRP ⇒ 后验分布的一阶随机占优

假设似然函数 $ f(x \mid \theta) $ 满足 MLRP,即:对于任意 $ x > y $,比值
$$ \frac{f(x \mid \theta)}{f(y \mid \theta)} $$ 是参数 $ \theta $ 的单调非减函数。

设 $ \pi(\theta) $ 是参数 $ \theta $ 的任意先验分布。根据贝叶斯定理,在观测到数据 $ x $ 后,$ \theta $ 的后验分布密度为: $$ p(\theta \mid x) = \frac{f(x \mid \theta) \pi(\theta)}{\int f(x \mid \theta') \pi(\theta')\, d\theta'} $$

我们希望证明:

如果 $ x > y $,那么由 $ x $ 更新得到的后验累积分布函数 $ F(\theta \mid x) $ 一阶随机占优于由 $ y $ 更新得到的后验累积分布函数 $ F(\theta \mid y) $。

换句话说,对所有 $ \theta $,有: $$ F(\theta \mid x) \leq F(\theta \mid y) $$ 注意到 $$ \frac{p(\theta \mid x)}{p(\theta \mid y)} = \frac{f(x \mid \theta)}{f(y \mid \theta)} \cdot \frac{\int f(y \mid \theta^{\prime}) \pi(\theta^{\prime})\, d\theta^{\prime}}{\int f(x \mid \theta^{\prime}) \pi(\theta^{\prime})\, d\theta^{\prime}} $$ 由 MLRP 能得到 $\dfrac{f(x \mid \theta)}{f(y \mid \theta)}$ 是 $\theta$ 的非递减函数,由于乘号右边与 $\theta$ 无关,$\dfrac{p(\theta \mid x)}{p(\theta \mid y)} $也是 $\theta$ 的非递减函数,这说明 $p(\theta \mid x)$ 对应的累积分布函数一阶随机占优于 $p(\theta \mid y)$ 对应的累积分布函数。

后验分布的一阶随机占优 ⇒ MLRP

由于对任意 $\theta$ 的先验,都要满足后验分布的一阶随机占优,这允许我们构造一个特殊的先验来证明 MLRP。

选择任意两个参数点 $\theta_1$ 和 $\theta_2$,使得 $\theta_1 < \theta_2$。构造一个只在这两点上有概率质量的先验分布: $$ \pi(\theta_1) = p, \quad \pi(\theta_2) = 1-p, \quad 0 < p < 1 $$

此时后验分布

$$ \pi(\theta_2|x) = \frac{f(x|\theta_2)\pi(\theta_2)}{f(x|\theta_1)\pi(\theta_1) + f(x|\theta_2)\pi(\theta_2)} = \frac{f(x|\theta_2)(1-p)}{f(x|\theta_1)p + f(x|\theta_2)(1-p)} $$

对于一个只有两点 $(\theta_1 < \theta_2)$ 的分布,FOSD 的条件简化为:更高状态 $\theta_2$ 的后验概率必须更高。即: $$ \pi(\theta_2|x) \geq \pi(\theta_2|y) $$

代入后得到 $$ \frac{f(x|\theta_2)(1-p)}{f(x|\theta_1)p + f(x|\theta_2)(1-p)} \geq \frac{f(y|\theta_2)(1-p)}{f(y|\theta_1)p + f(y|\theta_2)(1-p)} $$ 化简后最终得到 $$ \frac{f(x|\theta_2)}{f(y|\theta_2)} \geq \frac{f(x|\theta_1)}{f(y|\theta_1)} $$ 由于 $\theta_1, \theta_2$ 是任意的,上式正是 $f(\cdot \mid \theta)$ 满足 MLRP 的定义。

A2. 连续形式的单调似然比

概率密度函数族 ${f(x \mid \theta)}$ 具有单调似然比性质 (MLRP),当且仅当对于每一个努力水平 $θ^\ast$,表达式 $\dfrac{f_θ(x\mid \theta^\ast)}{f(x \mid \theta^\ast)}$ 是关于产出 $x$ 的增函数。

注意到 $$ \frac{f(x \mid \theta_2)}{f(x \mid \theta_1)} = \exp\{\ln f(x\mid \theta_2) - \ln f(x\mid \theta_1)\} = \exp \left\{ \int_{\theta_1}^{\theta_2} \mathrm{d} \left[\ln f(x\mid \theta)\right] \right\} = \exp \left\{ \int_{\theta_1}^{\theta_2} \frac{f_\theta(x \mid \theta)}{f(x \mid \theta)} \mathrm{d} \theta\right\} $$ 得证。


  1. Rothschild, Michael, and Joseph E. Stiglitz. “Increasing Risk I: A Definition.” Journal of Economic Theory, no. 3 (1970): 225–243. 

  2. 这是 Paul Milgrom (1981) 给出的 “observation x is more favorable than observation y” 的定义,意味着 x 带来了更多的“好消息” 

updatedupdated2025-12-022025-12-02