LOADING
1593 字
8 分钟
分块矩阵: 独立 ⇔ 不相关的详细证明

多元正态分布中”独立 ⇔ 不相关”的详细证明

一、定理陈述

定理:设 X=[X(1)X(2)]Np([μ(1)μ(2)],[Σ11Σ12Σ21Σ22])X = \begin{bmatrix} X^{(1)} \\ X^{(2)} \end{bmatrix} \sim N_p\left( \begin{bmatrix} \mu^{(1)} \\ \mu^{(2)} \end{bmatrix}, \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} \right)

其中:

  • X(1)X^{(1)}rr 维随机向量
  • X(2)X^{(2)}(pr)(p-r) 维随机向量
  • μ(1)\mu^{(1)}rr 维均值向量,μ(2)\mu^{(2)}(pr)(p-r) 维均值向量
  • Σ11\Sigma_{11}r×rr \times r 协方差矩阵
  • Σ22\Sigma_{22}(pr)×(pr)(p-r) \times (p-r) 协方差矩阵
  • Σ12\Sigma_{12}r×(pr)r \times (p-r) 协方差矩阵
  • Σ21=Σ12\Sigma_{21} = \Sigma_{12}'(pr)×r(p-r) \times r 协方差矩阵

则: X(1) 与 X(2) 相互独立Σ12=0X^{(1)} \text{ 与 } X^{(2)} \text{ 相互独立} \Longleftrightarrow \Sigma_{12} = 0


二、证明

2.1 方向一:独立 ⇒ 不相关(Σ12=0\Sigma_{12} = 0

证明

X(1)X^{(1)}X(2)X^{(2)} 相互独立,则对任意 i=1,2,,ri = 1, 2, \dots, rj=1,2,,prj = 1, 2, \dots, p-r,有: Cov(Xi(1),Xj(2))=0\text{Cov}(X_i^{(1)}, X_j^{(2)}) = 0

详细推导

由协方差的定义: Cov(Xi(1),Xj(2))=E[(Xi(1)μi(1))(Xj(2)μj(2))]\text{Cov}(X_i^{(1)}, X_j^{(2)}) = E[(X_i^{(1)} - \mu_i^{(1)})(X_j^{(2)} - \mu_j^{(2)})]

由于 X(1)X^{(1)}X(2)X^{(2)} 相互独立,故 Xi(1)X_i^{(1)}Xj(2)X_j^{(2)} 也相互独立,因此: E[(Xi(1)μi(1))(Xj(2)μj(2))]=E[Xi(1)μi(1)]E[Xj(2)μj(2)]E[(X_i^{(1)} - \mu_i^{(1)})(X_j^{(2)} - \mu_j^{(2)})] = E[X_i^{(1)} - \mu_i^{(1)}] \cdot E[X_j^{(2)} - \mu_j^{(2)}]

而: E[Xi(1)μi(1)]=E[Xi(1)]μi(1)=μi(1)μi(1)=0E[X_i^{(1)} - \mu_i^{(1)}] = E[X_i^{(1)}] - \mu_i^{(1)} = \mu_i^{(1)} - \mu_i^{(1)} = 0 E[Xj(2)μj(2)]=E[Xj(2)]μj(2)=μj(2)μj(2)=0E[X_j^{(2)} - \mu_j^{(2)}] = E[X_j^{(2)}] - \mu_j^{(2)} = \mu_j^{(2)} - \mu_j^{(2)} = 0

因此: Cov(Xi(1),Xj(2))=00=0\text{Cov}(X_i^{(1)}, X_j^{(2)}) = 0 \cdot 0 = 0

由于这对所有 i,ji, j 都成立,故协方差矩阵 Σ12\Sigma_{12} 的所有元素均为 0,即: Σ12=0\Sigma_{12} = 0

注记:由于 Σ21=Σ12\Sigma_{21} = \Sigma_{12}',故 Σ21=0\Sigma_{21} = 0 也成立。


2.2 方向二:不相关(Σ12=0\Sigma_{12} = 0)⇒ 独立

这是多元正态分布特有的性质,需要利用特征函数或密度函数进行证明。

方法一:利用特征函数证明

证明

XNp(μ,Σ)X \sim N_p(\mu, \Sigma),其中: μ=[μ(1)μ(2)],Σ=[Σ11Σ12Σ21Σ22]\mu = \begin{bmatrix} \mu^{(1)} \\ \mu^{(2)} \end{bmatrix}, \quad \Sigma = \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix}

XX 的特征函数为: φX(t)=E[eitX]=exp(itμ12tΣt)\varphi_X(t) = E[e^{it'X}] = \exp\left(it'\mu - \frac{1}{2}t'\Sigma t\right)

其中 t=[t(1)t(2)]t = \begin{bmatrix} t^{(1)} \\ t^{(2)} \end{bmatrix}t(1)t^{(1)}rr 维向量,t(2)t^{(2)}(pr)(p-r) 维向量。

tμt'\mutΣtt'\Sigma t 展开:

第一步:展开 tμt'\mu

tμ=[t(1)t(2)][μ(1)μ(2)]=t(1)μ(1)+t(2)μ(2)t'\mu = \begin{bmatrix} t^{(1)'} & t^{(2)'} \end{bmatrix} \begin{bmatrix} \mu^{(1)} \\ \mu^{(2)} \end{bmatrix} = t^{(1)'}\mu^{(1)} + t^{(2)'}\mu^{(2)}

第二步:展开 tΣtt'\Sigma t

tΣt=[t(1)t(2)][Σ11Σ12Σ21Σ22][t(1)t(2)]=[t(1)t(2)][Σ11t(1)+Σ12t(2)Σ21t(1)+Σ22t(2)]=t(1)(Σ11t(1)+Σ12t(2))+t(2)(Σ21t(1)+Σ22t(2))=t(1)Σ11t(1)+t(1)Σ12t(2)+t(2)Σ21t(1)+t(2)Σ22t(2)\begin{aligned} t'\Sigma t &= \begin{bmatrix} t^{(1)'} & t^{(2)'} \end{bmatrix} \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} \begin{bmatrix} t^{(1)} \\ t^{(2)} \end{bmatrix} \\ &= \begin{bmatrix} t^{(1)'} & t^{(2)'} \end{bmatrix} \begin{bmatrix} \Sigma_{11}t^{(1)} + \Sigma_{12}t^{(2)} \\ \Sigma_{21}t^{(1)} + \Sigma_{22}t^{(2)} \end{bmatrix} \\ &= t^{(1)'}(\Sigma_{11}t^{(1)} + \Sigma_{12}t^{(2)}) + t^{(2)'}(\Sigma_{21}t^{(1)} + \Sigma_{22}t^{(2)}) \\ &= t^{(1)'}\Sigma_{11}t^{(1)} + t^{(1)'}\Sigma_{12}t^{(2)} + t^{(2)'}\Sigma_{21}t^{(1)} + t^{(2)'}\Sigma_{22}t^{(2)} \end{aligned}

第三步:利用 Σ12=0\Sigma_{12} = 0 的条件

Σ12=0\Sigma_{12} = 0,则 Σ21=Σ12=0\Sigma_{21} = \Sigma_{12}' = 0,因此: tΣt=t(1)Σ11t(1)+t(2)Σ22t(2)t'\Sigma t = t^{(1)'}\Sigma_{11}t^{(1)} + t^{(2)'}\Sigma_{22}t^{(2)}

第四步:代入特征函数

φX(t)=exp(itμ12tΣt)=exp(i(t(1)μ(1)+t(2)μ(2))12(t(1)Σ11t(1)+t(2)Σ22t(2)))=exp(it(1)μ(1)12t(1)Σ11t(1))exp(it(2)μ(2)12t(2)Σ22t(2))\begin{aligned} \varphi_X(t) &= \exp\left(it'\mu - \frac{1}{2}t'\Sigma t\right) \\ &= \exp\left(i(t^{(1)'}\mu^{(1)} + t^{(2)'}\mu^{(2)}) - \frac{1}{2}(t^{(1)'}\Sigma_{11}t^{(1)} + t^{(2)'}\Sigma_{22}t^{(2)})\right) \\ &= \exp\left(it^{(1)'}\mu^{(1)} - \frac{1}{2}t^{(1)'}\Sigma_{11}t^{(1)}\right) \cdot \exp\left(it^{(2)'}\mu^{(2)} - \frac{1}{2}t^{(2)'}\Sigma_{22}t^{(2)}\right) \end{aligned}

第五步:识别边缘特征函数

注意到:

  • exp(it(1)μ(1)12t(1)Σ11t(1))\exp\left(it^{(1)'}\mu^{(1)} - \frac{1}{2}t^{(1)'}\Sigma_{11}t^{(1)}\right)X(1)Nr(μ(1),Σ11)X^{(1)} \sim N_r(\mu^{(1)}, \Sigma_{11}) 的特征函数
  • exp(it(2)μ(2)12t(2)Σ22t(2))\exp\left(it^{(2)'}\mu^{(2)} - \frac{1}{2}t^{(2)'}\Sigma_{22}t^{(2)}\right)X(2)Npr(μ(2),Σ22)X^{(2)} \sim N_{p-r}(\mu^{(2)}, \Sigma_{22}) 的特征函数

因此: φX(t)=φX(1)(t(1))φX(2)(t(2))\varphi_X(t) = \varphi_{X^{(1)}}(t^{(1)}) \cdot \varphi_{X^{(2)}}(t^{(2)})

第六步:由特征函数的性质得出独立性

特征函数的乘积性质表明:若联合特征函数等于边缘特征函数的乘积,则随机向量相互独立。

因此,X(1)X^{(1)}X(2)X^{(2)} 相互独立。


方法二:利用密度函数证明(非退化情况)

证明

假设 Σ>0\Sigma > 0(非退化情况),则 XX 的联合密度函数为: fX(x)=1(2π)p/2Σ1/2exp[12(xμ)Σ1(xμ)]f_X(x) = \frac{1}{(2\pi)^{p/2}\lvert \Sigma \rvert^{1/2}} \exp\left[-\frac{1}{2}(x - \mu)'\Sigma^{-1}(x - \mu)\right]

其中 x=[x(1)x(2)]x = \begin{bmatrix} x^{(1)} \\ x^{(2)} \end{bmatrix}

第一步:计算 Σ\lvert \Sigma \rvert

Σ12=0\Sigma_{12} = 0 时: Σ=[Σ1100Σ22]\Sigma = \begin{bmatrix} \Sigma_{11} & 0 \\ 0 & \Sigma_{22} \end{bmatrix}

分块对角矩阵的行列式等于各块行列式的乘积: Σ=Σ11Σ22\lvert \Sigma \rvert = \lvert \Sigma_{11} \rvert \cdot \lvert \Sigma_{22} \rvert

第二步:计算 Σ1\Sigma^{-1}

分块对角矩阵的逆矩阵为: Σ1=[Σ11100Σ221]\Sigma^{-1} = \begin{bmatrix} \Sigma_{11}^{-1} & 0 \\ 0 & \Sigma_{22}^{-1} \end{bmatrix}

第三步:展开二次型 (xμ)Σ1(xμ)(x - \mu)'\Sigma^{-1}(x - \mu)

(xμ)Σ1(xμ)=[x(1)μ(1)x(2)μ(2)][Σ11100Σ221][x(1)μ(1)x(2)μ(2)]=[(x(1)μ(1))(x(2)μ(2))][Σ111(x(1)μ(1))Σ221(x(2)μ(2))]=(x(1)μ(1))Σ111(x(1)μ(1))+(x(2)μ(2))Σ221(x(2)μ(2))\begin{aligned} (x - \mu)'\Sigma^{-1}(x - \mu) &= \begin{bmatrix} x^{(1)} - \mu^{(1)} \\ x^{(2)} - \mu^{(2)} \end{bmatrix}' \begin{bmatrix} \Sigma_{11}^{-1} & 0 \\ 0 & \Sigma_{22}^{-1} \end{bmatrix} \begin{bmatrix} x^{(1)} - \mu^{(1)} \\ x^{(2)} - \mu^{(2)} \end{bmatrix} \\ &= \begin{bmatrix} (x^{(1)} - \mu^{(1)})' & (x^{(2)} - \mu^{(2)})' \end{bmatrix} \begin{bmatrix} \Sigma_{11}^{-1}(x^{(1)} - \mu^{(1)}) \\ \Sigma_{22}^{-1}(x^{(2)} - \mu^{(2)}) \end{bmatrix} \\ &= (x^{(1)} - \mu^{(1)})'\Sigma_{11}^{-1}(x^{(1)} - \mu^{(1)}) + (x^{(2)} - \mu^{(2)})'\Sigma_{22}^{-1}(x^{(2)} - \mu^{(2)}) \end{aligned}

第四步:代入密度函数

fX(x)=1(2π)p/2Σ1/2exp[12((x(1)μ(1))Σ111(x(1)μ(1))+(x(2)μ(2))Σ221(x(2)μ(2)))]=1(2π)r/2Σ111/2exp[12(x(1)μ(1))Σ111(x(1)μ(1))]×1(2π)(pr)/2Σ221/2exp[12(x(2)μ(2))Σ221(x(2)μ(2))]=fX(1)(x(1))fX(2)(x(2))\begin{aligned} f_X(x) &= \frac{1}{(2\pi)^{p/2}\lvert \Sigma \rvert^{1/2}} \exp\left[-\frac{1}{2}\left((x^{(1)} - \mu^{(1)})'\Sigma_{11}^{-1}(x^{(1)} - \mu^{(1)}) + (x^{(2)} - \mu^{(2)})'\Sigma_{22}^{-1}(x^{(2)} - \mu^{(2)})\right)\right] \\ &= \frac{1}{(2\pi)^{r/2}\lvert \Sigma_{11} \rvert^{1/2}} \exp\left[-\frac{1}{2}(x^{(1)} - \mu^{(1)})'\Sigma_{11}^{-1}(x^{(1)} - \mu^{(1)})\right] \\ &\quad \times \frac{1}{(2\pi)^{(p-r)/2}\lvert \Sigma_{22} \rvert^{1/2}} \exp\left[-\frac{1}{2}(x^{(2)} - \mu^{(2)})'\Sigma_{22}^{-1}(x^{(2)} - \mu^{(2)})\right] \\ &= f_{X^{(1)}}(x^{(1)}) \cdot f_{X^{(2)}}(x^{(2)}) \end{aligned}

第五步:由密度函数的乘积性质得出独立性

联合密度函数等于边缘密度函数的乘积,因此 X(1)X^{(1)}X(2)X^{(2)} 相互独立。


三、讨论与注记

3.1 为什么这个性质在多元正态分布中成立?

在一般的概率分布中,“不相关”并不意味着”独立”。但在多元正态分布中,这两个概念等价,这是因为:

  1. 特征函数的特殊形式:多元正态分布的特征函数是指数函数,其参数完全由均值向量和协方差矩阵决定。

  2. 二次型的可分离性:当协方差矩阵为分块对角矩阵时,二次型可以分解为两个独立部分的和。

  3. 密度函数的乘积结构:在非退化情况下,联合密度函数可以分解为边缘密度函数的乘积。

3.2 退化情况的处理

Σ\Sigma 是半正定但非正定时(退化情况),密度函数不存在,但特征函数方法仍然适用,因此定理在退化情况下也成立。

3.3 与一元正态分布的关系

在一元正态分布中,这个定理退化为:若 XN(μ,σ2)X \sim N(\mu, \sigma^2),则 XX 与自身总是”相关”的(除非 σ2=0\sigma^2 = 0)。

3.4 实际应用

这个性质在统计推断中有重要应用:

  1. 假设检验:检验两个正态子向量是否独立,只需检验它们的协方差矩阵是否为零矩阵。

  2. 参数估计:在估计多元正态分布的参数时,若已知某些分量独立,可以分别估计各自的参数。

  3. 降维分析:在主成分分析中,利用正交变换将相关变量转化为不相关(从而独立)的变量。


四、总结

定理:在多元正态分布下,随机子向量的独立性与不相关性等价。

证明要点

  1. 独立 ⇒ 不相关:利用协方差的定义和独立随机变量的性质,直接证明协方差矩阵为零。

  2. 不相关 ⇒ 独立

    • 特征函数方法:利用多元正态分布特征函数的乘积性质
    • 密度函数方法(非退化情况):利用分块对角矩阵的性质和密度函数的乘积结构

关键观察:这个等价关系是多元正态分布特有的性质,在一般分布中不成立。

分块矩阵: 独立 ⇔ 不相关的详细证明
/posts/study/multivariate-statistical-analysis/分块矩阵独立不相关的详细证明/
作者
Xs
发布于
2026-04-29
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时