这个计算器能做什么
本工具用于计算标准二元正态分布,也就是一个二维高斯分布:两个坐标轴上的均值均为 0、方差均为 1,唯一的可调参数就是相关系数 ρ。给定一个点 \((x, y)\),计算器会返回两个结果:该点处的联合概率密度 \(f(x, y, \rho)\),以及上尾(象限)累积概率 \(Q(x, y, \rho) = P(U_1 > x \text{ 且 } U_2 > y)\)。由于所有输入都已是标准化、无量纲的分数,本计算器具有通用性,无需任何单位换算。
如何使用
分别输入分位点 \(x\)、分位点 \(y\) 以及相关系数 \(\rho\)。这里所说的"分位点"指的是类似 z 值的标准化阈值(即一个坐标值),而不是介于 0 到 1 之间的百分位。相关系数必须满足 \(-1 < \rho < 1\);取值 \(\pm 1\) 会被拒绝,因为此时密度出现奇异(\(\sqrt{1-\rho^{2}}\) 会导致除以零)。
公式详解
密度函数采用上方给出的高斯闭式表达式。
$$\varphi(x,y;\rho) = \frac{1}{2\pi\sqrt{1-\rho^{2}}}\,\exp\!\left(-\frac{x^{2}-2\rho\,x\,y+y^{2}}{2\left(1-\rho^{2}\right)}\right)$$象限概率则基于 Sheppard 恒等式:当 \(\rho = 0\) 时两个变量相互独立,此时 \(Q = Q_1(x)\cdot Q_1(y)\),其中 \(Q_1(t)\) 是一元标准正态的上尾函数。当 \(\rho\) 不为零时,需要再加上一个从 0 到 \(\rho\) 的修正积分,本工具采用 24 节点的 Gauss–Legendre 高斯求积法进行计算,以保证精度。
$$\begin{gathered} Q(x,y;\rho) = Q_1(x)\,Q_1(y) + \frac{1}{2\pi}\int_{0}^{\rho}\frac{\exp\!\left(-\dfrac{x^{2}-2r\,x\,y+y^{2}}{2(1-r^{2})}\right)}{\sqrt{1-r^{2}}}\,dr \\[1.5em] \text{where}\quad \left\{ \begin{aligned} x &= \text{Percentile point x} \\ y &= \text{Percentile point y} \\ \rho &= \text{Correlation }\rho \\ Q_1(t) &= \tfrac{1}{2}\,\operatorname{erfc}\!\left(\tfrac{t}{\sqrt{2}}\right) \end{aligned} \right. \end{gathered}$$
实例演算
取 \(x = 2\)、\(y = 0.7\)、\(\rho = 0.8\):\(1 - \rho^{2} = 0.36\),开方得 \(0.6\),前置系数 \(= 1/(2\pi\cdot 0.6) = 0.265258\)。指数项分子 \(= 4 - 2\cdot 0.8\cdot 2\cdot 0.7 + 0.49 = 2.25\),除以 \(0.72\) 得到 \(3.125\)。于是 \(f = 0.265258 \cdot e^{-3.125} \approx 0.011655\)。上尾概率 \(Q \approx 0.0212\) — 高于独立情形下的 \(0.0055\),这是因为正相关会让两个变量倾向于同时取较大的值。
相关性如何改变象限概率
象限概率 \(Q(x,y;\rho)=P(U_1>x,\,U_2>y)\) 衡量两个标准正态变量同时超过其阈值的概率。在固定截点 \(x=1\) 和 \(y=1\) 的情况下,扫过相关性 \(\rho\) 隔离了依赖关系的纯效应。当 \(\rho=0\) 时,变量是独立的,\(Q\) 分解为两条单变量上尾的乘积,\(Q_1(x)\,Q_1(y)\)。对于标准正态分布,\(Q_1(1)=P(U>1)\approx 0.158655\),因此独立性基准为 \(0.158655^2\approx 0.025172\)。
| \(\rho\) | 密度 \(f(1,1;\rho)\) | 象限 \(Q(1,1;\rho)\) | 独立性 \(Q_1(1)Q_1(1)\) |
|---|---|---|---|
| \(-0.8\) | 0.0476 | 0.0049 | 0.0252 |
| \(-0.4\) | 0.0780 | 0.0145 | 0.0252 |
| \(0\) | 0.0585 | 0.0252 | 0.0252 |
| \(0.4\) | 0.1063 | 0.0438 | 0.0252 |
| \(0.8\) | 0.2643 | 0.0826 | 0.0252 |
这个规律是单调的:正相关使联合超越更容易发生(大值往往同时出现),因此 \(Q\) 上升到独立性值以上;负相关使两个变量沿相反方向拉动,因此联合超越变得更罕见,\(Q\) 下降到 \(Q_1 Q_1\) 以下。在 \(\rho=0\) 时,象限概率精确等于乘积 \(0.0252\),确认了独立性分解。
解释密度和象限概率
密度 \(f\) 不是概率。\(\varphi(x,y;\rho)\) 值是 \((x,y)\) 平面中单位面积的概率密度;只有它在一个区域上的积分才能返回概率。曲面在原点 \((0,0)\) 处达到最大值,其中指数项等于 1,
$$f(0,0;\rho)=\frac{1}{2\pi\sqrt{1-\rho^{2}}}.$$对于 \(\rho=0\),此峰值为 \(1/(2\pi)\approx 0.159\),舒适地低于 1。当 \(\rho\to\pm 1\) 时,因子 \(1/\sqrt{1-\rho^2}\) 发散,因此峰值密度可以超过 1——这对于将概率质量集中到直线 \(y=\rho x\) 上的密度来说是正常的。
象限概率 \(Q\) 是真正的概率,总是在 \([0,1]\) 内。它是象限 \(\{U_1>x,\,U_2>y\}\) 上密度曲面下的体积。有用的结构性事实:
- 独立性(\(\rho=0\)):\(Q(x,y;0)=Q_1(x)\,Q_1(y)\),两条单变量上尾的乘积。
- 参数对称性:通过交换两个坐标的角色,\(Q(x,y;\rho)=Q(y,x;\rho)\)。
- 反射恒等式:\(Q(-x,-y;\rho)=Q(x,y;\rho)+ \Phi(-x)+\Phi(-y)-1\)(也可通过二元累积分布函数表达),而改变一个参数的符号会翻转有效相关性:\(P(U_1>x,\,U_2
- 极限行为 \(\rho\to 1^{-}\):变量变成完全同调,\(U_2\approx U_1\),因此 \(Q(x,y;\rho)\to Q_1(\max(x,y))\)——两个超越重合。
- 极限行为 \(\rho\to -1^{+}\):变量变成完全反调,\(U_2\approx -U_1\)。联合上尾超越只有在两个阈值都可以同时超越时才可能,给出 \(Q\to\max\!\big(0,\;1-\Phi(x)-\Phi(y)\big)\),当 \(x+y\ge 0\) 时为 0。
因为 \(Q\) 对于一般 \(\rho\) 没有闭形式,它通过数值计算——通常通过 Owen 的 T 函数或使用高斯-勒让德求积法的关于 \(\rho\) 的一维积分,两者都可以将比较表中显示的值重现到高精度。
定义与术语表
- 标准化分数(\(x\)、\(y\))
- 一个类似z的坐标,测量一个值离其均值有多少个标准差。输入 \(x\) 和 \(y\) 已经标准化,因此每个边际上都遵循标准正态分布 \(N(0,1)\)。
- 相关系数 \(\rho\)
- 两个标准正态变量之间的线性(皮尔逊)相关,其中 \(-1<\rho<1\)。这是控制两个坐标在一起移动有多强的单个参数;\(\rho=0\) 在这里意味着独立,而 \(\rho\to\pm1\) 意味着接近确定的线性关系。观测到的 \(\rho\) 可以从配对数据中用皮尔逊相关计算器估计。
- 联合密度 \(f(x,y;\rho)\)
- 标准二元正态概率密度,\(\varphi(x,y;\rho)=\dfrac{1}{2\pi\sqrt{1-\rho^2}}\exp\!\left(-\dfrac{x^2-2\rho xy+y^2}{2(1-\rho^2)}\right)\)。它描述单位面积的概率,而不是概率本身。
- 象限概率 \(Q(x,y;\rho)\)
- 上尾联合概率 \(P(U_1>x,\,U_2>y)\)——密度曲面在由两个阈值定义的右上象限上的体积。总是在 0 到 1 之间。
- 单变量上尾 \(Q_1(t)\)
- 标准正态生存函数 \(Q_1(t)=P(U>t)=1-\Phi(t)\),超过 \(t\) 的右尾中的面积。例如 \(Q_1(1)\approx 0.1587\)。在 \(\rho=0\) 时,\(Q=Q_1(x)Q_1(y)\)。
- 互补误差函数(\(\operatorname{erfc}\))
- 一个与正态尾相关的特殊函数,通过 \(Q_1(t)=\tfrac{1}{2}\operatorname{erfc}\!\left(t/\sqrt{2}\right)\) 相关。它提供了一个数值稳定的方式来计算 \(Q\) 中使用的单变量尾概率。
- 高斯-勒让德求积法
- 一种数值积分方案,通过在最优选择的节点处的被积函数的加权和来近似定积分。因为 \(Q(x,y;\rho)\) 没有初等闭形式,它通常通过用此方法积分密度(或 \(\rho\) 的一个函数)来评估,以获得准确的结果。
常见问题
为什么 \(\rho\) 不能恰好等于 1? 当 \(\rho = \pm 1\) 时,两个变量完全相关,整个分布退化到一条直线上;在这条直线之外,密度没有有限值。
Q 代表什么? 它表示落在右上方"象限"内、同时超过两个阈值的概率质量,即 \(P(U_1 > x, U_2 > y)\)。
当 x 或 y 很大时会怎样? 密度会衰减趋向于 0,\(Q\) 也会趋近于 0,因为两个标准化变量同时超过较大正阈值的可能性越来越小。