이 계산기의 기능
이 도구는 표준 이변량 정규분포를 계산합니다. 이는 두 축의 평균이 모두 0이고 분산이 모두 1인 2차원 가우스 분포로, 자유롭게 조절할 수 있는 매개변수는 상관계수 \(\rho\) 하나뿐입니다. 점 \((x, y)\)를 입력하면 두 가지 값을 돌려줍니다. 하나는 해당 점에서의 결합 확률밀도 \(f(x, y, \rho)\)이고, 다른 하나는 상측(오턴트) 누적확률 \(Q(x, y, \rho) = P(U_1 > x \text{ 그리고 } U_2 > y)\)입니다. 모든 입력값은 이미 표준화된 무차원 점수이므로, 이 계산기는 어디서나 그대로 쓸 수 있으며 단위 변환이 필요하지 않습니다.
사용 방법
백분위점 \(x\), 백분위점 \(y\), 그리고 상관계수 \(\rho\)를 입력하세요. 여기서 "백분위점"이란 0~1 사이의 백분위가 아니라 z값과 같은 표준화된 임계값(좌표)을 뜻합니다. 상관계수는 반드시 \(-1 < \rho < 1\) 조건을 만족해야 합니다. \(\pm 1\) 값은 허용되지 않는데, 이 경우 \(\sqrt{1-\rho^{2}}\)에서 0으로 나누는 상황이 발생해 밀도가 특이값(발산)이 되기 때문입니다.
공식 풀이
밀도는 위에 제시된 닫힌 형식의 가우스 식으로 계산됩니다.
$$\varphi(x,y;\rho) = \frac{1}{2\pi\sqrt{1-\rho^{2}}}\,\exp\!\left(-\frac{x^{2}-2\rho\,x\,y+y^{2}}{2\left(1-\rho^{2}\right)}\right)$$오턴트 확률은 셰퍼드 항등식(Sheppard's identity)을 이용합니다. \(\rho = 0\)일 때 두 변수는 서로 독립이므로 \(Q = Q_1(x)\cdot Q_1(y)\)가 되며, 여기서 \(Q_1(t)\)는 일변량 표준정규분포의 상측 함수입니다.
$$\begin{gathered} Q(x,y;\rho) = Q_1(x)\,Q_1(y) + \frac{1}{2\pi}\int_{0}^{\rho}\frac{\exp\!\left(-\dfrac{x^{2}-2r\,x\,y+y^{2}}{2(1-r^{2})}\right)}{\sqrt{1-r^{2}}}\,dr \\[1.5em] \text{where}\quad \left\{ \begin{aligned} x &= \text{Percentile point x} \\ y &= \text{Percentile point y} \\ \rho &= \text{Correlation }\rho \\ Q_1(t) &= \tfrac{1}{2}\,\operatorname{erfc}\!\left(\tfrac{t}{\sqrt{2}}\right) \end{aligned} \right. \end{gathered}$$\(\rho\)가 0이 아닐 때는 0부터 \(\rho\)까지 적분하는 보정항을 더하는데, 이 계산기에서는 정확도를 높이기 위해 24개 노드의 가우스–르장드르 구적법으로 이 적분을 계산합니다.
계산 예시
\(x = 2\), \(y = 0.7\), \(\rho = 0.8\)인 경우를 봅시다. \(1 - \rho^{2} = 0.36\)이고 그 제곱근은 \(0.6\), 앞쪽 계수는 \(1/(2\pi\cdot 0.6) = 0.265258\)입니다. 지수의 분자는 \(4 - 2\cdot 0.8\cdot 2\cdot 0.7 + 0.49 = 2.25\)이고, 이를 \(0.72\)로 나누면 \(3.125\)가 됩니다. 따라서 \(f = 0.265258 \cdot e^{-3.125} \approx 0.011655\)입니다. 상측 확률 \(Q \approx 0.0212\)로, 독립일 때의 값 \(0.0055\)보다 큽니다. 양의 상관관계가 두 변수를 함께 위쪽으로 끌어올리기 때문입니다.
상관관계가 Orthant 확률을 어떻게 변화시키는가
Orthant 확률 \(Q(x,y;\rho)=P(U_1>x,\,U_2>y)\)는 두 표준정규변수가 동시에 임계값을 초과할 확률을 측정합니다. 절단점을 \(x=1\)과 \(y=1\)에 고정하고 상관관계 \(\rho\)를 변화시키면 순수한 종속성의 효과를 분리할 수 있습니다. \(\rho=0\)일 때 두 변수는 독립이며 \(Q\)는 두 개의 단변량 상단 꼬리의 곱으로 인수분해됩니다: \(Q_1(x)\,Q_1(y)\). 표준정규분포의 경우 \(Q_1(1)=P(U>1)\approx 0.158655\)이므로 독립성 기준값은 \(0.158655^2 = 0.025172\)입니다.
| \(\rho\) | 밀도 \(f(1,1;\rho)\) | Orthant \(Q(1,1;\rho)\) | 독립성 \(Q_1(1)Q_1(1)\) |
|---|---|---|---|
| \(-0.8\) | 0.0476 | 0.0049 | 0.0252 |
| \(-0.4\) | 0.0780 | 0.0145 | 0.0252 |
| \(0\) | 0.0585 | 0.0252 | 0.0252 |
| \(0.4\) | 0.1063 | 0.0438 | 0.0252 |
| \(0.8\) | 0.2643 | 0.0826 | 0.0252 |
패턴은 단조입니다: 양의 상관관계는 결합 초과현상을 더 가능하게 합니다(큰 값들이 함께 발생하는 경향이 있음). 따라서 \(Q\)는 독립성 값 위로 상승합니다. 음의 상관관계는 두 변수를 반대 방향으로 끌어당기므로 결합 초과현상은 더욱 드물어지고 \(Q\)는 \(Q_1 Q_1\) 아래로 하락합니다. \(\rho=0\)일 때 Orthant 확률은 정확히 곱 \(0.0252\)와 같으며, 이는 독립성 인수분해를 확인해줍니다.
밀도와 Orthant 확률 해석
밀도 \(f\)는 확률이 아닙니다. 값 \(\varphi(x,y;\rho)\)는 \((x,y)\) 평면의 단위 면적당 확률 밀도입니다. 오직 한 영역에 대한 적분만이 확률을 반환합니다. 곡면은 원점 \((0,0)\)에서 최댓값에 도달하며, 여기서 지수항은 1과 같습니다:
$$f(0,0;\rho)=\frac{1}{2\pi\sqrt{1-\rho^{2}}}.$$\(\rho=0\)일 때 이 최댓값은 \(1/(2\pi)\approx 0.159\)로, 편하게 1 미만입니다. \(\rho\to\pm 1\)일 때 인수 \(1/\sqrt{1-\rho^2}\)은 발산하므로, 최댓값 밀도는 1을 초과할 수 있습니다. 이는 밀도가 정상이며, 확률 질량을 직선 \(y=\rho x\) 위에 농축되기 때문입니다.
Orthant 확률 \(Q\)는 진정한 확률이며 항상 \([0,1]\)에 속합니다. 이는 사각형 \(\{U_1>x,\,U_2>y\}\) 위의 밀도 곡면 아래의 부피입니다. 유용한 구조적 사실:
- 독립성(\(\rho=0\)): \(Q(x,y;0)=Q_1(x)\,Q_1(y)\), 두 개의 단변량 상단 꼬리의 곱입니다.
- 인수 대칭성: 두 좌표의 역할을 바꾸면, \(Q(x,y;\rho)=Q(y,x;\rho)\)입니다.
- 반사 항등식: \(Q(-x,-y;\rho)=Q(x,y;\rho)+ \Phi(-x)+\Phi(-y)-1\) (다변량 누적분포함수를 통해 동등하게 표현 가능)이며, 한 인수의 부호를 반대로 하면 효과적인 상관관계가 뒤바뀝니다: \(P(U_1>x,\,U_2
- 극한 행동 \(\rho\to 1^{-}\): 변수는 완벽한 공단조가 되며, \(U_2\approx U_1\)이므로 \(Q(x,y;\rho)\to Q_1(\max(x,y))\) — 두 초과현상이 일치합니다.
- 극한 행동 \(\rho\to -1^{+}\): 변수는 완벽한 반대단조가 되며, \(U_2\approx -U_1\)입니다. 결합 상단 초과현상은 두 임계값 모두를 동시에 초과할 수 있을 때만 가능하므로 \(Q\to\max\!\big(0,\;1-\Phi(x)-\Phi(y)\big)\)이며, \(x+y\ge 0\)일 때마다 0입니다.
\(Q\)는 일반적인 \(\rho\)에 대한 닫힌 형태가 없으므로 수치적으로 계산됩니다 — 일반적으로 Owen의 T 함수를 통하거나 가우스-르장드르 구적법을 이용한 \(\rho\)에 대한 1차원 적분을 통해 계산되며, 둘 다 비교표에 표시된 값들을 높은 정확도로 재현합니다.
정의 및 용어집
- 표준화 점수(\(x\), \(y\))
- 값이 평균으로부터 몇 표준편차만큼 떨어져 있는지를 측정하는 z형 좌표입니다. 입력값 \(x\)와 \(y\)는 이미 표준화되어 있으므로, 각각 한계적으로 표준정규분포 \(N(0,1)\)을 따릅니다.
- 상관계수 \(\rho\)
- 두 표준정규변수 사이의 선형(피어슨) 상관관계로, \(-1<\rho<1\)입니다. 두 좌표가 함께 움직이는 강도를 지배하는 단일 매개변수입니다. \(\rho=0\)은 여기서 독립성을 의미하고, \(\rho\to\pm1\)은 거의 결정론적인 선형 관계를 의미합니다. 관측된 \(\rho\)는 피어슨 상관계수 계산기를 이용하여 쌍을 이룬 데이터로부터 추정할 수 있습니다.
- 결합 밀도 \(f(x,y;\rho)\)
- 표준 이변량 정규확률밀도함수: \(\varphi(x,y;\rho)=\dfrac{1}{2\pi\sqrt{1-\rho^2}}\exp\!\left(-\dfrac{x^2-2\rho xy+y^2}{2(1-\rho^2)}\right)\). 이는 단위 면적당 확률을 기술하며, 확률 자체가 아닙니다.
- Orthant 확률 \(Q(x,y;\rho)\)
- 상단 꼬리 결합확률 \(P(U_1>x,\,U_2>y)\) — 두 임계값으로 정의된 우상향 사각형 위의 밀도 곡면 아래의 부피입니다. 항상 0과 1 사이의 값입니다.
- 단변량 상단 꼬리 \(Q_1(t)\)
- 표준정규 생존함수 \(Q_1(t)=P(U>t)=1-\Phi(t)\), \(t\) 너머의 우측 꼬리 영역입니다. 예를 들어 \(Q_1(1)\approx 0.1587\)입니다. \(\rho=0\)일 때, \(Q=Q_1(x)Q_1(y)\)입니다.
- 여집합 오차함수(\(\operatorname{erfc}\))
- 정규 꼬리와 관련된 특수함수로, \(Q_1(t)=\tfrac{1}{2}\operatorname{erfc}\!\left(t/\sqrt{2}\right)\)입니다. 이는 \(Q\)에서 사용되는 단변량 꼬리 확률을 계산하는 수치적으로 안정적인 방법을 제공합니다.
- 가우스-르장드르 구적법
- 정적분을 최적으로 선택된 노드에서의 피적분함수의 가중 합으로 근사하는 수치 적분 방법입니다. \(Q(x,y;\rho)\)는 초등함수 닫힌 형태가 없으므로, 일반적으로 밀도(또는 \(\rho\)의 함수)를 이 방법으로 적분하여 정확한 결과를 얻습니다.
자주 묻는 질문
왜 \(\rho\)가 정확히 1이 될 수 없나요? \(\rho = \pm 1\)일 때 두 변수는 완전히 종속되어 분포가 하나의 직선 위로 붕괴합니다. 이 경우 그 직선을 벗어난 지점에서는 밀도가 유한한 값을 갖지 못합니다.
Q는 무엇을 나타내나요? 두 임계값을 모두 넘어선 오른쪽 위 "오턴트" 영역의 확률 질량, 즉 \(P(U_1 > x, U_2 > y)\)를 의미합니다.
x나 y가 아주 클 때는 어떻게 되나요? 밀도는 0에 가까워지고 Q도 0으로 수렴합니다. 두 표준화 변수가 모두 큰 양수 임계값을 동시에 초과할 가능성이 점점 더 희박해지기 때문입니다.