2차 회귀란?
2차 회귀는 \(y = A + B\cdot x + C\cdot x^{2}\) 형태의 2차 다항식을 짝지어진 관측값 (x, y)에 적합시키는 방법입니다. 직선과 달리 포물선은 데이터의 곡률 — 즉 올라갔다가 내려가거나 점점 가속하는 변화 — 까지 담아낼 수 있어, 물리학(포물선 운동), 경제학(비용 곡선)을 비롯해 두 변수의 관계가 휘어지는 모든 분야에서 폭넓게 쓰입니다. 이는 순수한 수학·통계 기법이므로 지역이나 단위에 상관없이 어디서나 동일하게 작동합니다.
계산기 사용 방법
입력란에 데이터를 한 줄에 한 쌍씩 넣되, x와 y를 공백이나 쉼표로 구분해 주세요(예: 3, 5). 세 개의 계수 A, B, C를 구하려면 최소 3개의 점이 필요하며, 점이 많을수록 더 신뢰할 수 있는 적합 결과를 얻습니다. 표시할 유효숫자 자릿수를 선택한 뒤, A, B, C 값과 완성된 회귀 방정식, 그리고 상관계수 \(r\)을 확인하면 됩니다.
공식 풀이
계수는 최소제곱법으로 구합니다. \(n\)개의 점에 대해 평균 \(\bar{x}\), \(\bar{y}\)와 제곱의 평균 \(\overline{x^2}\)를 계산합니다. 그런 다음 원적률 항등식을 이용해 중심화된 합 \(S_{xx}\), \(S_{xy}\), \(S_{xx^2}\), \(S_{x^2x^2}\), \(S_{x^2y}\)를 만듭니다(예: \(S_{xx} = \Sigma x^{2} - n\cdot\bar{x}^{2}\)). \(\text{denom} = S_{xx}\cdot S_{x^2x^2} - S_{xx^2}^{2}\)라 두면, 각 계수는 다음과 같습니다.
$$\begin{aligned} B &= \frac{S_{xy}\,S_{x^2x^2} - S_{x^2y}\,S_{xx^2}}{\text{denom}} \\ C &= \frac{S_{x^2y}\,S_{xx} - S_{xy}\,S_{xx^2}}{\text{denom}} \\ A &= \bar{y} - B\,\bar{x} - C\,\overline{x^2} \end{aligned}$$상관계수 \(r\)은 1에서 잔차제곱합을 총제곱합으로 나눈 값을 뺀 뒤 제곱근을 취한 값입니다.
계산 예시
점 (1,1), (2,2), (3,5), (4,10), (5,17)을 살펴보겠습니다: \(n = 5\), \(\bar{x} = 3\), \(\bar{y} = 7\), \(\overline{x^2} = 11\). 이로부터 \(S_{xx} = 10\), \(S_{xy} = 40\), \(S_{xx^2} = 60\), \(S_{x^2x^2} = 374\), \(S_{x^2y} = 254\), \(\text{denom} = 140\)을 얻습니다. 따라서 \(B = -2\), \(C = 1\), \(A = 2\)가 되어 적합식은 \(y = 2 - 2x + x^{2}\)입니다. 이 곡선은 모든 점을 정확히 지나가므로 \(r = 1\)입니다.
자주 묻는 질문
점이 몇 개 필요한가요? 서로 다른 x값이 최소 3개는 있어야 합니다. 그보다 적거나 모든 x가 같으면 연립방정식이 퇴화되어 풀 수 없습니다.
r은 무엇을 의미하나요? 대략적인 기준으로 \(0.7<|r|\le 1\)이면 강한 상관, \(0.4<|r|<0.7\)이면 중간, \(0.2<|r|<0.4\)이면 약한 상관이며, 0.2 미만이면 사실상 상관이 없다고 봅니다. \(r\)이 1이면 포물선이 모든 점을 지나간다는 뜻입니다.
왜 여기서 r은 음수가 나오지 않나요? 이 계산기는 결정계수의 음이 아닌 제곱근을 \(r\)로 표시하기 때문에, 곡선의 방향과 관계없이 \(r\)은 0에서 1 사이의 값을 가집니다.