这个计算器能做什么
加权二次回归计算器可以把一组 (x, y) 数据点拟合成二次多项式 \(y = A + Bx + Cx^2\),其中每个数据点都可以带上一个频数(权重)f。这就是二次最小二乘法的频数表形式:某个点出现 f 次,它在每个求和项中就贡献 f 倍。如果把所有频数都设为 1,公式就退化为普通的(不加权)二次回归。这是纯粹的统计方法,在任何国家、任何领域都通用,计算结果完全一致。
如何使用
每行输入一个数据点,格式为 x, y, f。频数 f 可以省略,留空时默认取 1,所以 2, 5 表示 x=2、y=5、权重为 1。你还可以选择结果显示的有效数字位数(默认 10 位)。要唯一确定一条抛物线,至少需要 3 个不同的 x 值。计算器会输出系数 A、B、C,以及拟合的复相关系数 r。
公式详解
设 \(n = \Sigma f\) 为总权重。先算出加权平均值 \(\bar{x} = \Sigma xf / n\)、\(\bar{y} = \Sigma yf / n\),以及 \(\text{meanX2} = \Sigma x^2 f / n\)。接着构造中心化求和量 \(S_{xx}\)、\(S_{xy}\)、\(S_{xx^2}\)、\(S_{x^2x^2}\)、\(S_{x^2y}\),然后求解关于 B 和 C 的二元方程组,分母为 \(\text{denom} = S_{xx}\cdot S_{x^2x^2} - S_{xx^2}^2\):
$$\hat{y} = A + Bx + Cx^{2}$$ $$\text{where}\quad \left\{ \begin{aligned} B &= \frac{S_{xy}\,S_{x^2x^2} - S_{xx^2}\,S_{x^2y}}{S_{xx}\,S_{x^2x^2} - S_{xx^2}^{2}} \\ C &= \frac{S_{xx}\,S_{x^2y} - S_{xx^2}\,S_{xy}}{S_{xx}\,S_{x^2x^2} - S_{xx^2}^{2}} \\ A &= \bar{y} - B\,\bar{x} - C\,\overline{x^2} \end{aligned} \right.$$最后得到 \(A = \bar{y} - B\cdot\bar{x} - C\cdot\text{meanX2}\)。相关系数为 \(r = \sqrt{1 - \text{SSE}/\text{SST}}\),其中 SSE 为加权残差平方和,SST 为加权总平方和。
实例演算
取一组全部 f = 1 的数据:(1,2)、(2,3)、(3,6)、(4,11)、(5,18)。此时 \(n=5\),\(\bar{x}=3\),\(\bar{y}=8\),\(\text{meanX2}=11\)。各求和量为 \(S_{xx}=10\)、\(S_{xy}=40\)、\(S_{xx^2}=60\)、\(S_{x^2x^2}=374\)、\(S_{x^2y}=254\),分母 \(\text{denom} = 10\cdot 374 - 60^2 = 140\)。于是 \(B = (40\cdot 374 - 60\cdot 254)/140 = -2\),\(C = (10\cdot 254 - 60\cdot 40)/140 = 1\),\(A = 8 - (-2)(3) - 1\cdot 11 = 3\)。拟合得到的 \(y = 3 - 2x + x^2\) 恰好精确还原了每一个数据点,因此 \(\text{SSE} = 0\),\(r = 1\)。
常见问题
频数那一列有什么用? 它表示该 (x, y) 数据对的权重(出现次数)。某一行 f = 4 就相当于四个完全相同的观测值,特别适合处理分组数据或频数表数据。
为什么至少要 3 个不同的 x 值? 抛物线有三个参数(A、B、C)。不同的 x 值少于三个时,方程组会变成奇异的,拟合无法确定,此时计算器会提示错误。
该如何解读 r? r 的取值范围是 0 到 1。大于 0.7 表示拟合很强,0.4–0.7 为中等,0.2–0.4 为较弱,低于 0.2 则基本没有相关性。