這個計算器的功能
這個工具運用最小平方法,將一條直線 \(y = A + Bx\) 配適到一組資料點上,而每個資料點都可以帶有一個頻率(權重)\(f\)。頻率加權讓你能夠精簡地彙整重複出現的觀測值:與其把同一組 (x, y) 數值重複列出許多次,你只要寫一次並標上次數即可。這是一套純數學的通用統計工具,在世界各地的運算結果完全一致。
使用方式
每一行輸入一筆資料,格式為 x, y, f。頻率欄位可以省略;若不填寫,則每個點的權重相同(即一般未加權迴歸)。接著選擇結果要顯示的有效位數,再送出即可。計算器會回傳迴歸直線、斜率 B 與截距 A、皮爾森相關係數 r、總頻率 n、x 與 y 的平均值,以及輔助的平方和 Sxx、Syy 與 Sxy。
公式說明
設各筆資料為 \(i = 1..N\),其數值分別為 \(x_i\)、\(y_i\) 與頻率 \(f_i\)。總頻率為 \(n = \sum f_i\)。加權平均值為 \(\bar{x} = \sum x_i f_i / n\) 與 \(\bar{y} = \sum y_i f_i / n\)。各平方和為 \(S_{xx} = \sum x_i^2 f_i - n\cdot\bar{x}^2\)、\(S_{yy} = \sum y_i^2 f_i - n\cdot\bar{y}^2\),以及 \(S_{xy} = \sum x_i y_i f_i - n\cdot\bar{x}\cdot\bar{y}\)。斜率為 \(B = S_{xy}/S_{xx}\),截距為 \(A = \bar{y} - B\cdot\bar{x}\),相關係數則為 $$r = \frac{S_{xy}}{\sqrt{S_{xx}}\,\sqrt{S_{yy}}}$$
實例演算
以資料 (1,2,1)、(2,3,2)、(3,5,1)、(4,4,2)、(5,6,1)、(6,7,1) 為例:\(n = 8\),\(\bar{x} = 3.375\),\(\bar{y} = 4.25\)。接著可得 \(S_{xx} = 19.875\)、\(S_{yy} = 19.5\)、\(S_{xy} = 18.25\)。因此 $$B = \frac{18.25}{19.875} \approx 0.9182$$ $$A = 4.25 - 0.9182\cdot 3.375 \approx 1.1509$$ 而 \(r \approx 0.9271\) — 屬於高度正相關。配適出的迴歸直線為 $$y = 1.1509 + 0.9182\cdot x$$
常見問題
頻率欄位有什麼作用?它會為每個點加上權重。一個 \(f = 3\) 的點,就等於你觀測到該點三次。權重也可以是小數。
若 r 無法計算怎麼辦?若所有 x 值都相同(\(S_{xx} = 0\)),斜率便無法定義;而只要 \(S_{xx}\) 或 \(S_{yy}\) 其中之一為零,相關係數就無法定義,因為資料缺乏變異性。
相關強度如何判斷?以 \(|r|\) 來看:大於 0.7 為高度相關,0.4 至 0.7 為中度相關,0.2 至 0.4 為低度相關,低於 0.2 則幾乎沒有相關性。