什麼是二項分布?
二項分布描述的是在固定 \(n\) 次獨立試驗中,成功次數 \(x\) 的機率分布,其中每次試驗成功的機率都相同,記為 \(p\)(也就是所謂的伯努利試驗)。它可以回答像是「丟 20 次硬幣,剛好出現 5 次正面的機率有多少?」這類問題。這純粹是數學概念,全世界的算法完全一致,沒有單位,也不受任何國家或地區規範的影響。
如何使用這個計算器
首先選擇要計算的函數:機率質量 \(f(x)\)(恰好出現 \(x\) 次成功的機率)、下累積機率 \(P(X \le x)\),或上累積機率 \(Q(X \ge x)\)。接著輸入試驗次數 \(n\)、每次試驗的成功機率 \(p\)(介於 0 到 1 之間),然後設定起始的成功次數(初始 \(x\))、每一列之間的間隔(步長),以及要產生的列數。本工具會將所選函數列表呈現,並以長條相鄰的離散直方圖繪製出來。
公式解析
機率質量函數為 $$f(x,n,p) = \binom{n}{x}\, p^{\,x}\,(1-p)^{\,n-x}$$其中 \(\binom{n}{x} = \dfrac{n!}{x!\,(n-x)!}\) 是二項式係數。下累積機率 \(P(x)\) 是 \(f\) 從 \(t = 0\) 到 \(x\) 的總和;上累積機率 \(Q(x)\) 則是 \(f\) 從 \(t = x\) 到 \(n\) 的總和。為了避免 \(n\) 較大時階乘運算溢位,本計算器改用對數伽瑪函數來計算係數:$$\ln f = \ln\Gamma(n+1) - \ln\Gamma(x+1) - \ln\Gamma(n-x+1) + x\cdot\ln p + (n-x)\cdot\ln(1-p)$$此分布的平均數為 \(np\),變異數為 \(np(1-p)\)。
實例演算
當 \(n = 20\)、\(p = 0.25\),計算 \(x = 0\) 到 \(12\) 的機率質量函數時:\(f(0) \approx 0.003171\)、\(f(1) \approx 0.021142\)、\(f(2) \approx 0.066948\)、\(f(3) \approx 0.133897\)、\(f(4) \approx 0.189691\)、\(f(5) \approx 0.202337\)。最高峰出現在 \(x = 5\),恰好等於平均數 $$np = 20 \times 0.25 = 5$$與理論預期完全吻合。
定義與詞彙表
- 試驗:隨機實驗的單次重複,具有固定、明確定義的結果集合。
- 伯努利試驗:一個試驗,具有恰好兩個互斥的結果,通常標記為「成功」和「失敗」。
- 成功機率 \(p\):單次試驗導致成功的機率,其中 \(0 \le p \le 1\)。假設在所有試驗中保持不變。
- 試驗次數 \(n\):實驗中獨立伯努利試驗的固定數量,為非負整數。
- 成功次數 \(x\):在 \(n\) 次試驗中觀察到的成功次數;\(x\) 是整數,\(0 \le x \le n\)。
- 機率質量函數 \(f(x)\):給出恰好 \(x\) 次成功的機率的機率質量函數:\(f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}\)。
- 下累積機率 \(P(X\le x)\):累積分佈函數,至多 \(x\) 次成功的機率:\(P(X\le x)=\sum_{k=0}^{x} f(k)\)。
- 上累積機率 \(Q(X\ge x)\):至少 \(x\) 次成功的機率:\(Q(X\ge x)=\sum_{k=x}^{n} f(k)=1-P(X\le x-1)\)。
- 二項式係數 \(\binom{n}{x}\):從 \(n\) 次試驗中選擇 \(x\) 次成功的不同方式數量,\(\binom{n}{x}=\dfrac{n!}{x!\,(n-x)!}\)。
- 平均值 \(np\):成功次數的期望值,\(\mu = np\)。
- 變異數 \(np(1-p)\):成功次數計數的變異數,\(\sigma^{2}=np(1-p)\);標準差為 \(\sigma=\sqrt{np(1-p)}\)。
解釋您的結果
這三個量回答了關於同一實驗的三個不同問題:
- \(f(x)\) — 恰好 \(x\):恰好獲得 \(x\) 次成功且沒有其他數量的機率。用於「恰好 k」的問題。
- \(P(X\le x)\) — 至多 \(x\):成功次數不超過 \(x\) 的機率。用於「至多 k」、「不超過 k」或「少於 k+1」的問題。
- \(Q(X\ge x)\) — 至少 \(x\):\(x\) 次或更多次成功的機率。用於「至少 k」、「k 次或以上」或「超過 k−1」的問題。
將真實問題對應到函數。仔細翻譯措辭,注意邊界:
- 「至少 \(k\)」 \(\Rightarrow Q(X\ge k)\)。
- 「超過 \(k\)」 \(\Rightarrow Q(X\ge k+1) = 1 - P(X\le k)\)。
- 「至多 \(k\)」 \(\Rightarrow P(X\le k)\)。
- 「少於 \(k\)」 \(\Rightarrow P(X\le k-1)\)。
- 「在 \(a\) 和 \(b\) 之間(含端點)」 \(\Rightarrow P(X\le b) - P(X\le a-1)\)。
\(P\)/\(Q\) 重疊。由於 \(P(X\le x)\) 和 \(Q(X\ge x)\) 都包含項 \(f(x)\),它們在相同的 \(x\) 處不是互補的。實際上 \(P(X\le x) + Q(X\ge x) = 1 + f(x)\),所以兩個累積尾部恰好在一個點質量處重疊。\(Q(X\ge x)\) 的真實補集是 \(P(X\le x-1)\),而不是 \(P(X\le x)\)。
常態近似。當 \(np\) 和 \(n(1-p)\) 都相當大時(常見的經驗法則是各 \(\ge 5\),理想情況下 \(\ge 10\)),二項分佈被一個平均值 \(\mu = np\) 和標準差 \(\sigma = \sqrt{np(1-p)}\) 的常態分佈很好地近似。在將離散計數轉換為連續常態尺度時應用連續性修正(例如,使用 \(x+0.5\) 或 \(x-0.5\))。對於具有小 \(p\) 的大 \(n\)(因此 \(np\) 保持適度),具有 \(\lambda = np\) 的卜瓦松分佈是更準確的近似。
常見問題
為什麼 \(P(x) + Q(x)\) 不等於 1?因為兩個累積機率都包含了 \(t = x\) 這一點,所以 \(P(x) + Q(x) = 1 + f(x)\)。這裡刻意採用「下累積含 \(x\)、上累積也含 \(x\)」的重疊慣例。
如果 \(x\) 超出 0 到 \(n\) 的範圍會怎樣?此時機率質量為 0;下累積機率會被限制為 0(當 \(x < 0\))或 1(當 \(x \ge n\)),上累積機率則被限制為 1(當 \(x \le 0\))或 0(當 \(x > n\))。
可以使用很大的 \(n\) 嗎?可以。透過對數伽瑪函數運算,即使 \(n\) 很大、直接以階乘計算會溢位的情況下,結果依然保持穩定。