什么是二项分布?
二项分布用来描述在固定次数 \(n\) 的独立试验中成功次数 \(x\) 的分布规律,其中每次试验成功的概率都相同,记为 \(p\)(即伯努利试验)。它可以回答这样的问题:「抛 20 次硬币,恰好出现 5 次正面的概率是多少?」二项分布属于纯数学概念,在世界各地完全通用,不涉及任何单位、货币或地区规则。
如何使用本计算器
首先选择要计算的函数:概率质量 \(f(x)\)(恰好成功 \(x\) 次的概率)、下侧累积 \(P(X \le x)\),或上侧累积 \(Q(X \ge x)\)。接着输入试验次数 \(n\)、每次试验的成功概率 \(p\)(取值介于 0 与 1 之间),然后设定起始成功次数(初始 \(x\))、相邻行之间的步长,以及要生成的行数。计算器会以列表形式呈现结果,并把所选函数绘制成柱与柱相连的离散直方图。
公式详解
概率质量函数为 $$f(x,n,p) = \binom{n}{x}\, p^{\,x}\,(1-p)^{\,n-x}$$ 其中 \(\binom{n}{x} = \dfrac{n!}{x!(n-x)!}\) 是二项式系数。下侧累积 \(P(x)\) 是 \(f\) 在 \(t = 0..x\) 上的求和,上侧累积 \(Q(x)\) 是 \(f\) 在 \(t = x..n\) 上的求和。为避免 \(n\) 较大时阶乘溢出,本计算器借助对数伽马函数计算系数:$$\ln f = \ln\Gamma(n+1) - \ln\Gamma(x+1) - \ln\Gamma(n-x+1) + x\cdot\ln p + (n-x)\cdot\ln(1-p)$$ 该分布的均值为 \(np\),方差为 \(np(1-p)\)。
实例演示
取 \(n = 20\)、\(p = 0.25\),在 \(x = 0..12\) 处计算概率质量函数:\(f(0) \approx 0.003171\)、\(f(1) \approx 0.021142\)、\(f(2) \approx 0.066948\)、\(f(3) \approx 0.133897\)、\(f(4) \approx 0.189691\)、\(f(5) \approx 0.202337\)。峰值出现在 \(x = 5\),恰好等于均值 $$np = 20 \times 0.25 = 5$$ 与理论预期完全吻合。
定义和词汇表
- 试验:随机实验的一次单独重复,具有固定定义的结果集。
- 伯努利试验:恰好有两个互相排斥的结果的试验,按惯例标记为"成功"和"失败"。
- 成功概率 \(p\):单个试验导致成功的概率,其中 \(0 \le p \le 1\)。假设在所有试验中保持不变。
- 试验次数 \(n\):实验中独立伯努利试验的固定计数,为非负整数。
- 成功次数 \(x\):在 \(n\) 次试验中观察到的成功次数;\(x\) 是一个整数,\(0 \le x \le n\)。
- 概率质量函数(PMF)\(f(x)\):给出恰好 \(x\) 次成功的概率:\(f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}\)。
- 下累积分布 \(P(X\le x)\):累积分布函数,最多 \(x\) 次成功的概率:\(P(X\le x)=\sum_{k=0}^{x} f(k)\)。
- 上累积分布 \(Q(X\ge x)\):至少 \(x\) 次成功的概率:\(Q(X\ge x)=\sum_{k=x}^{n} f(k)=1-P(X\le x-1)\)。
- 二项式系数 \(\binom{n}{x}\):从 \(n\) 次试验中选择 \(x\) 次成功的不同方式数,\(\binom{n}{x}=\dfrac{n!}{x!\,(n-x)!}\)。
- 期望值 \(np\):成功次数的期望数,\(\mu = np\)。
- 方差 \(np(1-p)\):成功次数计数的方差,\(\sigma^{2}=np(1-p)\);标准差为 \(\sigma=\sqrt{np(1-p)}\)。
解释您的结果
这三个量回答了关于同一实验的三个不同问题:
- \(f(x)\) — 恰好 \(x\) 次:恰好获得 \(x\) 次成功而没有其他数目的概率。用于"恰好 k 次"的问题。
- \(P(X\le x)\) — 最多 \(x\) 次:成功次数不超过 \(x\) 的概率。用于"最多 k 次"、"不超过 k 次"或"少于 k+1 次"的问题。
- \(Q(X\ge x)\) — 至少 \(x\) 次:\(x\) 次或更多成功的概率。用于"至少 k 次"、"k 次或更多"或"多于 k−1 次"的问题。
将现实问题映射到函数。仔细翻译措辞,注意边界:
- "至少 \(k\) 次" \(\Rightarrow Q(X\ge k)\)。
- "多于 \(k\) 次" \(\Rightarrow Q(X\ge k+1) = 1 - P(X\le k)\)。
- "最多 \(k\) 次" \(\Rightarrow P(X\le k)\)。
- "少于 \(k\) 次" \(\Rightarrow P(X\le k-1)\)。
- "在 \(a\) 到 \(b\) 之间(包含两端)" \(\Rightarrow P(X\le b) - P(X\le a-1)\)。
\(P\)/\(Q\) 重叠。因为 \(P(X\le x)\) 和 \(Q(X\ge x)\) 都包含项 \(f(x)\),它们在相同的 \(x\) 处不互补。实际上 \(P(X\le x) + Q(X\ge x) = 1 + f(x)\),所以两个累积尾部恰好在一个点质量处重叠。\(Q(X\ge x)\) 的真正补集是 \(P(X\le x-1)\),而不是 \(P(X\le x)\)。
正态近似。当 \(np\) 和 \(n(1-p)\) 都相当大时(一个常见的经验法则是每个都 \(\ge 5\),理想情况下 \(\ge 10\)),二项分布可以很好地用正态分布近似,其中均值 \(\mu = np\),标准差 \(\sigma = \sqrt{np(1-p)}\)。在将离散计数转换为连续正态标度时应用连续性修正(例如,使用 \(x+0.5\) 或 \(x-0.5\))。对于具有小 \(p\) 的大 \(n\)(使得 \(np\) 保持中等),泊松分布,其中 \(\lambda = np\),是更准确的近似。
常见问题
为什么 \(P(x) + Q(x)\) 不等于 1?两个累积概率都包含了 \(t = x\) 这一点,因此 \(P(x) + Q(x) = 1 + f(x)\)。本工具有意采用这种「重叠」约定,即下侧累积包含 \(x\),上侧累积同样包含 \(x\)。
如果 \(x\) 超出 \(0..n\) 的范围会怎样?此时概率质量函数取值为 0;下侧累积被限制为 0(当 \(x < 0\))或 1(当 \(x \ge n\)),上侧累积则被限制为 1(当 \(x \le 0\))或 0(当 \(x > n\))。
可以使用较大的 \(n\) 吗?可以。对数伽马计算能在 \(n\) 很大时保持结果稳定,而直接使用阶乘则会发生溢出。