什么是二项分布计算器?
本工具用于计算固定次数独立试验下的二项分布。只要给定成功次数 x、试验次数 n 以及单次试验的成功概率 p,它就能一次性算出恰好 x 次成功的概率(即概率质量)、下侧累积概率、上侧累积概率以及均值。凡是把同一个「是/否」实验在成功概率恒定的前提下重复固定次数,都适用二项模型,例如抛硬币、一批产品中的次品数量,或者靠蒙猜答对的选择题数量。
如何使用
输入三个纯数字。成功次数 x 和试验次数 n 必须为整数,且满足 \(0 \le x \le n\) 和 \(n \ge 1\);概率 p 需介于 0 到 1 之间。点击计算即可同时得到全部四项结果。请注意,二项分布是离散分布,因此主结果是概率质量(一个真正的概率值),而非概率密度。
公式详解
概率质量为 $$f(x,n,p) = \binom{n}{x} \, p^{x} \, (1-p)^{n-x}$$ 其中 \(\binom{n}{x} = \dfrac{n!}{x!(n-x)!}\) 是二项系数,表示在 n 次试验中出现 x 次成功有多少种排列方式。下侧累积概率 \(P(X \le x)\) 是把 t 从 0 到 x 的 \(f(t)\) 相加,上侧累积概率 \(Q(X \ge x)\) 是把 t 从 x 到 n 的 \(f(t)\) 相加。由于 \(t=x\) 这一点同时被两部分计入,因此有 \(P + Q - f(x) = 1\)。均值很简单,即 \(\mu = n \cdot p\)。为在 n 较大时保持数值稳定,系数采用对数阶乘来计算。
计算示例
取 \(x = 9\),\(n = 20\),\(p = 0.4\):\(\binom{20}{9} = 167960\),\(p^{9} = 0.000262144\),\(0.6^{11} \approx 0.0036279706\)。于是 $$f = 167960 \times 0.000262144 \times 0.0036279706 \approx 0.15974$$ 均值为 \(20 \times 0.4 = 8\)。累加可得 \(P(X \le 9) \approx 0.75534\)、\(Q(X \ge 9) \approx 0.40440\),且满足 \(0.75534 + 0.40440 - 0.15974 \approx 1\)。
定义和术语表
二项分布对固定数量的独立是/否实验中的成功次数进行建模。以下术语在整个计算器中出现。
- 试验:实验的单次重复,产生两种可能结果之一(例如一次硬币翻转)。
- 成功:你正在计数的结果,无论你如何定义它(正面、有缺陷的零件、正确的猜测)。它的补集是"失败"。
- n(试验次数):进行的独立试验的总数。它必须是固定的正整数。
- x(成功次数):你想要其概率的具体成功计数,其中\(0 \le x \le n\)。
- p(成功概率):任何单次试验是成功的概率,介于0和1之间的小数。
- q = 1 − p(失败概率):单次试验失败的概率。
- 二项式系数\(\binom{n}{x}\):\(n\)次试验中\(x\)次是成功的不同选择方式的数量,计算为\(\binom{n}{x}=\dfrac{n!}{x!\,(n-x)!}\)。
- 概率质量函数(pmf),\(f(x)\):恰好\(x\)次成功的概率,\(f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}\)。
- 下累积概率,\(P(X \le x)\):最多\(x\)次成功的概率,从0到\(x\)的pmf值的和。
- 上累积概率,\(P(X \ge x)\):至少\(x\)次成功的概率,从\(x\)到\(n\)的pmf值的和。
- 均值(期望值),\(\mu = np\):在多次重复中预期的平均成功次数。
- 方差,\(\sigma^{2}=np(1-p)\):分布围绕其均值的扩散。
- 标准差,\(\sigma=\sqrt{np(1-p)}\):成功计数与均值的典型偏差,与\(x\)的单位相同。
解释你的结果
此计算器返回三个概率和均值。选择与你的问题措辞相匹配的那个:
- pmf,\(f(x)=P(X=x)\) — 当你想要恰好\(x\)次成功的概率时使用,例如"10次翻转中恰好5次正面"。
- 下累积,\(P(X \le x)\) — 用于最多\(x\)次("\(x\)或更少"),例如"5个或更少的正确答案"。
- 上累积,\(P(X \ge x)\) — 用于至少\(x\)次("\(x\)或更多"),例如"至少1个有缺陷的零件"。
注意累积部分在\(x\)处重叠:\(P(X \le x)+P(X \ge x)=1+f(x)\),因为两个范围都包括值\(x\)本身。要获得严格少于\(x\),使用\(P(X \le x-1)\);对于严格多于\(x\),使用\(P(X \ge x+1)\)。
均值\(np\)是预期的成功次数 — 如果你多次重复整个\(n\)次试验实验,长期平均值。它不必是整数;期望值4.5只是描述一个平均数。
所有概率都报告为0到1之间的小数(乘以100得到百分比)。接近0的值意味着该事件很罕见;接近1,几乎是确定的。
这些结果仅在满足四个二项式假设时有效:
- 固定的试验次数\(n\),在观察结果之前决定。
- 每次试验两个结果 — 每次试验是成功或失败。
- 每次试验的恒定成功概率\(p\)。
- 独立性 — 一次试验的结果不影响任何其他试验。
如果试验不独立或\(p\)在试验间变化(例如从小群体中不放回采样),二项式模型只是一个近似值。
常见问题
上侧累积概率是否包含 x?包含。这里的 \(Q(X \ge x)\) 把 \(t=x\) 这一点也算在内,因此它是 \(P(X \ge x)\),而不是 \(P(X > x)\)。
当 p=0 或 p=1 时会怎样?采用 \(0^{0}=1\) 的约定,\(p=0\) 时 \(f(0)=1\),其余概率全为 0;\(p=1\) 时 \(f(n)=1\)。
为什么叫「概率质量」而不是「密度」?密度用于连续分布;对于离散变量,每个结果都对应一个实际的概率,因此「质量」才是正确的说法。