什么是二项分布百分位点计算器?
这款工具用于对二项分布 \(B(n, p)\) 的累积分布函数(CDF)求逆。给定一个目标累积概率,它会返回达到该概率时对应的取值 \(x\),也就是百分位点。由于二项分布是离散分布,计算结果会在相邻两个整数之间做连续插值,因此 \(x\) 通常不是整数。
如何使用
先选择累积方式:下侧累积 P 表示把你的概率视为 \(P(X \le x)\);上侧累积 Q 则视为 \(P(X \ge x)\)。接着填入目标累积概率(取值在 0 到 1 之间)、试验次数 \(n\),以及单次试验的成功概率 \(p\)。计算器随即给出百分位点 \(x\)。
公式解析
概率质量函数为 $$f(x,n,p) = \binom{n}{x}\, p^{x}\,(1-p)^{\,n-x}.$$ 下侧累积分布为 $$P(x) = \sum_{t=0}^{x} f(t).$$ 工具会对每个整数 \(k\) 计算 \(F(k)\),找到满足 \(F(k-1) < P \le F(k)\) 的那一段,然后进行插值: $$x = (k-1) + \frac{P - F(k-1)}{F(k) - F(k-1)}.$$ 上侧模式则用互补的尾部概率 \(G(k) = P(X \ge k)\),原理完全相同。
实例演示
设 \(n = 20\)、\(p = 0.25\)、下侧累积 \(P = 0.3\):累积分布函数给出 \(F(3) = 0.225156\)、\(F(4) = 0.414842\)。由于 0.3 落在这一段内,故 $$x = 3 + \frac{0.3 - 0.225156}{0.414842 - 0.225156} = 3 + 0.394672 = 3.3947.$$
定义与词汇表
二项分布 \(B(n,p)\) 用来模拟 \(n\) 个独立试验中成功次数 \(X\) 的分布,每个试验的成功概率为 \(p\)。该计算器通过反演其累积分布函数(CDF)来找到对应于选定累积概率的百分位点 \(x\)。
- 试验次数 \(n\)
- 固定的独立伯努利试验次数。必须是正整数。在表单中对应字段名为 trials。
- 成功概率 \(p\)
- 单次试验中成功的概率,其中 \(0 \le p \le 1\)。该值对所有试验都相同。在表单中对应字段名为 successProbability。
- 概率质量函数(PMF)
- 恰好成功 \(k\) 次的概率:\(P(X=k)=\binom{n}{k}p^{k}(1-p)^{n-k}\),其中 \(k = 0,1,\dots,n\)。
- 累积分布函数(CDF)
- PMF 直到并包括 \(k\) 的累计和:\(F(k)=\sum_{t=0}^{k}\binom{n}{t}p^{t}(1-p)^{n-t}=P(X\le k)\)。这是一个非递减的阶梯函数,在每个整数处跳跃。
- 下尾累积 \(P = P(X \le x)\)
- 成功次数至多为 \(x\) 的概率。当选择下尾模式(cumulativeMode = lower)时,计算器返回满足 \(F(x) \ge P\) 的最小 \(x\)。
- 上尾累积 \(Q = P(X \ge x)\)
- 成功次数至少为 \(x\) 的概率。因为支撑集是离散的,\(P(X\ge x)=1-F(x-1)\)。在上尾模式中,计算器返回满足 \(P(X\ge x)\le Q\) 的最小 \(x\)(等价地,返回累积质量不超过 \(Q\) 的最大尾部)。
- 百分位点 \(x\)
- 在请求的累积概率处的成功次数——即分位数或反函数值。例如,第 90 百分位数是满足 \(F(x)\ge 0.90\) 的最小 \(x\)。
- 步骤内插值
- 因为二项 CDF 是一个阶梯函数,精确目标概率通常落在两个整数值 \(k-1\) 和 \(k\) 之间。线性插值将连续百分位数估计为 \(x \approx (k-1) + \dfrac{P - F(k-1)}{F(k)-F(k-1)}\),其中 \(F(k)-F(k-1)=P(X=k)\)。整数百分位点本身总是 \(k\);插值仅用于报告的小数部分精化。
常见问题
为什么 \(x\) 不是整数? 二项分布的 CDF 是一个阶梯函数。为了给出有意义的百分位,工具会在包含目标概率的那一段阶梯内进行线性插值。
当 \(P = 1\) 时会怎样? 此时覆盖了整个分布,所以 \(x\) 等于 \(n\)。而当 \(P = 0\) 时,\(x\) 等于 0。
如果 \(p = 0\) 或 \(p = 1\) 呢? 这两种情况下,所有概率质量分别集中在 \(x = 0\) 或 \(x = n\) 上,百分位点也会反映这种退化情形。