这个计算器能做什么
本工具可以为任意一组数字计算三个核心的集中趋势指标:平均数(算术平均值)、中位数(居中的数值)和众数(出现次数最多的数值)。它还会给出数据的个数、总和与极差,让你对整组数据有一个快速的统计概览。无论是成绩、考试分数、价格、测量数据、问卷结果,还是其他任何数值,都可以直接使用。
使用方法
在输入框中填入你的数字,用逗号或空格隔开即可,例如 4, 8, 15, 16, 23, 42。小数和负数都支持。点击"计算",工具会自动排序、求和,并即时返回每一项统计结果。你也可以把从 Excel 等表格软件中复制的一整列数据直接粘贴进来,多余的空格和换行会被自动处理。
公式详解
平均数是所有数值之和除以数值的个数:
$$\text{平均数} = \frac{\sum x}{n}$$中位数的求法是先将数字从小到大排序,再取居中的那一个;如果数值个数为偶数,则取中间两个数的平均值。众数是出现次数最多的数值。一组数据可以只有一个众数,也可以有多个众数(多峰分布),当每个数值都各不相同时,则没有众数。
实例演示
以这组数据 2、4、4、6、9 为例。总和为 \(2 + 4 + 4 + 6 + 9 = 25\),共有 5 个数,因此平均数为 \(25 \div 5 = 5\)。排序后居中(第 3 个)的数值是 4,所以中位数为 4。数值 4 出现了两次,比其他任何数都多,因此众数为 4。极差为 \(9 - 2 = 7\)。
解释你的结果
三种中心趋势的度量都回答同一个广泛的问题——"典型值是什么?"——但它们对数据形状的响应方式不同,所以一起阅读它们比单独阅读任何一个都更有信息量。
当均值和中位数出现偏离时
在完全对称的数据集中,均值和中位数相等。当它们分离时,这个差距表示偏度:如果均值明显大于中位数,一些异常高的值(右偏或高异常值)会将平均值向上拉动;如果均值小于中位数,低值会向下拖动它(左偏)。因为均值将每个值相加,一个单一的极端观测值可以大幅改变它,而中位数——排序列表的中间值——几乎不会移动。对于倾斜的数据,如收入、房价或响应时间,中位数通常是更具代表性的"典型"值。
当多峰结果表明子组时
众数是最频繁出现的值。单一清晰的众数表明数据聚集在一个中心周围。两个或多个众数(双峰或多峰结果)通常意味着数据集实际上混合了不同的子组——例如来自两个不同班级的测试分数,或在两种不同条件下进行的测量。当这种情况发生时,单一的均值或中位数可能描述的是一个实际上对任一组都不典型的值,因此值得检查数据是否应该被分割并分别分析。
范围如何指示传播
范围是最大值减去最小值,所以它在一个数字中捕获数据的全部宽度。相对于均值较小的范围表明这些值紧密聚集;较大的范围表明传播更大或存在异常值。范围仅使用两个最极端的点,所以它对异常值敏感,对中间值的分布方式没有说明——当你需要更完整的离散度图像时,将其与标准差或方差配对。
本部分仅解释标准统计解释,不是个人、财务或专业建议。
均值、中位数和众数在数据集中的比较
下面的四个数据集每个都包含类似数量的值,但形状不同。注意均值如何为对称数据跟踪中位数,但一旦引入异常值或偏度就与其分离,而众数则强调重复和聚集。
| 数据集 | 值 | 均值 | 中位数 | 众数 | 范围 |
|---|---|---|---|---|---|
| 对称 | 4, 5, 6, 7, 8 | 6 | 6 | 无 | 4 |
| 右偏(高异常值) | 4, 5, 6, 7, 80 | 20.4 | 6 | 无 | 76 |
| 双峰(两个子组) | 2, 2, 2, 9, 9, 9 | 5.5 | 5.5 | 2和9 | 7 |
| 全部唯一 | 3, 11, 14, 22, 30 | 16 | 14 | 无 | 27 |
在右偏集中,将值8替换为80使中位数保持在6不变,但将均值提升到20.4——这清楚地演示了一个异常值如何扭曲平均值,而中位数保持稳健。双峰集返回两个众数,这是统计线索,表明两个簇(每个分别以2和9为中心)已被组合。全部唯一集根本没有众数,因为没有值重复。
定义和词汇表
- 均值(算术平均数)
- 所有值的总和除以值的数量,\(\bar{x} = \frac{\sum x_i}{n}\)。使用每个值,所以对异常值敏感。
- 中位数
- 数据按顺序排序时的中间值。对于偶数个值,它是两个中心值的平均数。基本不受极端值的影响。
- 众数
- 出现最频繁的值(或值)。数据集可能有一个众数、多个众数,或如果每个值都是唯一的则无众数。
- 中心趋势
- 总结数据集中心或"典型"水平的单个值;均值、中位数和众数是三种常见的度量。
- 多峰
- 具有多于一个众数。两个众数称为双峰;多峰数据通常表示不同子组的混合。
- 范围
- 最大值和最小值之间的差,\(\text{范围} = x_{\max} - x_{\min}\);一个简单的整体传播度量。
- 数量(n)
- 数据集中的值的数量——计算均值时使用的除数。
- 总和
- 通过将所有值相加得到的总数,\(\sum x_i\);均值的分子。
- 异常值
- 远离其余数据的值。异常值强烈影响均值和范围,但对中位数的影响很小。
- 排序/有序数据
- 从最小到最大排列的值。排序是定位中位数和读取范围的最小值和最大值所必需的。
常见问题
如果我的数据中没有重复的数值怎么办?那么就没有众数,计算器会显示"无众数"。
众数可以有多个吗?可以。如果有两个或更多数值的出现次数并列最高,它们都会被列为众数。
我该用哪种平均指标?对于分布对称的数据,平均数最合适;但当数据中存在极端异常值时,中位数更可靠,因为它不会被异常偏大或偏小的数值"拉偏"。