Độ lệch (skewness) là gì?
Độ lệch đo mức độ bất đối xứng của một phân phối xác suất hoặc tập dữ liệu quanh giá trị trung bình. Độ lệch bằng 0 cho thấy phân phối cân đối hai bên. Độ lệch dương nghĩa là đuôi bên phải dài hơn (những giá trị lớn kéo trung bình lên cao); độ lệch âm nghĩa là đuôi bên trái dài hơn. Công cụ này cho ra hoặc độ lệch tổng thể, hoặc độ lệch mẫu đã hiệu chỉnh sai số, cùng với giá trị trung bình và độ lệch chuẩn.
Cách sử dụng
Nhập các con số, phân tách bằng dấu phẩy hoặc khoảng trắng, rồi chọn phương pháp tính. Chọn Tổng thể khi dữ liệu của bạn đại diện cho toàn bộ nhóm cần khảo sát, và chọn Mẫu (ước lượng Fisher-Pearson hiệu chỉnh mà hàm SKEW trong Excel và nhiều phần mềm thống kê đang dùng) khi bạn chỉ có một mẫu lấy ra từ tổng thể lớn hơn.
Giải thích công thức
Độ lệch tổng thể là trung bình của lập phương các độ lệch đã chuẩn hóa:
$$g_1 = \frac{1}{n} \sum_{i=1}^{n} \left( \frac{x_i - \bar{x}}{\sigma} \right)^{3}$$trong đó \(\sigma\) chia cho \(n\). Phiên bản mẫu áp dụng thêm hệ số hiệu chỉnh:
$$G_1 = \frac{n}{(n-1)(n-2)} \sum_{i=1}^{n} \left( \frac{x_i - \bar{x}}{s} \right)^{3}$$trong đó \(s\) chia cho \(n-1\). Hệ số hiệu chỉnh này loại bỏ sai số thiên về phía dưới thường gặp ở các mẫu nhỏ.
Ví dụ minh họa
Với dữ liệu 2, 4, 6, 8, 20: giá trị trung bình là 8.
$$\sum (x_i-\bar{x})^3 = (-6)^3+(-4)^3+(-2)^3+(0)^3+(12)^3 = -216-64-8+0+1728 = 1440$$Với tổng thể, \(\sigma = \sqrt{160/5} = 6{,}3246\), nên
$$g_1 = \frac{1440/5}{6{,}3246^3} = \frac{288}{252{,}98} \approx \mathbf{1{,}1384}$$Với phương pháp mẫu, \(s = \sqrt{160/4} = 7{,}0711\), và
$$G_1 = \frac{5}{4\cdot 3}\cdot\frac{1440}{353{,}55} = 0{,}4167\cdot 4{,}0729 \approx \mathbf{1{,}6971}$$Câu hỏi thường gặp
Vì sao hai phương pháp cho ra kết quả khác nhau? Chúng dùng độ lệch chuẩn khác nhau, và phương pháp mẫu còn nhân thêm hệ số hiệu chỉnh sai số, nên với các tập dữ liệu nhỏ độ lớn sẽ chênh lệch nhau.
Giá trị gần 0 có ý nghĩa gì? Phân phối khá cân đối hai bên. Những giá trị vượt ngoài khoảng \(\pm 1\) thường được xem là lệch mạnh.
Nên báo cáo giá trị nào? Dùng ước lượng mẫu khi bạn muốn suy rộng từ một mẫu ra tổng thể; dùng độ lệch tổng thể khi bạn đã có đầy đủ toàn bộ dữ liệu.