Hàng rào trên là gì?
Hàng rào trên (upper fence) là ngưỡng thống kê dùng để nhận diện các giá trị ngoại lệ ở phía cao trong một tập dữ liệu. Bất kỳ giá trị nào vượt qua hàng rào trên đều được đánh dấu là ngoại lệ tiềm năng và cần được xem xét kỹ hơn. Đây là một phần của phương pháp Tukey kinh điển để phát hiện ngoại lệ — cũng chính là cách vẽ các "râu" (whiskers) trên biểu đồ hộp (box-and-whisker plot).
Cách sử dụng công cụ
Bạn chỉ cần nhập tứ phân vị thứ nhất (Q1) và tứ phân vị thứ ba (Q3) của tập dữ liệu. Công cụ sẽ tính khoảng tứ phân vị (\(\text{IQR} = \text{Q3} - \text{Q1}\)), nhân với 1,5 rồi cộng kết quả vào Q3 để cho ra hàng rào trên. Nếu chưa biết các tứ phân vị, hãy sắp xếp dữ liệu theo thứ tự rồi tìm trung vị của nửa dưới (Q1) và trung vị của nửa trên (Q3).
Giải thích công thức
Hàng rào trên được xác định bằng $$\text{Hàng rào trên} = \text{Q3} + 1{,}5 \times \left(\text{Q3} - \text{Q1}\right)$$ Đại lượng \(\left(\text{Q3} - \text{Q1}\right)\) chính là khoảng tứ phân vị (IQR) — một thước đo độ phân tán bền vững, không bị ảnh hưởng bởi các giá trị cực đoan. Việc nhân IQR với 1,5 tạo ra một dải dung sai; mở rộng dải này lên phía trên Q3 sẽ thiết lập ngưỡng cho những quan sát lớn bất thường.
Ví dụ minh họa
Giả sử một tập dữ liệu có \(\text{Q1} = 25\) và \(\text{Q3} = 75\). Khi đó \(\text{IQR} = 75 - 25 = 50\). Hàng rào trên sẽ là $$75 + 1{,}5 \times 50 = 75 + 75 = 150$$ Mọi điểm dữ liệu lớn hơn 150 đều được xem là ngoại lệ cao tiềm năng.
Câu hỏi thường gặp
Vì sao lại là 1,5? Hệ số 1,5 là hệ số chuẩn do John Tukey đề xuất. Nó cân bằng giữa độ nhạy và tỷ lệ báo động giả đối với dữ liệu gần phân phối chuẩn. Đôi khi người ta dùng hệ số 3,0 để đánh dấu các ngoại lệ "cực đoan".
Còn hàng rào dưới thì sao? Ngưỡng dưới tương ứng là \(\text{Q1} - 1{,}5 \times \text{IQR}\). Những giá trị nằm dưới ngưỡng này là ngoại lệ ở phía thấp.
Một giá trị vượt hàng rào có luôn là lỗi không? Không. Nó chỉ đánh dấu điểm đó để bạn xem xét lại — đó có thể là một quan sát thật nhưng có giá trị cực đoan.