Công cụ này làm gì?
Công cụ này đánh giá hiệu suất của một mô hình phân loại nhị phân bằng cách tính ba chỉ số cốt lõi: precision (độ chính xác), recall (độ bao phủ) và điểm F1. Bạn chỉ cần nhập các con số thô từ ma trận nhầm lẫn (confusion matrix) của mình — true positive (TP), false positive (FP) và false negative (FN) — và công cụ sẽ trả về từng chỉ số dưới dạng phần trăm. Những chỉ số này được dùng phổ biến trong học máy, truy xuất thông tin, xét nghiệm y khoa và mọi lĩnh vực cần phân loại đối tượng thành hai nhóm dương tính và âm tính.
Cách sử dụng
Nhập số lượng true positive (các trường hợp dương tính được dự đoán đúng), false positive (các trường hợp âm tính bị dự đoán nhầm thành dương tính) và false negative (các trường hợp dương tính mà mô hình bỏ sót). Nhấn nút tính để xem precision, recall và F1. Lưu ý rằng true negative không cần thiết cho các chỉ số này.
Giải thích công thức
Precision = TP / (TP + FP) trả lời câu hỏi: "Trong tất cả những gì tôi gắn nhãn là dương tính, có bao nhiêu là đúng?" Precision cao nghĩa là ít báo động giả.
$$\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}$$
Recall = TP / (TP + FN) trả lời câu hỏi: "Trong tất cả những trường hợp thực sự dương tính, tôi bắt được bao nhiêu?" Recall cao nghĩa là ít bỏ sót.
$$\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}$$
Điểm F1 là trung bình điều hòa của hai chỉ số trên: F1 = 2 · (Precision · Recall) / (Precision + Recall). Nó cân bằng cả hai và rất hữu ích khi dữ liệu giữa các lớp bị mất cân bằng.
$$\text{F1} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$$
Ví dụ minh họa
Giả sử một bộ lọc thư rác đánh dấu 100 email là spam. Trong số đó, 80 email đúng là spam (TP) và 20 email không phải spam (FP). Ngoài ra, bộ lọc còn bỏ sót 10 email spam thực sự (FN). Precision = \(80 / (80 + 20) = 0{,}80 = 80\%\). Recall = \(80 / (80 + 10) = 0{,}889 = 88{,}89\%\). F1 = \(2 \cdot (0{,}80 \cdot 0{,}889) / (0{,}80 + 0{,}889) = 84{,}21\%\).
Câu hỏi thường gặp
Khi nào nên ưu tiên precision hơn recall? Hãy ưu tiên precision khi false positive gây tốn kém (ví dụ: đánh dấu nhầm email hợp lệ thành spam). Hãy ưu tiên recall khi việc bỏ sót trường hợp dương tính gây hậu quả nghiêm trọng (ví dụ: tầm soát ung thư).
Tại sao nên dùng điểm F1? Độ chính xác tổng thể (accuracy) có thể gây hiểu lầm khi dữ liệu mất cân bằng. Điểm F1 gộp precision và recall thành một con số cân bằng duy nhất.
Nếu mẫu số bằng 0 thì sao? Nếu TP+FP hoặc TP+FN bằng 0, chỉ số đó không xác định; trong trường hợp này, công cụ sẽ báo kết quả là 0%.