F1 Score là gì?
F1 score là một chỉ số duy nhất kết hợp precision (độ chính xác) và recall (độ phủ) thành một con số, nên rất được ưa chuộng khi đánh giá các mô hình phân loại trong máy học, truy hồi thông tin và thống kê. Đây chính là trung bình điều hòa của precision và recall, vì vậy nó ưu tiên những mô hình cân bằng được cả hai yếu tố thay vì chỉ giỏi ở một mặt.
Cách sử dụng công cụ
Bạn chỉ cần nhập ba con số từ ma trận nhầm lẫn (confusion matrix): True Positive (TP — số trường hợp dương tính được dự đoán đúng), False Positive (FP — số trường hợp âm tính bị dự đoán nhầm thành dương tính) và False Negative (FN — số trường hợp dương tính bị bỏ sót). Công cụ sẽ lập tức trả về precision, recall và F1 score tương ứng.
Giải thích công thức
Precision = \( \dfrac{\text{TP}}{\text{TP} + \text{FP}} \) cho biết trong số các trường hợp được dự đoán là dương tính thì có bao nhiêu dự đoán đúng. Recall = \( \dfrac{\text{TP}}{\text{TP} + \text{FN}} \) cho biết trong số các trường hợp dương tính thực tế thì mô hình phát hiện được bao nhiêu. Khi đó
$$ F_1 = \frac{2 \cdot (\text{precision} \cdot \text{recall})}{\text{precision} + \text{recall}} $$Vì là trung bình điều hòa nên chỉ cần precision hoặc recall thấp là F1 score sẽ tụt xuống rõ rệt.
Ví dụ minh họa
Giả sử \( \text{TP} = 70 \), \( \text{FP} = 30 \), \( \text{FN} = 10 \). Precision = \( \dfrac{70}{100} = 0{,}70 \). Recall = \( \dfrac{70}{80} = 0{,}875 \).
$$ F_1 = \frac{2 \cdot (0{,}70 \cdot 0{,}875)}{0{,}70 + 0{,}875} = \frac{2 \cdot 0{,}6125}{1{,}575} \approx 0{,}7778 $$tức khoảng 77,78%.
Câu hỏi thường gặp
Khi nào nên dùng F1 thay vì accuracy? Bạn nên ưu tiên F1 khi dữ liệu bị mất cân bằng giữa các lớp, bởi vì accuracy có thể cao một cách đánh lừa khi một lớp chiếm đa số.
F1 score bao nhiêu là tốt? F1 dao động từ 0 đến 1; càng gần 1 càng tốt. Mức "tốt" còn tùy thuộc vào từng bài toán, nhưng giá trị trên 0,8 thường được xem là khá cao.
Vì sao lại dùng trung bình điều hòa? Trung bình điều hòa trừng phạt sự chênh lệch lớn giữa precision và recall mạnh hơn so với trung bình cộng thông thường, đảm bảo cả hai đều phải đạt mức hợp lý.