Sai số bình phương trung bình là gì?
Sai số bình phương trung bình (Mean Squared Error – MSE) là một trong những chỉ số được dùng phổ biến nhất để đo mức độ sát giữa tập giá trị dự đoán và giá trị thực tế quan sát được. Chỉ số này lấy trung bình bình phương độ chênh lệch giữa từng giá trị dự đoán (ŷ) và giá trị thực tế tương ứng (y). Vì các sai số được bình phương nên những sai lệch lớn bị "phạt" nặng hơn nhiều so với sai lệch nhỏ, và kết quả luôn không âm — một mô hình hoàn hảo sẽ có MSE bằng đúng 0.
Cách sử dụng công cụ này
Hãy nhập các giá trị thực tế và giá trị dự đoán dưới dạng hai danh sách, mỗi giá trị cách nhau bằng dấu phẩy. Hai danh sách nên có cùng độ dài, với mỗi giá trị dự đoán khớp đúng vị trí với giá trị thực tế tương ứng. Công cụ sẽ ghép cặp chúng theo thứ tự, tính sai số bình phương cho từng cặp, rồi trả về MSE cùng với RMSE (căn bậc hai của sai số bình phương trung bình) và SSE (tổng các sai số bình phương) liên quan. Nếu hai danh sách có độ dài khác nhau, công cụ chỉ sử dụng các cặp trùng khớp.
Giải thích công thức
Công thức tính MSE là
$$\text{MSE} = \frac{1}{n}\sum_{i=1}^{n}\left(y_i - \hat{y}_i\right)^2$$Với mỗi điểm dữ liệu, bạn lấy giá trị thực tế trừ đi giá trị dự đoán, bình phương độ chênh lệch đó, cộng tất cả các bình phương lại với nhau (đây chính là SSE), và cuối cùng chia cho số điểm dữ liệu \(n\). Lấy căn bậc hai của MSE sẽ được RMSE — chỉ số tiện lợi vì nó cùng đơn vị với dữ liệu gốc.
Ví dụ minh họa
Giả sử các giá trị thực tế là \(3, -0.5, 2, 7\) và các giá trị dự đoán là \(2.5, 0.0, 2, 8\). Khi đó các sai số lần lượt là \(0.5, -0.5, 0, -1\). Bình phương lên ta được \(0.25, 0.25, 0, 1\), có tổng bằng \(1.5\) (chính là SSE). Chia cho \(n = 4\) ta được MSE bằng 0.375, và RMSE là \(\sqrt{0.375} \approx 0.6124\).
Câu hỏi thường gặp
Giá trị MSE bao nhiêu là tốt? Không có ngưỡng cố định cho mọi trường hợp — MSE phụ thuộc vào thang đo của dữ liệu. Càng nhỏ càng tốt, và bằng 0 nghĩa là mô hình khớp hoàn hảo. Hãy so sánh nó với các mô hình thay thế hoặc với phương sai của biến mục tiêu.
MSE và RMSE khác nhau như thế nào? RMSE đơn giản là căn bậc hai của MSE. RMSE thường được ưu tiên khi báo cáo vì nó có cùng đơn vị với dữ liệu và dễ diễn giải hơn.
Tại sao lại bình phương sai số thay vì dùng giá trị tuyệt đối? Việc bình phương giúp hàm số trơn và khả vi (rất hữu ích cho việc tối ưu hóa), đồng thời phạt nặng các sai số lớn. Phương án thay thế là Sai số tuyệt đối trung bình (MAE) xử lý mọi sai số một cách tuyến tính.