Có hai cách giúp bạn phát hiện ra các giá trị bất thường (outlier). Hoặc là dựa vào kết quả trực quan trên biểu đồ của bước thăm dò dữ liệu (data explore) hoặc là dựa vào các ngưỡng (critical value) của thuật toán Tukey.
Dù là cách nào thì bạn cũng cần nhớ: (1) Outlier có thể là giá trị cực cao hoặc cực thấp ; (2) Outlier không nhất thiết là giá trị sai, mà đôi khi đơn giản chỉ là vì bản chất của thực tế như vậy và (3) Outlier có thể tác động mạnh tới tổng thể dữ liệu, vì thế, dữ liệu có outlier được tính toán khác với dữ liệu không có outlier
Trong bài viết này mình sẽ giúp các bạn hiểu về outlier và cách phát hiện outlier nhé
---
---
Dữ liệu có outlier sẽ được tính toán khác với dữ liệu không có outlier. Nhưng cụ thể là như thế nào? Các bạn có thẻ xem thêm tại [bài viết này] nhé.
---
Huế, 1:13 AM 11/29/2023
(*) Vui lòng trích nguồn khi sử dụng
---
Data Team, Sociology Hue - HUSC
Design & Content: Tuấn Long