Khi nào sử dụng Trung vị (median) ?

Tuấn Long

Nghiên cứu

Phân tích dữ liệu

01 Tháng M. hai, 2023

Khi nào sử dụng Trung vị (median) ?

Hãy cứ nhớ đơn giản thể này: Khi nào trong dữ liệu của bạn xuất hiện các giá trị bất thường, thì hãy sử dụng Trung vị, còn lại trong phần lớn các tính huống, bạn hãy cứ dùng Trung bình như bình thường.

Chính xác hơn, đại lượng giúp đo lường mức độ tập trung của dữ liệu bao gồm Trung bình (mean) và Trung vị (median). Khi dữ liệu có xu hướng tuân theo phân phối chuẩn, giá trị của Trung bình và Trung vị thường bằng nhau (hoặc tiệm cận bằng nhau).

Tuy nhiên, khi dữ liệu xuất hiện các giá trị bất thường (outlier), thì các outlier này sẽ tác động tới đại lượng trung bình và khiến cho kết quả không còn phản ánh chính xác được nội tại của dữ liệu nữa. Ngược lại, Trung vị không chịu sự chi phối của các giá trị bất thường, cho nên Trung vị có thể phản ánh được nội tại của dữ liệu chính xác hơn.

Trong bài viết này, mình sẽ hướng dẫn các bạn cách phân biệtsử dụng hai đại lượng quan trọng này nhé.

---

Trung bình và Trung vị đều quan trọng và hữu dụng như nhau, vậy tại sao nói tới trung bình thì ai cũng biết mà Trung vị thì .... hên xui ?

Theo quan sát của mình thì có ít nhất 02 lý do: (1) so với việc phải sắp xếp các giá trị từ bé đến lớn rồi loại dần, thì việc xác định giá trị trung bình tỏ ra dễ dàng hơn rất nhiều ; (2) người ta có xu hướng bỏ qua / xem nhẹ việc khai phá / thăm dò dữ liệu trước khi phân tích, nên không xác định được sự tồn tại của các outlier. Hoặc nếu có xác định ra outlier, thì lại không ý thức được tác động thực sự của các outlier tới kết quả chung cũng như đi tìm cách giải quyết. Thành ra, không coi trọng Trung vị.

Bạn có thể đọc về cách xác định outlier [tại đây] nhé

---

Huế, 5:00 PM 12/1/2023

(*) Vui lòng trích nguồn khi sử dụng

---

Data Team, Sociology Hue - HUSC

Content & Design: Tuấn Long