Với những bạn không chuyên Thống kê và Phân tích dữ liệu (như mình) quả là không thể tránh khỏi cảm giác hoang mang trong lần đầu tiếp xúc với khái niệm "Phương sai".
Các giáo trình về Thống kê Xã hội học tại Việt Nam được viết bởi các chuyên gia Toán - Thống kê, người ta sử dụng ngôn ngữ của Toán để mô tả các khái niệm và vì thế chúng rất khó hiểu và gần như không thể chạm tới. Tuy nhiên sau một thời gian tự học, mình cũng đã hiểu được khái niệm cơ bàn này và nhận ra phương sai không hề khó hiểu. Chìa khóa ở đây là hãy nhớ lại hai khuynh hướng tập trung và phân tán của dữ liệu.
Nếu trung bình (mean) là một đại lượng được sử dụng để đo lường sự tập trung trung bình, của các điểm dữ liệu xung quanh giá trị Mean, thì phương sai (variance) là một đại lượng được sử dụng để đo lường độ lệch trung bình của các điểm dữ liệu (data point) so với giá trị trung bình đó. Đã là lệch, thì sẽ có lệch lên (cao hơn trị trung bình) và cũng sẽ có lệch xuống (thấp hơn trị trung bình). Tổng bình phương khoảng cách giữa toàn bộ các điểm dữ liệu đó với trị trung bình - chính là phương sai.
Trong bài viết này mình sẽ giúp các bạn đi từng bước để xác định phương sai. Hãy làm theo và bạn sẽ hoàn toàn chính phục được đại lượng thú vị này.
---
---
Phương sai là một đại lượng giúp mô tả được một cách tường tận về sự phân tán của dữ liệu. Phương sai có ưu thế tuyệt đối so với các đại lượng khác như khoảng chênh lệch (range), tứ phân vị (quartile)... bởi nó không bỏ qua bất cứ một điểm dữ liệu nào. Từ phương sai người ta sẽ suy ra được độ lệch chuẩn, một đại lượng đo lường sự phân tán thậm chí còn dễ hiểu hơn và vì thế phổ biến hơn cả phương sai.
Vậy thì hãy yên tâm là chúng ta chỉ cần hiểu phương sai là gì thôi, còn trong thực tế sử dụng, không phải lúc nào chúng ta đã phải "gò mình" để chỉ sử dụng đại lượng này đâu.
---
Huế, 6:47 PM 12/3/2023
(*) Vùi lòng trích nguồn khi sử dụng
---
Data Team, Sociology Hue - HUSC
Content & Design: Tuấn Long