Khuynh hướng phân phối của dữ liệu trên Histogram

Tuấn Long

Nghiên cứu

Phân tích dữ liệu

29 Tháng M. một, 2023

Khuynh hướng phân phối của dữ liệu trên Histogram

Histogram là một công cụ trực quan dữ liệu hữu ích song lại thường bị nhầm lẫn với biểu đò cột. Trên thực tế, biểu đồ cột mô tả số lượng / tỉ lệ cho các thuộc tính của một biến định tính trong khi histogram được sử dụng để mô tả tần số một giá trị nào đó thuộc biến định lượng.

Trong bài viết này mình sẽ không đi sâu vào cách tạo một histogram mà chủ yếu tập trung vào cách nhìn nhận khuynh hướng phân bố của dữ liệu thông quan hình dáng tổng quát được tạo nên bằng histogram. Khi nối đỉnh của các cột trong histogram ta sẽ được một đường cong, gọi là đường mật độ (density line). Nhìn vào đường cong đó, ta sẽ có được một mô tả nhanh về phân phối của dữ liệu.

Hãy nhớ một nguyên tắc đơn giản thế này: (1) ở giữa là trung bình; (2) bên phải là nơi chứa các giá trị cao, bên trái là nơi chứa các giá trị thấp và (3) nơi có cột cao nhất - chính là nơi tập trung nhiều dữ liệu nhất.

---

---

Histogram không những được sử dụng để mô tả cho một nhóm mà còn có thể sử dụng kết hợp để so sánh giữa nhiều nhóm với nhau. Vd: so sánh chỉ số IQ giữa nam và nữ hoặc so sánh mức thu nhập giữa các hộ dân ở khu vực phía Nam và phía Bắc. Đôi khi người ta còn kết hợp sử dụng histogram với biểu đồ hộp hoặc lồng chúng vào nhau thành biểu đồ violin như hình trên.

Tuy nhiên, không phải phần mềm nào cũng vẽ được những dạng biểu đồ kết hợp phức tạp như vậy, hoặc là bạn phải sử dụng tới các soft chuyên về trực quan dữ liệu hoặc là các chương trình có khả năng cho phép bạn can thiệp vào cách tạo dựng biểu đồ bằng mã lệnh như R hoặc Python. Cũng khá khá thứ mới mẻ đấy ^^

----

Huế, 4:14 PM 11/29/2023

(*) Vui lòng trích nguồn khi sử dụng

---

Data Team, Sociology Hue - HUSC

Design & Content: Tuấn Long