Tổng hợp 5 nhầm lẫn khi sử dụng thang Thứ bậc

Tuấn Long

Phân tích dữ liệu

Thống kê & Phân tích dữ liệu

03 Tháng Mười, 2023

Tổng hợp 5 nhầm lẫn khi sử dụng thang Thứ bậc

Ở bài viết trước, mình đã giới thiệu với các bạn về các cấp độ đo lường và thang đo, trong đó có thang Thứ bậc.

Thang thứ bậc (ordinal scale) là loại thang đo có hình thức giống với thang định danh nhưng ở một dạng phát triển cao hơn, khi mà các dữ liệu thu nhận về có sự sắp xếp theo thứ tự từ lớn đến bé hoặc ngược lại. Logic của thang Thứ bậc là [A > B > C] hoặc [A < B < C].

Tuy thang Thứ bậc có cấp độ đo lường cao hơn thang Định danh, song vì là một dạng thang đo định tính nên khi xuất hiện kết hợp với các con số, khiến nhiều người có hiểu nhầm dẫn tới một số phân tích không đúng.

Mình đã tổng hợp lại và chia sẻ tới các bạn trong bài viết này.

===

1 - Thang Thứ bậc không chỉ ra chính xác sự chênh lệch

Chuyện này chúng ta vẫn gặp trong đời sống thường ngày. Ví dụ có ai đó hỏi: Ngoài bạn ra, trong gia đình còn anh chị em nào không ? Bạn nói bạn còn 1 chị và 2 anh, bạn là người cuối cùng. Như vậy, người ta sẽ biết được trong nhà có 4 con người gồm: 1 chị cả, 2 anh thứ và 1 út - đây là các thuộc tính của thang Thứ bậc.

Mặc dù vậy, không một ai có thể chỉ ra chính xác bạn thua kém các anh chị của mình bao nhiêu tuổi vì dữ kiện trên chưa đủ. Cho tới khi người ta biết được các thông tin như số tuổi hoặc năm sinh của từng người, rồi lấy đó trừ đi. Tuy nhiên, việc hỏi số tuổi / năm sinh, điền các giá trị đó và tính toán - lại là tính năng của một dạng thang đo khác (thang tỉ lệ).

Như vậy, thang thứ bậc giúp chúng ta so sánh các thuộc tính / giá trị, nhưng tuyệt nhiên không thể cung cấp cho chúng ta chính xác thông tin chênh lệch (range) giữa các giá trị / thuộc tính đó với nhau.

===

2 - Vậy nếu ta gán cho các thuộc tính đó một con số thì sao ?

Trên thực tế, việc gán số cho các thuộc tính được gọi là "Mã hóa" (coding) và diễn ra vô cùng phổ biến khi bạn làm việc với các phần mềm phân tích dữ liệu như SPSS, STATA ...

Tình huống đó có thể được xuất hiện như sau: Ví dụ: Biến số [Mức độ hài lòng] gồm 5 thuộc tính: 5 - Rất hài lòng ; 4 - Hài lòng ; 3 - Khá hài lòng ; 2 - Hơi hơi hài lòng ; 1 - Không hài lòng

Các thuộc tính này phản ánh các mức độ hài lòng giảm dần, mỗi mức độ được đại diện bằng một con số từ 1 - 5. Khi có ai đó chọn phương án "5 - Rất hài lòng", ta hiểu rằng mức độ hài lòng cao hơn so với phương án "4 - Hài lòng" ; hay nếu chọn phương án "2 - Hơi hơi hài lòng" thì có mức độ hài lòng cao hơn so với phương án "1 - Không hài lòng"...

---

Nhưng ngay cả như vậy, ta vẫn không thể khẳng định khoảng cách chênh lệch ở đây là hoàn toàn như nhau và đều bằng 1 (kiểu lấy 5 - 4 = 1 hay 2 - 1 = 1). Bởi các con số 1 - 5 nằm ở trước các phương án chỉ được xem như một con số đại diện (represent) thay cho mỗi phương án mức độ hài lòng. Sự tồn tại của các con số này không khác gì như một ký hiệu (symbol) hỗ trợ cho quá trình nhập liệu trên các phần mềm máy tính. Chúng hoàn toàn không còn là một con số (number) mang đặc trưng số học (numeric).

---

(*) Luu ý: ngay cả khi bạn không dùng các con số để đại diện, thì việc so sánh khoảng cách chênh lệch chính xác giữa các phát biểu mang bản chất định tính như "Khá hài lòng" và "Hơi hơi hài lòng" cũng đã là một điều bất khả.

===

3 - Không mang đặc trưng số học, tại sao SPSS vẫn tính ra được giá trị trung bình ?

Không chỉ SPSS mà bất cứ phần mềm máy tính nào cũng tính được giá trị trung bình từ các con số mà bạn nhập vào.

Nhưng cần hiểu rằng, máy tính khác con người, chúng ta quan niệm con số gán trước các phương án chỉ là ký hiệu (symbol) nên ta không thực hiện phép tính. Trong khi đó, máy tính mặc định dữ liệu đầu vào là các con số (number) nên nếu thiếu đi các điều kiện làm rõ thông tin (*), chúng sẽ tính toán như các con số thông thường.

---

(*) Trong tình huống đó, bạn cần khai báo các thuộc tính của biến số một cách chính xác, ví dụ tại phần "Measurment" của SPSS bạn cần báo cho SPSS biết biến số này thuộc nhóm đo lường "Ordinal" thay cho "Scale".

---

Với dữ liệu thứ bậc, chúng ta chỉ có thể so sánh (compare) và đếm (count) ; nếu muốn mô tả khuynh hướng tập trung của dữ liệu thứ bậc, chúng ta sẽ sử dụng dụng Trung vị (median) chứ không thể thực hiện tính toán (calculate) giá trị Trung bình (mean) hay Độ lệch chuẩn (standard deviation) như các đại lượng số học.

Trên thực tế, việc cộng tất cả các giá trị số lại với nhau để tính trung bình là một việc làm vô nghĩa vì kết quả mang lại rất mơ hồ !

===

4 - Giá trị trung bình rất dễ hiểu, sao lại nói là mơ hồ ?

Dễ hiểu, bởi bạn đủ thông minh để hiểu chúng đang cố gắng phản ánh điều gì, tiếc là những người khác nhau sẽ không hiểu theo cùng một nghĩa như bạn. Ví dụ, cả bạn và phần mềm đều tính được giá trị trung bình là 3.65 - vậy giá trị này phản ánh điều gì ?

---

  • Có người cảm giác con số 3.65 "lớn hơn" thuộc tính "3 - Khá hài lòng" nên chúng phản ánh trạng thái hài lòng nhiều hơn ...
  • Nhưng cũng có người thấy, con số 3.65 "bé hơn" thuộc tính "4 Hài lòng" nên chúng chưa đạt trạng thái hài lòng ...
  • Cũng có những người hoàn toàn không hiểu theo hai cách trên ....

---

Rất mơ hồ !!!!

Như vậy, việc tính toán giá trị trung bình cho dữ liệu thứ bậc là hết sức sai lầm: sai lầm thứ nhất là (1) sai về bản chất số học của dữ liệu, sai lầm thứ hai là (2) kết quả gây mơ hồ - cả hai sai lầm này đều khiến cho kết quả của bạn đưa ra không được chấp nhận về mặt học thuật.

===

5. Vậy tính tần số và tìm trung vị không phải là tính toán sao ?

Câu hỏi này khá hay ! Tuy nhiên, cái được gọi là "tính tần số" có bản chất "đếm" (count) và việc đếm tần số ở đây chỉ là việc quan sát sự lặp đi lặp lại của các thuộc tính để xem xem mỗi thuộc tính xuất hiện bao nhiêu lần, thuộc tính nào xuất hiện nhiều nhất, thuộc tính nào xuất hiện ít nhất.

Ví dụ: có bao nhiêu người chọn phương án "5 - Rất hài lòng" và số lượng đó ít hay nhiều hơn so với các phương án khác ? Bạn có thể ngồi và tự đếm xem có bao nhiêu phương án "Rất hài lòng" xuất hiện ; hoặc nếu bạn mã hóa dữ liệu đầu vào là "5 = Rất hài lòng" - thì máy tính sẽ đếm xem có bao nhiêu "số 5" xuất hiện - tất cả đều cùng một cơ chế.

Và như mình đã từng nói, đếm (count) không phải là tính toán (calculate) !

---

Còn việc tìm Trung vị lại càng không phải là tính toán. "Trung" là ở giữa, "Vị" là vị trí, "Trung vị" là vị trí ở chính giữa. Trung vị (median) được tìm ra bằng cách (1) sắp xếp tất cả các giá trị trong mẫu khảo sát theo thứ tự từ bé đến lớn, sau đó xác định xem giá trị nào là giá trị ở chính giữa của dãy số - đó chính là Trung vị.

Ngoài ra, thông qua việc đếm các giá trị và chỉ ra giá trị xuất hiện nhiều nhất, ta còn tìm được "Yếu vị" (mode) - một đại lượng mô tả sự tập trung của dữ liệu khác song song với cách sử dụng Trung vị và Trung bình.

Điều quan trọng là việc xác định cả Trung vị và Yếu vị đều chỉ cần tới thao tác so sánh và sắp xếp, hoàn toàn không cần tới tính toán như đại lượng Trung bình (mean).

===

Kết luận

Như vậy, trong bài viết này mình đã trình bày một số nhầm lẫn cơ bản thường thấy trong quá trình phân tích dữ liệu thứ bậc. Hy vọng sẽ giúp các bạn tránh được "vết xe đổ" mà nhiều người, trong đó có mình" - từng phạm phải.

Thực ra vẫn còn nhiều lắm, điển hình như dữ liệu phân nhóm (grouped data) về [Thu nhập] như: (1) < 1000$, (2) Từ 1000$ đến 2999$, (3) Từ 3000$ - 4999$ và (4) Từ 5000$ trở lên - là thang Thứ bậc hay thang Khoảng ?

Nhưng mà thôi, hẹn gặp lại trong bài viết tiếp theo nhé !

---

Huế, 3:45 PM 10/3/2023

(*) Vui lòng trích nguồn khi sử dụng bài viết. Cám ơn !

---

TÀI LIỆU THAM KHẢO CHÍNH:

  1. David Borman (2018), "Statistics 101 - A crash course in statistics"
  2. Earl R. Babbie (2013), "The Practice of Social Research", Wadsworth, Cengage Learning
  3. W. Lawrence Neuman (2014), "Social Research Methods Qualitative and Quantitative Approaches", Pearson Education Limited
  4. M. J. Albers (2017), "Introduction to Quantitative Data Analysis in the Behavioral and Social Sciences"
  5. Gordon Mace & Francois Petry (2013), “Cẩm nang xây dựng dự án nghiên cứu trong khoa học xã hội”, NXB Tri thức
  6. Michel Beaud (2014), “Nghệ thuật viết luận văn”, NXB Tri thức
  7. Nguyễn Xuân Nghĩa (2010), “Phương pháp & kĩ thuật trong nghiên cứu xã hội”, NXB Phương Đông
  8. Nguyễn Văn Tuấn (2018), “Đi vào nghiên cứu khoa học”, NXB Tổng hợp TP. HCM
  9. Phan Văn Quyết & Nguyễn Quý Thanh (2001), “Phương pháp nghiên cứu Xã hội học”, NXB Đại học Quốc gia Hà Nội