Phân biệt khái niệm “Mối liên hệ” và “Tương quan”

Tuấn Long

Phân tích dữ liệu

Phân tích dữ liệu

28 Tháng Sáu, 2019

Phân biệt khái niệm “Mối liên hệ” và “Tương quan”

Thói quen hay nhầm lẫn ?

“Dữ liệu nghiên cứu cho thấy giới tính và nghề nghiệp có tương quan với nhau” - không phải là cách diễn giải hiếm gặp trong các báo cáo khoa học xã hôi của sinh viên hiện nay

Tuy việc diễn giải kết quả phân tích thống kê theo cách trên có thể tạm chấp nhận trong một số trường hợp không đòi hỏi yêu cầu cao về chuyên môn thống kê, song vẫn cần nhấn mạnh rằng cách diễn giải này chưa chính xác về mặt bản chất. Nguyên nhân chính của hiện tượng trên có thể do thói quen hoặc có thể xuất phát từ việc chưa hiểu rõ khái niệm của thuật ngữ khi sử dụng

Như chúng ta đã biết, việc phân tích mô tả đơn biến (chỉ phân tích duy nhất 1 biến) thông thường không đem lại nhiều thông tin có giá trị vì chỉ mô tả được 1 chiều cạnh (dimension) của dữ liệu. Đôi khi, các dữ liệu ngẫu nhiên lại có mối liên hệ liên quan tới nhau. Sự liên quan này có thể hiểu, khi một biến X có mối liên hệ với biến Y, ta sẽ hiểu tương ứng với mỗi giá trị X là một giá trị Y tương ứng [1]. Để làm rõ mối quan hệ qua lại giữa các yếu tố, nhà nghiên cứu phải chỉ ra được mối liên hệ có ý nghĩa thống kê giữa hai hay nhiều biến.

Động thái trên được gọi là “phân tích tương quan” hoặc “phân tích mối liên hệ”

Ảnh 1: Sự khác biệt khi sử dụng thuật ngữ đo lường mối liên hệ giữa các biến

Tuy vậy, một trong những nhầm lẫn cơ bản của việc học thống kê tại Việt Nam là việc hiểu đúng thuật ngữ thường đước sử dụng bằng từ Hán - Việt, trong đó việc sử dụng từ “tương quan” hay “mối liên hệ” là một trong các nhóm từ dễ bị hiểu nhầm nhất.

Về mặt từ nguyên theo từ điển Hán - Việt: "tương" là cùng nhau, đối với nhau còn "quan" là có liên hệ, dính dáng tới nhau; "liên" là liền với nhau và "hệ" là buộc lại với nhau (2). Điều này vô hình trung tạo nên nhầm lẫn, lây truyền từ thế hệ này tới thế hệ khác. Xét về mặt ngữ dụng, từ "tương quan" được sử dụng trong bối cảnh so sánh cụ thể, ví dụ như: "tương quan lực lượng", nghĩa là ngoài chỉ ra được mối liên hệ giữa hai đối tượng cần so sánh ta còn phải chỉ ra được sự tương xứng về các chiều cạnh có thể đo đếm được. Các chiều cạnh đó thường được hiểu là các đặc tính số học, tức là các khía cạnh định lượng của vật thể

Các tài liệu sử dụng tiếng Anh sử dụng từ "correlation" khi muốn đo lường mối liên hệ giữa hai biến định lượng (các biến liên tục và biến thứ bậc), từ này trong tiếng Việt được dịch là "tương quan". Do đó, nếu gạt qua lớp vỏ hình thái từ để đi vào nội hàm của chúng, ta sẽ phân biệt được một cách chính xác thuật ngữ nào được sử dụng theo nghĩa tương đương ở một ngôn ngữ khác. Xét về mặt hình thức, hai thuật ngữ "relationship" và "correlation" giống nhau khi nói về sự liên quan qua lại giữa hai biến, sự tương ứng với giá trị của biến này là giá trị của một biến khác - tuy nhiên điều này chưa đúng về mặt bản chất của dữ liệu..

Phân biệt hai khái niệm

Phân tích mối liên hệ (association hay relation) là một thuật ngữ chỉ về mối quan hệ giữa các biến trong phân tích nghiên cứu. Việc sử dụng từ "mối liên hệ" cũng bàn đến một mối quan hệ không đòi hỏi sự đo lường có độ chính xác cao (3). Theo cách diễn giải chung nhất, thuật ngữ “mối liên hệ” có thể được sử dụng cho cả hai biến định tính và định lượng.

Phân tích tương quan (correlation analysis) là một nhóm các kĩ thuật dùng để đo lường mức độ liên hệ giữa các biến (4). Phân tích tương quan là một trường hợp đặc biệt của phân tích mối liên hệ. Tương quan bàn về đặc thù có thể đo lường (measure) trong mối liên hệ giữa các biến ở việc sự thay đổi giá trị của biến này sẽ gây nên ảnh hưởng tới sự thay đổi và phân bố xác suất của biến kia (5).

Ảnh 2: Biểu đồ phân tán (scatter plot) - dạng biểu đồ minh họa mối tương quan tuyến tính giữa hai biến.

Phân tích tương quan chỉ áp dụng cho các biến định lượng và việc phân tích dạng này được bàn tới ít nhất ba yếu tố quan trọng trong mối liên hệ giữa các biến được viết tắt trong 3 chữ “S - T - D”

Trong đó:

“S” = "Strength" : độ mạnh hoặc yếu của tương quan đó (căn cứ vào hệ số tương quan mẫu, được biết với kí hiệu “r")

“T” = "Type": dạng tương quan giữa các biến, gồm: tương quan tuyến tính (linear correlation) và tương quan phi tuyến (nonlinear correlation)

“D” = "Direction" : hướng của tương quan, gồm: tương quan thuận (positive, r > 0 < 1), tương quan nghịch (negative, -1 < r < 0) và không tương quan (none, r = 0)

Ảnh 3: Từ trái qua phải: Tương quan tuyến tính nghịch (r = -1), không tương quan (r = 0) và tương quan tuyến tính thuận (r = 1)

Độ mạnh / yếu của một mối tương quan được thể hiện qua hệ số tương quan (r) - là một con số nằm trong đoạn [ -1; 1 ] dùng để đo lường mức độ tương quan tuyến tính giữa biến X và Y (6). Giá trị của r biểu hiện cho độ mạnh yếu, dạng và phương hướng của mối tương quan giữa các biến. Trong nghiên cứu thống kê, r chỉ là hệ số tương quan của mẫu (sample) còn hệ số tương quan của tổng thể (population) thường được ký hiệu là p và p(X,Y) là hệ số tương quan lý thuyết của toàn bộ các phần tử trong tổng thể (7).

Bên cạnh đấy, cái gọi là độ mạnh yếu hay phương hướng của mối tương quan còn được thể hiện qua các con số và trên hệ trục tọa độ, do đó phân tích tương quan chỉ áp dụng phân tích mối liên hệ trên các biến định lượng.

Nếu trên biến định danh, người nghiên cứu có thể dễ dàng chỉ ra sự khác biệt giữa các biến (A =/= B), thì các biến thứ bậc cho phép đo lương được sự phân cấp giữa các biến (A > B, B < C, C = A...). Do đó, cách diễn giải kết quả phân tích theo dạng "Nghề A" > "Nghề B" (với nghề là biến định tính, sử dụng thang đo định danh (nominal scale) là không có căn cứ toán học, mà chỉ có "Thu nhập nghề A" > "Thu nhập nghề B" (trong đó thu nhập là biến định lượng, sử dụng thang thứ bậc (ordinal), thang khoảng (range), thang tỉ lệ (ratio) hoặc đơn giản là "nghề A" =/= "nghề B".

Như vậy, việc diễn giải dữ liệu theo dạng: “giới tính và nghề nghiệp có tương quan với nhau” là chưa chính xác về mặt bản chất. Vì cả hai biến “nghề nghiệp” và “giới tính” đều là biến định tính, do đó, chúng ta cần diễn giải theo cách khác, ví dụ như: “giới tính và nghề nghiệp có mối liên hệ có ý nghĩa thông kê với nhau”.

Tất nhiên, việc có hay không mối tương quan có ý nghĩa thống kê sẽ còn được còn căn cứ vào việc thiết lập và bác bỏ giả thuyết (hypothesis) trong kiểm định mối liên hệ giữa các biến. Tuy nhiên, giới hạn của bài viết này chỉ hướng tới việc phân biệt khái niệm để diễn giải đúng vậy nên các nội dung liên quan sẽ được trình bày trong một bài viết khác ở lần sau

Kết luận:

  • Thứ nhất, thuật ngữ “mối liên hệ” có ngoại diên rộng hơn “tương quan”. Nói cách khác, hai biến có tương quan với nhau chắc chắn có mối liên hệ với nhau; nhưng hai biến có mối liên hệ chưa chắc đã có thể có tương quan.
  • Thứ hai, thuật ngữ "mối liên hệ" được áp dụng nói chung với tất cả các biến một cách tương đối, đặc biệt là biến định tính (qualitative variable); trong khi tương quan được áp dụng cho phân tích mối liên hệ giữa các biến định lượng (quantitative variable)
  • Thứ ba, nếu cụm từ “mối liên hệ” chỉ nói về việc các biến có liên quan tới nhau thì thuật ngữ “tương quan” được sử dụng để đo lường mức độ mạnh yếu, dạng và hướng của chính mối liên hệ ấy. Phân tích tương quan cho ra nhiều kết quả có giá trị hơn so với phân tích mối liên hệ thông thường.

Hy vọng bài viết này sẽ góp phần nào giúp các bạn phân biệt được hai khái niệm cơ bản trong thống kê, từ đó đưa ra được cách diễn giải phù hợp với yêu cầu phân tích của nghiên cứu

p/s: Cám ơn Th.S Nguyễn Hữu An Bộ môn Quản lý Xã hội, khoa Xã hội học & Công tác xã hội, Đại học Khoa học, ĐH Huế đã có nhiều góp ý quý báu cho bài viết này

----

* Chú thích:
[1] Nguyễn Sum, "Thống kê xã hội học", NXB Phú Xuân (2009), trg. 158

[2] Howard Fields, "Difference Between Correlation and Association". Nguồn: http://www.differencebetween.net/language/words-language/difference-between-correlation-and-association/

[3] Nguyễn Lân, "Từ điển Hán - Việt", NXB Văn học (2007), trg. 817 và 403

[4] Lind, Marchal & Wathen, "Statistical technique in Business", Mc Graw Hill (2008), trg. 459

[5] Đặng Hùng Thắng, Trần Mạnh Cường, "Thống kê cho khoa học Xã hội và khoa học sự sống", NXB Đại học QGHN (2019), trg. 215

[6] Hệ số tương quan được phát triển bởi Karrl Pearson vào năm 1900. Nguồn: Lind, Marchal & Wathen, "Statistical technique in Business", Mc Graw Hill (2008), trg. 460

[7] Đặng Hùng Thắng, Trần Mạnh Cường, "Thống kê cho khoa học Xã hội và khoa học sự sống", NXB Đại học QGHN (2019), trg. 218