Ngôn ngữ lập trình R trong nghiên cứu khoa học xã hội

Tuấn Long

Phân tích dữ liệu

Thống kê & Phân tích dữ liệu

21 Tháng Tám, 2020

Ngôn ngữ lập trình R trong nghiên cứu khoa học xã hội

Tóm tắt:

R là một chương trình phân tích dữ liệu mã nguồn mở được phát triển bởi các nhà thống kê và được sử dụng rộng rãi trong các trường đại học trên thế giới. Ứng dụng ngôn ngữ R vào giảng dạy và nghiên cứu cung cấp thêm cho nhà nghiên cứu một lựa chọn mạnh mẽ và tiết kiệm. Bản thân R có thể tạo nên các ấn phẩm trực quan dữ liệu có chất lượng cao, tương tác đa nhiệm và góp phần mài sắc tư duy phân tích cho nhà nghiên cứu khoa học xã hội, phù hợp với bối cảnh phát triển của cuộc cách mạng 4.0 hiện nay.

Từ khóa: R, ngôn ngữ lập trình, phân tích dữ liệu, trực quan dữ liệu, xã hội học

1. MỞ ĐẦU

Khoa học xã hội nói chung và xã hội học (sociology) nói riêng là những ngành khoa học nghiên cứu khía cạnh xã hội của xã hội loài người bằng cách phân loại chúng thành các khuôn mẫu (parttern). Đơn cử như Xã hội học, là lĩnh vực không nghiên cứu "con người cá nhân", khách thể mà ngành khoa học này tiếp cận là những "con người xã hội", và xét trên một số tiêu chí cụ thể thì các cá nhân ấy đang là thành viên của một hay nhiều nhóm xã hội khác nhau.

Kế thừa thành tựu trong phương pháp nghiên cứu của khoa học tự nhiên, tiếp cận dữ liệu trên số lượng lớn dần trở thành một đặc trưng mà ngành xã hội học sở hữu. Đáp ứng nhu cầu ấy, môn Thống kê xã hội (social statistic) ra đời như một lĩnh vực liên ngành giữa Xã hội học và Khoa học Thống kê. Thống kê trở thành công cụ hữu ích và phân tích dữ liệu trở thành kỹ năng quan trọng mà các nhà xã hội học sử dụng trong quá trình khám phá xã hội của mình. Có thể nói, “thiếu khoa học thống kê, nhà nhà nghiên cứu xã hội học chẳng khác nhào một người mù mò mẫm trong căn nhà kho tối đen để tìm con mèo đen mà có khi nó đã không còn ở trong đó nữa” [1, tr. 15].

Sự phát triển của khoa học kỹ thuật hiện đại trong thế kỷ XX đã giúp các nhà khoa học xã hội từ bỏ cách tính toán thủ công vốn gây nhiều tranh cãi và kém hiệu quả để tiến tới việc làm chủ các hệ thống máy tính hiện đại. Mặc dù vì một số lý do khách quan khiến xã hội học được du nhập muộn màng, song cũng nhờ thế mà Việt Nam là các quốc gia nằm trong xu thế được hưởng lợi từ các thành quả công nghệ kể trên.

Từ những năm 1985 đến nay, các nhà khoa học xã hội nói chung và xã hội học nói riêng tại Việt Nam đã làm quen với các chương trình như IBM SPSS, SAS, STATA, Eview, Excel (trong bài viết này sẽ gọi chung là các phần mềm thương mại)… với các ưu thế khác nhau. Nếu như STATA và Eview gần như chiếm lĩnh thị phần nghiên cứu kinh tế lượng (econometric), thì SPSS là phần mềm thống kê xã hội rất phổ biến tại các trường đại học và viện nghiên cứu. Tất cả sinh viên ngành Xã hội học ở Việt Nam đều được học qua phần mềm SPSS và học phần về Thống kê xã hội học.

Hình 1: Một số thương hiệu nổi tiêng trong lĩnh vực phân tích dữ liệu hiện nay

Tuy nhiên, bối cảnh phát triển của cách mạng công nghiệp 4.0 với sự bùng nổ của dữ liệu hiện nay đang tạo ra một hệ lụy trong việc phân tích.

Dữ liệu lớn (big data) đòi hỏi cần có các chương trình tương thích để phân tích. Dữ liệu dồi dào khiến cho việc thu thập thông tin được giảm bớt, phần lớn công việc được chuyển sang việc tập trung khai phá thông tin (explore), nắm bắt tri thức, diễn giải dữ liệu nhằm góp phần đưa ra những quyết định chính xác hơn. Bên cạnh đó là khả năng trực quan dữ liệu (data visualization) với các biểu đồ có chất lượng tương đối thấp cùng năng lực việc tổ chức dữ liệu (data manipulation) hạn chế vô hình chung dẫn đến việc người dùng phải kết hợp từ 2 – 3 phần mềm một lúc, đặt nặng tính công cụ lên đôi vai của nhà nghiên cứu trong khi vai trò chính của họ là tư duy và phản biện xã hội.

Một yếu tố quan trọng nhưng lại thường bị xem nhẹ tại Việt Nam là tính bản quyền sử dụng (licence) của phần mềm. Excel và SPSS là hai phần mềm được sử dụng trái phép nhiều do tính phổ biến của chúng. Đa số phiên bản SPSS và Excel đang được sử bởi các giảng viên, sinh viên, chuyên viên nghiên cứu hiện nay đều là chương trình đã được bẻ khóa (crack). Việc sử dụng trái phép các phần mềm này là việc làm hoàn toàn sai trái và vi phạm pháp luật về quyền sở hữu trí tuệ. Tất nhiên, việc vi phạm kể trên cũng có lý do của nó. Bên cạnh ý thức thấp trong đạo đức nghiên cứu khoa học, thì chi phí cho một năm sử dụng của SPSS có thể lên đến hơn 5.000$, STATA là hơn 2.000$ [4], các phiên bản áp dụng cho sinh viên cũng trên dưới 50$. Số tiền này nằm ngoài khả năng của phần lớn các trường đại học, viện nghiên cứu và nhất là sinh viên của Việt Nam hiện nay.

Đâu là câu trả lời cho việc phân tích xử lý dữ liệu có khối lượng lớn, đạt độ chính xác cao, sở hữu khả năng trực quan dữ liệu linh hoạt, có thể thao tác ở các nền tảng, có chi phí hợp lý và quan trọng hơn cả là góp phần mài sắc tư duy phân tích của nhà nghiên cứu khi sử dụng thống kê như một phương tiện khám phá xã hội? Có nhiều phương án cho câu hỏi trên, mà mục đích của bài viết này là đề xuất một cái tên trong các phương án ấy: Ngôn ngữ R

2. NỘI DUNG

2.1. Ngôn ngữ R là gì?

R là một ngôn ngữ lập trình (programming language) được thiết kế cho mục đích phân tích dữ liệu. Khác với các phần mềm thương mại được liệt kê ở trên, R là một chương trình có mã nguồn mở (open source) do đó, R hoàn toàn miễn phí và được phát triển bởi đội ngũ các nhà phân tích dữ liệu trên toàn thế giới. Với mục đích thiết kế giành riêng cho phân tích dữ liệu nên R có hiệu năng mạnh mẽ trong việc tổ chức, khái phá, phân tích và trực quan dữ liệu.

Tác giả của ngôn ngữ R là Ross Ihaka và Robert Gentleman tại Đại học Auckland (New Zealand). Với nhu cầu muốn có một chương trình phân tích dữ liệu hiệu quả và chính xác hơn các phần mềm thương mại, dựa trên ngôn ngữ S và chương trình S-PLUS vốn đã khả phổ biến vào thời điểm ấy hai nhà khoa học của Đại học Auckland đã tạo nên R. Tuy nhiên, người nhìn ra tiềm năng của ngôn ngữ này và muốn chúng được chia sẻ công khai cho toàn thế giới lại chính là Martin Mächler. Ông đã thuyết phục Ross Ihaka và Robert Gentleman là miễn phí và chia sẻ mã nguồn của ngôn ngữ R để cho cộng đồng thống kê toàn thế giới cùng phát triển nó từ năm 1995 [6, tr. 18].

Hình 2: Giao diện chính của chương trình R-Studio, dùng để chạy ngôn ngữ R

Ngoài vị thế của một chương trình miễn phí, R sở hữu một số tính năng quan trọng có thể thay thế các phần mềm thương mại khác trong lĩnh vực phân tích dữ liệu.

2.2. Các thế mạnh của R trong phân tích dữ liệu

2.2.1. Phát triển tư duy nghiên cứu khoa học một cách hệ thống

R là phương tiện giúp mài sắc tư duy phân tích, bởi theo một số nhận xét tiêu chí quan trọng nhất khi sử dụng R là người dùng phải biết chính xác điều mình đang thực hiện là gì [6, tr. 22] . Với các phần mềm có giao diện kéo thả (drop & drag) như SPSS hay Excel, người dùng có thể bắt chước các thao tác kỹ thuật bằng cách ghi nhớ một cách cơ học vị trí các nút bấm, nhờ vậy một người không có hiểu biết nhiều về thống kê hay máy tính vẫn có thể thực hiện được các thao tác trên những phần mềm này. Tuy lợi thế này tạo ra cơ hội để những người không có nhiều nền tảng tính toán như xã hội học tiếp cận tới phân tích dữ liệu một cách dễ dàng, song về lâu dài việc sử dụng các trình thống kê theo thói quen kể trên đã tạo ra một thế hệ người dùng không thực sự hiểu về điều mà mình đang làm [5].

Việc phân tích thống kê với R giúp rũ bỏ hoàn toàn thói quen thiếu khoa học này của người dùng. Trước hết vì R là một ngôn ngữ dựa trên các hàm, tức là mọi hoạt động của R đều được thực hiện bằng cách gọi hàm [1, tr. 31]. Bất cứ một thao tác tính toàn nào khi thực hiện với R đều được thực hiện bởi các câu lệnh được cấu trúc bởi hệ thống cú pháp (syntax) chặt chẽ. Các hàm số (argument) và tham số (parameter) được viết ra đều có lý do của chúng và phục vụ cho nhu cầu tính toán của người dùng. Chỉ một ký tự đặt sai chỗ sẽ khiến cho cả chương trình không hoạt động. Nhờ yếu tố khắt khe này mà tính cẩn thận, tỉ mỉ và có trách nhiệm của người làm nghiên cứu cũng sẽ được tăng lên.

Hình 3: Câu lệnh đầu tiên thường được gõ theo truyền thống của giới IT

R cũng là phương tiện rèn luyện tư duy phân tích theo hệ thống, bởi nghiên cứu khoa học là một chuỗi các hoạt động logic được kết nối với nhau theo những quy định chặt chẽ nhằm tạo ra tri thức có khả năng trả lời cho câu hỏi về thế giới và xã hội. Việc học môn Thống kê xã hội học và SPSS tại các trường đại học hiện nay chưa tạo ra được thói quen khoa học này cho sinh viên. Khảo sát các giáo trình giảng dạy thống kê hiện nay cho thấy chương trình còn nặng tính toán lý thuyết và hướng dẫn cho người học bắt chước thao tác kỹ thuật hơn là kĩ năng tư duy phân tích xuyên suốt theo một hệ thống. Ngược lại, vì tính chi tiết và hệ thống đặc trưng, việc sử dụng R trong phân tích dữ liệu sẽ giúp người học rèn luyện được tính tuân thủ quy trình thực hiện một dự án nghiên cứu một cách chặt chẽ hơn.

Một dự án phân tích trên R được triển khai đầy đủ 5 bước từ (1) – nhập dữ liệu, (2) – tổ chức dữ liệu, (3) – khai phá dữ liệu, (4) – phân tích dữ liệu, (5) – diễn giải dữ liệu [2, tr. ix – x]. Người dùng cần nắm chắc tất cả các bước để tạo ra kết quả phân tích. Khác với việc kết hợp nhiều phần mềm trước đấy, các thao tác này đều có thể được thực hiện trên R.

2.2.2. Lợi thế cạnh tranh trong phân khúc phân tích dữ liệu

R là trình phân tích hoàn toàn miễn phí, song miễn phí không đi cùng với chất lượng thấp [3, tr. 6]. So sánh với nhiều phần mềm thương mại mạnh mẽ như SPSS, SAS, STATA, Eview, Excel,… R vẫn sở hữu một số lợi thế cạnh tranh nhất định.

Một khi đã làm chủ R, hiếm khi người dùng có xu hướng muốn quay trở lại các phần mềm thương mại

Lợi thế của R được biểu hiện qua hai chỉ báo: đa nhiệm và linh hoạt.

Về tính đa nhiệm: Trước hết, ngôn ngữ R có thể thực hiện tất cả các nhiệm vụ phân tích dữ liệu trong ngành xã hội học mà các phần mềm thương mại khác có thể làm. Việc tính toán các đại lượng thống kê mô tả như trung bình (mean), trung vị (median), khoảng tứ phân vị (quarter), phân phối chuẩn (normal distribution); việc triển khai chọn mẫu (sampling), mô phỏng dữ liệu (data simulation); các phân tích thống kê cơ bản như: kiểm định Chi-sq, kiểm định t-test, phân tích phương sai (analyse of variance), phân tích tương quan (correlation), phân tích hồi quy tuyến tính (linear regression), hồi quy logistic (logistic regression), kiểm định độ tin cậy của thang đo (cronback alpha), phân tích nhân tố (factor analyze)… đều có thể thực hiện một cách nhanh chóng và chính xác trên R với một vài dòng lệnh.

Do đó, việc lựa chọn R là công cụ phân tích, người dùng hoàn toàn có thể tin tưởng vào các tính năng phân tích của R.

Hình 4: R có thể thức hiện các trình biên tập dữ liệu rất đáng nể

Kế đến, ngôn ngữ R có thể thực hiện cả những nhiệm vụ phân tích dữ liệu trong ngành xã hội học mà một số phần mềm thương mại độc lập chưa thể làm, nhất là việc biên tập bộ dữ liệu tiêu chuẩn (tidy data). Dữ liệu chuẩn, theo quan điểm của Hadley Wickham - là khi mỗi biến số được trình bày theo từng cột, mỗi quan sát được xếp theo từng hàng và mỗi giá trị thì nằm gọn trong một ô [2, tr. 149]. Hai ứng dụng mạnh mẽ nhất của R trong trường hợp này là chức năng tổ chức (data manipulation) và trực quan dữ liệu (data visualization). Thao tác tổ chức dữ liệu bao gồm các bước: (1) - Nhập liệu, (2) - Làm sạch, (3) - Chuyển hóa và (4) Lưu trữ. Từ một khối thông tin sơ khai bước đầu, tổ chức dữ liệu thành một hệ thống chuẩn phục vụ cho tiến trình phân tích của máy tính có thể được thực hiện nếu người dùng nắm vững các phần mềm dạng bảng như Excel, Access và nhất là SQL.

Theo cách làm thông thường, sau khi đã có bộ dữ liệu chuẩn người dùng đưa các dữ liệu này vào một phần mềm phân tích như SPSS, SAS, STATA để tiến hành phân tích. Kết quả phân tích có thể được trực quan hóa thành các biểu đồ hoặc bảng dữ liệu phục vụ cho mục tiêu giao tiếp. Phần lớn các phần mềm kể trên không có khả năng tạo ra các biểu đồ có chất lượng cao cũng như khả năng thay đổi linh hoạt các tham số bên trong biểu đồ. Do đó, người dùng có thói quen chuyển dữ liệu vào Excel bởi phần mềm này có thể trực quan khá tốt các phân tích nhị biến (binary variables), nhưng giới hạn của Excel là chỉ có thể trình bày tối đa 3 biến số trên một biểu đồ và gần như không thể chuyển hóa chính xác dữ liệu trên các bản đồ địa lý.

Nhìn xa hơn, nghiên cứu mạng lưới xã hội là một thế mạnh của xã hội học, tuy nhiên khi cần thể hiện các sơ đồ mạng lưới xã hội (social network diagram) và tính toán các hệ số cố kết của mạng lưới thì hầu như không có phần mềm thương mại nào kể trên có thể thực hiện ngay được. Ngược lại, R là phương tiện có thể làm được những yêu cầu trên.

Trên thực tế, tất cả các biểu đồ mà giới phân tích dữ liệu sử dụng hiện nay đều có thể được vẽ trên R [7].

Về tính linh hoạt: Một trong các tiêu chí giúp các phần mềm được đánh giá cao trong bối cảnh toàn cầu hóa như hiện nay chính là khả năng thích nghi của chúng. R là một chương trình có khả năng thích nghi cao bởi tính linh hoạt của chúng.

(1) - Tính linh hoạt trong sử dụng. Như đã trình bày ở trên, R là một ngôn ngữ (language), do đó, người dùng có thể thực hiện phân tích trên bất cứ nền tảng (platform) nào mà không hoàn toàn bị phụ thuộc vào việc cài đặt chương trình máy tính. Sau khi cài đặt ngôn ngữ R, người dùng sẽ cần thêm một IDE (“Integrated Development Environment”: Môi trường phát triển tích hợp) riêng cho R. Năm 2010, cộng đồng phát triển R cho ra mắt R Studio (hình ảnh ở trên), một IDE hỗ trợ việc thực hiện phân tích trên R diễn ra được dễ dàng và nhanh chóng hơn.

Hình 5: Phân tích và trực quan hóa dữ liệu là lợi thế lớn nhất của R

Điều này giúp R trở nên gần gũi với người dùng vốn đã quen với giao diện tương tác như Excel, SPSS, SAS hoặc STATA. Tuy nhiên, khác với các phần mềm này người dùng có thể vận hành R trên các nền tảng online mà không cần phải cài đặt với máy tính. Jupyter là một ứng dụng trực tuyến cho phép người dùng phân tích dữ liệu với nhiều ngôn ngữ phân tích dữ liệu, trong đó có R. Như vậy, người dùng có thể sử dụng R khi cần mà không chịu sự lệ thuộc vào việc cài đặt phần mềm trên máy tính vốn mang theo nhiều rủi ro tiềm ẩn như mã độc hoặc virus được đính kèm trong các chương trình không có bản quyền.

(2) - Tính linh hoạt theo nhu cầu. R phát triển dựa trên nhu cầu phân tích của các cá nhân hơn là một phần mềm tổng hợp vượt xa nhu cầu người dùng. Một số tác vụ phân tích dữ liệu không nằm sẵn trong chương trình mà được gói gọn vào các gói (packages) được lưu trữ trên trang chủ của R [7]. Ví dụ, không phải người nào cũng có nhu cầu vẽ sơ đồ mạng lưới xã hội hay ma trận tương quan đa biến, do đó chương trình tạo sơ đồ này sẽ không có sẵn trong R. Người dùng sẽ gõ lệnh yêu cầu R tải gói chương trình vẽ sơ đồ mạng lưới về máy và kích hoạt để sử dụng. Điều này giúp tiết kiệm bộ nhớ cho máy tính và đòi hỏi người dùng phải có nền tảng kiến thức chuyên môn để lựa chọn công cụ phù hợp.

2.2.3. Tiềm năng phát triển bền vững:

Nếu khả năng thích nghi cao trở thành một lợi thế của R trước bức tranh toàn cầu hóa thì việc có khả năng tự vận hành là chìa khóa để R có tiềm năng phát triển một cách bền vững trong bối cảnh cách mạng công nghiệp 4.0 hiện nay.

Trước hết, người sử dụng R có cơ hội tồn tại một cách hợp pháp. Như đã phân tích ở trên việc sử dụng các phần mềm không chứng minh được quyền sở hữu là vi phạm pháp luật về quyền sở hữu trí tuệ. Một trong các lý do khiến người dùng vi phạm điều này chính là do chi phí mua bản quyền các phần mềm thương mại quá cao. Do đó, việc sử dụng phần mềm miễn phí có mã nguồn mở như R đem lại cơ hội cho giới học thuật được tiếp cận với trình phân tích cao cấp một cách hoàn toàn hợp pháp.

Hình 6: R được phát triển bởi cộng đồng các nhà phân tích dữ liệu chuyên nghiệp

Kế đến, ngôn ngữ R có khả năng tự phát triển. Khác với các phần mềm thương mại, R được phát triển bởi một cộng đồng các chuyên gia phân tích dữ liệu, các lập trình viên và chuyên gia thống kê trên toàn thế giới; nhớ đó R được phát triển và cập nhật mỗi ngày. Không có một tổ chức nào hoàn toàn sở hữu R ngoại trừ việc vinh danh những người đã góp phần phát triển nó trở thành một trong những cộng đồng phát triển nhanh trên thế giới.

Ở một góc nhìn khác, R là cầu nối liên kết giữa khoa học với doanh nghiệp. Đối với giới học thuật, R là phương tiện để các nhà xã hội học hiện đại bước chân vào lĩnh vực nghiên cứu liên ngành như khoa học xã hội tính toán (computational social sciences - CSS), xã hội học số (digital sociology), trắc lượng xã hội (social metric)…. Các lĩnh vực này chỉ phát triển khi khoa học tích lũy đủ về kỹ thuật máy tính, sự nở rộ của big data và mức độ phổ biến của mạng xã hội. Nhờ đó, các nhà xã hội học có thể mở rộng khả năng tiếp cận nghiên cứu của mình không chỉ trong xã hội thực mà còn các cả xã hội ảo trên mạng internet.

Với khả năng trực tiếp làm việc với các cơ sở dữ liệu trực tuyến, R đang dần trở thành xu thế trong thời đại cách mạng công nghiệp 4.0. Từ khuôn khổ các viện nghiên cứu và trường đại học, R “lấn sân” vào các nền công nghiệp và doanh nghiệp, tiếp cận tới machine learning, công nghệ khai phá dữ liệu và xử lý dữ liệu lớn [6, tr. 18]. Hiện nay, R còn được tích hợp vào các chương trình phân tích dữ liệu đang được phát triển như Power BI hay Google Data Studio; cơ chế vận hành mở khiến R có thể liên kết với các trình phân tích dữ liệu khác như Python, Java, GIS hay SQL một cách nhanh chóng. Tất cả điều này tạo ra lợi thế kết nối mạnh mẽ giữa nhà nghiên cứu với dữ liệu trên thế giới thông qua R.

Sau cùng, nhưng không kém phần quan trọng - làm chủ R là đón đầu xu thế phát triển của xã hội và gia tăng cơ hội có được thu nhập cao từ thị trường lao động chất lượng cao. Khi thị phần của những người biết sử dụng SPSS bị bão hòa và đang giảm xuống nhanh chóng, việc nắm bắt một ngôn ngữ phân tích mạnh như R đem lại lợi thế canh tranh cao cho người học. Kết hợp với góc nhìn xã hội học, tư duy phản biện sâu sắc, khả năng phân tích hiệu quả và kỹ năng giao tiếp linh hoạt là các kỹ năng nghề nghiệp mà bất cứ một sinh viên xã hội học nào cũng cần được trang bị.

Hình 7: Ma trận tương quan được trực quan trên ngôn ngữ R

Cũng cần kể thêm rằng, việc làm chủ R không nên hiểu là quá trình biến nhà nghiên cứu xã hội học thành thợ thống kê, mà thông qua việc sử dụng ngôn ngữ lập trình R - người học rèn cho mình kỹ năng phân tích, tư duy hệ thống và nhất là sự kiên trì - những đức tính cần có của một người làm khoa học.

3. Đề xuất giảng dạy và nghiên cứu với ngôn ngữ R

Dạy và học là quá trình tương tác hai chiều, bao gồm hoạt động giảng của người thầy và tiếp thu của người học.

Giáo dục hiện đại đề cao việc hướng dẫn của người thầy và khả năng tự nghiên cứu của người học; phân tích dữ liệu với R là một lĩnh vực của xã hội hiện đại, do đó việc giảng dạy R cũng không nằm ngoài quy luật trên. Để phục vụ cho việc giảng dạy và nghiên cứu khoa học với R, chúng tôi đề xuất một số nội dung áp dụng cho các bên dạy và học như sau.

3.1. Yêu cầu về phía người học:

Người học nên tiếp cận R dựa trên nhu cầu và cơ sở kiến thức chuyên môn, cụ thể:

(1) – Khả năng tự học: là yêu cầu cao nhất khi tiếp cận R với tư cách là người mới bắt đầu, một ngày người học có thể tự giành ra khoảng 45-60 phút để tập gõ lệnh, cách tốt nhất là thực hành các bài tập thống kê trong sách giáo khoa với R để làm quen với việc gõ code và triển khai giải quyết bài toán.

(2) – Khả năng lập trình trong tư duy: lập trình không phải là gõ mã lệnh (code) mà là quá trình chuyển hóa dữ liệu đầu vào thành kết quả đầu ra một cách có hệ thống; code và gõ code chỉ là phương tiện cần thiết để thực thi quy trình ấy. Người học sẽ nhìn nhận dự án phân tích của mình với tư cách là một hệ thống chặt chẽ và giải quyết từng bước một cho tới khi đạt được kết quả cuối cùng.

(3) - Khả năng đặt câu hỏi dựa trên kiến thức chuyên môn: là một kỹ năng quan trọng mà người học cần chú ý. Câu hỏi là một mệnh đề hoài nghi được nhà nghiên cứu đưa ra nhằm định hướng quá tình tìm câu trả lời. Câu hỏi nghiên cứu gia tăng khả năng tập trung và đặt ra vạch đích để nhà nghiên cứu hướng đến [2, tr. 82]. R chỉ là công cụ giúp người học tạm bỏ qua các bước tính toán phức tạp, do đó, việc đặt ra câu hỏi đúng quyết định đến tính hiệu quả khi sử dụng R.

(4) – Khả năng thiết lập các giả thuyết nghiên cứu dựa trên kiến thức cơ bản về thống kê: R không thể phát huy khả năng nếu người dùng không biết điều mà họ muốn phân tích. Kiến thức cơ bản về Thống kê sẽ giúp người học định hướng được kết quả đầu ra, từ đó sử dụng R để tính toán kết quả một cách nhanh chóng. Thiếu hiểu biết về thống kê, người dùng không thể tự mò mẫm để đưa ra kết quả, vì cùng một bài toán phân tích hay trực quan dữ liệu - R có thể được sử dụng theo rất nhiều cách khác nhau.

(5) - Khả năng đọc hiểu tiếng Anh: các tài liệu về phân tích dữ liệu nói chung và về R nói riêng chủ yếu được viết bằng tiếng Anh. Ngay cả trên R, các hàm số và tham số phân tích; giao diện các IDE của R cũng được diễn giải hoàn toàn bằng tiếng Anh. Do đó, việc nắm một số thuật ngữ thống kê, phân tích dữ liệu và khoa học xã hội bằng tiếng Anh là yêu cầu bắt buộc đối với người muốn làm chủ R.

Hình 8: Một bản đồ dữ liệu tương tác được tạo bởi R

3.2. Yêu cầu về phía người dạy:

Người dạy tiếp cận R dựa trên nhu cầu chuyên môn của người học, cụ thể:

(1) - Giúp người học nhận biết được ưu thế của R so với các phần mềm thương mại khác. Không phải người học nào cũng tiếp cận một công cụ mới bởi lợi ích lớn lao mà nó mang lại. Trước hết, người dạy nên chỉ ra tính tương đồng của công cụ này với các công cụ mà người học từng làm quen trước đây. Cách tiếp cận này giúp người học cảm thấy an toàn hơn khi tiếp cận một điều mới mẻ.

(2) - Giúp người học tiếp cận R như một ngôn ngữ lập trình. Đây chính là một trong các trở ngại lớn nhất mà cả người học và người dạy cần vượt qua. Người sử dụng R sẽ phải gõ các dòng lệnh để ra lệnh cho máy tính thực hiện thao tác phân tích thay vì kéo thả hạng mục (item) như các phần mềm trước đây. Hướng dẫn người học thao tác từng bước một, nắm qua cấu trúc cơ bản của một câu lệnh là những bước đầu tiên mà cả người dạy và người học cần tiếp thu.

(3) - Phối hợp vừa dạy lý thuyết thống kê vừa thao tác trực quan ngay trên R. Đây là cách hướng dẫn từ trực quan sinh động đến tư duy trừu tượng; hướng dẫn thao tác phân tích thống kê cơ bản như khai phá, tổ chức, phân tích và trực quan dữ liệu cần được minh họa ngay sau khi phần lý thuyết kết thúc. Việc có thể đạt được kết quả phân tích chỉ với một dòng lệnh có thể được sử dụng như động lực khuyến khích người học thử sai.

(4) Cuối cùng, cài đặt các package phù hợp dựa với nhu cầu phân tích. Người học cần ý thức được rằng R là một chương đa nhiệm nhưng không phải là một cỗ máy đa năng. Việc người học hiểu được mục đích cần đạt được của quá trình phân tích dữ liệu cho phép họ đưa ra câu hỏi đúng và tập trung tối đa vào thao tác tính toán cần thiết để cho ra kết quả cuối cùng. Do đó, cài đặt các package phù hợp phục vụ cho việc phân tích và hiểu sâu về nó quan trọng hơn việc cài đặt R một cách thiếu mục đích rõ ràng.

3.3. Yêu cầu về phương tiện kỹ thuật

Để học tập và giảng dạy với R, chúng tôi đề xuất một số phương tiện kỹ thuật cần thiết sau: Máy tính, mạng Internet, cài đặt chương trình R song song phần mềm R Studio, cài đặt hệ sinh thái “tidyverse”, tài khoản trên Rpubs, tài khoản trên Jupyter, một số sách tham khảo và cố gắng trở thành thành viên của ít nhất một nhóm Phân tích dữ liệu có sử dụng R.

Ngoài máy tính và internet ra, tất cả đều là sản phẩm miễn phí.

Hình 9: Phân tích dữ liệu là một trong những kỹ năng đáng đầu tư nhất hiện nay

4. KẾT LUẬN

Sử dụng R một cách thành thạo có thể sẽ là một thách thức lớn đối với các nhà nghiên cứu xã hội học vốn không có nhiều kinh nghiệm trong lập trình và thống kê. Tuy nhiên các trở lực trước mắt có thể được khắc phục bằng cách xác định rõ các phương pháp phân tích thống kê cần thiết trong lĩnh vực của mình. Các trở lực có thể trở thành động lực để giới khoa học xã hội vượt qua khi các tính năng mạnh mẽ của R đang tỏ ra phù hợp với xu thế bùng nổ dữ liệu của cuộc cách mạng công nghiệp lần thứ tư.

Xu hướng toàn cầu hóa đang thu hẹp biên giới giữa giới học thuật hàn lâm với doanh nghiệp, xóa mờ rào càn giữa khoa học xã hội với công nghệ thông tin, làm rõ hơn ranh giới giữa xã hội thực và xã hội ảo... Các điều kiện này đang tạo ra cơ hội cho nhà xã hội học bước chân vào những lĩnh vực liên ngành khi làm chủ các chương trình phân tích cao cấp như R. Tiếp cận R sớm là cách thức để học tư duy như một nhà khoa học dữ liệu, là cách thức đón đầu xu thế và bước đầu làm chủ cuộc chơi trong một thế giới được lấp đầy bởi dữ liệu và thông tin.

---

TÀI LIỆU THAM KHẢO

[1] Đặng Hùng Thắng & Trần Mạnh Cường (2019), “Thống kê cho khoa học xã hội và khoa học sự sống (với phần mềm R)”, NXB Đại học Quốc gia Hà Nội

[2] Hadley Wickham & Garett Grolemund (2017), “R for data science”, NXB Oreilly

[3] Nguyễn Văn Tuấn (2018), “Phân tích dữ liệu với R”, NXB Tổng hợp Hồ Chí Minh

[4] Francis Smart (2014), "Why using R". Website: https://www.r-bloggers.com/

[5] James Paul Peruvankal (2014), "Secrets of Teaching R". Website: https://blog.revolutionanalytics.com/2014/03/secrets-of-teaching-r.html

[6] Nguyễn Chí Dũng, “Kinh tế lượng ứng dụng với R”, Bản thảo Ebook
---

NGUỒN ẢNH

Hình 1: https://4.bp.blogspot.com/-uG56_IaY0MQ/V3ZKtyUJEbI/AAAAAAAAC3Y/pXtUDiMBW94ZOX-d_prc2cSBkQEHAodQQCLcB/s1600/upload.jpg

Hình 2: https://www.digitalvidya.com/wp-content/uploads/2017/03/Data-Analytics-using-R-1024x605.jpg

HÌnh 3: https://www.geeksforgeeks.org/basic-syntax-in-r-programming/

Hình 4: https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQvo19oUMXbAFgLht7x_WjYHTropPD02QZqKQ&usqp=CAU

HÌnh 5: https://dax.co.id/storage/img/services/service_webanalytic.jpg

Hình 6: https://media.boingboing.net/wp-content/uploads/2019/04/product_21178_product_shots1_image.jpg

Hình 7: https://lh3.googleusercontent.com/proxy/2JttyIt3FAwdCa6uNTHV3sC7QBo7C3rEwJzFcaHQNlYq8y6rNZXh91Qdl1omaOgYWb8FmIv_k66azwR_KeGDmNZkxXps6Z2-d0G6QYVpkObBf_kqGJKYVKIbkr7q4KkWv2K1nZ2iBnlyO6u2CtfFnw

HÌnh 8: https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1530810622/Screen_Shot_2018-07-04_at_12.02.50_PM_-_Becca_Robins_oxjzjl.png

Hình 9: https://atassist.com/blog/uploads/images/image_750x_5d2cbc50969d2.jpg

---

Media Team, Sociology Hue - HUSC

Editor: Tuấn Long | tuanlong.dhkh@gmail.com