Công cụ thống kê - góc nhìn của dân "ngoại đạo"

Tuấn Long

Phân tích dữ liệu

Thống kê & Phân tích dữ liệu

02 Tháng Mười, 2018

Công cụ thống kê - góc nhìn của dân "ngoại đạo"

Công cụ chỉ là phương tiện

Có hàng tá các ứng dụng thống kê và phân tích dữ liệu mà google có thể liệt kê ra cho bạn: MiniTab, STATA, SAS, SPSS, R, Python, SQL... - chúng nhiều tới mức, việc nghe tới phần mềm này không quen với phần mềm kia không phải là chuyện hiếm. Vậy nên đôi khi, chúng ta sẽ dựa vào việc "quen" với thao tác để duy trì việc sử dụng một ứng dụng thống kê hơn là quan tâm tới tính năng của nó. Là một người làm về Xã hội học, tôi chỉ có chút kiến thức về các ứng dụng thống kê mà tôi từng tự học, vậy nên bài viết về các thiết bị máy tính lần này sẽ có sự tham gia của yếu tố cảm tính nhiều hơn thông qua trải nghiệm của chính bản thân tôi. Hy vọng, chúng giúp các bạn hình dung được cách lựa chọn phần mềm phù hợp với công việc của mình. Lựa chọn đầu tiên của tôi là:

Excel:

Tôi dám chắc rằng một số người sẽ nhảy dựng lên khi thấy tôi đưa Excel vào danh sách các ứng dụng thống kê, bởi phần lớn các hoạt động sử dụng với Excel thường đi kèm với ngành kế toán.

Trên thực tế, nội dung của môn "Tin học đại cương" được các giảng dạy trong khối ngành Khoa học xã hội cũng không vượt quá hơn việc sử dụng các hàm tính toán cho các dãy số đơn giản như Vlookup, Hlookup hoặc Index + Match.

Tuy nhiên, nếu bạn biết sử dụng công cụ Pivot table kết hợp với Slicer chỉ với một vài cú click chuột, bạn sẽ hiểu được sức mạnh của việc lọc dữ liệu bằng Excel mạnh mẽ đến như thế nào. Khác xa với phiên bản Excel gồm toàn số trước đây, các bản từ Excel 2010 trở lên còn được cung cấp các Add-in miễn phí hoặc tính phí để gia tăng sức mạnh trực quan hóa dữ liệu. Nếu đã từng nghe tới khái niệm Dashboard hay biểu đồ tương tác người dùng, Excel chính là lựa chọn số một của tôi.

Hình 1: Tự tay tạo một dashboard trực quan dữ liệu bằng Excel, tại sao không?

Bằng việc sử dụng Excel, các bạn học trong lĩnh vực khoa học xã hội như Xã hội học, Tâm lý, Giáo dục học, Luật học, Nhân học tại Việt Nam... hoàn toàn đủ khả năng thực hiện một khóa luận Tốt nghiệp cho tới Luận văn thạc sĩ với các phân tích thống kê cơ bản.

Các thao tác nhập liệu (data import) từ bảng hỏi, làm sạch dữ liệu (data clean) tiến hành các thống kê mô tả (descriptive statistic) qua các bản phân bố tấn suất, phần trăm; phân tích tương quan bảng chéo (cross tab)... sau đó trực quan dữ liệu bằng biểu đồ ngay sau đó. Ngoài ra, bộ Add-in Data analyse nổi tiếng trên Excel còn có thể thực hiện các phân tích định lượng như phân tích Anova, tương quan (correlation), hồi quy tuyến tính (simple linear regression), t-test. Đấy là chưa kể đến, nếu bạn có thể tìm hiểu và làm chủ được VBA (visual basic application) lúc ấy, sức mạnh tự động hóa của Excel càng được tăng cường lên đáng kể. Tôi dám chắc, nếu chỉ thực hiện các phân tích thống kê cơ bản, Excel hoàn toàn có thể đáp ứng được nhu cầu sử dụng của bạn.

Tuy nhiên, Excel cũng có những hạn chế của nó, không chỉ ở tính năng thống kê bị giới hạn mà còn ở hiệu suất đọc dữ liệu (speed and efficiency) [1] . Nếu data của bạn chỉ là một bảng vài trăm dòng và vài chục cột, câu chuyện không có nhiều để nói. Song nếu dữ liệu của bạn lên đến hàng trăm nghìn dòng và hàng trăm cột, khả năng cao là máy tính của bạn sẽ bị quá tải. Lúc này bạn sẽ cần đến các phần mềm có hiệu suất đọc dữ liệu tốt hơn để thực hiện công việc của mình.

Với tôi, Excel là công cụ tuyệt vời để sắp xếp thông tin, tổ chức và trực quan hóa dữ liệu hơn là tính toán thống kê nâng cao. Ngoài ra, việc sử dụng Excel kết hợp với các trình thống kê khác như một bước hỗ trợ là lựa chọn hợp lý. Việc kiểm tra và làm sạch dữ liệu trên Excel rất đơn giản, gần như Excel sinh ra để làm việc đó. Sau cùng, dữ liệu được export ra thành các data set có định dạng .xlsx hoặc .csv đều rất phù hợp khi import vào các trình phân tích khác như SPSS, R. Sự linh hoạt của Excel khiến tôi thực sự thích thú tìm hiểu về ứng dụng này.

SPSS:

Không ai học thống kê trong khối ngành khoa học xã hội lại chưa từng nghe qua phần mềm này. SPSS tồn tại như một vị trí độc tôn theo xếp hạng của tạp chí trong suốt hơn 10 năm (từ 1995 - 2008). SPSS giúp các nhà khoa học thực hiện các phân tích thống kê dựa trên giao diện đồ họa người dùng (GUI - Graphical user interface) thân thiện, thao tác đơn giản [2]. Nếu Excel thực hiện các tính toán dựa trên các hàm có sẵn, thì SPSS thực hiện thao tác kép thả các mục (items) và nhấn nút để chạy phân tích. Cách làm này giúp tiết kiệm thời gian cho người sử dụng.

Hình 2: Sự "thống trị" của SPSS sử dụng trong các nghiên cứu khoa học

Do được đưa vào các chương trình giảng dạy ở hầu hết các trường đại học nên không quá khó để tìm các nguồn tài liệu tự học chương trình này. Tuy nhiên, SPSS là phần mềm tính phí và giá thành của nó không hề rẻ: 100$ / năm với sinh viên và 260$ /năm với người làm nghiên cứu. Gần như tuyệt đại đa số các cở đào tạo tại Việt Nam hiện nay sử dụng phần mềm này bằng giải pháp Crack. Một khi đã Crack - chuyện tính phí hay miễn phí không phải là lý do chính người khác lựa chọn SPSS. SPSS phổ biến bởi tính hữu dụng và dễ sử dụng - một cải tiến đáng kể của IBM trước các chương trình tính toán dòng lệnh khác như S, R.

SPSS crack cũng như SPSS miễn phí, hay bản thân Excel cũng vậy. IBM và Microsoft biết điều này nhưng vẫn để cho chuyện crack diễn ra phổ biến, nhưng trên thực tế các "ông trùm" công nghệ này không ngốc như chúng ta tưởng. Ví dụ, để có được các tính năng tạo Head map một cách nhanh chóng và dễ dàng trong Excel, bạn sẽ cần bỏ ra một khoản tiền khoảng 30$ để sở hữu nó (số tiền không nhỏ với thu nhập bình quân tại VN).

Tương tự, phiên bản SPSS có thể crack của chúng ta không thể sở hữu các tính năng dự báo như phiên bản Premium của SPSS Modeler được. SPSS Modeler tích hợp các tính năng thiết lập mô hình dự báo rất mạnh, phù hợp cho công việc phân tích dữ liệu tại các công ty, hoặc những chuyên gia làm việc trong lĩnh vực tài chính, ngân hàng. Tuy nhiên giá thành của chúng có thể khiến bạn choáng một chút: 2400$ / năm. Chính vì thế, nếu không phải là khách hành trung thành với SPSS, một bộ phân không nhỏ các chuyên gia phân tích dữ liệu sẽ tìm đến một giải pháp mang tính chiến lược khác: miễn phí, đa dạng và mạnh mẽ như R (tôi sẽ nói thêm ở phần sau).

Câu chuyện có vẻ đang đi xa so với nhu cầu của một người làm trong lĩnh vực khoa học xã hội, bởi phiên bản SPSS crak là quá đủ cho người dùng hiện nay và phần lớn các bạn cũng vậy. Nắm chắc các chỉ số đo lường thống kê và thao tác vận hành SPSS là điều mà các bạn có thể làm khi sử dụng chương trình này. Điều quan trọng nhất vẫn là đọc kết quả phân tích ở đằng sau và chọn lọc đưa vào báo cáo.

Hình 3: SPSS có giao diện thân thiện hay "nhà quê" ?

Nếu hỏi về hạn chế của SPSS theo quan điểm cá nhân, thì lý do của tôi khá cảm tính (bạn có thể tham khảo).

- Thứ nhất, giao diện của SPSS rất "quê". Nhìn màn hình của SPSS không khác phiên bản MS Office 2007 là mấy, chỉ riêng điều này đã khiến tôi không muốn chọn SPSS. Việc làm việc với dữ liệu khiến tôi liên tưởng đến một màn hình có màu tối nhiều hơn.

- Thứ hai, SPSS có khả năng trực quan dữ liệu hữu hạn. Không thể so sánh việc đồ họa biểu đồ giữa SPSS với Excel được, điều ấy sẽ khiến SPSS cảm thấy "xấu hổ". Nếu so sánh với gói đồ họa ggplot2 của R, SPSS có thể sẽ muốn "quyên sinh". Theo quan sát, phần lớn bạn bè đồng nghiệp của tôi chạy phân tích trên SPSS sau đó đưa sang Excel để vẽ biểu đồ. Chính vì vậy, tôi đề xuất việc thực hiện phân tích và đồ họa dữ liệu trên Excel ngay từ đầu.

- Thứ ba, quan trọng hơn cả - SPSS sử dụng thao tác kéo thả (drop and drag), vậy nên nếu bạn có thể học thuộc lòng các thao tác là đã có thể khiến chương trình vận hành. Bạn không cần phải hiểu quá rõ điều mình đang làm là gì (trừ phi bạn là người thực sự hiểu rõ điều đó). Chính vì vậy, nếu học phân tích dữ liệu với SPSS tôi không có cảm giác mình đang tự mày mò thử sai, mà phần lớn thời gian tập trung cho việc nhớ và kéo thả. Kết hợp với GUI màu xanh - SPSS thực sự khiến tôi cảm thấy dẽ nhàm chán.

Tôi tự học SPSS ngay từ năm I đại học tại Việt Nam khi lần đầu tiên nghe đến nó, nhưng SPSS không khiến tôi thích thú với công việc phân tích dữ liệu. Tất nhiên, điều này có lẽ sẽ sẽ không đúng với nhiều người, tôi hy vọng, chia sẻ cá nhân này không ảnh hưởng tới lựa chọn của các bạn.

R

Có nhiều lý do khiến người khác tìm đến R, phần lớn các bài viết thường mở đầu về R như một công cụ miễn phí và mạnh mẽ [3]. Còn ấn tượng ban đầu của tôi về R là ngôn ngữ lập trình cho các tính toán thống kê hơn là một chương trình tính toán. Để hiểu qua về cách R vận hành, bạn có thể hình dung đơn giản như sau:

Một chương trình máy tính thực hiện các thao tác tính toán. Môi trường trung gian giữa bạn và chương trình là các nút có chức năng nhất định. Để thực hiện thao tác, bạn cần bấm vào các nút đó. Để nút có thể thực hiện công việc, đằng sau nó là một số câu lệnh được mã hóa (code) theo các nguyên tắc nhất định. Khi người dùng bấm vào nút, nút sẽ kích hoạt câu lệnh khiến máy tính hiểu được yêu cầu của bạn và thực hiện thao tác. Lúc này, SPSS sẽ giống ở giai đoạn bạn bấm nút để tính toán, còn R, giống với việc bạn viết các câu lệnh và chuyển thẳng tới việc tính toán mà không cần trải qua bất kỳ chiếc nút nào cả. Hiệu suất và tốc độ xử lý thông tin của R vì thế cao hơn bất cứ ứng dụng thống kê nào mà tôi từng biết.

Hình 4: Giao diện của R Studio với style màu tối, đây cũng là template mà tôi thích nhất

SPSS cũng có các phần để gõ các syntax thực hiện phân tích, tuy nhiên, các syntax này rất khó học. Chúng là một phần của SPSS chứ không phải là cốt lõi làm nên SPSS. Sử dụng syntax là một giải pháp cho các chuyên gia thống kê vốn đã quan với việc sử dụng dòng lệnh nay chuyển sang làm việc với các item bớt "bỡ ngỡ". Còn đối với phần lớn người dùng SPSS chỉ một số ít biến đến sự tồn tại của tính năng này. Điều này tương tự với VBA trên Excel, nhưng khác với syntax của SPSS một chút, VBA được sử dụng để lập trình tự động cho Excel vậy nên nó sẽ rộng hơn nhu cầu phân tích dữ liệu.

Về cách thức tương tác, trên Excel, chúng ta sử dụng chính không gian tọa độ trong các sheet để nhập hàm tính toán và SPSS sử dụng các nút lệnh (items) để thực hiện thao tác tính toàn. Trong khi với R, tất cả các thao tác tính toán được cấu trúc thành các dòng lệnh, với các hàm và biến số. Việc khai báo đối tượng trong R là vô cùng cần thiết, bởi ngay sau đó, các thao tác tiến hành ngay trên các dòng lệnh này (chính vì thế R còn được gọi là ngôn ngữ lập trình hướng đối tượng).

Hình 5: Sự sụt giảm đáng kể của SPSS sự gia tăng của giải pháp mã nguồn mở như R

Vậy rốt cuộc R là "ngôn ngữ lập trình" hay "chương trình phân tích", tôi nghĩ là cả hai thuật ngữ trên đều đúng - mỗi thứ đúng một nửa: R là "ngôn ngữ phân tích" và là "chương trình phân tích dữ liệu".

R không dùng để lập trình ra một phần mềm mà là công cụ để phân tích và khai phá dữ liệu. Nói cách khác, học sử dụng R là học về một "ngôn ngữ máy tính" (programming language) hơn là một chương trình máy tính (computer program). Bởi R có thể chạy trên bất cứ phần mềm phân tích nào có tích hợp ngôn ngữ R. Môi trường chạy ngôn ngữ R phổ biến nhất mà mọi người từng biết là chương trình R studio.

Khác với phần lớn các chương trình khác, bạn sẽ bắt đầu với một R trống trơn chưa có bất cứ một tác vụ nào. Công việc của bạn là xác định các tính năng cần thiết để cài đặt và sử dụng chúng, nhằm trả lời cho câu hỏi của mình. Điều này phản ánh một triết lý rất hay trong cuộc sống từ các kỹ sư của Apple: Chúng ta không bắt đầu với công nghệ, chung ta bắt đầu bằng ước mơ, rồi đi tìm công nghệ để thực hiện ước mơ đó (M. Hyatt). Bạn cần biết chính xác mình muốn làm gì và đang làm gì - khi bắt đầu với R.

Đó quả là một thách thức đáng để thách thức.

Mặc dù vậy, việc thực hiện tính toán bằng các câu lệnh thực sự là một thử thách không nhỏ, nhất là với những người chưa được học qua về khoa học máy tính - có thể bạn sẽ nghĩ như vậy. Và điều này đúng. Trên thực tế, bạn có thể tưởng tượng ra kết quả nhưng không thể đoán mò khi sử dụng R được. Mỗi câu lệnh viết ra đều hết sức chặt chẽ và logic. Chỉ cần sai một kí tự toàn bộ chương trình sẽ không chạy.

Lần đầu tiên khi tiếp xúc với R, tôi đã mất tới gần 3h đồng hồ để chạy được câu lệnh đầu tiên chỉ lệnh gõ ra thiếu một chữ cái. Điều đó khiến những người ngoại đạo như xã hội học chúng tôi cảm thấy muốn phát điên, nhưng sẽ còn điên hơn nếu bạn tìm ra lỗi, bạn sẽ không bao giờ tái phạm và nếu không may chuyện đó lại xảy ra, bạn đã có đủ kinh nghiệm để "fix" nó chỉ trong một nốt nhạc. R tiêu tốn của tôi một lượng thời gian tự học khá lớn, thời điểm trước đây khi làm luận văn tại Hà Nội, việc thực hiện phân tích nhân tố khám phá (EFA) với R đã lấy đi của tôi hơn 20 ngày tự mày mò, cho tới khi tôi tìm được tại liệu của một người bạn trong diễn đàn Kinh tế lượng, tôi mới hiểu được cách vận hành nó. Cũng với cách làm này, tôi sẽ chỉ mất khoảng 3p trên SPPS, nhưng điều ấy không khiến tôi thích thú. Bởi chính vì việc phải tự mày mò ấy khiến tôi phát hiện ra điều quan trọng nhất: không phải dạng dữ liệu nào cũng chạy được EFA hay EFA không phải là cách phân tích tối thượng cho tất cả các loại nghiên cứu. Nếu chỉ máy móc làm theo các hướng dẫn SPSS trên YouTube mà không tìm hiểu thêm, tôi sẽ đánh mất cơ hội để có thể nhận ra điều cơ bản này.

Tôi mới tự học R một thời gian nên chưa thể có các chia sẻ chi tiết về giải pháp mã nguồn mở này. Nhưng nếu được hỏi vì sao tôi chọn R, thì câu trả lời rất rõ ràng: R là công cụ buộc tôi phải hiểu rõ về những điều mà mình đang làm, R khiến tôi để ý hơn đến các chi tiết và sự tùy tiện trong bước đầu nghiên cứu là điều không thể chấp nhận.

Python:

Khác hoàn toàn với Excel, SPSS hay R - Python là ngôn ngữ lập trình. Triết lý của Python được biết đến như một trong các ngôn ngữ lập trình bậc cao dễ học nhất, hay nhất, đẹp nhất - như các bài viết công nghệ từng đề cập [4]. Bằng việc sử dụng Python, bạn có thể tiến hành các phân tích cao hơn như Deep learning hay Machine learning bên cạnh các phân tích thống kê và trực quan hóa dữ liệu không thua kém gì R.

Hình 6: Sử dụng thành thạo Python bạn có thể thi "vở sạch chữ đẹp" được đấy :">

Tuy nhiên, tương tự với SAS hay STATA - tôi chưa bao giờ sử dụng Python trong nghiên cứu, vậy nên bài viết này không giành thời gian nhiều cho Python. Dựa trên những gì tìm hiểu, tôi chỉ có thể giới thiệu với bạn một vài thông tin mà thôi. Hiện nay R và và Python đang là xu hướng chính của phân tích dữ liệu. Để trở thành chuyên gia dữ liệu dạng A (A type) bạn không thể bỏ qua hai ngôn ngữ này. Điểm khác biệt lớn nhất dữa R và Python - đó là R áp dụng cho phân tích dữ liệu, còn Python sử dụng để lập trình (Python sẽ hữu dụng hơn nếu bạn muốn trở thành chuyên gia dữ liệu dạng B). Python, ngược lại, cũng có thể dùng cho các phân tích, nhưng R thì không được sử dụng cho việc lập trình. Mặc dù vậy, có quan điểm cũng cho rằng, các gói tạo biểu đồ trong Python chịu ảnh hưởng lớn từ gói ggplot2 trong ngôn ngữ R [5].

SQL

Khác với phần lớn các trình phân tích mà tôi giới thiệu ở trên, SQL là ngôn ngữ tuyệt vời khi làm vệc với cơ sở dữ liệu (data base). Tức là công cụ để lấy các dữ liệu cần thiết ra khỏi cơ sơ dữ liệu chính.

Có thể hình dung bằng cách sau. Bạn đang quan tâm tới điểm thi Khối C và D của sinh viên 3 tỉnh Huế, Quảng Trị và Quảng Nam tại ĐHKH Huế trong 3 năm qua. Trong khi địa chỉ dữ liệu bạn truy cập được lại là một cơ sở dữ liệu không lồ gồm toàn bộ sinh viên Việt Nam với hơn 1 triệu người / năm và tổng thời gian là hơn 10 năm qua. Bạn sẽ làm gì? Chắc chắn, thao tác lấy dữ liệu cần thiết là điều đầu tiên mà bạn phải làm. Bẳng việc sử dụng một số lệnh quy ước, SQL sẽ lọc cho bạn toàn bộ dữ liệu sinh viên 3 tỉnh + thi vào ĐHKH Huế + 3 năm gần nhất trong một khoảng thời gian nhanh đáng kể. Công việc tiếp theo là đưa dữ liệu thu được vào R hoặc SPSS để phân tích.

Hình 7: Hiệu năng truy suất dữ liệu của SQL thực sự rất đáng nể

Như vậy, SQL là công cụ được tôi đưa ra ở cuối bảng không phải vì nó yếu nhất mà bởi nó khác biệt nhất. Bản thân SQL không dùng để phân tích dữ liệu, cung không dùng để lập trình máy tính - nó được biết đến cái tên đầy trang trọng: "ngôn ngữ truy vấn". SQL khá dễ học, nó giống như cách mà bạn đang học môn Logic học ở Đại học bằng các dòng lệnh vậy. Một khi đã làm chủ với SQL, thao tác lọc dữ liệu theo bảng trên Excel có thể sẽ đi vào dĩ vãng, không chỉ ở chuyện chính xác mà còn ở tốc độ.

Chia sẻ thêm một chút về câu chuyện tự học của mình. Vào những ngày đầu năm mới, trong khi bạn bè đang đi chơi phố, tôi đã giành một buổi sáng mùng 2 Tết ngoài quán Coffee để tự học SQL và được nhận chứng chỉ online. Quán Coffee ấy đã đóng cửa sau nửa năm kể từ ngày đó. Tôi hy vọng, đó không phải là lỗi của mình.

Soft chỉ là công cụ

Ngay từ đầu bài viết này, tôi đã không định đi sâu vào lý giải tính năng cơ học của các chương trình thống kê. Cần hiểu rằng, những nhà Xã hội học như chúng tôi không phải các chuyên gia thống kê. Chúng tôi xem thống kê phương tiện và các phần mềm là công cụ của phương tiện đó.

Một người bước vào con đường làm xã hội học sẽ cần đi xa hơn sự hiện diện của số liệu và lý giải chúng dựa trên các lý thuyết xã hội học. Do đó, sử dụng phần mềm nào không quan trọng bằng việc hiểu được rằng dữ liệu nào sẽ trả lời được cho câu hỏi nghiên cứu của mình. Tư duy logic hết sức quan trọng, song sự logic chỉ thuyết phục người đọc khi bạn có phông kiên thức đủ rộng và sự xâu chuỗi các thông tin lý giải vấn đề nghiên cứu được đưa ra một cách hợp lý. Tất cả biểu đồ, bảng số liệu - dù đẹp - cũng chỉ gia tăng sức mạnh cho báo cáo của bạn thêm rõ ràng mà thôi.

Đối với các nghiên cứu cơ bản, sẽ thật buồn cười nếu bạn cho rằng sử dụng R, Python là chuyên nghiệp; SPSS, SAS, STATA là ghê gớm; Excel là tay mơ; còn SQL...là "cái gì thế nhỉ?".

Tư duy công cụ và hình thức sẽ xuất hiện phổ biến khi người ta bị hạn chế về thông tin, do đó, người ta thường dựa vào thiên kiến chủ quan để áp đặt suy nghĩ và mặc nhiên cho đó là đúng. Hãy suy nghĩ kĩ về nghiên cứu của mình sau đó tiến tới thu thập dữ liệu và cuối cùng là sử dụng các chương trình phù hợp để phân tích các dữ liệu đó nhằm trả lời cho câu hỏi của mình. Đó là điều mà tôi rút ra sau khi tự mày mò cả 3 phần mềm Excel, SPSS và R. Lúc này, có thể bạn sẽ cần đến một câu kết luận:

Phải chăng, việc lựa chọn chương trình phù hợp sẽ tùy thuộc vào điều kiện tài chính, yêu cầu nghiên cứu, cấu hình thiết bị...? Tất cả đều đúng, nhưng nếu được bổ sung một điều, tôi sẽ chọn: giải pháp làm việc nào hợp với tính cách của bạn hơn, hãy chọn phần mềm giúp bạn được là chính mình nhất.

Cá nhân tôi chọn SQL kết hợp với Excel và R. Trong đó, Excel là nền tảng, R là cốt lõi và SQL là sự mở rộng của các nhành cây.

---

* Chú thích:

[1] "3 Reasons We Don’t Do Statistics in Excel". Nguồn: https://verstaresearch.com/blog/3-reasons-we-dont-do-statistics-in-excel/

[2] "Cách lựa chọn phần mềm phân tích số liệu (SPSS, STATA, SAS, R…)" . Nguồn: http://phantichsolieuyhoc.com/cach-lua-chon-phan-mem-phan-tich-so-lieu-spss-stata-sas-r/

[3] "Why use R? Five reasons". Nguồn: https://www.r-bloggers.com/why-use-r-five-reasons/

[4] "ZEN OF PYTHON, Triết lý Thiền của Python - I call "ZEN OF LIFE". Nguồn: https://www.linkedin.com/pulse/zen-python-i-call-life-v%C5%A9-tr%E1%BA%A7n-thi%C3%AAn-h%E1%BB%B7-kh%C3%A1nh-v%C3%A2n

[5] "Mô hình hồi quy tuyến tính Bayes với pyMC3". Nguồn: https://notebooks.azure.com/LeNgocKhaNhi/libraries/GLMPyMC3/html/Logistic.ipynb

* Nguồn ảnh minh họa:

Ảnh bìa: https://sloanreview.mit.edu/content/uploads/2016/08/16-IoT-RR-circle-beams-header-4-flip.jpg

Hình 1: Ảnh người viết cung cấp

Hình 2: https://tuanvanle.wordpress.com/2016/06/09/su-pho-bien-cua-cac-phan-mem-thong-ke-trong-hoc-thuat/

Hình 3: https://mp.s81c.com/8034F2C/dal05/v1/AUTH_db1cfc7b-a055-460b-9274-

1fd3f11fe689/6973d47ab769037fec3a6345552d4a98/offering_6d27815e-6ff2-4468-bcaa-7c4bd600c7e4.jpg

Hình 4: https://d33wubrfki0l68.cloudfront.net/7f83bbb6aae31666477e9125355915ecfa5dd967/90a82/images/2017-08-30-rstudio-dark-theme.png

Hình 5: https://i0.wp.com/r4stats.com/wp-content/uploads/2012/04/Fig_2d_ScholarlyImpact.png?resize=640%2C443

Hình 6: https://pbs.twimg.com/media/DUeqoe5XcAAdxBD.jpg

Hình 7: https://www.klipfolio.com/sites/all/themes/klipfolio_theme/img/assets/illustration-sql-dashboard.jpg