Bàn luận về sự "nửa vời" của các nhà khoa học dữ liệu

Tuấn Long

Nghiên cứu

Thống kê & Phân tích dữ liệu

22 Tháng Một, 2020

Bàn luận về sự "nửa vời" của các nhà khoa học dữ liệu

Hãy dừng tuyển dụng các nhà khoa học dữ liệu

"Stop Hiring Data Scientists" là tiêu đề một bài viết trên trang Towards Data Science của tác giả Luke Posey với thông điệp được gửi tới các doanh nghiệp về sự lãng phí tiền của khi tuyển dụng các nhà khoa học dữ liệu (data scientists) chỉ vì sự "nửa vời" của họ [1]

Theo tác giả này, data scientist là một "chiếc áo choàng" hào nhoáng được gán cho những người nửa vời về thống kê và tay mơ về lập trình. Theo đà bùng nổ của thời đại Cách mạng Công nghiệp 4.0 và trí tuệ nhân tạo (AI), không ít người đã tự nhận mình là một data scientist (bài viết này sẽ giữ nguyên cách viết trong Tiếng Anh như một thuật ngữ chuyên môn) trong khi những việc họ thực hiện cũng không khác một nhân viên phân tích dữ liệu (data analysist) là bao, nhưng việc chi trả cho họ đã được các doanh nghiệp đào tạo phân tích dữ liệu hô lên thành mức lương "khủng" (từ 92.000~ 160.000$/năm) tùy vào bằng cấp và số năm kinh nghiệm mà họ có [2]

Hình 1: Hình mẫu về một data scientist

Ta có thể bắt đầu câu chuyện bằng việc phân biệt các vị trí trong một Team phụ trách mảng phân tích dữ liệu. Có ít nhất 3 cụm từ để mô tả về nghề nghiệp của những người làm việc trong mảng này gồm: Data Analysist, Data Engineer và Data Scientist

  • Thứ nhất, Data Analysist - tìm hiểu, làm sạch (clean), khai phá để đưa ra các thông tin ẩn sâu bên trong dữ liệu (insight) và sau đó giúp người khác hiểu được dữ liệu đó thông qua bảng, biểu đồ chính là công việc của một data analysist. Một báo cáo động, một bảng dashboard được tạo nên để phục vụ trong quá trình báo cáo chính là sản phẩm đầu ra thông thường của một data analysist.
  • Thứ hai, Data Engineer - là người trực tiếp làm việc với các hệ thống dữ liệu cả trên phương diện phần cứng và phần mềm. Data Engineer thường có xuất phát điểm từ kỹ sư phần mềm và liên quan tới khoa học máy tính hơn là một người lý giải dữ liệu như data analysist
  • Thứ ba, Data Scientist - nếu data engineer là người thiết lập nên hệ thống tương tác dữ liệu về mặt kỹ thuật phần cứng (hardware), trong khi data analysist là người diễn giải dữ liệu (data explain) - thì data scientist là người làm việc với dữ liệu bằng các thuật toán và xây dựng mô hình dự báo. Data engineer thường có xuất phát điểm là lập trình viên, data analysit thường có xuất phát điểm là dân kinh tế hoặc thống kê thì các nhà Data Scientist thường là các nhà toán học ứng dụng.

Hình 2: So sánh kỹ năng và công việc mà các vị trí trong một Data Team đảm nhiệm

Vậy nên xét về kỹ năng, data scientist sẽ sở hữu rất nhiều kỹ năng (skill) mà hai vị trí kia sở hữu. "Một data scientist sẽ là người có khả năng lập trình hơn một nhà thống kê và có hiểu biết về thống kê hơn một chuyên gia lập trình" [3]. Nhưng hiển nhiên, một data scientist đa nhiệm thường sẽ không vượt trội hơn hai vị trí kia trong một địa hạt cụ thể ví dụ như kỹ năng lập trình hay tạo dựng báo cáo phân tích; và đây chính là điểm yếu của các data scientist mà Luke Posey xoáy sâu vào với luận điểm: dừng tuyển dụng những "chiếc nhãn" hào nhoáng này

Hạn chế trong tiếp cận của Luke Posey

Trên thực tế, cái gọi là công việc của một data scientist ở các doanh nghiệp cũng chính là công việc mà một data analysist phải làm - Luke Posey mô tả - từ thăm dò, khai phá (explore) tới trực quan (visual) để giúp người đứng đầu đưa ra quyết định phù hợp với tình hình (communicate). Trong khi đó, các data scientist tỏ ra kém cạnh về khả năng tự động hóa các ứng dụng của mình so với các data engineer nhưng thu nhập của vị trí này lại luôn cao hơn hai vị trí kia ở cùng một cơ số năm kinh nghiệm.

Nếu áp dụng chí phí quản lý theo sự hiệu quả, Luke Posey nói, đó là một sự lãng phí. Sự "nửa vời" của các data scientist tạo nên độ chênh với nhu cầu thực sự của doanh nghiệp. Các data scientist tỏ ra hàn lâm lý thuyết với các mô hình toán học nhiều hơn là kỹ năng phân tích và lập trình để giải quyết vấn đề cụ thể mà các doanh nghiệp cần.

Hình 3: từ khóa "data science" (màu xanh dương) có tỉ lệ tìm kiếm gia tăng trên Google so với sự ổn định của "sociologist" và sụt giảm của "statistic" trong 5 năm trở lại đây

Chính vì tiếp cận theo góc nhìn này mà lập luận của Luke Posey để lộ ra điểm hạn chế. Cứ cho rằng các data scientist là một chiếc áo choàng hàn lâm song nửa vời, vậy nếu các data scientist được đào tạo thực thụ và tham gia vào các vị trí thực sự giành cho họ - thì những data scientist này sẽ làm được gì? Câu trả lời chính là xây dựng các mô hình dự báo (predictive modeling). Suy cho cùng, việc phân tích sẽ chỉ nên hiệu quả nếu đưa ra được các khả năng dự báo và kết quả dự báo sẽ hạn chế được sai số tối đa nếu được đưa ra dựa trên các mô hình tối ưu. Do đó, tính toán để đưa ra được mô hình dự báo tối ưu chứ không phải lập trình hay phân tích mới là công việc thực sự của một data scientist. Ở một khía cạnh nào đó, hoàn toàn không phải ngẫu nhiên khi nền tảng chuyên môn của những người này thường là toán học, nhất là mảng toán ứng dụng (applied mathematics).

Vậy, câu trả lời cho việc tuyển dụng hay không tuyển dụng các data scientist không phải là bài toán khó, Luke Posey trong bài viết của mình cũng đã đưa ra gợi ý:

  • Ngừng tuyển dụng data scientist nếu bạn cần data analysist
  • Ngừng tuyển dụng data scientist nếu bạn cần data engineer

Các nhà quản lý cần tuyển đúng chuyên gia vào đúng vị trí mà doanh nghiệp cần với một tỉ lệ cân xứng. Một chiếc tháp ba tầng có hình thoi với data scientist ở trên cùng, data engineer ở dưới cùng và các data analysist ở giữa với tỉ lệ cao nhất sẽ tỏ ra phù hợp hơn với nhu cầu của các doanh nghiệp cỡ vừa và lớn hiện nay. Với doanh nghiệp có quy mô nhỏ, khả năng cao tính đa nhiệm của một data scientist sẽ được cần được tính đến trong yêu cầu tuyển dụng. Điều quan trọng nhất, chính là để cho mỗi vị trí được làm đúng công việc của mình song không vị trí nào có thể tách bạch với hai vị trí còn lại.

Hình 4: Data science là một sân chơi đa lĩnh vực

Hiểu rộng hơn, data science là một lĩnh vực liên ngành, là sân chơi cho cả những người làm thống kê, dân kinh tế, kỹ sư lập trình, nhà toán học hay kể các nhà khoa học đam mê dữ liệu. Do đó, không có cái gọi là data scientist nguyên bản (original), mà phần lớn các nhà khoa học dữ liệu hiện nay đều phát triển lên từ một lĩnh vực chuyên môn nhất định nào đó (thường là khoa học máy tính, hay thống kê...) kết hợp với sự hiểu biết về dữ liệu và trở thành một data scientist, data analysist hay data engineer.

Khoa học dữ liệu và người làm nghiên cứu

Nhìn sang câu chuyện của những người làm khoa học hiện nay, đặc biệt là khoa học xã hội - cũng có một số điểm đáng lưu ý. Sự mơ hồ về phân tích dữ liệu hoặc thành thạo trong lĩnh vực này có thể tạo nên một sự ngộ nhận không đáng có về sức mạnh của khoa học dữ liệu trong nghiên cứu khoa học.

Hình 5: KHXH trở trở thành một địa hạt rất rộng lớn khi kết hợp với phân tích dữ liệu

Việc đổ xô đi học các khóa học ngắn hạn về phân tích dữ liệu nhưng hời hợt về kiến thức chuyên môn sẽ là con dao hai lưỡi cho những ai còn quá đề cao sự hiện diện của lĩnh vực này trong giới hàn lâm học thuật.

Ta có thể tưởng tượng về việc những năm 1960 khi người ta còn say mê với việc sử dụng phiếu khảo sát do trường phái Chicago khởi xướng bằng các nghiên cứu định lượng đã đưa xã hội học (sociology) trở thành ngành khoa học chứa nhiều ưu điểm so với các lĩnh vực khoa học xã hội cùng thời. Tuy nhiên, nhà xã hội học người Áo P.Berger cũng cảnh báo về việc người ta thường lầm tưởng các nhà Thống kê là Xã hội học. Ông cho rằng nếu chỉ biết lập các bảng các hạng mục tương quan thôi (correlation) thì vẫn chưa thể coi là nghiên cứu xã hội học. Các dữ liệu thống kê chỉ được coi là xã hội học khi được lý giải dựa trên góc nhìn của xã hội học về mặt lý thuyết [4].

Ta hoàn toàn có thể áp dụng điều tương tự nói trên với các ngành khoa học xã hội khác. Tội phạm học và khoa học chính trị sử dụng thống kê như một cách thức nắm bắt các khuôn mẫu hành vi chung của xã hội nhưng tuyệt nhiên không thể thay thế các quan điểm chính trị hay tội phạm cho cùng một hiện tượng đang được giới khoa học mô xẻ trên bàn cân.

Ở một góc nhìn hẹp hơn về mặt phương pháp luận, quá trình thao tác hóa khái niệm từ tổng quan nghiên cứu để xây dựng mô hình phân tích quyết định tới chiến lược thu thập và phân tích dữ liệu nhiều hơn là việc đi ngược lại quá trình ấy.

Kỹ thuật và công nghệ về phân tích dữ liệu là cánh tay nối dài cho các nhà khoa học xã hội mở rộng cách tiếp cận của mình, song tuyệt nhiên không nên xem khoa học dữ liệu là kim chỉ nam để bỏ ngang các nền tảng chuyên môn quan trọng khác. Khám phá của một nhà xã hội học sẽ trở nên sâu sắc hơn khi các dữ liệu được thu thập trên cơ sở nhất định và có giá trị nhân văn thuyết phục khi được diễn giải về mặt lý thuyết. Vì lý thuyết làm nên góc nhìn của một ngành khoa học, nhất là xã hội học. Chỉ sự hiện diện của một bảng số liệu các con số thống kê và biểu đồ tính toán mà thiếu đi sự kiến giải xã hội - hoàn toàn không làm nên giá trị của một nhà khoa học xã hội..

Hình 6: Kỹ thuật và công nghệ về phân tích dữ liệu là cánh tay nối dài cho các nhà khoa học xã hội

Nói khác đi, sự hiểu biết về khoa học dữ liệu - sức mạnh và sự hấp dẫn của nó - nên là một phương tiện (tool) để phục vụ nghiên cứu khoa học hơn là một mục đích (goal) cần đạt được. Công việc chính của một nhà khoa học xã hội nói chung là đưa ra câu hỏi và kiểm chứng nó. Vậy nên, kết quả nghiên cứu sẽ bền vững hơn nếu dữ liệu được diễn giải trên nền tảng của kiến thức chuyên môn; kiến thức sẽ giá trị hơn nếu dữ liệu biết được thông tin mà nó cung cấp đang được sử dụng để trả lời cho câu hỏi nào và việc xác định câu hỏi đúng sẽ được thực hiện trên cơ sở của chính nền tảng kiến thức chuyên môn ấy.

Do đó, để làm khoa học với phương diện dữ liệu phân tích, ta nên kiên nhẫn xây dựng nền tảng dựa trên chính kiến thức chuyên môn của mình, đưa ra câu hỏi khả thi (researchable) và kết hợp với khoa học dữ liệu để kiểm chứng nó.

Tóm lại

Luke Posey [5] có thể đã đúng khi nói về sự "nửa vời" của các nhà data scientist ở một số doanh nghiệp, điều này cũng có thể không sai với thế giới của những người làm công việc học thuật hàn lâm lần đầu chiêm ngưỡng sự hấp dẫn của khoa học dữ liệu, nhưng điều ấy sẽ được hạn chế phần nào khi ta hiểu được điều cơ bản nhất: nên phát triển sự nghiệp với khoa học dữ liệu dựa trên chính nền tảng kiến thức chuyên môn của bản thân.

p/s: Bài viết khai bút đầu xuân 2020. Năm mới, "ngộ" ra được điều mới này. Còn các bạn thì sao, xin mời chia sẻ góc nhìn của mình.

---

Chú thích:

[1] Luke Posey, "Stop Hiring Data Scientists", Link: https://towardsdatascience.com/stop-hiring-data-scientists-30514028e202

[2] "2018 Data Scientist Salary Report Highlights", Link: https://www.burtchworks.com/2018/07/09/2018-data-scientist-salary-report-highlights/

[3] ODSC - Open Data Science, "Data Scientists Versus Statisticians", Link: https://medium.com/odscjournal/data-scientists-versus-statisticians-8ea146b7a47f

[4] Peter Berger, "Invitation to Sociology: a humanistic perspective", Penguin Book, 1966, p.22

[5] Thông tin về Luke Posey trên trang Towards data science : https://towardsdatascience.com/@posey

---

Nguồn ảnh:

Ảnh bìa: https://www.thuatngumarketing.com/wp-content/uploads/2017/12/data-scientist.png

Hình 1: https://findwork.vn/uploads/blog/images/20190523/20190523030501image1-1024x576.jpg

Hình 2: https://i.pinimg.com/originals/cc/f4/e1/ccf4e10c457ee38d68f0affab1317722.png

Hình 3:
https://trends.google.com.vn/trends/explore?date=today%205-y&q=data%20science,Sociologist,statistic

Hình 4:
http://srpubs.comchidungkt509239fbclid=IwAR3MMUvZvuMGsa3CJNLcOgN6-5hucTWbIqhAfMmpOaX15fQZyLeUiYWJFgY

HÌnh 5: https://www.online-phd-degrees.com/wp-content/uploads/2019/03/shutterstock

Hình 6: https://miro.medium.com/max/5000/1*5q8gYjIcbSp7X_kbOm6Gsw.jpeg