20 Giờ nhập môn "khoa học dữ liệu" | Vietcetera
Billboard banner
14 Thg 12, 2020

20 Giờ nhập môn "khoa học dữ liệu"

Khoa học dữ liệu làm tôi nghĩ nhiều về cách sử dụng công nghệ để phục vụ chính mình, đặc biệt là trong việc đưa ra quyết định sáng suốt hơn. Đây là những điều tôi nghiệm ra sau 20 giờ học.
20 Giờ nhập môn "khoa học dữ liệu"

20 Gio nhap mon khoa hoc du lieu

Data Science (Khoa Học Dữ Liệu) không đến với tôi, là tôi tự đâm đầu vào nó

Ngày mới bước chân đi làm marketing, tôi có kiểu lao đầu vào các chiến dịch, công việc khác nhau bằng tất cả nhiệt huyết nhưng ít suy tính kỹ càng. Đi làm được hơn 2 năm, tôi cập nhật CV của mình, nhưng lại không tìm thấy điểm gì gây ấn tượng. Dường như tôi đã làm khá nhiều, vậy mà sự tiến bộ và kinh nghiệm lại chẳng tích cóp được bao nhiêu.

Trả lời cho câu hỏi "nhức nhối": làm thế nào để trở nên giỏi hơn, tôi đăng ký học Khoa Học Dữ Liệu online. Môn học này không những đúng thời điểm, mà còn là mảnh ghép cần-phải-có cho nền tảng marketing và cho chính bản thân tôi.

20 giờ (đau) đầu

Tôi đăng ký học online tại đây. Chương trình gồm 9 lớp, đi từ dễ lên khó. Học đủ điểm thì được cấp chứng chỉ Professional Certificate (Chứng Nhận Nghề). Nếu không muốn mất tiền, bạn vẫn có thể dự thính (audit), nhưng sẽ bị hạn chế làm bài kiểm tra và không được trao chứng chỉ.

20 Gio nhap mon khoa hoc du lieu
Nếu có thể, đừng học khoa học dữ liệu 1 mình! | Nguồn: Diana Stoyanova

Vậy có cần nền tảng kiến thức cao siêu gì để bắt đầu không? Không hề! Nhưng có 3 kỹ năng tối thiểu mà không khoá học nào chỉ cho bạn. Chúng là: tìm kiếm Google/YouTube, tiếng Anh tốt, và không-đầu-hàng.

Vì lớp học sau được xây dựng dựa trên nền tảng của lớp trước, nên khi không hiểu một khái niệm, đừng-phớt-lờ nó. Đây là kinh nghiệm đau thương của tôi, học tới lớp số 7, phải quay về lớp số 3 và 4 xem lại. Tôi hay coi Ted Talks của bác Hans Rosling và tìm video giải thích (có cả dạng hoạt hình) trên YouTube khi bế tắc.

Bạn cũng không nên có rào cản ngôn ngữ quá lớn, vì việc liên tục phải tra từ điển không chỉ làm mất nhiều thời gian, mà còn khiến bạn lười học thêm đấy nhé.

Trong 20 giờ đầu, tôi hoàn thành 3 lớp: R Basics (cơ bản về R), Data Visualization (trực quan hoá dữ liệu) và Probability (xác suất).

Vẻ đẹp của dữ liệu

Ngày nay, chúng ta có nhiều công cụ phục vụ cho phân tích dữ liệu với tính tương tác cao, giao diện đẹp. Tôi bắt đầu với R, một phần mềm được tạo ra bởi các nhà nghiên cứu về xác suất thống kê chứ không phải nhà phát triển phần mềm (đây là 1 câu chuyện lịch sử dài). Đọc dữ liệu bao gồm sàng lọc và tính toán để tìm ra ý nghĩa phía sau những con số, từ đó đưa ra nguyên nhân và giải pháp cho các vấn đề.

Một số phát kiến quan trọng mà khoa học dữ liệu mang lại có thể kể đến như:

  • Trái Đất và các hành tinh quay xung quanh mặt trời (Galileo, thế kỷ 15)
  • Big Bang – học thuyết về vũ trụ (Geogres Lemaitre, 1920)
  • Khí thải CO2 gây ra biến đổi khí hậu. (Svante Arrhenius, 1896)
  • Moneyball: cách phát hiện những cầu thủ bóng chày tiềm năng. Các đội bóng đầu tư tiền thông minh hơn nhờ Moneyball thay vì đốt ngân sách vào các ngôi sao tên tuổi.
  • Định luật 80-20.
20 Gio nhap mon khoa hoc du lieu
Những đỉnh núi dữ liệu cao vời vợi. | Nguồn: davidebonazzi.com

Công chúa ngủ trong rừng tỉnh dậy thì gặp hoàng tử, còn tôi ngủ trong sự thiếu hiểu biết, mở mắt thì gặp vô lượng dữ liệu và công thức. Mà công thức còn được chia như thì động từ trong tiếng Anh - nghĩa là cùng 1 giá trị, nhưng hoàn cảnh khác nhau thì cách tính sẽ thay đổi.

Trong 20 giờ với R, tôi đã làm được những điều sau:

  • Phân tích nồng độ khí thải CO2 trên Trái Đất từ hàng trăm triệu năm trước tới 2018.
  • Phân tích kết quả bỏ phiếu bầu cử tổng thống Mỹ năm 2016.
  • Tính toán kết quả của Brexit.
  • Tính toán phần trăm lãi suất tối thiểu cho ngân hàng để đảm bảo bù lỗ và rủi ro từ những ca thiếu nợ.
  • Máy chơi Roulette (cò quay) có thực sự mang lại tiền lời cho casino không?
  • Tính toán lời lãi cho công ty bảo hiểm, số lượng bảo hiểm cần bán ra dựa trên 2 trường hợp: tỉ lệ tử vong bình thường và tỉ lệ tử vong tăng đột biến do dịch bệnh.

Những vấn đề lớn trên được bóc tách ra thành nhiều câu hỏi để người học biết rõ mình đang làm gì thay vì áp dụng công thức như máy rồi quên ngay. Tới giờ tôi vẫn còn đọc lại sách giáo khoa cơ bản, mỗi lần đều vỡ thêm ra vài điều mới mẻ.

Với lớp học online, bạn đạt 70% điểm số trung bình là sẽ được “Passed” (qua lớp), và được trao chứng chỉ. Điều này cũng không khó đâu. Có khi chưa cần làm đến bài kiểm tra tổng hợp, tôi đã đủ điểm “pass” rồi. Nhưng tôi cũng nhận ra, cho dù có đạt trên 90% điểm trong mọi bài kiểm tra, thì khoá học mới chỉ chạm tới những gì cơ bản nhất của khoa học dữ liệu.

Sau 20 giờ, với 3 chứng chỉ hoàn thành khoá học, R vẫn là 1 vũ trụ mở rộng. Vì đã quá quen với lối suy nghĩ dựa trên bản năng và cảm xúc, tôi đã khá đau đầu khi phải dung nạp ngôn ngữ lập trình. Ngoài ra, tôi còn phải học những khái niệm phức tạp trong xác suất thống kê. Thế nhưng, quay mòng mòng trong sách vở vẫn là 1 thú vui.

Mỗi khi giải thành công 1 bài khó, rồi 1 bài khó hơn, tôi ăn mừng như lần đầu tiên biết đi xe đạp năm 6 tuổi.

Điều đơn giản không tầm thường

Nếu hay xem Netflix, bạn có bao giờ tự hỏi vì sao Netflix liên tục đưa ra những gợi ý phim khiến bạn không-thể-ngừng-xem không? Điều này có công lớn nhờ thuật toán (algorithm) của họ đấy nhé. Thuật toán này âm thầm quan sát, ghi lại mọi hành động dù nhỏ của bạn (như tần suất xem trailer, cách kéo-nhả chuột trên trang, khung giờ xem hàng ngày…). Tiếp đó, nó tự động phân tích và tối ưu hoá gợi ý phim tới bạn. Đơn giản đúng không? Thuật toán kì diệu trên mang lại cho Netflix gần 1 tỉ USD mỗi năm, nhờ vào lượng khách hàng tiếp tục gia hạn dịch vụ!

20 Gio nhap mon khoa hoc du lieu
Nguồn: frazierview.com

Tôi áp dụng điều này để đo lường và cải thiện khả năng tập trung của bản thân. Trong 3 tháng, việc sử dụng thời gian hàng ngày được ghi lại chi tiết trong 1 tệp Excel rồi tổng hợp và vẽ thành biểu đồ cho dễ nhìn.

Và tôi đã “nhìn” thấy các khoảng thời gian nhỏ lẻ trong ngày làm việc không cần thiết trông thật khổng lồ khi gộp lại. Chúng là kết quả của những ngày chẳng làm được gì ngoài xem YouTube và Netflix, muốn đọc thêm vài cuốn sách nhưng lại dành thời gian cho mạng xã hội...

Tiếp theo là phần hành động: xác định rõ thói-quen-cần-giảm cùng những hạt-giống-nhỏ cần gieo (5 phút ngồi thở, 5 phút tưới cây, 30 phút đọc sách để “ăn" vào 3-5 giờ giải trí mỗi ngày). Sau 30 ngày, những hạt giống 5 phút tự động nảy mầm, trở thành thói quen tốt và tự duy trì. Ngoài ra, tôi cũng áp dụng phương pháp Pomodoro và nhận thấy hiệu quả rõ rệt.

Khoa học dữ liệu làm tôi nghĩ nhiều về cách sử dụng công nghệ để phục vụ chính mình, đặc biệt là trong việc đưa ra quyết định sáng suốt hơn.

Kết quả

Tôi không dừng lại ở 20 giờ. Bên cạnh khoá học 9 lớp, tôi đăng ký thêm vài khoá chuyên sâu về lĩnh vực mà mình thích (trực quan hoá dữ liệu), hoặc củng cố dài hơi cho môn mang tính nền tảng (như xác suất) nữa.

Vậy thì phải học bao nhiêu, bao lâu là đủ? Tôi cho rằng học tập cần có sự đều đặn và bền bỉ như một người chạy marathon, chạy mà không nghĩ tới kết quả, chỉ tập trung vào từng bước chân. Nhưng cũng như chạy đường dài kết thúc ở dặm thứ 42, tôi sẽ cho bản thân 2 năm.