HUỲNH BẢO TUÂN

DATA ANALYTICS vs DATA ANALYSIS

Thuật ngữ này thật khó dịch ra tiếng Việt và cũng gây khó hiểu cho nhiều người. Chia sẻ ra đây vài ý nghĩa của nó để mọi người đến với lĩnh vực Data Science thú vị hơn, dễ chịu hơn.

Data AnalySIS :
Câu chuyện là hôm nay tôi đi chợ, trong đầu tôi đã có sẵn dự định nấu món canh chua. Canh chua là một món ăn đã được khái quát hóa thành khái niệm (concept) mà đa số ai cũng biết. Có thể mỗi vùng miền sẽ có cách nấu canh chua đặc trưng khác nhau, nhưng khi tôi bước ra chợ, trong đầu tôi đã có một cái khung dẫn dắt là cần mua cái gì và cách nấu ra sao, đó gọi là Khung lý thuyết khái niệm (conceptual theoretical framework-CTF).
Trong trường hợp này, việc tìm kiếm dữ liệu (data searching) của tôi sẽ bị cái CTF phía trên dẫn dắt: tôi đi vào chợ với mục tiêu rất rõ ràng là tìm cá, tìm rau mùi, tìm thơm, cà chua, măng,…để nấu canh chua. Và lúc này việc phân tích (analyze) sẽ mang tính chất đánh giá, so sánh, lựa chọn để tìm một tập nguyên liệu tối ưu về giá và độ tươi ngon (solution set).
Đặc điểm cốt lõi của Data Analysis là chúng ta phải có trước một CTF, việc tìm kiếm data phải dựa trên CTF này. Còn việc làm sao để phân tích, let’s data talk, thì dùng các công cụ để trực quan hóa dữ liệu, kiểm định giả thuyết, dự báo…dựa trên nền tảng khoa học thống kê quen thuộc mà ta thường học: thống kê Gausshay thống kê Bayes, hàm mật độ phân bố …
Trong quản trị, Data Analysis thường dùng trong quản trị vận hành: tối ưu hóa dây chuyền sản xuất; cải tiến chất lượng; lập kế hoạch, điều độ; phân tích khả thi dự án; đánh giá lựa chọn nhà cung cấp…
Data AnalytICS
Cũng là câu chuyện đi chợ, nhưng chúng ta bước vào chợ với cái đầu không có ý định nấu cái gì! Nên việc đầu tiên là chúng ta sẽ “lia một vòng chợ” (scanning), lúc này data sẽ chạy vào đầu chúng ta đủ loại: rau, cá, thịt, gà, nụ cười của cô bán hàng, ruồi, chuột,…đủ kiểu. Bỗng nhiên ta phát hiện có con cá chép ngon, đầu ta lóe lên món cá chép om cải chua, nhưng chưa dừng lại đó ta liên tưởng đến nhiều món om khác nhau trong dân gian lóe lên trong đầu. Ta thay đổi ý định muốn tạo ra một kết hợp mới: cá chép om với đậu hủ non nấm hương, và muốn thử nghiệm coi cách kết hợp này ngon không (trial and error). Giả sử là cách kết hợp này là ngon, ta vô tình lượm được bí kiếp, nghĩa là cải tiến phát triển ra một món ăn mới cá chép om tàu hủ non nấm hương.
Đặc điểm cốt lõi của Data Analytics là Data có trước. Data có thể là số, là biểu tượng, là hình ảnh, là, symbol, giọng nói, nháy mắt, ký tự …đủ loại, đủ kiểu thực thể (artifacts) nào đó. Kỹ năng quan trọng của chúng ta là scanning data và phát hiện (sensing) ra các tổ hợp, các cách kết hợp (data patterns) mới CÓ Ý NGHĨA VÀ HỮU DỤNG. Từ đó ta hình thành một nên concept mới và dựng lên một concept theoretical framework mới. Cái mới chưa từng có trước đây + mức độ hữu ích của nó = khả năng kiếm tiền của chúng ta.
Đích đến của Data analystics là sáng tạo ra một ý niệm mới chưa từng có trước đây và thử nghiệm nó một cách thành công (được người dung chấp nhận), đó là thứ mà trong kinh doanh ngày nay người ta rất cần. Data analytics nên được dịch là khai phá những ý niệm mới từ dữ liệu, và nó được xem là công cụ hữu hiệu khởi nguồn cho một quá trình Innovation.
Tuy nhiên, quá trình scanning và bật ra ý niệm mới với con người mang đầy tính ngẫu hứng – ứng tác (improvisation), kiểu như nhạc sĩ đi dưới mưa bất chợp nảy ra vài câu “mưa ngày xưa, rơi trên đường vắng, mưa vô tình làm ướt áo em…”. Thế thì quá trình innovation của một doanh nghiệp sẽ rất là bấp bênh, lúc được lúc không, cộng với khả năng xây dựng các tổ hợp mới và thử nghiệm nó với con người cũng có một giới hạn về trí não đó là khả năng nhớ. Do vậy, người ta nghĩ đến chuyện bày cho cái máy đó làm, vì máy chỉ cần cắm điện là chạy, tốc độ tính toán và khả năng nhớ rất lớn. Đó là vì sao, data analytics gắn liền với học máy (machine learning).
Vấn đề đặt ra với ML hiện nay là Huấn luyện. Rất nhiều các chương trình huấn luyện thiết kế một hồi làm quá trình data analytics trở về data analysis, nghĩa là vẫn phải dẫn bằng các concept và CTF cho trước. Đó là một quá trình traning để dùng ML để làm bộ nhớ lưu trữ là chính, không có một ý nghĩa trong việc tạo ra cái mới. ML ứng dụng trong y khoa hiện nay bản chất vẫn là dùng máy để đọc và lưu trữ nhanh hơn, nhiều hơn người chứ không trợ giúp trong việc phát hiện những hướng điều trị mới.
Để tạo ra cái mới, phát hiện mới, quá trình training cần dùng các thuật toán ngẫu nhiên nhiều hơn và một phần quan trọng vẫn là trực giác của con người trong việc dẫn dắt quá trình scanning mở rộng các biên sao cho có thu hoạch, kiểu như tại sao ta lại không đưa trống vào nhạc thính phòng vậy. Thách thức hiện nay của ML trong bài toán innovation còn nằm ở việc test prototype, nghĩa là quá trình trial and error cần phải hướng dẫn cho máy test chứ nếu không thì rất nhiều concept ra đời làm sao test cho nỗi. Đây là việc gần như chưa có lời giải một cách ứng dụng được, nghĩa là mới chỉ nằm trên ý tưởng nghiên cứu.
Một trong những ứng dụng gần đây của data analytics là sensing model, dùng trong việc dự đoán cái gì sẽ diễn ra tiếp theo thông qua việc nhận biết sớm những mô thức mới hình thành mang tính dẫn dắt, hội tụ và được tiếp năng lượng liên tục, nghĩa là có entropy mới được hình thành. Đây là việc rất quan trọng cho hoạch định vận hành và xây dựng các kế hoạch thích ứng trong kinh doanh hiện nay.
Mục tiêu cuối cùng của kinh doanh là trường tồn theo năm tháng. Muốn vậy chúng ta phải không ngừng bồi tụ những năng lực mới để thích ứng với sự thay đổi của xã hội, công nghệ, môi trường… Khoa học dữ liệu là một hướng đắc lực giúp cho chúng ta nhân biết ra cái gì đó thay đổi, và làm ra cái gì đó mới mẻ nhanh hơn người khác. Đó là sự tồn tại và phát triển.
Chúc thành công.

Vui lòng trả lời câu hỏi sau: Bốn + ba bằng mấy?

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *