HUỲNH BẢO TUÂN

DỮ LIỆU LỚN (BIG DATA) CÓ PHẢI LÀ CỠ MẪU LỚN?

Y tế đang chuyển mình với việc số hóa. Tùy theo điều kiện từng nơi. Có nơi từng bước xây dựng hệ thống thông tin, số hóa bệnh án, số hóa tương tác với bệnh nhân, hình thành data center. Và đương nhiên, với nguồn dữ liệu ngày càng dồi dào, các nơi bắt đầu tính đến chuyện khai thác chúng như một nguồn tài nguyên quan trọng trong tương lai.
Đầu tư vào hệ thống thông tin là một sự đầu tư dài hơi và tốn kém. Đòi hỏi một tầm nhìn để việc hoạch định được “đúng trọng tâm” tránh “chưa đi đến chợ đã hết tiền”.
Bài viết này xin phép chia sẻ vài ý để cùng mở rộng tầm nhìn.
>>> Data science – Khoa học dữ liệu
Cuộc sống con người và tự nhiên tạo ra rất nhiều dữ liệu (data) ở rất nhiều dạng thức khác nhau: số, lời nói, chữ viết, trạng thái cảm xúc, tín hiệu vật lý… và với sự phát triển của công nghệ thông tin, công nghệ cảm biến, công nghệ truyền dẫn, công nghệ lưu trữ, càng ngày người ta càng dễ dàng hơn trong việc ghi nhận và lưu trữ những dữ liệu này.
Và người ta tin rằng trong một đóng hỗn độn đó ẩn chứa nhiều quy luật mà con người chưa biết đến.
Trọng tâm của khoa học dữ liệu là khám phá ra lý thuyết mới và tìm ra một mô thức gì đó dự đoán được điều gì sẽ diễn ra trong tương lai.
Tuy nhiên, con người không có khả năng đọc, hệ thống và phân tích hàng trăm tỷ data hỗn độn không cấu trúc như vậy. Con người chỉ có thể xây dựng các quy ước mã hóa, quy ước hệ thống hóa và dạy cho cái máy nó học cái cách để nó có thể giống như con người đọc ra được những quy luật, nhận biết những xu hướng mới. Hoặc đặt ra những câu hỏi và tự máy sẽ giúp lục tìm trong ngân hàng dữ liệu mà nó có được, moi ra những gì liên quan một cách thông minh hơn là cách tìm kiếm truyền thống.
Ví dụ: người ta đặt trong phòng phẫu thuật, phòng khám, phòng thủ thuật khoa sản, một con robot có khả năng thu thập tất cả data từ những lời nói trao đổi, cử chỉ thao tác, nét mặt cảm xúc, dữ liệu lâm sàng, tín hiệu sinh tồn, tín hiệu vật lý, kết quả xét nghiệm, các chẩn đoán, và cả các phát đồ, quy trình kỹ thuật đã được nghiên cứu chuẩn hóa và áp dụng. Và quy mô không chỉ một phòng khám, một bệnh viện, mà phải kết nối rất nhiều nơi, nhiều vùng địa lý khác nhau.
Trong sản khoa, chủ đề mà các bác sĩ quan tâm nhiều nhất là tiền sản giật, vì nó gây chết người nhiều và gây nên cơn ác mộng cho nhiều bác sĩ sản khoa. Một mô hình tiên lượng toàn diện, cảnh báo càng sớm càng tốt tai biến này và một phát đồ xử trí toàn diện được tích hợp vào các phương tiện thiết bị thông minh nào đó là một mơ ước của các bác sĩ chúng ta.
Hoặc một vài ứng dụng trong lĩnh vực khác như:
– Dự báo thời tiết: hàng trăm triệu cảm biến được đặt trong một khu vực địa lý nào đó, thu thập hàng triệu tỷ tín hiệu, giúp chúng ta hiểu được các cơn bão vào dự báo tốt hơn về nó.
– Giao thông: hàng chục ngàn camera trong thành phố, thu thập hàng trăm tỷ tín hiệu di chuyển, điều kiện giao thông, giúp chúng ta dự báo và can thiệp sớm vào các đèn tín hiệu hay gợi ý cho cảnh sát giao thông điều tiết phân luồng nhằm giảm ùn tắc.
– Bán lẻ: hàng chục ngàn camera gắn trong các siêu thị, cửa hàng tiện lợi, tiệm tạp hóa, đổ về hàng trăm tỷ tín hiệu về cử chỉ nét mặt, hành vi lựa chọn, quyết định, giúp chúng ta dự báo sớm hơn sự thay đổi trong hành vi thói quen tiêu dùng.
>>> Khoa học dữ liệu và Y học thực chứng (Evidence based medicine – EBM)
Trọng tâm của EBM là kiểm định giả thuyết, hay trả lời một kết luận nào đó là đúng hay sai.
Để làm được việc đó, một nghiên cứu EBM trước hết phải phát biểu một giả thuyết. Và để có được giả thuyết này, người nghiên cứu phải biện luận từ những lý thuyết có trước, hoặc có thể đặt ra một hoài nghi “mang tính trực giác” nào đó. Tuy nhiên, nếu không biện luận ra từ một giả thuyết có trước, nghiên cứu khó mà được chấp nhận cho làm.
Kế đến, các phương pháp và lý thuyết toán thống kê (statistics), các vấn đề về đạo đức y khoa phải được tuân thủ nghiêm ngặt. Thì các kết luận mới được xem là có giá trị, và được công nhân.
Dữ liệu trong EBM phục vụ cho việc tạo ra kết luận. Cỡ mẫu nhằm để thỏa mãn thuyết phục về độ tin cậy của kết luận. NGHĨA LÀ DATA BỊ DẪN DẮT BỞI CÁC LÝ THUYẾT. Thu thập dữ liệu gì, lúc nào, thu thập ra sao, ở đâu,…là do các lý thuyết dẫn hướng.
Trong khi với data science, DATA LÀ CÁI GÌ ĐÓ DIỄN RA Ở THẾ GIỚI THỰC mà ta có thể thu thập được và bằng những kỹ thuật khai thác (mining) ta diễn dịch (Interpret) nó thành các nguyên lý hay quy luật (lý thuyết) nào đó dùng để giải quyết vấn đề hay giúp ra quyết định gì đó.
Đây là điểm khác biệt cốt lõi của EBM và Data science.
>>>> Những thách thức cho thiết kế platform để thu thập data.
Data là cái gì trong thế giới thực, đôi khi nó vượt qua hiểu biết và trí tưởng tượng của con người. Tiếng rên rỉ của bệnh nhân khi đi toilet đôi khi cũng là một data quan trọng nào đó !
Do đó, ta nên bắt đầu bằng các PROBLEM. Ví dụ: tai biến sản khoa, đột quỵ, sốc phản vệ, sốc nhiễm trùng…Và đương nhiên chọn problem gì để xoáy sâu, có mối quan hệ mật thiết với chiến lược Best-in-Class của chúng ta.
Và thiết kế những platform để thu thập càng nhiều dữ liệu càng tốt, càng đa dạng dữ liệu càng tốt, trong điều kiện kinh phí cho phép, và cả dùng trực giác khoa học của các bác sĩ lâm sàng.
Điều quan trọng là xây dựng các cổ máy (giải thuật máy học) để ngày đêm khai thác núi dữ liệu này, và đến ngày nào đó chúng ta sẽ phát hiện ra những quy luật mới, chưa từng được biết trước đó, để giải quyết các vấn đề nan giải của chúng ta.
Chúc thành công!

Vui lòng trả lời câu hỏi sau: 1 + 1 bằng mấy?

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *