23. Big data và cái giá của thông tin cá nhân

Trong quyển sách “Big data, a revolution that will transform how we live, work, and think” của Viktor Mayer-Schönberger và Kenneth Cukier [1], các tác giả đã nói về cuộc cách mạng của Big data đối với cuộc sống của chúng ta, ít nhất là đối với nước Mỹ. Quả thật tôi đã cảm thấy phấn khích khi đọc phần đầu của cuốc sách, nhưng càng về sau tôi lại thấy các tác giả đã đi qua xá trong suy luận của mình đối với Big data [2]. Đúng chất của người Mỹ, họ đã vẽ ra bức tranh khá đa dạng về chi tiết và nhiều màu sắc trước khi kết thúc bằng những kết luận khiêm tốn. Việc nhận định Big data như một thực thể có thể thay thế những lý thuyết khoa học trong một số trường hợp là điều đã vượt mức giới hạn của sự suy luận, chứ chưa nói đến chứng minh. Nếu bạn đã đọc cuốn sách này rồi thì có thể bỏ qua ba phần tiếp theo, chỉ đọc hai phần cuối. Trong ba phần tiếp theo, tôi sẽ giới thiệu lại Big data theo cách nhận định của tôi. Phần thứ tư tôi nói về vần đề đang gây tranh cãi hiện nay, đó là cư xử thế nào đối với thông tin người dùng khi mà nó đang được các tập đoàn lớn sử dụng để kiếm tiền, còn người dùng thì không có xu nào. Phần thứ năm tôi tập trung vào phản bác những nhận định của một số người trong giới khoa học máy tính, khi họ muốn sử dụng Big data như liệu pháp thay thế cho cách suy luận nhân-quả đã tồn tại trong cuộc sống hàng ngàn năm nay.



Thời của Big Data

Nếu bạn chưa hề nghe đến Big data thì có nghĩa bạn không phải là dân khoa học máy tính, vì thế, để cho dễ hiểu thì tôi sẽ nói đến những ứng dụng của Big data cho bạn dễ tiếp cận. Tôi sẽ lấy ba ví dụ tiêu biểu được đề cập đến trong quyển sách nói trên.

Ví dụ 1: Khi dịch cúm H1N1 lan truyền ở nước Mỹ năm 2009, chính quyền rất khó khăn trong việc xác định những khu vực nào mà dịch cúm đã lây lan tới. Cách làm truyền thống của họ và chờ đợi những báo cáo từ các trung tâm y tế địa phương, nhưng cách làm này khá chậm vì khi các Trung tâm y tế trên khắp nước Mỹ chỉ có thể cập nhật tin tức số ca bị cúm sớm nhất mỗi tuần một lần. Vì thế khi Trung tam Kiểm soát và Phòng chống dịch bệnh (CDC) có được số liệu thì dịch cúm đã lây thêm ra khu vực khác rồi, có nghĩa là số liệu đã bị lạc hậu ngay khi đến tay CDC. Lúc này, vị cứu tinh đã tới, đó chính là Google. Họ sử dụng dữ liệu tìm kiếm của người dùng về dịch cúm, cái mà họ có dữ liệu rất lớn, để xác định vùng đang bị cúm, ngay tức thì. Như vậy làm sao Google có thể khẳng định vùng nào đó có một số người đang tìm hiểu về biểu hiện dịch cúm và cách phòng trị nó là vùng đang có dịch cúm? Nếu chỉ dùng một lượng dữ liệu ít thì sẽ không chính xác, nhưng Google có lượng dữ liệu lớn và “tươi rói” vì được cập nhật liên tục nên họ đã dự đoán được vùng bị cúm bằng các mô hình toán học. Tất nhiên, tính chính xác không thể 100% nhưng nó nhanh chóng và độ chính xác chấp nhận được.

Ví dụ 2: Chắc bạn biết gã khổng lồ trong lĩnh vực bán sách trực tuyến Amazon, khi bắt đầu mở cửa hàng sách trên mạng, CEO Jeffrey P. Bezos đã phải thuê nhiều nhà phê bình sách viết những đánh giá về các quyển sách để gợi ý cho người dùng nên mua quyển sách nào. Những nhà phê bình sách này hoàn toàn không để ý tới độc giả là ai mà chỉ để ý tới quyển sách, vì thế họ chỉ có thể làm thỏa mãn một số ít người có quan tâm đến nội dung quyển sách mà họ đề cập. Khi Amazon ứng dụng Big data để dự toán sở thích của người đọc dựa trên những quyển sách mà họ đã mua trước đó, sau đó đề nghị họ mua những quyển sách mà mô hình Big data của Amazon chỉ ra, doanh số bán hàng tăng lên nhanh chóng. Kết quả là những nhà phê bình sách mất việc.

Ví dụ 3: Các hãng máy bay bán vé với giá cả khác nhau tùy thời điểm trong năm và tùy chuyến bay, lộ trình, số lượng vé hiện tại, vị trí ghế ngồi... Khi một người muốn mua vé máy bay thì phần lớn họ chỉ khảo sát giá cả của các hãng khác nhau vào thời điểm đặt mua. Nếu như bạn có kế hoạch bay trước đó hàng tháng trời hoặc chưa có kế hoạch cụ thể vì bạn có thể bay bất cứ lúc nào trong khoảng thời gian định trước, bạn sẽ đặt vé thế nào nếu như bạn không biết nên mua của hãng nào hoặc nên mua vào thời điểm nào để có giá rẻ nhất. Nếu mua một cách ngẫu nhiên như thế thì có nhiều khả năng bạn sẽ không chọn được tấm vé có giá rẻ nhất có thể. Nhà khoa học máy tính Oren Etzioni đã nhận thấy điều này trong một lần mua vé cho chuyến bay của mình và đã áp dụng Big data để tìm chuyến bay nào nên đi, thời điểm nào, vị trí ghế ngồi có vé rẻ nhất có thể. Sau đó ông ta lập hẳn công ty chuyên cung cấp thông tin về xu hướng tăng giảm của giá vé các chuyến bay mà mọi người nên mua với giá tốt nhất. Dữ liệu về giá vé của công ty này có được từ các hãng hàng không nên thông tin về giá vé mà họ cung cấp cho khách hàng là tương đối chính xác.

Các bạn nên lưu ý rằng những kết quả của dự đoán có được khi áp dụng mô hình của Big data có thể rất bất ngờ đối với suy nghĩ của chúng ta và hầu như không suy đoán được bằng cách thông thường. Như đối ví dụ 2, nếu bạn chỉ gợi ý cho khách hàng mua sách cùng danh mục, cùng chủ đề, hay cùng tác giả thì đó không phải là mô hình của Big data, vì không cần dữ liệu lớn chúng ta cũng có thể đưa ra đề nghị như thế cho khách hàng. Nếu một ai đó mua một số quyển sách về truyện trinh thám, phiêu lưu thì mô hình của Big data có thể đưa ra đề nghị quyển sách tiếp theo có thể là quyển sách về khoa học hay truyện tiếu lâm. Các bạn có thể cười với ý kiến trên nhưng thực tế đã chứng minh người đó sẽ mua những cuốn sách như vậy, vì thế mà doanh số Amazon mới tăng cao. Bạn muốn giải thích ư? Nếu có thể giải thích được thì có lẽ không cần đến Big data. Mô hình này dựa trên dữ liệu và đưa ra các dự đoán có độ chính xác chấp nhận được và hầu như không quan tâm đến Tại sao? như thế, chỉ quan tâm đến Thế nào?.

Yếu tố quan trọng của Big data chính là bạn phải có lượng dữ liệu lớn, chứa nhiều thông tin hỗn tạp, sau đó bạn xác định số chiều của dữ liệu và biểu diễn chúng dưới dạng quy tắc thống nhất (các tensor), kế đến sử dụng các thuật toán của khoa học máy tính để xây dựng mô hình, tối ưu hóa mô hình và đưa ra kết quả. Mục tiêu của các thuật toán là tìm mối tương quan giữa các tensor trong mớ hỗn độn thông tin mà dữ liệu mang lại. Do dữ liệu lớn và hỗn độn nên các kết quả thường không thể đạt độ chính xác cao, nhưng có thể chấp nhận được. Nếu so với mô hình truyền thống là chọn mẫu đại diện trong mớ dữ liệu rồi sử dụng các nguyên tắc thông kê thì kết quả không phải lúc nào cũng tốt. Nó phụ thuộc rất nhiều vào tính ngẫu nhiên và tính đại diện của mẫu.

Tôi lấy thêm ví dụ về việc ứng dụng Big data trong việc xét duyệt các hồ sơ yêu cầu thanh toán bảo hiểm sau tai nạn, cái mà IBM đã thực hiện từ lâu. Dựa vào thông tin lịch sử của tất cả khách hàng, công ty bảo hiểm sẽ xây dựng mô hình dự đoán khả năng một hồ sơ của một khách hàng yêu cầu thanh toán bảo hiểm có xác suất gian lận bao nhiêu phần trăm để tiến hành điều tra kỹ hơn. Nếu công việc này do con người thực hiện thì họ sẽ mất rất nhiều thời gian để có thể tiến tới nghi ngờ hồ sơ bảo hiểm đó có khả năng gian lận hay không. Với Big data, máy tính sẽ làm việc đó nhanh chóng, ít tốn kém.

Các công ty công nghệ đang đua nhau ứng dụng Big data để thu lợi từ lượng dữ liệu người dùng họ đang có hay mua dữ liệu từ nguồn khác. Các tổ chức hay chính phủ các nước phát triển cũng tham gia vào lĩnh vực này để có thể tìm ra giải pháp hay ra những chính sách phù hợp với người dân. Thời của dữ liệu lớn đang bùng nổ.

Đối với Big data, vấn đề quan trọng không phải thuật toán hay sức mạnh của CPU, mà quan trọng chính là số lượng dữ liệu và chất lượng dữ liệu. Có rất nhiều cơ quan, tổ chức, công ty lưu trữ dữ liệu người dùng nhưng không biết cách khai thác chúng. Bạn có ngạc nhiên tại sao Facebook với tổng tài sản hiện có chỉ hơn 4 tỷ USD nhưng lại được định giá hơn 100 tỷ USD trên thị trường không ? Chính lượng dữ liệu người dùng có giá trị của hơn 96 tỷ USD còn lại. Dữ liệu bây giờ là tài nguyên cũng như dầu mỏ, nếu biết khai thác sẽ mang đến nguồn lợi to lớn, nhưng nếu sở hữu nó bạn cũng sẽ có nguồn lợi to lớn không kém.

Sức mạnh của dữ liệu

Có thể nói vào thời điểm hiện nay, các công ty mạng xã hội sở hữu một lượng lớn dữ liệu người dùng, có thể chỉ sau các chính phủ các nước lớn như Trung Quốc, Ấn Độ. Facebook, Twitter, Lindle Sina Weibo,... đang sở hữu nguồn tài nguyên trong các trung tâm dữ liệu của họ. Không thể không kể đến Google, Microsoft, Apple cũng có lượng dữ liệu không kém. Riêng Google thì tôi cho rằng họ còn hơn tất cả hãng còn lại, không chỉ riêng thông tin người dùng mà hầu như họ có rất nhiều loại dữ liệu khác. Nếu Walmart chỉ cần dữ liệu của khách hàng để biết chuẩn bị hàng hóa nào cần trưng bày nhiều ở đâu, vào thời điểm nào trong năm thì Google biết được người dân ở vùng nào đó trên thế giới thích mua loại quần áo nào vào thời điểm nào. Khi một quốc gia có nhiều tài nguyên thì mặc nhiên họ có một sức mạnh tiềm ẩn đối với các nước phụ thuộc vào nguồn tài nguyên đó, giống như sức mạnh khí đốt của Nga đối với Châu Âu. Tương tự như đối với nguồn tài nguyên dữ liệu, các công ty sở hữu lượng dữ liệu lớn sẽ có lợi thế cạnh tranh tốt hơn những công ty còn lại. Nếu Google có thể biết được vùng nào đó đang bị dịch cúm hoành hành thì họ cũng biết được nên bán điện thoại nào ở vùng đó, tất cả chỉ dựa trên thông tin tìm kiếm của người dùng.

Kinh tế học hành vi [3] là một ngành còn khá mới hiện nay, nghiên cứu các quyết định kinh tế dựa trên hành vi của người dùng, nó được kết hợp giữa kinh tế học và tâm lý học. Cái khó của những nhà kinh tế học hành vi chính là làm sao biết được hành vi tiêu dùng của khách hàng để đưa ra các quyết định kinh tế hiệu quả, hay để chính phủ đưa ra chính sách phù hợp với người dân. Nếu việc nghiên cứu hành vi của khách hàng được sự hỗ trợ của Big data thì các công ty sẽ biết mình nên sản xuất mặt hàng gì, vào thời gian nào, bán ở đâu để tối đa hóa lợi nhuận. Khi mà nền công nghiệp đã phát triển đến mức có thể khiến sự chênh lệch về công nghệ không còn là vấn đề giữa các công ty thì khi đó các chiến lược kinh doanh sẽ đóng vai trò cho sự thành bại của công ty. Trong khi chiến lược kinh doanh được dẫn dắt bởi các nhà kinh tế học hành vi thì vai trò của Big data là vô cùng to lớn. Khi đó, công ty nào sở hữu nhiều dữ liệu người dùng thì sẽ chiếm lợi thế hơn những công ty còn lại. Đây chính là sức mạnh của dữ liệu.

Đến đây, tôi xin trở lại với Facebook, hãng này đã mua lại Whatsapp với cái giá 19 tỷ USD, trong khi Whatsapp chỉ có 50 nhân viên trên toàn cầu nhưng lại có đến 400 triệu người dùng. Theo bạn thì 50 nhân viên đó đáng giá bảo nhiểu tỷ USD?

Khi dữ liệu trở nên quan trọng thì các công ty, tổ chức, chính phủ bắt đầu để ý đến nguồn lợi mà nó mang lại. Không giống như các nguồn tài nguyên thiên nhiên, vốn chỉ sử dụng một lần, dữ liệu có thể tái sử dụng nhiều lần cho nhiều mục đích khác nhau. Vì thế việc chia sẽ dữ liệu là đều không tránh khỏi. Nhưng dữ liệu bây giờ đang mang giá trị rất lớn thì nó không thể chia sẽ miền phí được, mà phải thông qua việc mua bán dữ liệu. Khi đó, việc hình thành nên thị trường dữ liệu là điều không tránh khỏi. Nếu tồn tại thị trường dữ liệu thì các nhà làm luật ở các quốc gia không thể để nó hoạt động ngoài khuôn khổ pháp luật. Khi đó, luật mua bán dữ liệu sẽ ra đời, giống như luật thương mại điện tử, luật chứng khoán đã từng xuất hiện như thế. Nhưng cái khó chính là dữ liệu có giá trị tiềm ẩn, giá trị của nó có thật sự lớn hay không phụ thuộc vào mục đích sử dụng nó. Vì thề không thể định giá dữ liệu bằng cách cân đo được, mà định giá bằng lợi nhuận thu được thì rất khó thực hiện. Vì khi dữ liệu được sử dụng thì nó chỉ mới giúp công ty hình thành chiến lược kinh doanh, chứ chưa mang đến lợi nhuận. Đến khi mang đến lợi nhuận thì làm thế nào biết tỷ lệ đóng góp của dữ liệu đó trong tổng lợi nhuận. Vì thế định giá dữ liệu vào lúc này lại càng khó khăn. Còn nếu việc kinh doanh không mang đến lợi nhuận hay thua lỗ thì chủ sở hữu của dữ liệu sẽ thu lợi từ đâu?


Định giá dữ liệu

Một trong những phương pháp định giá dữ liệu mà hai tác giả của quyển sách nêu trên đề nghị chính là cho thuê dữ liệu. Khi một công ty hay chính phủ có nguồn dữ liệu lớn, họ có thể cho các công ty khác thuê lại để khai thác theo mục đích riêng. Giá thuê đối với từng loại dữ liệu có thể quyết định dựa trên thị trường tự do, tức là hoạt động dựa trên quy luật cung cầu. Các công ty đang cạnh tranh trực tiếp với nhau có thể thuê cùng loại dữ liệu của cùng một công ty, lúc này lợi thế cạnh tranh sẽ phụ thuộc vào việc khai thác dữ liệu. Ngoài ra, dữ liệu có thể được cho các công ty tư vấn thuê để đưa ra các giải pháp kinh doanh, sau đó bán giải pháp kinh doanh cho bên thứ ba. Thực tế thì hiện nay tại Mỹ có nhiều công ty hoạt động dựa trên loại hình từ vấn này, như ví dụ 3 đã đề cập về việc tư vấn mua vé máy bay. Một viễn cảnh mà tôi có thể hình dung ra là các công ty niêm yết trên sàn Dow Jones [4] có thể thuê dữ liệu của các công ty trên sàn NASDAQ [5] cho việc hoạch định chiến lược kinh doanh.
Các chính phủ cũng có thể dữ liệu của người dân đem cho thuê nhằm thu thêm tiền cho ngân sách, với điều kiện những dữ liệu đó không ảnh hưởng đến cá nhân người dân. Tương tự như thế đối với các tổ chức xã hội như công đoàn lao động, nghiệp toàn taxi,... và ngay cả Liên Hợp Quốc cũng có thể kiếm thêm tiền từ dữ liệu mình có.

Vấn đề đặt ra lúc này là hầu như tất cả dữ liệu mà các công ty, chính phủ, tổ chức đang sở hữu là từ việc họ thu thập thông quan dịch vụ cung ứng cho người dân hay chính sách bắt buộc người dân phải cung cấp thông tin cho chính phủ. Như vậy, việc sử dụng thông tin cá nhân cho mục địch thương mại thì người dân được hưởng lợi gì từ đó. Chưa kể đến việc thông tin cá nhân đó bị sử dụng sai mục đích hay vượt quá mức cho phép có thể ảnh hưởng đến tự do cá nhân. Nếu sử dụng sai mục đích thì có thể bị pháp luật xử lý, nhưng vượt giới hạn cho phép thì chúng ta phải hiểu thế nào là giới hạn cho phép đối với một kho dữ liệu người dùng. Liệu luật pháp có thể luật hóa hết những tình huống sử dụng dữ liệu cá nhân để có thể xử lý những công ty vi phạm không? Đây lại là vấn đề khó khăn, chúng ta buộc phải quay lại với người dùng để xem liệu họ có nên cung cấp dữ liệu một cách chủ động cho các công ty hay có thể thưa kiện các công ty thu thập dữ liệu bí mật không? Để đánh đổi lại việc có thể sử dụng Facebook miễn phí hay sự phục vụ chu đáo của Amazon thì người dùng có chấp nhận thỏa hiệp với những công ty này để cho phép họ sử dụng thông tin cá nhân của mình không?

[6] NASDAQ

Thỏa hiệp hay không?

Theo ý kiến cá nhân tôi thì chúng ta buộc phải thỏa hiệp, phần còn lại là chúng ta hy vọng luật pháp sẽ bảo vệ thông tin chúng ta. Bạn không thể không cung cấp thông tin cá nhân cho các mạng xã hội hay các nhà cung cấp dịch vụ như Google, Yahoo,... Mặt khác, nếu Amazon không thu thập thông tin mua sách của bạn thì họ sẽ không thể phục vụ bạn tốt hơn. Nhưng nếu chúng ta thỏa hiệp với những công ty để họ thu thập thông tin cá nhân cũng như hành vi của chúng ta trên mạng thì điều này buộc phải được công khai và được pháp luật bảo vệ. Phần lớn những công ty muốn lờ đi thỏa hiệp này nên họ thường đưa ra các quy định sử dụng dịch vụ của mình khá phức tạp nên khiến cho người dùng không muốn đọc chúng mà chấp nhận chúng một cách dễ dàng chỉ bẳng cách nhấn “I Agree”. Chính quyền nên kiểm soát việc sử dụng dữ liệu cá nhân của các công ty để tránh việc thu thập quá mức thông tin và sử dụng chúng sai mục đích. Cái khó ở đây chính là làm sao chính quyền có thể giám sát việc sử dụng dữ liệu của các công ty. Nếu công ty bị hacker trộm dữ liệu thì rõ ràng họ không thể chịu trách nhiệm pháp lý, nhưng người dùng thì lãnh đủ. Ngoài ra, những công ty lớn sẽ quan tâm nhiều hơn đến việc bảo vệ của người dùng và quan tâm đến việc vi phạm tính riêng tư vì họ có thể lãnh hậu quả năng nề nếu mọi chuyện bị phanh phui. Nhưng với những công ty nhỏ thì rõ ràng họ có thể qua mặt người dùng và ít có khả năng bảo vệ dữ liệu người dùng.

Vì thế, với tư cách là các cá nhân có liên quan trực tiếp, chúng ta cần cẩn trọng hơn khi cung cấp thông tin cho các công ty. Tôi đã từng đọc được một bài báo phàn nàn của một chuyên gia IT đối với công ty cung cấp sản phẩm khi họ yêu cầu ông để lại địa chỉ email. Đó quả thật là phản ứng hợp lý, bởi vì có nhiều công ty muốn biết càng nhiều thông tin của bạn càng tốt, nhưng lại có những thông tin không cần thiết phải cung cấp cho họ. Khi bạn bị yêu cầu cung cấp thông tin, chúng ta phải suy nghĩ một chút trước khi quyết định cho họ biết thông tin cá nhân của mình. Đôi khi yêu cầu của họ là chính đáng, nhưng đôi khi thì không.

Cách đây vài năm, khi mà các diễn đàn trên mạng nở rộ, chúng ta (trong đó có tôi) đã tham gia các diễn đàn này một cách vô tư, điền vào form đăng ký của họ một cách vô tư vì chúng ta nghĩ họ sẽ làm gì được với những thông tin đó. Rất nhiều diễn đàn do một số người nào đó mở ra mà không có tư cách pháp lý, họ đã thu được rất nhiều thông tin người dùng. Sau đó một thời gian thì thị trường mua bán dữ liệu cá nhân âm thầm được hình thành [7]. Các công ty marketing mua lại những dữ liệu này để tiến hành “chiến dịch làm phiền” người dùng. Có khi nào bạn tự hỏi tại sao những công ty ở đâu đó tự nhiên gởi email cho bạn để chào hàng sản phẩm không? Làm sao họ biết được email của bạn. Tương tự như vậy, lâu lâu tôi lại nhận được tin nhắn hay cuộc gọi của những công ty bảo hiểm, cho thuê tài chính, quảng cáo sản phẩm,… Tôi cũng đã tự hỏi làm sao họ có số điện thoại của tôi và biết cả tên tôi. Có thể các cá nhân hay công ty này không biết cách khai thác dữ liệu bằng mô hình Big data, nhưng họ chính là những người tiên phong hình thành nên chợ dữ liệu đen.

Chúng ta là người dùng, chúng ta chấp nhận thỏa hiệp nhưng chúng ta mong muốn luật pháp bảo vệ sự riêng tư. Chính vì thế mà các nhà làm luật phải theo kịp tiến độ hình thành nên thị trường dữ liệu. Nhưng tôi cảm thấy bi quan đối với các nhà làm luật Việt Nam. Càng bi quan hơn nữa khi mà NSA đã theo dõi cả thế giới này một cách bí mật dưới sự cho phép của chính phủ Mỹ. Nếu muốn biết thêm thông tin về vấn đề này, vui lòng đọc bài NSA – 61398 : Cuộc chiến tranh mạng khốc liệt [8] của tôi.

Trong bài viết Thông tin thực và ảo [9], tôi đã gợi ý một giải pháp để hạn chế rủi ro về thông tin trên mạng đó là tạo ra hai tài khoản cũng như hai mật khẩu khác nhau. Một cái cho các dịch vụ đáng tin cậy, một cái cho những thứ còn lại. Một cái là thông tin thật, một cái là thông tin giả. Trong khi tôi viết bài này thì lỗ hổng Heartbleed đang khiến nhiều thông tin khách hàng bị đánh cắp chỉ vì sai sót của người tạo ra OpenSSL [10]. Đây là những lỗi ngoài ý muốn, nhưng người dùng đang phải chịu rủi ro khi mà họ không làm gì nên tội ngoài việc cung cấp thông tin cho các dịch vụ trên mạng. Bạn có thấy nghịch lý khi các công ty sử dụng dữ liệu của chúng ta để kiếm tiền, nhưng khi có sự cố xảy ra thì chúng ta buộc phải chia sẽ rủi ro với họ không?


Giải pháp tạm thời hay cuộc cách mạng cho khoa học

Trở lại với Big data và quyển sách mà tôi đã đọc, khi đọc đến phần hai tác giả ca ngợi Big data như một cuộc cách mạng có thể loại phương pháp suy luận theo luật nhân-quả ra khỏi cuộc chơi trong một số lĩnh vực, tôi đã rất thất vọng về quyển sách. Mặc dù họ thừa nhận là Big data không thể thay thế lý thuyết khoa học hoàn toàn nhưng tôi cho rằng Big data cũng chưa tới mức làm chúng ta quên đi việc tìm ra nguyên nhân cho một hiện tượng tự nhiên hay xã hội nào đó. Vấn đề ở đây chính là Khoa học luôn đi chậm hơn những gì xảy ra trong thực tế, và nó luôn như vậy. Việc Khoa học chưa thể giải thích được một hiện tượng nào đó thì không có nghĩa là chúng ta không cần Khoa học nữa. Trong một lĩnh vực ứng dụng như công nghệ, việc các công ty không thể chờ để giải thích một hiện tượng nào đó cũng là điều dễ hiểu, vì xét cho cùng thì họ cần kết quả hơn lời giải thích. Nhưng nếu họ chỉ cần sử dụng máy tính để tìm ra kết quả mà không cần tìm lời giải thích sẽ hạn chế sự phát triển của chính họ trong tương lai. Bởi vì cách làm của họ cũng chỉ giống như cách làm của những người học nghề điện tử, họ có thể không biết nhiều về Vật lý, nhưng họ có thể sửa chữa được máy cassette, đơn giản là chỉ làm theo một số quy tắc và mày mò các trường hợp có thể xảy ra. Nhưng nếu họ muốn trở thành chuyên gia hay kỹ sư thì họ buộc phải hiểu rõ về những lý thuyết Vật lý đang được áp dụng trong cái máy cassette ấy. Chính vì thế mà tôi cho rằng Big data cũng như những thuật toán đằng sau nó như Machine Learning cũng chỉ là giải pháp tạm thời cho đến khi Toán học đuổi kịp Khoa học máy tính.

Trong trường hợp Toán học không thể có một cuộc cách mạng trong chính nó, nghĩa là nó thất bại trước những gì mà Khoa học thực nghiệm tìm ra thì chúng ta có thể coi như nó chết lâm sàng. Khi đó một cách tiếp cận mới sẽ được hình thành để giải quyết những bài toán chưa có lời giải. Một trong các cách tiếp cận mới đã được đề cập trong quyển sách A new kind of science của Stephen Wolfram [11]. Ý tưởng của Wolfram là sử dụng chương trình máy tính để tái tạo lại vũ trụ theo những quy tắc dành riêng cho máy tính thay gì các định luật Vật lý hay các phương trình Toán học. Ý tưởng gây tranh cãi này có thể coi như một cách tiếp cận khác so với nền khoa học hàng ngàn năm nay. Nếu như những ý tưởng muốn tạo nên một loại hình khoa học khác thành công thì những cái như Big data mới có chỗ dựa vững chắc hơn. Nhưng loại hình Khoa học dựa trên máy tính sẽ xa rời tư duy của con người, vốn được xây dựng dựa trên luật nhân quả kể từ thuở sơ khai. Nếu những phim khoa học viễn tưởng như Transformer thành hiện thực, thì con người sẽ bị máy móc xâm chiếm, khi đó tôi mới tin rằng chúng ta không cần hiểu nguyên nhân vì sao, mà chỉ cần biết thế nào.

Tuy nhiên, thời của máy móc vẫn còn lâu mới đến, nhưng nếu chúng ta tin tưởng vào Big data như một liều thuốc trị chứng bệnh nan y hiện nay mà không cần biết cách nó làm thế nào thì chúng ta đang tiến nhanh về kỷ nguyên của máy móc và “bum”!



Nhận xét