23. Big data và cái giá của thông tin cá nhân
Trong
quyển sách “Big
data, a revolution that will transform how we live, work, and think”
của Viktor
Mayer-Schönberger và Kenneth Cukier
[1], các tác giả đã nói về cuộc cách mạng của Big
data đối với cuộc sống của chúng ta, ít nhất là đối
với nước Mỹ. Quả thật tôi đã cảm thấy phấn khích
khi đọc phần đầu của cuốc sách, nhưng càng về sau
tôi lại thấy các tác giả đã đi qua xá trong suy luận
của mình đối với Big data [2]. Đúng chất của người
Mỹ, họ đã vẽ ra bức tranh khá đa dạng về chi tiết
và nhiều màu sắc trước khi kết thúc bằng những kết
luận khiêm tốn. Việc nhận định Big data như một thực
thể có thể thay thế những lý thuyết khoa học trong một
số trường hợp là điều đã vượt mức giới hạn của
sự suy luận, chứ chưa nói đến chứng minh. Nếu bạn đã
đọc cuốn sách này rồi thì có thể bỏ qua ba phần tiếp
theo, chỉ đọc hai phần cuối. Trong ba phần tiếp theo,
tôi sẽ giới thiệu lại Big data theo cách nhận định của
tôi. Phần thứ tư tôi nói về vần đề đang gây tranh
cãi hiện nay, đó là cư xử thế nào đối với thông tin
người dùng khi mà nó đang được các tập đoàn lớn sử
dụng để kiếm tiền, còn người dùng thì không có xu
nào. Phần thứ năm tôi tập trung vào phản bác những nhận định của một số người trong giới khoa học máy tính, khi họ muốn sử dụng
Big data như liệu pháp thay thế cho cách suy luận nhân-quả
đã tồn tại trong cuộc sống hàng ngàn năm nay.
[2] Big
data
Thời của Big Data
Nếu
bạn chưa hề nghe đến Big data thì có nghĩa bạn không
phải là dân khoa học máy tính, vì thế, để cho dễ hiểu
thì tôi sẽ nói đến những ứng dụng của Big data cho
bạn dễ tiếp cận. Tôi sẽ lấy ba ví dụ tiêu biểu
được đề cập đến trong quyển sách nói trên.
Ví
dụ 1: Khi dịch cúm H1N1 lan truyền ở nước Mỹ năm
2009, chính quyền rất khó khăn trong việc xác định những
khu vực nào mà dịch cúm đã lây lan tới. Cách làm truyền
thống của họ và chờ đợi những báo cáo từ các trung
tâm y tế địa phương, nhưng cách làm này khá chậm vì
khi các Trung tâm y tế trên khắp nước Mỹ chỉ có thể
cập nhật tin tức số ca bị cúm sớm nhất mỗi tuần
một lần. Vì thế khi Trung tam Kiểm soát và Phòng chống
dịch bệnh (CDC) có được số liệu thì dịch cúm đã
lây thêm ra khu vực khác rồi, có nghĩa là số liệu đã
bị lạc hậu ngay khi đến tay CDC. Lúc này, vị cứu tinh
đã tới, đó chính là Google. Họ sử dụng dữ liệu tìm
kiếm của người dùng về dịch cúm, cái mà họ có dữ
liệu rất lớn, để xác định vùng đang bị cúm, ngay
tức thì. Như vậy làm sao Google có thể khẳng định vùng
nào đó có một số người đang tìm hiểu về biểu hiện
dịch cúm và cách phòng trị nó là vùng đang có dịch
cúm? Nếu chỉ dùng một lượng dữ liệu ít thì sẽ
không chính xác, nhưng Google có lượng dữ liệu lớn và
“tươi rói” vì được cập nhật liên tục nên họ đã
dự đoán được vùng bị cúm bằng các mô hình toán học.
Tất nhiên, tính chính xác không thể 100% nhưng nó nhanh
chóng và độ chính xác chấp nhận được.
Ví
dụ 2: Chắc bạn
biết gã khổng lồ trong lĩnh vực bán sách trực tuyến
Amazon, khi bắt đầu mở cửa hàng sách trên mạng, CEO
Jeffrey P. Bezos đã
phải thuê nhiều nhà phê bình sách viết những đánh giá
về các quyển sách để gợi ý cho người dùng nên mua
quyển sách nào. Những nhà phê bình sách này hoàn toàn
không để ý tới độc giả là ai mà chỉ để ý tới
quyển sách, vì thế họ chỉ có thể làm thỏa mãn một
số ít người có quan tâm đến nội dung quyển sách mà
họ đề cập. Khi Amazon ứng dụng Big data để dự toán
sở thích của người đọc dựa trên những quyển sách
mà họ đã mua trước đó, sau đó đề nghị họ mua những
quyển sách mà mô hình Big data của Amazon chỉ ra, doanh số
bán hàng tăng lên nhanh chóng. Kết quả là những nhà phê
bình sách mất việc.
Ví
dụ 3: Các hãng máy bay bán vé với giá cả khác nhau
tùy thời điểm trong năm và tùy chuyến bay, lộ trình, số
lượng vé hiện tại, vị trí ghế ngồi... Khi một người
muốn mua vé máy bay thì phần lớn họ chỉ khảo sát giá
cả của các hãng khác nhau vào thời điểm đặt mua. Nếu
như bạn có kế hoạch bay trước đó hàng tháng trời
hoặc chưa có kế hoạch cụ thể vì bạn có thể bay bất
cứ lúc nào trong khoảng thời gian định trước, bạn sẽ
đặt vé thế nào nếu như bạn không biết nên mua của
hãng nào hoặc nên mua vào thời điểm nào để có giá rẻ
nhất. Nếu mua một cách ngẫu nhiên như thế thì có nhiều
khả năng bạn sẽ không chọn được tấm vé có giá rẻ
nhất có thể. Nhà khoa học máy tính Oren Etzioni đã nhận
thấy điều này trong một lần mua vé cho chuyến bay của
mình và đã áp dụng Big data để tìm chuyến bay nào nên
đi, thời điểm nào, vị trí ghế ngồi có vé rẻ nhất
có thể. Sau đó ông ta lập hẳn công ty chuyên cung cấp
thông tin về xu hướng tăng giảm của giá vé các chuyến
bay mà mọi người nên mua với giá tốt nhất. Dữ liệu
về giá vé của công ty này có được từ các hãng hàng
không nên thông tin về giá vé mà họ cung cấp cho khách
hàng là tương đối chính xác.
Các
bạn nên lưu ý rằng những kết quả của dự đoán có
được khi áp dụng mô hình của Big data có thể rất bất
ngờ đối với suy nghĩ của chúng ta và hầu như không
suy đoán được bằng cách thông thường. Như đối ví dụ
2, nếu bạn chỉ gợi ý cho khách hàng mua sách cùng danh
mục, cùng chủ đề, hay cùng tác giả thì đó không phải
là mô hình của Big data, vì không cần dữ liệu lớn
chúng ta cũng có thể đưa ra đề nghị như thế cho khách
hàng. Nếu một ai đó mua một số quyển sách về truyện
trinh thám, phiêu lưu thì mô hình của Big data có thể đưa
ra đề nghị quyển sách tiếp theo có thể là quyển sách
về khoa học hay truyện tiếu lâm. Các bạn có thể cười
với ý kiến trên nhưng thực tế đã chứng minh người
đó sẽ mua những cuốn sách như vậy, vì thế mà doanh số
Amazon mới tăng cao. Bạn muốn giải thích ư? Nếu có thể
giải thích được thì có lẽ không cần đến Big data. Mô
hình này dựa trên dữ liệu và đưa ra các dự đoán có
độ chính xác chấp nhận được và hầu như không quan
tâm đến Tại sao? như thế, chỉ quan tâm đến Thế
nào?.
Yếu
tố quan trọng của Big data chính là bạn phải có lượng
dữ liệu lớn, chứa nhiều thông tin hỗn tạp, sau đó
bạn xác định số chiều của dữ liệu và biểu diễn
chúng dưới dạng quy tắc thống nhất (các tensor), kế
đến sử dụng các thuật toán của khoa học máy tính để
xây dựng mô hình, tối ưu hóa mô hình và đưa ra kết
quả. Mục tiêu của các thuật toán là tìm mối tương
quan giữa các tensor trong mớ hỗn độn thông tin mà dữ
liệu mang lại. Do dữ liệu lớn và hỗn độn nên các
kết quả thường không thể đạt độ chính xác cao,
nhưng có thể chấp nhận được. Nếu so với mô hình
truyền thống là chọn mẫu đại diện trong mớ dữ liệu
rồi sử dụng các nguyên tắc thông kê thì kết quả
không phải lúc nào cũng tốt. Nó phụ thuộc rất nhiều
vào tính ngẫu nhiên và tính đại diện của mẫu.
Tôi
lấy thêm ví dụ về việc ứng dụng Big data trong việc
xét duyệt các hồ sơ yêu cầu thanh toán bảo hiểm sau
tai nạn, cái mà IBM đã thực hiện từ lâu. Dựa vào
thông tin lịch sử của tất cả khách hàng, công ty bảo
hiểm sẽ xây dựng mô hình dự đoán khả năng một hồ
sơ của một khách hàng yêu cầu thanh toán bảo hiểm có
xác suất gian lận bao nhiêu phần trăm để tiến hành
điều tra kỹ hơn. Nếu công việc này do con người thực
hiện thì họ sẽ mất rất nhiều thời gian để có thể
tiến tới nghi ngờ hồ sơ bảo hiểm đó có khả năng
gian lận hay không. Với Big data, máy tính sẽ làm việc đó
nhanh chóng, ít tốn kém.
Các
công ty công nghệ đang đua nhau ứng dụng Big data để thu
lợi từ lượng dữ liệu người dùng họ đang có hay mua
dữ liệu từ nguồn khác. Các tổ chức hay chính phủ các
nước phát triển cũng tham gia vào lĩnh vực này để có
thể tìm ra giải pháp hay ra những chính sách phù hợp với
người dân. Thời của dữ liệu lớn đang bùng nổ.
Đối
với Big data, vấn đề quan trọng không phải thuật toán
hay sức mạnh của CPU, mà quan trọng chính là số lượng
dữ liệu và chất lượng dữ liệu. Có rất nhiều cơ
quan, tổ chức, công ty lưu trữ dữ liệu người dùng
nhưng không biết cách khai thác chúng. Bạn có ngạc nhiên
tại sao Facebook với tổng tài sản hiện có chỉ hơn 4 tỷ
USD nhưng lại được định giá hơn 100 tỷ USD trên thị
trường không ? Chính lượng dữ liệu người dùng có giá
trị của hơn 96 tỷ USD còn lại. Dữ liệu bây giờ là
tài nguyên cũng như dầu mỏ, nếu biết khai thác sẽ mang
đến nguồn lợi to lớn, nhưng nếu sở hữu nó bạn cũng
sẽ có nguồn lợi to lớn không kém.
Sức mạnh của dữ liệu
Có
thể nói vào thời điểm hiện nay, các công ty mạng xã
hội sở hữu một lượng lớn dữ liệu người dùng, có
thể chỉ sau các chính phủ các nước lớn như Trung Quốc,
Ấn Độ. Facebook, Twitter, Lindle Sina Weibo,... đang sở hữu
nguồn tài nguyên trong các trung tâm dữ liệu của họ.
Không thể không kể đến Google, Microsoft, Apple cũng có
lượng dữ liệu không kém. Riêng Google thì tôi cho rằng
họ còn hơn tất cả hãng còn lại, không chỉ riêng thông
tin người dùng mà hầu như họ có rất nhiều loại dữ
liệu khác. Nếu Walmart chỉ cần dữ liệu của khách hàng
để biết chuẩn bị hàng hóa nào cần trưng bày nhiều ở
đâu, vào thời điểm nào trong năm thì Google biết được
người dân ở vùng nào đó trên thế giới thích mua loại
quần áo nào vào thời điểm nào. Khi một quốc gia có
nhiều tài nguyên thì mặc nhiên họ có một sức mạnh
tiềm ẩn đối với các nước phụ thuộc vào nguồn tài
nguyên đó, giống như sức mạnh khí đốt của Nga đối
với Châu Âu. Tương tự như đối với nguồn tài nguyên
dữ liệu, các công ty sở hữu lượng dữ liệu lớn sẽ
có lợi thế cạnh tranh tốt hơn những công ty còn lại.
Nếu Google có thể biết được vùng nào đó đang bị
dịch cúm hoành hành thì họ cũng biết được nên bán
điện thoại nào ở vùng đó, tất cả chỉ dựa trên
thông tin tìm kiếm của người dùng.
Kinh
tế học hành vi [3] là một ngành còn khá mới hiện nay,
nghiên cứu các quyết định kinh tế dựa trên hành vi của
người dùng, nó được kết hợp giữa kinh tế học và
tâm lý học. Cái khó của những nhà kinh tế học hành vi
chính là làm sao biết được hành vi tiêu dùng của khách
hàng để đưa ra các quyết định kinh tế hiệu quả, hay
để chính phủ đưa ra chính sách phù hợp với người
dân. Nếu việc nghiên cứu hành vi của khách hàng được
sự hỗ trợ của Big data thì các công ty sẽ biết mình
nên sản xuất mặt hàng gì, vào thời gian nào, bán ở
đâu để tối đa hóa lợi nhuận. Khi mà nền công nghiệp
đã phát triển đến mức có thể khiến sự chênh lệch
về công nghệ không còn là vấn đề giữa các công ty
thì khi đó các chiến lược kinh doanh sẽ đóng vai trò
cho sự thành bại của công ty. Trong khi chiến lược kinh
doanh được dẫn dắt bởi các nhà kinh tế học hành vi
thì vai trò của Big data là vô cùng to lớn. Khi đó, công
ty nào sở hữu nhiều dữ liệu người dùng thì sẽ chiếm
lợi thế hơn những công ty còn lại. Đây chính là sức
mạnh của dữ liệu.
Đến
đây, tôi xin trở lại với Facebook, hãng này đã mua lại
Whatsapp với cái giá 19 tỷ USD, trong khi Whatsapp chỉ có 50
nhân viên trên toàn cầu nhưng lại có đến 400 triệu
người dùng. Theo bạn thì 50 nhân viên đó đáng giá bảo
nhiểu tỷ USD?
Khi
dữ liệu trở nên quan trọng thì các công ty, tổ chức,
chính phủ bắt đầu để ý đến nguồn lợi mà nó mang
lại. Không giống như các nguồn tài nguyên thiên nhiên,
vốn chỉ sử dụng một lần, dữ liệu có thể tái sử
dụng nhiều lần cho nhiều mục đích khác nhau. Vì thế
việc chia sẽ dữ liệu là đều không tránh khỏi. Nhưng
dữ liệu bây giờ đang mang giá trị rất lớn thì nó
không thể chia sẽ miền phí được, mà phải thông qua
việc mua bán dữ liệu. Khi đó, việc hình thành nên thị
trường dữ liệu là điều không tránh khỏi. Nếu tồn
tại thị trường dữ liệu thì các nhà làm luật ở các
quốc gia không thể để nó hoạt động ngoài khuôn khổ
pháp luật. Khi đó, luật mua bán dữ liệu sẽ ra đời,
giống như luật thương mại điện tử, luật chứng khoán
đã từng xuất hiện như thế. Nhưng cái khó chính là dữ
liệu có giá trị tiềm ẩn, giá trị của nó có thật sự
lớn hay không phụ thuộc vào mục đích sử dụng nó. Vì
thề không thể định giá dữ liệu bằng cách cân đo
được, mà định giá bằng lợi nhuận thu được thì rất
khó thực hiện. Vì khi dữ liệu được sử dụng thì nó
chỉ mới giúp công ty hình thành chiến lược kinh doanh,
chứ chưa mang đến lợi nhuận. Đến khi mang đến lợi
nhuận thì làm thế nào biết tỷ lệ đóng góp của dữ
liệu đó trong tổng lợi nhuận. Vì thế định giá dữ
liệu vào lúc này lại càng khó khăn. Còn nếu việc kinh
doanh không mang đến lợi nhuận hay thua lỗ thì chủ sở
hữu của dữ liệu sẽ thu lợi từ đâu?
Định giá dữ liệu
Một
trong những phương pháp định giá dữ liệu mà hai tác
giả của quyển sách nêu trên đề nghị chính là cho thuê
dữ liệu. Khi một công ty hay chính phủ có nguồn dữ
liệu lớn, họ có thể cho các công ty khác thuê lại để
khai thác theo mục đích riêng. Giá thuê đối với từng
loại dữ liệu có thể quyết định dựa trên thị trường
tự do, tức là hoạt động dựa trên quy luật cung cầu.
Các công ty đang cạnh tranh trực tiếp với nhau có thể
thuê cùng loại dữ liệu của cùng một công ty, lúc này
lợi thế cạnh tranh sẽ phụ thuộc vào việc khai thác dữ
liệu. Ngoài ra, dữ liệu có thể được cho các công ty
tư vấn thuê để đưa ra các giải pháp kinh doanh, sau đó
bán giải pháp kinh doanh cho bên thứ ba. Thực tế thì hiện
nay tại Mỹ có nhiều công ty hoạt động dựa trên loại
hình từ vấn này, như ví dụ 3 đã đề cập về việc
tư vấn mua vé máy bay. Một viễn cảnh mà tôi có thể
hình dung ra là các công ty niêm yết trên sàn Dow Jones [4]
có thể thuê dữ liệu của các công ty trên sàn NASDAQ [5]
cho việc hoạch định chiến lược kinh doanh.
Các
chính phủ cũng có thể dữ liệu của người dân đem cho
thuê nhằm thu thêm tiền cho ngân sách, với điều kiện
những dữ liệu đó không ảnh hưởng đến cá nhân người
dân. Tương tự như thế đối với các tổ chức xã hội
như công đoàn lao động, nghiệp toàn taxi,... và ngay cả
Liên Hợp Quốc cũng có thể kiếm thêm tiền từ dữ liệu
mình có.
Vấn
đề đặt ra lúc này là hầu như tất cả dữ liệu mà
các công ty, chính phủ, tổ chức đang sở hữu là từ
việc họ thu thập thông quan dịch vụ cung ứng cho người
dân hay chính sách bắt buộc người dân phải cung cấp
thông tin cho chính phủ. Như vậy, việc sử dụng thông
tin cá nhân cho mục địch thương mại thì người dân
được hưởng lợi gì từ đó. Chưa kể đến việc thông
tin cá nhân đó bị sử dụng sai mục đích hay vượt quá
mức cho phép có thể ảnh hưởng đến tự do cá nhân.
Nếu sử dụng sai mục đích thì có thể bị pháp luật
xử lý, nhưng vượt giới hạn cho phép thì chúng ta phải
hiểu thế nào là giới hạn cho phép đối với một kho
dữ liệu người dùng. Liệu luật pháp có thể luật hóa
hết những tình huống sử dụng dữ liệu cá nhân để
có thể xử lý những công ty vi phạm không? Đây lại là
vấn đề khó khăn, chúng ta buộc phải quay lại với
người dùng để xem liệu họ có nên cung cấp dữ liệu
một cách chủ động cho các công ty hay có thể thưa kiện
các công ty thu thập dữ liệu bí mật không? Để đánh
đổi lại việc có thể sử dụng Facebook miễn phí hay sự
phục vụ chu đáo của Amazon thì người dùng có chấp
nhận thỏa hiệp với những công ty này để cho phép họ
sử dụng thông tin cá nhân của mình không?
[6]
NASDAQ
Thỏa hiệp hay không?
Theo
ý kiến cá nhân tôi thì chúng ta buộc phải thỏa hiệp,
phần còn lại là chúng ta hy vọng luật pháp sẽ bảo vệ
thông tin chúng ta. Bạn không thể không cung cấp thông tin
cá nhân cho các mạng xã hội hay các nhà cung cấp dịch
vụ như Google, Yahoo,... Mặt khác, nếu Amazon không thu thập
thông tin mua sách của bạn thì họ sẽ không thể phục
vụ bạn tốt hơn. Nhưng nếu chúng ta thỏa hiệp với
những công ty để họ thu thập thông tin cá nhân cũng như
hành vi của chúng ta trên mạng thì điều này buộc phải
được công khai và được pháp luật bảo vệ. Phần lớn
những công ty muốn lờ đi thỏa hiệp này nên họ thường
đưa ra các quy định sử dụng dịch vụ của mình khá
phức tạp nên khiến cho người dùng không muốn đọc
chúng mà chấp nhận chúng một cách dễ dàng chỉ bẳng
cách nhấn “I Agree”. Chính quyền nên kiểm soát việc
sử dụng dữ liệu cá nhân của các công ty để tránh
việc thu thập quá mức thông tin và sử dụng chúng sai
mục đích. Cái khó ở đây chính là làm sao chính quyền
có thể giám sát việc sử dụng dữ liệu của các công
ty. Nếu công ty bị hacker trộm dữ liệu thì rõ ràng họ
không thể chịu trách nhiệm pháp lý, nhưng người dùng
thì lãnh đủ. Ngoài ra, những công ty lớn sẽ quan tâm
nhiều hơn đến việc bảo vệ của người dùng và quan
tâm đến việc vi phạm tính riêng tư vì họ có thể lãnh
hậu quả năng nề nếu mọi chuyện bị phanh phui. Nhưng
với những công ty nhỏ thì rõ ràng họ có thể qua mặt
người dùng và ít có khả năng bảo vệ dữ liệu người
dùng.
Vì
thế, với tư cách là các cá nhân có liên quan trực tiếp,
chúng ta cần cẩn trọng hơn khi cung cấp thông tin cho các
công ty. Tôi đã từng đọc được một bài báo phàn nàn
của một chuyên gia IT đối với công ty cung cấp sản
phẩm khi họ yêu cầu ông để lại địa chỉ email. Đó
quả thật là phản ứng hợp lý, bởi vì có nhiều công
ty muốn biết càng nhiều thông tin của bạn càng tốt,
nhưng lại có những thông tin không cần thiết phải cung
cấp cho họ. Khi bạn bị yêu cầu cung cấp thông tin,
chúng ta phải suy nghĩ một chút trước khi quyết định
cho họ biết thông tin cá nhân của mình. Đôi khi yêu cầu
của họ là chính đáng, nhưng đôi khi thì không.
Cách
đây vài năm, khi mà các diễn đàn trên mạng nở rộ,
chúng ta (trong đó có tôi) đã tham gia các diễn đàn này
một cách vô tư, điền vào form đăng ký của họ một
cách vô tư vì chúng ta nghĩ họ sẽ làm gì được với
những thông tin đó. Rất nhiều diễn đàn do một số
người nào đó mở ra mà không có tư cách pháp lý, họ
đã thu được rất nhiều thông tin người dùng. Sau đó
một thời gian thì thị trường mua bán dữ liệu cá nhân
âm thầm được hình thành [7]. Các công ty marketing mua lại
những dữ liệu này để tiến hành “chiến dịch làm
phiền” người dùng. Có khi nào bạn tự hỏi tại sao
những công ty ở đâu đó tự nhiên gởi email cho bạn để
chào hàng sản phẩm không? Làm sao họ biết được email
của bạn. Tương tự như vậy, lâu lâu tôi lại nhận
được tin nhắn hay cuộc gọi của những công ty bảo
hiểm, cho thuê tài chính, quảng cáo sản phẩm,… Tôi
cũng đã tự hỏi làm sao họ có số điện thoại của
tôi và biết cả tên tôi. Có thể các cá nhân hay công ty
này không biết cách khai thác dữ liệu bằng mô hình Big
data, nhưng họ chính là những người tiên phong hình thành
nên chợ dữ liệu đen.
Chúng
ta là người dùng, chúng ta chấp nhận thỏa hiệp nhưng
chúng ta mong muốn luật pháp bảo vệ sự riêng tư. Chính
vì thế mà các nhà làm luật phải theo kịp tiến độ
hình thành nên thị trường dữ liệu. Nhưng tôi cảm thấy
bi quan đối với các nhà làm luật Việt Nam. Càng bi quan
hơn nữa khi mà NSA đã theo dõi cả thế giới này một
cách bí mật dưới sự cho phép của chính phủ Mỹ. Nếu
muốn biết thêm thông tin về vấn đề này, vui lòng đọc
bài NSA – 61398 : Cuộc chiến tranh mạng khốc liệt
[8] của tôi.
Trong
bài viết Thông tin thực và ảo [9], tôi đã gợi ý
một giải pháp để hạn chế rủi ro về thông tin trên
mạng đó là tạo ra hai tài khoản cũng như hai mật khẩu
khác nhau. Một cái cho các dịch vụ đáng tin cậy, một
cái cho những thứ còn lại. Một cái là thông tin thật,
một cái là thông tin giả. Trong khi tôi viết bài này thì
lỗ hổng Heartbleed đang khiến nhiều thông tin khách hàng
bị đánh cắp chỉ vì sai sót của người tạo ra OpenSSL
[10]. Đây là những lỗi ngoài ý muốn, nhưng người dùng
đang phải chịu rủi ro khi mà họ không làm gì nên tội
ngoài việc cung cấp thông tin cho các dịch vụ trên mạng.
Bạn có thấy nghịch lý khi các công ty sử dụng dữ liệu
của chúng ta để kiếm tiền, nhưng khi có sự cố xảy
ra thì chúng ta buộc phải chia sẽ rủi ro với họ không?
Giải pháp tạm thời hay cuộc cách mạng cho khoa học
Trở
lại với Big data và quyển sách mà tôi đã đọc, khi đọc
đến phần hai tác giả ca ngợi Big data như một cuộc
cách mạng có thể loại phương pháp suy luận theo luật
nhân-quả ra khỏi cuộc chơi trong một số lĩnh vực, tôi
đã rất thất vọng về quyển sách. Mặc dù họ thừa
nhận là Big data không thể thay thế lý thuyết khoa học
hoàn toàn nhưng tôi cho rằng Big data cũng chưa tới mức
làm chúng ta quên đi việc tìm ra nguyên nhân cho một hiện
tượng tự nhiên hay xã hội nào đó. Vấn đề ở đây
chính là Khoa học luôn đi chậm hơn những gì xảy ra
trong thực tế, và nó luôn như vậy. Việc Khoa học chưa
thể giải thích được một hiện tượng nào đó thì
không có nghĩa là chúng ta không cần Khoa học nữa. Trong
một lĩnh vực ứng dụng như công nghệ, việc các công
ty không thể chờ để giải thích một hiện tượng nào
đó cũng là điều dễ hiểu, vì xét cho cùng thì họ cần
kết quả hơn lời giải thích. Nhưng nếu họ chỉ cần
sử dụng máy tính để tìm ra kết quả mà không cần tìm
lời giải thích sẽ hạn chế sự phát triển của chính
họ trong tương lai. Bởi vì cách làm của họ cũng chỉ
giống như cách làm của những người học nghề điện
tử, họ có thể không biết nhiều về Vật lý, nhưng họ
có thể sửa chữa được máy cassette, đơn giản là chỉ
làm theo một số quy tắc và mày mò các trường hợp có
thể xảy ra. Nhưng nếu họ muốn trở thành chuyên gia hay
kỹ sư thì họ buộc phải hiểu rõ về những lý thuyết
Vật lý đang được áp dụng trong cái máy cassette ấy.
Chính vì thế mà tôi cho rằng Big data cũng như những
thuật toán đằng sau nó như Machine Learning cũng chỉ là
giải pháp tạm thời cho đến khi Toán học đuổi kịp
Khoa học máy tính.
Trong
trường hợp Toán học không thể có một cuộc cách mạng
trong chính nó, nghĩa là nó thất bại trước những gì mà
Khoa học thực nghiệm tìm ra thì chúng ta có thể coi như
nó chết lâm sàng. Khi đó một cách tiếp cận mới sẽ
được hình thành để giải quyết những bài toán chưa
có lời giải. Một trong các cách tiếp cận mới đã được
đề cập trong quyển sách A new kind of science của
Stephen Wolfram [11]. Ý tưởng của Wolfram là sử dụng
chương trình máy tính để tái tạo lại vũ trụ theo
những quy tắc dành riêng cho máy tính thay gì các định
luật Vật lý hay các phương trình Toán học. Ý tưởng
gây tranh cãi này có thể coi như một cách tiếp cận khác
so với nền khoa học hàng ngàn năm nay. Nếu như những ý
tưởng muốn tạo nên một loại hình khoa học khác thành
công thì những cái như Big data mới có chỗ dựa vững
chắc hơn. Nhưng loại hình Khoa học dựa trên máy tính sẽ
xa rời tư duy của con người, vốn được xây dựng dựa
trên luật nhân quả kể từ thuở sơ khai. Nếu những
phim khoa học viễn tưởng như Transformer thành hiện thực,
thì con người sẽ bị máy móc xâm chiếm, khi đó tôi mới
tin rằng chúng ta không cần hiểu nguyên nhân vì sao,
mà chỉ cần biết thế nào.
Tuy
nhiên, thời của máy móc vẫn còn lâu mới đến, nhưng
nếu chúng ta tin tưởng vào Big data như một liều thuốc
trị chứng bệnh nan y hiện nay mà không cần biết cách
nó làm thế nào thì chúng ta đang tiến nhanh về kỷ
nguyên của máy móc và “bum”!
Nhận xét
Đăng nhận xét