Dữ Liệu Lớn – Big Data

Chương 8: Những Rủi Ro

Tác giả: Nhiều tác giả

Ads Top

TRONG GẦN BỐN MƯƠI NĂM, cho đến khi bức tường Berlin sụp đổ vào năm 1989, cơ quan an ninh quốc gia Đông Đức, được gọi là Stasi, đã do thám hàng triệu người. Sử dụng khoảng 100.000 nhân viên toàn thời gian, Stasi theo dõi từng xe hơi và đường phố. Họ mở thư và xem các tài khoản ngân hàng, nghe trộm các căn hộ và đường điện thoại. Họ xúi giục những cặp tình nhân, vợ chồng, cha mẹ và con cái giám sát lẫn nhau, phản bội niềm tin cơ bản nhất mà con người có với nhau. Các tập tin kết quả – trong đó có ít nhất 39 triệu thẻ chỉ mục và 70 dặm của các văn bản – ghi lại và trình bày chi tiết các khía cạnh mật thiết nhất trong cuộc sống của những con người bình thường. Đông Đức là một trong những quốc gia giám sát toàn diện nhất từng thấy.

Hai mươi năm sau sự sụp đổ của Đông Đức, có nhiều dữ liệu được thu thập và lưu trữ về mỗi người chúng ta hơn bao giờ hết. Chúng ta bị giám sát liên tục: khi sử dụng thẻ tín dụng để trả tiền, điện thoại di động để liên lạc, hoặc số an sinh xã hội để đăng ký. Năm 2007, giới truyền thông Anh khoái trá với sự trớ trêu rằng đã có hơn 30 camera giám sát trong phạm vi 200m của căn hộ tại Luân Đôn nơi George Orwell viết cuốn 1984. Từ lâu trước khi Internet ra đời, các công ty chuyên ngành như Equifax, Experian, và Acxiom đã thu thập, lập bảng, và cung cấp quyền truy cập vào thông tin cá nhân cho hàng trăm triệu người trên toàn thế giới. Internet đã khiến việc theo dõi trở nên dễ dàng hơn, rẻ hơn, và hữu ích hơn. Và không chỉ có những cơ quan mờ ám của chính phủ do thám chúng ta. Amazon giám sát sở thích mua sắm, Google giám sát thói quen duyệt web, trong khi Twitter biết những gì trong tâm trí của chúng ta. Facebook dường như cũng nắm bắt tất cả những thông tin này, cùng với các mối quan hệ xã hội của người sử dụng. Các nhà khai thác điện thoại di động không chỉ biết chúng ta nói chuyện với ai, mà cả hàng xóm của họ.

Với triển vọng rằng dữ liệu lớn sẽ mang đến nhiều hiểu biết có giá trị cho những ai phân tích nó, tất cả các dấu hiệu dường như đều cho thấy mức độ những người khác thu thập, lưu trữ, và tái sử dụng dữ liệu cá nhân của chúng ta sẽ còn tăng hơn nữa. Kích thước và quy mô của các bộ sưu tập dữ liệu sẽ tăng vọt khi chi phí lưu trữ tiếp tục giảm mạnh và các công cụ phân tích trở nên mạnh mẽ hơn bao giờ hết. Nếu thời đại Internet đã đe dọa sự riêng tư thì phải chăng dữ liệu lớn sẽ khiến nó nguy hiểm nhiều hơn nữa? Đó có phải là mặt tối của dữ liệu lớn?

Đúng, và nó không phải thứ duy nhất. Ở đây, điểm quan trọng về dữ liệu lớn là một sự thay đổi về quy mô dẫn đến một sự thay đổi của trạng thái. Như chúng tôi sẽ giải thích, sự biến đổi này không chỉ khiến việc bảo vệ sự riêng tư khó khăn hơn, mà còn mang lại một mối đe dọa hoàn toàn mới: hình phạt dựa trên khuynh hướng. Đó là khả năng sử dụng dự đoán dữ-liệu-lớn về con người để phán xét và trừng phạt họ ngay cả trước khi họ hành động. Làm như vậy sẽ phủ nhận ý tưởng về sự công bằng, công lý và tự do.

Ngoài sự riêng tư và khuynh hướng, có một mối nguy hiểm thứ ba. Chúng ta có nguy cơ trở thành nạn nhân của một chế độ độc tài dữ liệu, trong đó chúng ta tôn sùng thông tin, kết quả các phân tích của chúng ta, và cuối cùng lạm dụng nó. Nếu được sử dụng một cách có trách nhiệm, dữ liệu lớn là một công cụ hữu ích trong việc ra quyết định hợp lý. Khi bị nắm giữ một cách sai trái, nó có thể trở thành một công cụ của kẻ mạnh, kẻ có thể biến nó thành một nguồn của sự đàn áp, bằng cách đơn giản là khiến khách hàng và nhân viên bực bội, hay tệ hơn là làm tổn hại đến người dân.

Các nguy cơ mất kiểm soát dữ liệu lớn liên quan đến việc tôn trọng sự riêng tư và dự báo, hoặc bị lường gạt về ý nghĩa của dữ liệu, vượt xa những chuyện vặt vãnh như các quảng cáo trực tuyến. Thế kỷ XX có một lịch sử đẫm máu với các tình huống trong đó dữ liệu đã tiếp tay cho những kết cục bi thảm. Năm 1943 Cục Thống Kê Dân Số Hoa Kỳ bàn giao các địa chỉ khu phố (nhưng không có tên đường và số nhà, để giữ cái luận điểm bịa đặt về bảo vệ sự riêng tư) của những người Mỹ gốc Nhật nhằm dễ bắt giữ họ hơn. Những hồ sơ dân sự toàn diện nổi tiếng của Hà Lan đã được Đức quốc xã xâm lược sử dụng để bắt những người Do Thái. Những con số có năm chữ số xăm vào cánh tay của tù nhân ở trại tập trung Đức Quốc xã ban đầu là tương ứng với số thẻ đục lỗ IBM Hollerith. Việc xử lý dữ liệu đã tạo điều kiện cho tội ác giết người trên một quy mô công nghiệp.

Mặc cho sức mạnh thông tin của nó, có nhiều điều mà Stasi không thể làm được. Họ không thể biết mọi người di chuyển tới đâu ở mọi thời điểm hoặc họ đã nói chuyện với ai nếu như không có những nỗ lực rất lớn. Ngày nay, phần lớn những thông tin này được thu thập bởi các hãng điện thoại di động. Nhà nước Đông Đức, cũng như chúng ta, không thể dự đoán những ai sẽ bất đồng về chính kiến- nhưng lực lượng cảnh sát đang bắt đầu sử dụng những mô hình thuật toán để quyết định ở đâu và lúc nào thì tuần tra. Điều này cho thấy dấu hiệu về những gì sắp đến. Những xu hướng này khiến các rủi ro vốn có trong dữ liệu lớn cũng phình to như chính các bộ dữ liệu.

Làm tê liệt sự riêng tư

Rất dễ ngoại suy mối nguy hại đến tính riêng tư từ mức tăng trưởng trong dữ liệu kỹ thuật số và thấy sự tương tự với địa ngục bị giám sát của Orwell trong tác phẩm 1984. Nhưng tình hình phức tạp hơn thế. Trước tiên, không phải tất cả dữ liệu lớn đều chứa thông tin cá nhân. Dữ liệu cảm biến từ những nhà máy lọc dầu, cũng như dữ liệu về máy móc từ sàn các nhà máy, dữ liệu về các vụ nổ hố ga hay về thời tiết sân bay không chứa những thông tin như vậy. BP và Con Edison không cần (hoặc muốn) thông tin cá nhân để đạt được giá trị từ các phân tích mà họ thực hiện. Phân tích dữ-liệu-lớn của những loại thông tin này thực tế không đặt ra rủi ro cho sự riêng tư.

Tuy nhiên, phần lớn các dữ liệu hiện giờ được tạo ra là có bao gồm thông tin cá nhân. Và các công ty có khá nhiều động lực để thu thập nhiều hơn, giữ nó lâu hơn, và tái sử dụng nó thường xuyên. Dữ liệu có thể thậm chí không rõ ràng giống như là thông tin cá nhân, nhưng với những quá trình dữ-liệu-lớn, nó có thể dễ dàng được truy trở lại về cá nhân mà nó đề cập đến. Hoặc những chi tiết riêng tư về đời sống của một người có thể được rút ra.

Ví dụ các công ty dịch vụ tiện ích đang tung ra những “đồng hồ điện thông minh” ở Hoa Kỳ và Châu Âu để thu thập dữ liệu suốt ngày, có lẽ với tần suất mỗi sáu giây – nhiều hơn so với dòng chảy nhỏ giọt thông tin về việc sử dụng năng lượng tổng thể mà những đồng hồ truyền thống thu thập. Điều quan trọng là cách các thiết bị điện tiêu thụ năng lượng tạo ra một “chìa khóa tải” duy nhất cho thiết bị đó. Thế nên một máy đun nước nóng sẽ khác với một máy tính, và khác với đèn nuôi cần sa. Vì vậy, sự sử dụng năng lượng của một hộ gia đình sẽ tiết lộ thông tin cá nhân, có thể là cả các hành vi hàng ngày, điều kiện sức khỏe hoặc các hoạt động bất hợp pháp của cư dân. Tuy nhiên câu hỏi quan trọng không nằm ở chỗ dữ liệu lớn có làm tăng rủi ro đối với sự riêng tư hay không (câu trả lời là có), mà là liệu nó có làm thay đổi tính chất của rủi ro. Nếu mối đe dọa chỉ đơn giản là lớn hơn thì các đạo luật và quy định bảo vệ sự riêng tư có thể vẫn hiệu quả trong thời đại dữ-liệu-lớn, tất cả những gì cần làm là tăng gấp đôi nỗ lực hiện tại của chúng ta. Ngược lại, nếu vấn đề thay đổi, chúng ta có thể phải cần những giải pháp mới.

Thật không may, vấn đề đã bị biến đổi. Với dữ liệu lớn, giá trị của thông tin không còn ở duy nhất trong mục đích chính của nó. Như chúng ta đã tranh luận, hiện nay nó ở trong những ứng dụng thứ cấp. Sự thay đổi này sẽ làm suy yếu vai trò trung tâm của cá nhân trong luật bảo vệ quyền riêng tư hiện tại. Hiện nay vào thời điểm thu thập thông tin, họ được cho biết thông tin nào sẽ được thu thập và cho mục đích gì, sau đó họ được hỏi có đồng ý hay không, để việc thu thập có thể bắt đầu. Mặc dù khái niệm “thông báo và đồng ý” này không phải là cách hợp pháp duy nhất để thu thập và xử lý dữ liệu cá nhân, theo Fred Cate, một chuyên gia về quyền riêng tư tại Đại học Indiana, nó đã biến thành một nền tảng cho các nguyên tắc bảo mật trên khắp thế giới. (Trong thực tế, nó đã tạo ra những thông báo bảo mật siêu dài mà người ta hiếm khi đọc, chứ chưa nói đến hiểu – nhưng đó lại là một câu chuyện khác).

Đáng chú ý là trong thời đại dữ-liệu-lớn, những ứng dụng thứ cấp sáng tạo nhất đã không được hình dung ra khi dữ liệu được thu thập lúc ban đầu. Làm sao các công ty có thể thông báo về một mục đích còn chưa xuất hiện? Làm sao các cá nhân có thể đồng ý về một điều chưa biết? Tuy nhiên, nếu không có sự đồng ý, bất kỳ phân tích dữ-liệu-lớn nào chứa thông tin cá nhân có thể đều phải quay trở lại từng người và xin phép cho mỗi lần tái sử dụng. Bạn thử hình dung Google sẽ cố gắng liên lạc với hàng trăm triệu người dùng để họ đồng ý cho phép sử dụng các truy vấn tìm kiếm cũ của họ cho việc dự báo dịch cúm? Không có công ty nào chịu gánh vác chi phí như vậy, ngay cả khi công việc về mặt kỹ thuật là khả thi.

Phương án thay thế là yêu cầu người dùng đồng ý với bất kỳ ứng dụng nào trong tương lai đối với dữ liệu của họ tại thời điểm thu thập, nhưng đây cũng chẳng phải cách hay. Một sự cho phép bán buôn như vậy khiến việc xin phép mất đi ý nghĩa.

Những cách thức khác để bảo vệ sự riêng tư cũng không thành. Nếu thông tin của mọi người ở trong một bộ dữ liệu thì thậm chí lựa chọn “không tham gia” có thể vẫn để lại một dấu vết. Ví dụ Street View của Google. Những chiếc xe này chụp ảnh đường phố và nhà cửa ở nhiều nước. Ở Đức, Google phải đối mặt với những phản đối rộng rãi của công chúng và phương tiện truyền thông. Người ta sợ rằng những hình ảnh nhà cửa, vườn tược của họ có thể giúp các băng nhóm trộm cắp lựa chọn những mục tiêu hấp dẫn. Dưới áp lực luật pháp, Google đã phải đồng ý để các chủ nhà không tham gia bằng cách làm mờ nhà của họ trong ảnh. Nhưng vết xóa vẫn có thể được nhìn thấy trên Street View – bạn nhận thấy những ngôi nhà bị làm mờ đi – và kẻ trộm có thể diễn giải đó là dấu hiệu cho thấy chúng là những mục tiêu đặc biệt tốt!

Phim minh họa cơ chế vận hành của Street View

Một cách tiếp cận mang tính kỹ thuật để bảo vệ sự riêng tư – vô danh hóa – cũng không hiệu quả trong nhiều trường hợp. Vô danh hóa đề cập đến việc bỏ đi khỏi các bộ dữ liệu mọi nhận dạng cá nhân, như tên, địa chỉ, số thẻ tín dụng, ngày sinh, hoặc số an sinh xã hội. Điều này chỉ có tác dụng trong một thế giới của dữ liệu nhỏ. Chúng ta thử xem xét những trường hợp về tìm kiếm web và xếp hạng phim dường như không xác định được.

Tháng 8 năm 2006, AOL công khai phát hành một tập hợp rất lớn những truy vấn tìm kiếm cũ, với thiện chí là các nhà nghiên cứu có thể phân tích nó để có được những hiểu biết thú vị. Bộ dữ liệu gồm 20 triệu truy vấn tìm kiếm của 657.000 người sử dụng từ ngày 1 tháng 3 tới 31 tháng 5 của năm đó. Thông tin cá nhân như tên người sử dụng và địa chỉ IP đã được xóa và thay thế bằng những số định danh duy nhất. Ý tưởng là các nhà nghiên cứu có thể liên kết những truy vấn tìm kiếm của cùng một người lại với nhau, nhưng không có thông tin nhận dạng.

Tuy nhiên, trong vòng vài ngày, tờ New York Times đã chắp nối những lệnh tìm kiếm như “đàn ông độc thân 60” với “trà tốt cho sức khỏe” và “những người làm vườn ở Lilburn, Ga” để xác định thành công người mang số 4417749 là Thelma Arnold, một góa phụ 62 tuổi ở Lilburn, Georgia. “Chúa ơi, đó là toàn bộ cuộc sống cá nhân của tôi”, bà nói với phóng viên New York Times khi ông đến gõ cửa. “Tôi không hề biết ai đó đã theo dõi mình”. Phản đối của công chúng sau đó đã dẫn đến việc sa thải Giám đốc công nghệ và hai nhân viên khác của AOL.

Tuy nhiên, chỉ hai tháng sau đó, vào tháng 10 năm 2006, dịch vụ cho thuê phim Netflix đã làm điều tương tự với sự ra mắt “giải thưởng Netflix” của họ. Công ty này đã phát hành 100 triệu hồ sơ thuê phim từ gần nửa triệu người sử dụng – và treo tiền thưởng 1 triệu USD cho bất kỳ nhóm nào có thể cải thiện hệ thống giới thiệu phim của Netflix để tăng ít nhất 10 phần trăm hiệu quả. Một lần nữa, danh tính cá nhân vẫn được lấy ra khỏi các dữ liệu. Và một lần nữa, có người vẫn bị chỉ đích danh: một người mẹ, một phụ nữ đồng tính ở vùng Trung Tây bảo thủ của Mỹ, sau đó đã kiện Netflix vì việc này dưới bí danh “Jane Doe”.

Các nhà nghiên cứu tại Đại học Texas ở Austin đã so sánh dữ liệu Netflix với những thông tin công cộng khác. Họ nhanh chóng phát hiện ra rằng những đánh giá bởi một người dùng ẩn danh trùng hợp với những đánh giá của một cộng sự với trang web Cơ sở Dữ liệu Phim Internet (IMDb). Tổng quát hơn, nghiên cứu đã chứng minh rằng việc đánh giá chỉ 6 bộ phim không có tiếng tăm (trong tốp 500) có thể giúp xác định một khách hàng của Netflix tới 84 phần trăm. Và nếu biết được ngày mà người đó đánh giá phim thì cô ta hoặc anh ta có thể bị chỉ đích danh trong số gần nửa triệu khách hàng thuộc bộ dữ liệu, với độ chính xác 99 phần trăm.

Trong trường hợp AOL, danh tính của người sử dụng được bộc lộ trong nội dung các lệnh tìm kiếm của họ. Trong trường hợp Netflix, danh tính đã được tiết lộ bởi một so sánh các dữ liệu với các nguồn khác. Trong cả hai trường hợp, các công ty đã thất bại và không hề biết dữ liệu lớn đã hỗ trợ phi-vô-danh-hóa tốt như thế nào. Có hai lý do: chúng ta thu thập nhiều dữ liệu hơn và chúng ta kết hợp nhiều dữ liệu hơn. Paul Ohm, một giáo sư luật tại Đại học Colorado ở Boulder và một chuyên gia về các tổn hại do phi-vô-danh-hóa, giải thích rằng không hề có cách sửa chữa dễ dàng nào cả. Với đủ dữ liệu, không thể ẩn danh tuyệt đối dù cố gắng tới mức nào đi nữa. Tệ hơn, các nhà nghiên cứu gần đây đã chỉ ra rằng không chỉ dữ liệu thông thường mà cả đồ thị xã hội – những kết nối của mọi người với nhau – cũng dễ bị tổn thương vì phi-vô-danh-hóa.

Trong thời đại của dữ liệu lớn, ba chiến lược cốt lõi từ lâu được sử dụng để đảm bảo tính riêng tư – thông báo và xin phép cá nhân, loại ra, và vô danh hóa – đã mất đi phần lớn hiệu quả của chúng. Hiện nay nhiều người sử dụng đã cảm thấy sự riêng tư của họ bị xâm phạm rồi, huống hồ đến lúc việc áp dụng dữ-liệu-lớn trở nên phổ biến hơn.

So với Đông Đức một phần tư thế kỷ trước, việc giám sát đã dễ dàng hơn, rẻ hơn, và mạnh mẽ hơn. Khả năng thu thập dữ liệu cá nhân thường được cấy sâu vào trong các công cụ chúng ta dùng hàng ngày, từ các trang web đến các ứng dụng điện thoại thông minh. Các bộ ghi dữ liệu bên trong hầu hết xe hơi để thu nhận tất cả hoạt động của một chiếc xe vài giây trước lúc túi khí kích hoạt đã được xem như kẻ “làm chứng” chống lại chủ sở hữu xe tại tòa trong các tranh chấp về các sự kiện của tai nạn.

Tất nhiên, khi các doanh nghiệp thu thập dữ liệu để cải thiện hoạt động của họ, chúng ta không cần lo sợ sự giám sát của họ sẽ gây hậu quả như khi bị Stasi nghe trộm. Chúng ta sẽ không bị đi tù nếu Amazon phát hiện chúng ta thích đọc “Little Red Book”. Google sẽ không lưu đày chúng ta chỉ vì chúng ta tìm kiếm từ “Bing”. Các công ty có thể mạnh, nhưng họ không có quyền hạn của nhà nước để ép buộc.

Vì vậy, dù họ không lôi chúng ta khỏi nhà vào giữa đêm, đủ loại công ty vẫn tích lũy hàng núi thông tin cá nhân liên quan tới tất cả các khía cạnh cuộc sống của chúng ta, chia sẻ nó với những người khác mà chúng ta không hề biết, và sử dụng nó theo những cách mà chúng ta khó có thể tưởng tượng nổi.

Khu vực tư nhân không một mình phô diễn sức mạnh của nó với dữ liệu lớn. Chính phủ cũng đang làm điều đó. Ví dụ Cơ quan An ninh Quốc gia Mỹ (NSA) được cho là chặn và lưu trữ 1,7 tỷ email, cuộc gọi điện thoại, và những liên lạc khác mỗi ngày, theo một điều tra của Washington Post trong năm 2010. William Binney, một cựu viên chức NSA, ước tính rằng chính phủ đã thu thập “20.000 tỷ giao dịch” giữa các công dân Mỹ và những người khác – ai gọi ai, gửi email cho ai, chuyển tiền cho ai, vân vân.

Để mang lại ý nghĩa cho tất cả các dữ liệu, Mỹ đang xây dựng những trung tâm dữ liệu khổng lồ, như một cơ sở 1,2 tỷ USD của NSA ở Fort Williams, Utah. Và tất cả cơ quan của chính phủ đang yêu cầu nhiều thông tin hơn so với trước đây, không chỉ riêng các cơ quan bí mật liên quan đến chống khủng bố. Khi việc thu thập mở rộng tới những thông tin như giao dịch tài chính, hồ sơ sức khỏe, và cập nhật trạng thái Facebook, số lượng thông tin được lượm lặt sẽ lớn không thể tưởng tượng nổi. Chính phủ không thể xử lý nhiều dữ liệu như thế. Vậy tại sao lại thu thập nó?

Câu trả lời là cách thức giám sát đã thay đổi trong thời đại dữ liệu lớn. Trong quá khứ, những người điều tra gắn máy vào đường dây điện thoại để tìm hiểu nhiều nhất có thể về một nghi can. Điều quan trọng là đi sâu và tìm hiểu về cá nhân này. Cách tiếp cận hiện đại thì khác. Theo tinh thần của Google hay Facebook, con người là tổng hợp các mối quan hệ xã hội của họ, các tương tác trực tuyến và các kết nối với nội dung. Để điều tra đầy đủ một cá nhân, các nhà phân tích phải nhìn vào khoảng tranh tối tranh sáng rộng nhất có thể của dữ liệu bao quanh con người này – không chỉ những người anh ta quen, mà cả những người quen của những người quen, và cứ như vậy. Điều này rất khó thực hiện với kỹ thuật trong quá khứ. Ngày nay nó đã dễ dàng hơn bao giờ hết. Và bởi vì chính phủ không bao giờ biết sẽ muốn điều tra kỹ lưỡng ai, nên họ cứ thu thập, lưu trữ, hoặc đảm bảo việc truy cập thông tin, không nhất thiết để theo dõi tất cả mọi người ở mọi thời điểm, nhưng để khi một người nào đó bị nghi ngờ, các nhà chức trách có thể ngay lập tức điều tra thay vì phải bắt đầu thu thập các thông tin từ đầu.

Hoa Kỳ không phải là chính phủ duy nhất tích lũy hàng núi dữ liệu về công dân, cũng không phải là nơi nghiêm túc nhất trong việc này. Tuy nhiên, một vấn đề mới đã xuất hiện với dữ liệu lớn, cũng đáng lo ngại như khả năng các doanh nghiệp và chính phủ biết được thông tin cá nhân của chúng ta: việc sử dụng những dự đoán để đánh giá chúng ta.

Xác suất và hình phạt

John Anderton là chỉ huy một đơn vị cảnh sát đặc nhiệm ở Washington, DC. Một buổi sáng nọ, ông xông vào một ngôi nhà ngoại ô trong khoảnh khắc trước khi Howard Marks, ở trong trạng thái giận dữ điên cuồng, sắp đâm chiếc kéo vào vợ, người mà anh ta thấy trên giường với một gã đàn ông khác. Với Anderton, đó chỉ là một ngày nữa trong trận chiến ngăn chặn tội phạm. “Theo thẩm quyền của Đơn vị Tiền tội phạm của Quận Columbia”, ông đọc thuộc lòng, “tôi bắt giữ anh vì tội giết Sarah Marks trong tương lai, xảy ra vào ngày hôm nay…”. Những cảnh sát khác bắt đầu khống chế Marks trong khi anh ta đang gào lên: “Tôi có làm cái gì đâu!”.

Cảnh mở màn của bộ phim Minority Report mô tả một xã hội trong đó những dự đoán có vẻ chính xác tới độ cảnh sát bắt giữ người ta vì những tội trạng từ trước khi chúng được thực hiện. Người ta bị giam giữ không phải vì những gì họ đã làm, mà vì những gì họ đang định làm, mặc dù họ không bao giờ thực sự phạm tội. Bộ phim gán sự thấy trước và việc thực thi pháp luật chặn trước này cho tầm nhìn của ba thần nhãn, chứ không phải cho phân tích dữ liệu. Tuy nhiên, tương lai đáng lo ngại mà Minority Report miêu tả là việc phân tích dữ-liệu-lớn không được kiểm soát sẽ mang lại nguy cơ, trong đó những bản án kết tội dựa trên các dự đoán cá nhân hóa của hành vi tương lai.

Chúng ta đã được thấy những mầm mống của điều này. Bảng tạm tha trong hơn một nửa số các tiểu bang của Mỹ sử dụng những dự đoán dựa trên phân tích dữ liệu như một yếu tố để quyết định liệu có nên thả một ai đó khỏi nhà tù hay giam giữ anh ta. Ngày càng có nhiều nơi ở Hoa Kỳ – từ các phân khu ở Los Angeles đến các thành phố như Richmond, Virginia – áp dụng “chính sách tiên đoán”: dùng phân tích dữ-liệu-lớn để chọn những đường phố, nhóm và cá nhân phải bị giám sát thêm, đơn giản vì một thuật toán chỉ ra là họ có nhiều khả năng phạm tội.

Tại thành phố Memphis, Tennessee, một chương trình gọi là Blue CRUSH (Giảm Tội phạm bằng cách Sử dụng Lịch sử Thống kê) cung cấp cho cảnh sát tương đối chính xác các khu vực cần quan tâm về địa điểm (một vài khối phố) và thời gian (một vài giờ trong một ngày đặc biệt của tuần). Hệ thống dường như giúp lực lượng thực thi pháp luật phân bổ nguồn lực khan hiếm của họ tốt hơn. Từ khi chương trình được triển khai vào năm 2006, những vụ phạm tội với tài sản lớn và các hành vi bạo lực đã giảm một phần tư (mặc dù tất nhiên, điều này không nói lên được gì về quan hệ nhân quả, cũng không có gì để cho biết rằng sự sụt giảm là nhờ Blue CRUSH).

Ở Richmond, bang Virginia, cảnh sát lập tương quan dữ liệu tội phạm với các bộ dữ liệu khác, ví dụ thông tin khi nào các công ty lớn trong thành phố trả lương cho nhân viên của họ, những ngày diễn ra các buổi hòa nhạc hoặc các sự kiện thể thao. Làm như vậy đã xác nhận và đôi khi tinh lọc những nghi ngờ của cảnh sát về xu hướng tội phạm. Ví dụ cảnh sát Richmond một thời gian dài cảm nhận có một sự tăng về tội phạm bạo lực tiếp sau các triển lãm súng. Phân tích dữ liệu lớn đã chứng tỏ họ đúng, nhưng không hoàn toàn: sự tăng thường xảy ra hai tuần sau đó, chứ không phải ngay lập tức sau những sự kiện này.

Các hệ thống như trên hướng đến việc phòng ngừa tội phạm bằng cách dự đoán, mục tiêu cuối cùng là đến tận cấp độ cá nhân – những kẻ có thể gây ra chúng. Điều này cho thấy khả năng sử dụng dữ liệu lớn cho một mục đích mới: để ngăn chặn tội phạm khỏi xảy ra.

Một dự án nghiên cứu trực thuộc Bộ An ninh nội địa Hoa Kỳ (DHS) được gọi là FAST (Công nghệ Sàng lọc Thuộc tính Tương lai) cố xác định những kẻ có nguy cơ trở thành khủng bố bằng cách theo dõi các dấu hiệu sống của cá nhân, ngôn ngữ cơ thể, và các mô hình sinh lý khác. Ý tưởng ở đây là việc khảo sát hành vi của con người có thể phát hiện được ý định gây hại của họ. Trong các thử nghiệm, hệ thống chính xác đến 70 phần trăm, theo DHS. (Điều này có nghĩa là gì thì không rõ. Phải chăng các đối tượng tham gia nghiên cứu giả vờ làm khủng bố để xem “ý định xấu” của họ có được phát hiện?) Mặc dù các hệ thống này dường như còn phôi thai, nhưng vấn đề là lực lượng thực thi pháp luật xem chúng rất nghiêm túc.

Ngăn chặn một tội phạm để nó không xảy ra dường như là một viễn cảnh hấp dẫn. Chẳng phải việc ngăn chặn các vi phạm trước khi chúng xảy ra là tốt hơn nhiều so với xử phạt các thủ phạm sau đó hay sao? Chẳng phải việc chặn các tội ác đem lại lợi ích không chỉ cho những người có thể là nạn nhân của chúng, mà còn cho toàn thể xã hội hay sao?

Nhưng đó là một con đường nguy hiểm. Nếu thông qua dữ liệu lớn để dự đoán được ai có thể phạm tội trong tương lai, chúng ta hẳn sẽ không bằng lòng với việc chỉ đơn giản ngăn chặn tội phạm xảy ra, mà còn muốn trừng phạt kẻ có thể là thủ phạm nữa. Điều đó hợp logic. Nếu chúng ta chỉ bước vào can thiệp để ngăn chặn hành động bất hợp pháp khỏi diễn ra, kẻ được xem là thủ phạm có thể sẽ thử lại mà không bị trừng phạt. Ngược lại, bằng cách sử dụng phân tích dữ liệu lớn để bắt hắn phải chịu trách nhiệm đối với những hành vi (tương lai) của mình, chúng ta có thể ngăn được hắn và cả những kẻ khác nữa.

Sự trừng phạt dựa trên dự đoán như vậy có vẻ là một bước cải thiện so với những biện pháp mà chúng ta đã chấp nhận. Việc ngăn chặn hành vi không lành mạnh, nguy hiểm, hoặc rủi ro là một nền tảng của xã hội hiện đại. Chúng ta đã gây khó khăn cho việc hút thuốc để ngăn ngừa bệnh ung thư phổi, chúng ta yêu cầu thắt dây an toàn để ngăn ngừa tử vong trong tai nạn xe hơi, chúng ta không cho phép hành khách lên máy bay với súng để tránh cướp. Những biện pháp phòng ngừa như vậy hạn chế sự tự do của chúng ta, nhưng nhiều người xem chúng như cái giá nhỏ phải trả để tránh được tác hại nghiêm trọng hơn nhiều.

Trong nhiều trường hợp, phân tích dữ liệu đã được sử dụng nhân danh việc phòng ngừa. Nó được sử dụng để gộp chúng ta vào nhóm của những người giống chúng ta, và chúng ta thường được đặc trưng hóa theo đó. Bảng tính toán bảo hiểm lưu ý rằng những người đàn ông hơn 50 tuổi dễ bị ung thư tuyến tiền liệt, vì vậy các thành viên của nhóm này có thể phải trả nhiều hơn cho bảo hiểm y tế ngay cả khi họ không bao giờ mắc bệnh ung thư tuyến tiền liệt. Nhóm học sinh trung học với điểm cao ít có khả năng bị tai nạn xe hơi – vì vậy một số bạn học kém hơn của họ phải đóng bảo hiểm cao hơn. Những cá nhân với một số đặc điểm nào đó là đối tượng kiểm tra chặt chẽ hơn khi họ đi qua an ninh sân bay.

Đó là ý tưởng đằng sau việc “lập hồ sơ” trong thế giới dữ-liệu-nhỏ ngày nay. Tìm một liên hợp chung trong dữ liệu, xác định một nhóm người để áp dụng vào, và sau đó đặt những người này dưới sự giám sát bổ sung. Đó là một quy tắc khái quát áp dụng cho tất cả mọi người trong nhóm. Tất nhiên phương pháp này có nhược điểm nghiêm trọng. Nếu được sử dụng không đúng, nó có thể dẫn tới không chỉ sự phân biệt đối xử với những nhóm nhất định mà còn cả “phạm tội vì đồng lõa”.

Ngược lại, dự báo dữ liệu lớn về con người lại khác. Trong khi các dự báo ngày nay về hành vi có thể xảy ra – được tìm thấy trong những thứ như phí bảo hiểm hoặc điểm số tín dụng – thường căn cứ vào rất nhiều yếu tố được dựa trên một mô hình của vấn đề đang xét (chẳng hạn vấn đề về sức khỏe trước đây hay lịch sử trả tiền vay nợ), với phân tích phi nhân quả của dữ liệu lớn, chúng ta thường chỉ đơn giản xác định các yếu tố dự báo phù hợp nhất từ biển thông tin.

Quan trọng nhất, sử dụng dữ liệu lớn, chúng ta hy vọng sẽ xác định được các cá nhân cụ thể chứ không phải là các nhóm, điều này giải thoát chúng ta khỏi thiếu sót của lập hồ sơ làm cho mỗi nghi ngờ được dự đoán trở thành một trường hợp của tội đồng lõa. Trong một thế giới dữ-liệu-lớn, ai đó với một cái tên Ả Rập, trả tiền mặt cho một chiếc vé một chiều hạng nhất, có thể không còn phải bị kiểm tra bổ sung tại sân bay nếu các dữ liệu khác chứng tỏ chắc chắn rằng anh ta không phải là một tên khủng bố. Với dữ liệu lớn chúng ta có thể thoát khỏi sự bó buộc vào đặc điểm của cả nhóm, và thay vào đó có thể đưa ra nhiều dự đoán chi tiết cho cá nhân hơn.

Triển vọng của dữ liệu lớn là chúng ta có thể làm những gì mình đã làm trong suốt thời gian qua – lập hồ sơ – nhưng khiến nó tốt hơn, ít phân biệt đối xử hơn, và cá nhân hóa nhiều hơn. Nghe có vẻ chấp nhận được nếu mục đích chỉ đơn giản là để ngăn chặn những hành động không mong muốn. Nhưng nó trở nên rất nguy hiểm nếu chúng ta sử dụng các dự đoán dữ-liệu-lớn để quyết định xem liệu ai đó là có tội và phải bị trừng phạt vì hành vi chưa xảy ra.

Ý tưởng về xử phạt chỉ dựa trên các khuynh hướng là một ý tưởng tồi tệ. Để buộc tội một người vì các hành vi có thể xảy ra trong tương lai là phủ nhận nền tảng rất cơ bản của công lý: người này phải làm điều gì đó trước khi chúng ta có thể buộc anh ta chịu trách nhiệm về nó. Xét cho cùng, nghĩ đến những điều xấu không phải là bất hợp pháp, nhưng thực hiện chúng lại là bất hợp pháp. Đó là một nguyên lý cơ bản của xã hội chúng ta rằng trách nhiệm cá nhân gắn liền với sự lựa chọn cá nhân của hành động. Nếu một người bị buộc phải dùng súng để bảo vệ sự an toàn của mình, anh ta không có sự lựa chọn nào khác và do đó không bị buộc chịu trách nhiệm.

Nếu các dự đoán dữ-liệu-lớn là hoàn hảo, nếu các thuật toán có thể đoán trước tương lai của chúng ta với độ rõ nét hoàn hảo, chúng ta sẽ không còn quyền lựa chọn để hành động trong tương lai. Chúng ta sẽ hành xử đúng như được dự đoán. Nếu các dự đoán hoàn hảo là khả thi, chúng sẽ gạt bỏ ý chí của con người – khả năng của chúng ta để tự do sống cuộc đời mình. Nhưng trớ trêu thay, bằng cách tước đoạt khỏi chúng ta sự lựa chọn, chúng cũng miễn xá cho chúng ta khỏi bất kỳ trách nhiệm nào.

Tất nhiên dự đoán hoàn hảo là không thể. Thay vào đó, phân tích dữ-liệu-lớn sẽ dự đoán rằng đối với một cá nhân cụ thể, một hành vi cụ thể trong tương lai có một xác suất nhất định. Hãy xét nghiên cứu được tiến hành bởi Richard Berk, một giáo sư về thống kê và tội phạm học tại Đại học Pennsylvania. Ông khẳng định phương pháp của mình có thể dự đoán liệu một người được cho tại ngoại sẽ tham gia vào một vụ giết người (giết hoặc bị giết). Trong thông tin đầu vào, ông sử dụng nhiều tham biến gắn với trường hợp cụ thể, trong đó có lý do bị tù và ngày vi phạm lần đầu, nhưng cũng sử dụng dữ liệu nhân khẩu học như tuổi tác và giới tính. Berk cho thấy ông có thể dự báo một vụ giết người trong tương lai trong số những người được tạm tha với xác suất tối thiểu là 75 phần trăm. Con số đó không hề thấp. Tuy nhiên, nó cũng có nghĩa là nếu các hội đồng xét xử dựa vào phân tích của Berk thì họ sẽ sai lầm tới một phần tư số trường hợp.

Nhưng vấn đề cốt lõi khi dựa vào những dự đoán như vậy không phải là nó đưa xã hội tới rủi ro. Rắc rối cơ bản là với một hệ thống như vậy, chúng ta chủ yếu trừng phạt mọi người trước khi họ làm điều xấu. Và bằng cách can thiệp trước khi họ hành động (ví dụ bằng cách từ chối tạm tha nếu các dự đoán cho thấy có một xác suất cao là họ sẽ giết người), chúng ta không bao giờ biết liệu họ có phạm tội được dự đoán. Dù không chấp nhận vận số, nhưng chúng ta lại buộc các cá nhân phải chịu trách nhiệm về những gì mà dự đoán của chúng ta tiết lộ rằng họ sẽ thực hiện. Những dự đoán như vậy không bao giờ có thể bác bỏ được. Điều này phủ nhận ý tưởng tối thượng về giả định vô tội, nguyên tắc mà hệ thống pháp luật của chúng ta, cũng như ý thức của chúng ta về sự công bằng, vẫn dựa vào. Và nếu buộc mọi người chịu trách nhiệm về những hành vi tương lai được dự đoán, mà họ có thể không bao giờ phạm phải, thì chúng ta cũng phủ nhận rằng con người có một năng lực cho sự lựa chọn mang tính đạo đức.

Điểm quan trọng ở đây không chỉ liên quan đến an ninh trật tự. Mối hiểm họa trải rộng hơn nhiều, bao gồm tất cả các lĩnh vực của xã hội, tất cả các trường hợp phán quyết của con người trong đó những dự đoán dữ-liệu-lớn được sử dụng để quyết định xem một người có mắc tội với những hành vi tương lai hay không. Chúng bao gồm tất cả mọi thứ, từ quyết định của một công ty thải hồi một nhân viên, một bác sĩ từ chối phẫu thuật một bệnh nhân, đến một người vợ/chồng nộp đơn ly dị.

Có lẽ với một hệ thống như vậy, xã hội sẽ được an toàn hơn và hiệu quả hơn, nhưng một phần thiết yếu của những gì khiến chúng ta là con người – khả năng lựa chọn các hành động của mình và phải chịu trách nhiệm về chúng – sẽ bị phá hủy. Dữ liệu lớn sẽ trở thành một công cụ để tập thể hóa lựa chọn của con người và từ bỏ ý chí tự do trong xã hội của chúng ta.

Tất nhiên, dữ liệu lớn cung cấp rất nhiều lợi ích. Điều biến nó thành một thứ vũ khí của phi nhân hóa chỉ là một khiếm khuyết, không phải của chính bản thân dữ liệu lớn, mà của những cách thức chúng ta sử dụng các dự đoán của nó. Điểm bất cập chính là buộc con người phải chịu tội, xuất phát từ những dự đoán dữ-liệu-lớn dựa trên mối tương quan nhưng lại đưa ra những quyết định có quan hệ nhân quả về trách nhiệm cá nhân.

Dữ liệu lớn rất hữu ích để hiểu được nguy cơ hiện tại và tương lai, và để điều chỉnh hành động của chúng ta một cách phù hợp. Nhưng dữ liệu lớn không cho chúng ta bất cứ điều gì về quan hệ nhân quả. Việc gán “tội lỗi” – tội lỗi cá nhân – đòi hỏi rằng những người mà chúng ta phán quyết đã chọn một hành động cụ thể. Quyết định của họ phải là nguyên nhân cho hành động. Chính vì dữ liệu lớn được dựa trên các mối tương quan, nên nó là công cụ hoàn toàn không phù hợp để giúp chúng ta phán quyết quan hệ nhân quả và do đó khép tội cho cá nhân.

Vấn đề là con người chủ yếu nhìn thế giới qua lăng kính của nhân quả. Do đó dữ liệu lớn luôn có nguy cơ bị lạm dụng cho các mục đích quan hệ nhân quả, bị gắn liền với những lăng kính màu hồng, cho rằng sự phán xét của chúng ta có thể hiệu quả nhiều hơn đến thế nào, chỉ cần ta được trang bị những dự đoán dữ-liệu-lớn.

Nó đúng là con dốc trơn thuần túy – trượt thẳng đến xã hội được miêu tả trong bộ phim Minority Report, một thế giới mà trong đó sự lựa chọn cá nhân và ý chí tự do bị loại bỏ, định hướng đạo đức cá nhân của chúng ta bị thay thế bởi các thuật toán dự đoán, và các cá nhân phải đối mặt với mũi giùi không hề bị ngăn trở của những sắc lệnh tập thể. Nếu được sử dụng như vậy thì dữ liệu lớn đe dọa sẽ giam cầm chúng ta – có lẽ theo nghĩa đen – trong nhà tù xác suất.

Độc tài dữ liệu

Dữ liệu lớn làm xói mòn sự riêng tư và đe dọa tự do. Nhưng dữ liệu lớn cũng làm trầm trọng thêm một vấn đề rất cũ: sự tin cậy vào những con số dù chúng dễ sai hơn chúng ta tưởng nhiều. Không gì nhấn mạnh những hậu quả méo mó của phân tích dữ liệu hơn câu chuyện của Robert McNamara.

McNamara là người của những con số. Được bổ nhiệm làm Bộ trưởng Quốc phòng Mỹ vào đầu những năm 1960, ông yêu cầu nhận được dữ liệu về tất cả mọi thứ có thể. Chỉ bằng cách áp dụng sự chặt chẽ của thống kê, ông tin rằng những người ra quyết định có thể hiểu được một tình huống phức tạp và đưa ra những lựa chọn đúng đắn. Thế giới trong quan niệm của ông là một khối thông tin hỗn độn, nếu được miêu tả, biểu lộ, phân định, và định lượng thì có thể được chế ngự bởi bàn tay con người và sẽ phục vụ ý muốn của con người. McNamara muốn tìm kiếm Sự Thật từ dữ liệu. Và trong những con số được gửi về cho ông là “số xác chết”.

McNamara biểu lộ đam mê các con số khi còn là một sinh viên tại Trường Kinh doanh của Đại học Harvard và sau đó là giáo sư dự khuyết trẻ nhất của trường ở tuổi 24. Ông đã áp dụng khoa học chặt chẽ này trong Chiến tranh Thế giới Thứ hai khi là thành viên của nhóm ưu tú Lầu Năm Góc tên là Ban Điều khiển Thống kê, đưa quy trình ra-quyết-định-dựa-trên-dữ-liệu vào một trong những bộ máy quan liêu lớn nhất thế giới. Trước đó, quân đội vẫn mù mờ thông tin. Ví dụ họ không biết loại, số lượng, hay vị trí của các phụ tùng máy bay. Dữ liệu đã đến để giải cứu. Chỉ mỗi việc mua sắm vũ khí hiệu quả hơn đã cắt giảm được $3,6 tỷ trong năm 1943. Chiến tranh hiện đại là về sự phân bổ hiệu quả các nguồn lực, và do vậy công việc của nhóm nghiên cứu là một thành công tuyệt vời.

Khi chiến tranh kết thúc, nhóm quyết định gắn bó với nhau và đóng góp những kỹ năng của họ cho các công ty Mỹ. Công ty Ford Motor đang gặp khó khăn, và một Henry Ford II tuyệt vọng đã trao dây cương cho họ. Giống như lúc tham gia nhóm nghiên cứu cho quân đội, họ cũng chẳng hề biết gì về chế tạo xe hơi. Tuy nhiên, những người được mệnh danh là những “Đứa trẻ Thần đồng” này đã xoay chuyển công ty.

McNamara đã thăng tiến nhanh chóng lên các cấp bậc, luôn nhanh chóng đưa ra một điểm dữ liệu cho mỗi tình huống. Các quản lý xí nghiệp bực bội cung cấp những con số mà ông yêu cầu – cho dù chúng chính xác hay không. Khi một chỉ thị đưa xuống rằng tất cả hàng tồn kho của một mô hình xe hơi phải được sử dụng trước khi một mô hình mới có thể bắt đầu sản xuất, các quản lý phân xưởng tức tối đổ các phụ tùng thừa xuống một con sông gần đó. Lãnh đạo tại trụ sở trung ương đồng ý phê duyệt khi các thợ cả báo cáo những con số xác nhận rằng chỉ thị đã được tuân thủ. Nhưng ở nhà máy người ta vẫn nói đùa rằng họ có thể đi trên mặt nước – trên những mảnh sắt gỉ của những chiếc xe đời 1950 và 1951.

McNamara là hình ảnh thu nhỏ của người quản lý giữa thế kỷ XX, người điều hành siêu hợp lý tin tưởng vào các con số thay vì cảm tính, và người có thể áp dụng những kỹ năng định lượng của mình vào bất cứ ngành công nghiệp nào mà ông ta tiếp cận. Năm 1960, ông trở thành chủ tịch của Ford, một vị trí mà ông chỉ nắm giữ vài tuần trước khi Tổng thống Kennedy bổ nhiệm ông làm Bộ trưởng Quốc phòng.

Khi cuộc chiến Việt Nam leo thang và Hoa Kỳ gửi nhiều quân đội hơn, cách thức để đo lường sự tiến triển là bằng số lượng kẻ thù bị giết chết. Số liệu được công bố hàng ngày trên báo chí. Với những kẻ ủng hộ chiến tranh, nó là bằng chứng của sự tiến triển, còn với những ai phản đối, nó là bằng chứng của sự vô đạo đức. Số xác chết là điểm dữ liệu đã định nghĩa một thời đại.

Năm 1977, hai năm sau khi chiếc trực thăng cuối cùng cất cánh khỏi nóc tòa đại sứ quán Mỹ ở Sài Gòn, một tướng quân đội về hưu, Douglas Kinnard, công bố một khảo sát mang tính bước ngoặt về quan điểm của các vị tướng. Được lấy tên là The War Managers, cuốn sách tiết lộ vũng lầy của định lượng. Chỉ hai phần trăm các tướng lĩnh của Mỹ xem số liệu xác chết là một cách hợp thức để đo lường sự tiến triển. Khoảng hai phần ba nói nó thường bị thổi phồng. “Một sự giả mạo – hoàn toàn vô giá trị”, một tướng nhận định. “Thường là những lời nói dối trắng trợn”, một người khác viết. “Chúng bị phóng đại hết cỡ bởi nhiều đơn vị, chủ yếu vì sự quan tâm quá đáng của những kẻ như McNamara”, một người thứ ba thẳng thừng nói.

Như những công nhân tại nhà máy Ford đã vứt các phụ tùng động cơ xuống sông, các sĩ quan trẻ đôi khi báo cáo cho cấp trên của họ những con số ấn tượng để giữ vai trò chỉ huy hoặc thúc đẩy sự nghiệp riêng. McNamara và những tướng tá xung quanh ông ta đã tin tưởng vào các con số, mê đắm chúng.

Việc sử dụng, lạm dụng và gian lận trong dữ liệu của quân đội Mỹ trong chiến tranh ở Việt Nam là một bài học đáng lo ngại về những hạn chế của thông tin trong thời đại dữ liệu nhỏ, một bài học phải được lưu ý khi thế giới tiến tới thời đại dữ-liệu-lớn. Chất lượng của các dữ liệu nền tảng có thể nghèo nàn. Nó có thể bị sai lệch. Nó có thể bị phân tích sai hoặc sử dụng một cách sai lạc. Và thậm chí tệ hại hơn, dữ liệu có thể không phản ánh được những gì nó nhắm tới để định lượng.

Chúng ta hiểu về thuật ngữ “độc tài dữ liệu” hơn mình tưởng. Thuật ngữ này nghĩa là để cho dữ liệu chi phối mình theo những cách thức có thể gây nhiều điều thiệt hại hơn là điều tốt. Mối đe dọa nằm ở chỗ chúng ta để cho chính mình bị ràng buộc một cách vô thức bởi kết quả của các phân tích ngay cả khi có những căn cứ hợp lý để nghi ngờ điều gì đó là không ổn. Hoặc chúng ta sẽ bị ám ảnh bởi việc thu thập dữ kiện và số liệu, thu thập chỉ để thu thập. Hoặc chúng ta sẽ gán cho dữ liệu một mức độ chân thật mà nó không xứng đáng được nhận.

Khi nhiều khía cạnh hơn của cuộc sống được dữ liệu hóa, giải pháp mà các nhà hoạch định chính sách và doanh nhân bắt đầu muốn nhắm tới là có được nhiều dữ liệu hơn. “Chúng ta tin ở Chúa – còn tất cả những thứ khác thì mang đến dữ liệu”, đây là câu thần chú của các nhà quản lý hiện đại, được nghe vang vọng khắp Thung Lũng Silicon, trên các sàn nhà máy, và dọc hành lang của các cơ quan chính phủ. Ngụ ý thì lành mạnh, nhưng người ta có thể dễ dàng bị đánh lừa bởi dữ liệu.

Giáo dục dường như trượt dốc? Hãy thúc đẩy các bài kiểm tra chuẩn hóa để đo lường hiệu suất và trừng phạt các giáo viên hoặc trường học nào không đạt. Cho dù các bài kiểm tra có thực sự nắm bắt được khả năng của học sinh hay không, chất lượng giảng dạy, hoặc nhu cầu của một lực lượng lao động sáng tạo, hiện đại và có khả năng thích ứng vẫn là một câu hỏi mở – nhưng là một điều mà dữ liệu không thừa nhận.

Muốn ngăn chặn khủng bố? Hãy tạo những lớp danh sách giám sát và cấm bay để kiểm soát bầu trời. Nhưng liệu những bộ dữ liệu như vậy có cung cấp nổi sự bảo vệ mà chúng hứa hẹn hay không thì còn phải bàn lại. Trong một sự cố nổi tiếng, cố Thượng nghị sĩ Ted Kennedy của bang Massachusetts, Mỹ đã bị “sa lưới” bởi danh sách cấm bay, bị chặn lại và thẩm vấn, chỉ đơn giản vì có tên giống một người trong cơ sở dữ liệu.

Những người làm việc với dữ liệu có một cách diễn đạt cho những vấn đề như vậy: “rác vào, rác ra”. Trong một số trường hợp nhất định, nguyên nhân nằm ở chất lượng của các thông tin cơ bản. Tuy nhiên nó thường do sự lạm dụng kết quả phân tích. Với dữ liệu lớn, những vấn đề này có thể xuất hiện thường xuyên hơn hoặc có những hậu quả lớn hơn.

Google, như chúng ta đã chỉ rõ trong nhiều ví dụ, thực hiện tất cả mọi thứ theo dữ liệu. Chiến lược này rõ ràng đã dẫn đến nhiều thành công. Nhưng thỉnh thoảng nó cũng làm cho công ty lao đao. Các đồng sáng lập của công ty, Larry Page và Sergey Brin, từ lâu đã kiên quyết yêu cầu được biết điểm thi SAT và điểm trung bình khi tốt nghiệp đại học của các ứng cử viên. Trong suy nghĩ của họ, con số đầu thể hiện tiềm năng và con số thứ hai thể hiện thành tích. Cả các nhà quản lý tài năng ở độ tuổi bốn mươi được tuyển dụng cũng bị hối thúc cung cấp các điểm số, và họ hoàn toàn bối rối về điều đó. Công ty thậm chí vẫn tiếp tục yêu cầu cung cấp điểm số, rất lâu sau khi các nghiên cứu nội bộ của nó cho thấy không có mối tương quan nào giữa điểm số và hiệu suất công việc.

Google đáng ra phải biết nhiều hơn, để không bị sự quyến rũ sai lệch của dữ liệu lôi cuốn. Cách đo lường này mang lại rất ít cơ hội cho thay đổi trong cuộc sống của một con người. Nó thất bại trong việc tính đến kiến thức chứ không phải sự thông minh sách vở. Và nó có thể không phản ánh năng lực của những người từ các ngành nhân văn, nơi hiểu biết có thể khó được định lượng hơn trong ngành khoa học và kỹ thuật. Nỗi ám ảnh đó của Google với dữ liệu liên quan đến nhân sự là đặc biệt lạ lùng, nếu xét rằng những người sáng lập công ty là những sản phẩm của trường phái Montessori, trong đó nhấn mạnh việc học tập, chứ không phải điểm số. Và nó lặp lại những sai lầm của những cường quốc công nghệ quá khứ, coi trọng hồ sơ hơn các khả năng thực tế của ứng viên. Liệu Larry và Sergey, từng bỏ ngang khi làm nghiên cứu sinh tiến sĩ, có giành được một cơ hội để trở thành các nhà quản lý tại Bell Labs huyền thoại? Theo các tiêu chuẩn của Google, Bill Gates, cũng như Mark Zuckerberg, và Steve Jobs đều sẽ không được thuê, vì không có bằng đại học.

Sự phụ thuộc của công ty vào dữ liệu đôi khi có vẻ bị thổi phồng. Marissa Mayer, khi là một trong những giám đốc điều hành hàng đầu của Google, một lần đã lệnh cho nhân viên thử 41 sắc màu xanh để xem sắc nào được ưa chuộng sử dụng nhiều hơn, nhằm xác định màu sắc của một thanh công cụ trên trang web. Sự sùng bái dữ liệu của Google đã tới mức cực đoan. Nó thậm chí còn gây ra cuộc nổi loạn.

Năm 2009, nhà thiết kế hàng đầu của Google, Douglas Bowman, đã bỏ đi trong một cơn tức giận vì ông không thể chịu được áp lực phải lượng hóa liên tục tất cả mọi thứ. “Tôi đã có một cuộc tranh luận gần đây về việc liệu một đường biên nên rộng 3, 4 hay 5 điểm ảnh, và được yêu cầu phải chứng minh đề nghị của mình. Tôi không thể làm việc trong một môi trường như vậy”, ông đã viết trên blog để thông báo việc từ chức của mình. “Khi một công ty gồm toàn các kỹ sư, nó sẽ bám lấy kỹ thuật để giải quyết các vấn đề. Mỗi quyết định đều phải quy về một bài toán logic đơn giản. Cuối cùng dữ liệu trở thành một thứ để chống đỡ cho mọi quyết định, làm tê liệt công ty”.

Sự sáng suốt không phụ thuộc vào dữ liệu. Steve Jobs có thể liên tục cải thiện máy tính xách tay Mac trong nhiều năm trên cơ sở các báo cáo thực địa, nhưng ông đã sử dụng trực giác của mình, chứ không phải dữ liệu, để khởi động iPod, iPhone, và iPad. Ông đã dựa vào giác quan thứ sáu. Jobs từng có một phát biểu nổi tiếng, khi trả lời câu hỏi của một phóng viên vì sao Apple không làm nghiên cứu thị trường trước khi phát hành iPad: “Chuyện biết mình muốn gì không phải là việc của người tiêu dùng”.

Trong cuốn sách Seeing Like a State, nhà nhân chủng học James Scott của Đại học Yale ghi lại những cách thức mà các chính phủ, khi tôn sùng định lượng hóa và dữ liệu, rốt cuộc chỉ làm cho cuộc sống của người dân thành khốn khổ chứ không trở nên tốt hơn. Họ sử dụng bản đồ nhằm xác định cách tổ chức lại các cộng đồng thay vì tìm hiểu mọi thứ về con người trên mặt đất. Họ sử dụng những bảng dài dữ liệu về thu hoạch để quyết định tập thể hóa nông nghiệp mà không biết một chút gì về nuôi trồng. Việc sử dụng dữ liệu, theo quan điểm của Scott, thường là để trao quyền cho kẻ mạnh.

Đây là độc tài dữ liệu. Và sự ngạo mạn tương tự đã đẩy Hoa Kỳ leo thang trong chiến tranh Việt Nam, một phần dựa trên cơ sở của số xác chết, chứ không phải những quyết định dựa trên các số liệu có ý nghĩa hơn. “Đúng là không phải mọi tình huống phức tạp về con người đều có thể được quy kết hoàn toàn thành các đường trên một đồ thị, hoặc thành các tỷ lệ phần trăm trên một biểu đồ, hoặc các con số trên một bảng thống kê”, McNamara phát biểu vào năm 1967, khi các cuộc biểu tình trong nước đang tăng. “Nhưng tất cả thực tế đều có thể được lý giải. Và không định lượng những gì có thể được định lượng cũng tức là bằng lòng với việc không xem xét đầy đủ các lý do”. Tuy nhiên vấn đề là sử dụng đúng các dữ liệu đúng, chứ không phải chỉ thu thập cho có.

Robert Strange McNamara chuyển sang phụ trách Ngân hàng Thế giới trong suốt những năm 1970, sau đó tô điểm mình như một con chim bồ câu trong những năm 1980. Sau này ông cho xuất bản cuốn hồi ký In Retrospect chỉ trích lối tư duy và những quyết định của chính mình trong vai trò Bộ trưởng Quốc phòng. “Chúng tôi đã sai, quá sai”, ông viết. Nhưng đó là ông đề cập đến chiến lược rộng của chiến tranh. Về vấn đề dữ liệu, và đặc biệt là những con số thương vong, McNamara vẫn không ăn năn. Ông ta thừa nhận nhiều số liệu thống kê đã “lừa dối hoặc sai sót”. “Nhưng những gì có thể đếm, bạn cần phải đếm. Thiệt hại về người là một trong số đó”. McNamara qua đời năm 2009 ở tuổi 93 – một người thông minh nhưng không khôn ngoan.

Dữ liệu lớn có thể lôi kéo chúng ta phạm tội lỗi của McNamara: trở nên quá gắn chặt với dữ liệu, và bị ám ảnh bởi sức mạnh và triển vọng của nó tới mức chúng ta không đánh giá đúng các hạn chế của nó. Thử nhìn lại Xu hướng Dịch cúm của Google. Hãy xem xét một tình huống, không hoàn toàn viển vông, trong đó một chủng nguy hiểm chết người của bệnh cúm dữ dội lan khắp toàn quốc. Các chuyên gia y khoa sẽ biết ơn khả năng dự báo trong thời gian thực các điểm nóng nhất bằng cách rà soát các truy vấn tìm kiếm. Họ sẽ biết được nơi nào phải can thiệp để giúp đỡ.

Nhưng giả sử rằng trong một thời điểm của cuộc khủng hoảng, các nhà lãnh đạo chính trị cho rằng chỉ biết nơi nào căn bệnh này có thể trở nên tồi tệ hơn và cố gắng loại trừ nó đi là không đủ. Vì vậy, họ yêu cầu một cuộc cách ly trên diện rộng – không phải với tất cả mọi người trong những vùng này, vì không cần thiết và quá rộng. Dữ liệu lớn cho phép chúng ta tập trung hơn. Thế nên việc cách ly chỉ áp dụng với những cá nhân thực hiện các lệnh tìm kiếm nào cho thấy họ nhiều khả năng nhiễm bệnh nhất. Ở đây chúng ta có dữ liệu về họ để lọc ra. Các đặc vụ của liên bang, nắm trong tay danh sách các địa chỉ IP và thông tin GPS của điện thoại di động, sẽ gom những người này vào các trung tâm cách ly.

Dù kịch bản này hợp lý với một số người, nó lại hoàn toàn sai. Các mối tương quan không có nghĩa là quan hệ nhân quả. Những người này có thể bị hoặc có thể không bị cúm. Họ cần phải được kiểm tra. Họ sẽ trở thành các tù nhân của một dự đoán, nhưng quan trọng hơn, họ sẽ là những nạn nhân của một cách nhìn dữ liệu thiển cận, không hiểu đủ ý nghĩa thực sự của thông tin. Vấn đề nằm ở chỗ một số thuật ngữ tìm kiếm nào đó có tương quan với sự bùng nổ bệnh dịch – nhưng mối tương quan có thể tồn tại vì những tình huống như các đồng nghiệp khỏe mạnh nghe hắt hơi trong văn phòng và lên mạng để tìm hiểu cách để tự bảo vệ mình, chứ không phải vì chính những người tìm kiếm bị mắc bệnh.

Mặt tối của dữ liệu lớn

Như chúng ta đã thấy, dữ liệu lớn cho phép giám sát cuộc sống của chúng ta nhiều hơn, trong khi nó khiến một số biện pháp pháp lý để bảo vệ sự riêng tư hầu như trở nên lỗi thời. Cũng đáng lo ngại khi các dự đoán dữ-liệu-lớn về cá nhân có thể được sử dụng để trừng phạt công dân vì những khuynh hướng của họ, chứ không phải vì những hành động của họ. Điều này phủ nhận ý chí tự do và làm xói mòn phẩm giá con người.

Đồng thời, có một nguy cơ thực sự rằng các lợi ích của dữ liệu lớn sẽ lôi kéo người ta áp dụng các kỹ thuật không hoàn toàn thích hợp với họ, hoặc tạo cảm giác quá tin vào các kết quả phân tích. Khi các dự đoán dữ-liệu-lớn được cải thiện, việc sử dụng chúng sẽ càng trở nên hấp dẫn, thúc đẩy một nỗi ám ảnh về dữ liệu vì nó có thể làm được rất nhiều thứ. Đó là lời nguyền của McNamara và là bài học mà câu chuyện về ông ta lưu giữ.

Trong chương tiếp theo, chúng ta sẽ xem xét những cách thức có thể kiểm soát được dữ liệu lớn, thay vì bị nó kiểm soát.

Chọn tập