Dữ Liệu Lớn – Big Data

Chương 7: Những Tác Động

Tác giả: Nhiều tác giả

Ads Top

NĂM 2011 MỘT CÔNG TY MỚI RA ĐỜI Ở Seattle tên là Decide.com đã mở những cánh cửa trực tuyến của mình với tham vọng rất tuyệt vời. Nó muốn trở thành một công cụ dự-đoán-giá cho vô số các sản phẩm tiêu dùng. Nhưng nó dự định bắt đầu một cách tương đối khiêm tốn: bằng tất cả các thiết bị công nghệ cao có thể, từ điện thoại di động và TV màn hình phẳng tới máy ảnh kỹ thuật số. Những chiếc máy tính của nó bới dữ liệu từ các trang web thương mại điện tử và lùng sục trên mạng để lấy bất cứ thông tin nào về giá và sản phẩm có thể tìm thấy.

Giá cả trên mạng liên tục thay đổi suốt ngày, tự động cập nhật dựa trên vô số yếu tố phức tạp. Vì vậy, công ty phải thu thập dữ liệu giá tại mọi thời điểm. Nó không chỉ là dữ liệu lớn mà còn là “văn bản lớn”, bởi hệ thống phải phân tích các từ để nhận ra khi nào một sản phẩm bị ngưng hoặc một mẫu mới sắp được tung ra, thông tin mà người tiêu dùng nên biết, và ảnh hưởng đến giá.

Một năm sau, Decide.com đã phân tích 4 triệu sản phẩm, sử dụng hơn 25 tỷ lượt theo dõi giá. Nó phát hiện những điều kỳ quặc về bán lẻ mà mọi người đã không hề “nhìn thấy” trước đây, như thực tế là giá của những kiểu mẫu cũ có thể tăng tạm thời khi những kiểu mẫu mới được tung ra. Hầu hết mọi người muốn mua một kiểu mẫu cũ hơn vì nghĩ rằng nó rẻ hơn, nhưng tùy thuộc vào lúc họ nhấp vào “mua”, họ có thể phải trả nhiều tiền hơn. Khi các cửa hàng trực tuyến ngày càng sử dụng nhiều các hệ thống giá tự động, Decide.com có thể nhận ra được những đợt tăng giá bất thường theo thuật toán và cảnh báo người tiêu dùng nên chờ đợi. Các dự đoán của công ty, theo những tính toán nội tại, là chính xác trong 77 phần trăm các trường hợp và giúp người mua tiết kiệm trung bình khoảng $100 mỗi sản phẩm. Vì vậy, công ty tự tin tới mức trong trường hợp dự đoán của nó không đúng, Decide.com sẽ hoàn trả lại phần chênh lệch giá cho các thành viên trả phí của dịch vụ.

Phim minh họa cơ chế hoạt động của Decide.com

Điều khiến Decide.com đặc biệt không phải là dữ liệu, vì công ty này dựa vào thông tin được phép lấy miễn phí từ các trang web thương mại điện tử cũng như thông tin lấy được từ mạng. Nó cũng không phải là trình độ kỹ thuật, vì công ty không làm bất cứ điều gì phức tạp đến nỗi chỉ các kỹ sư nào đó trên thế giới mới thực hiện nổi. Thay vào đó, bản chất của điều khiến Decide.com đặc biệt là ý tưởng: công ty này có một “tư duy dữ-liệu-lớn”. Nó thấy một cơ hội và phát hiện ra rằng một số dữ liệu nhất định có thể được khai thác để tiết lộ những bí mật có giá trị. Và nếu bạn thấy dường như có nét tương đồng giữa Decide.com với trang web dự đoán giá vé máy bay Farecast, quả là có lý do: cả hai đều là những đứa con tinh thần của Oren Etzioni.

Trong chương trước, chúng ta đã lưu ý rằng dữ liệu đang trở thành một nguồn mới của giá trị, phần lớn vì những gì chúng ta gọi là giá trị tương lai, khi nó bổ sung những mục đích sử dụng mới. Trọng tâm nằm ở các công ty thu thập dữ liệu. Bây giờ chúng ta chuyển sự chú ý sang các công ty sử dụng dữ liệu, và xem họ phù hợp với chuỗi giá trị thông tin như thế nào. Chúng ta sẽ xem xét điều này có nghĩa như thế nào đối với các tổ chức và cá nhân, cả trong sự nghiệp và cuộc sống hàng ngày của họ.

Có ba loại công ty dữ-liệu-lớn đã nảy sinh, được phân biệt theo giá trị mà họ cung cấp: dữ liệu, các kỹ năng, và các ý tưởng.

Đầu tiên là dữ liệu. Đây là những công ty có dữ liệu hoặc ít nhất là có thể truy cập được nó. Nhưng có lẽ đó không phải là những gì họ kinh doanh. Họ không nhất thiết phải có những kỹ năng thích hợp để tận dụng giá trị của nó hoặc để tạo ra các ý tưởng sáng tạo về những gì đáng được giải phóng. Ví dụ tốt nhất là Twitter, rõ ràng rất hứng thú với một lượng lớn dữ liệu chạy qua các máy chủ của nó, nhưng rồi được chuyển cho hai công ty độc lập để cấp phép cho những người khác sử dụng.

Thứ hai là kỹ năng. Thông thường những công ty tư vấn, các nhà cung cấp công nghệ, và các nhà cung cấp dịch vụ phân tích là những người có chuyên môn đặc biệt, nhưng tự bản thân họ lại không có dữ liệu cũng như khả năng để đề xuất những ứng dụng sáng tạo nhất cho nó. Ví dụ trong trường hợp của Walmart và Pop-Tarts, các nhà bán lẻ đã tìm đến các chuyên gia của Teradata, một công ty phân tích dữ liệu, để giúp tìm kiếm những hiểu biết sâu sắc.

Thứ ba là tư duy dữ-liệu-lớn. Với một số doanh nghiệp nhất định, dữ liệu và các bí quyết không phải là những nguyên nhân chính cho sự thành công của họ. Điều khiến họ khác biệt là những người sáng lập và nhân viên của họ có những ý tưởng độc đáo về cách khai thác dữ liệu để mở khóa cho các loại hình mới của giá trị. Một ví dụ là Pete Warden, người đồng sáng lập khá kỳ dị của Jetpac, một công ty tư vấn du lịch dựa trên những bức ảnh người sử dụng tải lên trang web.

Cho đến nay, hai yếu tố được chú ý nhất là kỹ năng (mà ngày nay đang khan hiếm), và dữ liệu (có vẻ rất phong phú). Một nghề chuyên môn mới đã xuất hiện trong những năm gần đây, “nhà khoa học dữ liệu”, kết hợp các kỹ năng của nhà thống kê, người lập trình phần mềm, nhà thiết kế thông tin đồ họa, và người kể chuyện. Thay vì dán mắt vào kính hiển vi để mở khóa một bí ẩn của vũ trụ, nhà khoa học dữ liệu kết bạn với các cơ sở dữ liệu để tạo nên một khám phá. Học viện McKinsey Global đã đưa ra những dự đoán bi quan về sự khan hiếm các nhà khoa học dữ liệu trong cả hiện tại và tương lai (điều mà các nhà khoa học dữ liệu đang thích trích dẫn để cảm thấy mình đặc biệt và để đòi hỏi tăng lương).

Hal Varian, nhà kinh tế trưởng của Google, đã gọi nghề thống kê là công việc “gợi cảm nhất”. “Nếu muốn thành công, bạn sẽ muốn mình vừa là phần bổ khuyết vừa là thứ khan hiếm trong một lĩnh vực phổ biến và không đắt đỏ”, ông nói. “Dữ liệu đang có sẵn một cách rộng rãi và rất quan trọng về chiến lược đến mức thứ đang khan hiếm chính là những kiến thức để trích xuất trí tuệ từ nó. Đó là lý do các nhà thống kê, quản lý cơ sở dữ liệu và chuyên gia ‘dạy máy tính học’ (machine learning) sẽ thực sự có một vị trí tuyệt vời”. Tuy nhiên, tất cả việc tập trung vào các kỹ năng và hạ thấp tầm quan trọng của dữ liệu có thể sẽ thất bại. Khi ngành công nghiệp lớn mạnh, sự thiếu nhân công sẽ được khắc phục khi các kỹ năng như Varian tuyên bố trở nên phổ biến. Hơn nữa, có một niềm tin sai lầm rằng chỉ vì có quá nhiều dữ liệu xung quanh, nên việc lấy dữ liệu là miễn phí hoặc giá trị của nó là ít ỏi. Trong thực tế, dữ liệu là thành phần quan trọng. Để hiểu được tại sao, hãy xem xét các thành phần khác nhau của chuỗi giá trị dữ-liệu-lớn, và chúng sẽ có thể thay đổi như thế nào theo thời gian. Để bắt đầu, chúng ta hãy xem xét lần lượt từng loại – người sở hữu dữ liệu, chuyên gia dữ liệu, và tu duy dữ-liệu-lớn.

Chuỗi giá trị dữ-liệu-lớn

Thứ cơ bản tạo nên dữ liệu lớn là bản thân thông tin. Chủ sở hữu dữ liệu có thể không thực hiện công việc sưu tập ban đầu, nhưng họ kiểm soát việc truy cập thông tin và sử dụng nó cho chính họ hoặc cấp phép cho những người khác để tận dụng giá trị của nó. Ví dụ ITA Software, một mạng giữ chỗ hàng không lớn (sau Amadeus, Travelport, và Sabre), đã cung cấp dữ liệu cho Farecast để dự báo giá vé máy bay, nhưng không tự tiến hành các phân tích. Tại sao không? ITA nhìn nhận việc kinh doanh của họ là sử dụng dữ liệu cho các mục đích mà nó được thiết kế – bán vé máy bay – chứ không phải cho các ứng dụng phụ trợ. Như vậy, những năng lực cốt lõi của nó là khác. Hơn nữa, nó sẽ phải làm việc xung quanh bằng sáng chế của Etzioni.

Công ty cũng quyết định không khai thác dữ liệu do vị trí của nó trong chuỗi giá trị thông tin. “ITA tránh xa các dự án nào khiến cho việc ứng dụng thương mại của dữ liệu có liên quan chặt chẽ tới doanh thu trong ngành hàng không”, Carl de Marcken, người đồng sáng lập và cựu giám đốc công nghệ của ITA Software, nhớ lại. “ITA có quyền truy cập đặc biệt tới loại dữ liệu như vậy vì chúng rất cần cho việc cung cấp dịch vụ của ITA, nên không thể làm phương hại điều này”. Thay vào đó, công ty cấp phép dữ liệu nhưng không sử dụng nó. Phần lớn giá trị thứ cấp của dữ liệu là cho Farecast: cho khách hàng của công ty này, dưới hình thức vé máy bay rẻ hơn; cho các nhân viên và chủ sở hữu của Farecast từ thu nhập mà công ty kiếm được nhờ quảng cáo, các khoản hoa hồng, và cuối cùng là việc bán công ty.

Một số công ty đã khôn ngoan định vị bản thân ở trung tâm của dòng thông tin để họ có thể đạt được quy mô và nắm bắt giá trị từ dữ liệu. Đó là trường hợp của ngành công nghiệp thẻ tín dụng ở Hoa Kỳ. Trong nhiều năm, chi phí cao trong việc chống gian lận khiến nhiều ngân hàng nhỏ và vừa tránh phát hành thẻ tín dụng của mình và giao hoạt động thẻ của mình cho các tổ chức tài chính lớn hơn, có đủ lực để đầu tư vào công nghệ. Các công ty như Capital One và Ngân hàng MBNA của Bank of America đã chiếm được thị trường này. Những ngân hàng nhỏ hơn bây giờ hối tiếc về quyết định đó, vì việc bỏ các hoạt động thẻ sẽ tước đi của họ dữ liệu về các mẫu chi tiêu có thể giúp hiểu nhiều hơn về khách hàng, từ đó bán những dịch vụ thích hợp.

Ngược lại, các ngân hàng lớn và các tổ chức phát hành thẻ như Visa và MasterCard có vẻ đã kiếm được món hời chuỗi giá trị thông tin. Bằng cách phục vụ nhiều ngân hàng và thương nhân, họ có thể nhìn thấy nhiều giao dịch hơn trên các mạng của họ và sử dụng chúng để suy luận về hành vi của người tiêu dùng. Mô hình kinh doanh của họ chuyển từ việc chỉ đơn giản xử lý thanh toán sang thu thập dữ liệu. Câu hỏi đặt ra sau đó là họ làm những gì với nó.

MasterCard có thể cấp phép dữ liệu cho các bên thứ ba để tận dụng giá trị, như ITA đã làm, nhưng công ty này thích tự phân tích. Một bộ phận được gọi là MasterCard Advisors tập hợp và phân tích 65 tỷ giao dịch từ 1,5 tỷ chủ thẻ ở 210 quốc gia để tiên đoán các xu hướng kinh doanh và tiêu dùng. Sau đó, nó bán thông tin này cho những người khác. Nó phát hiện ra, trong nhiều thứ khác, rằng nếu người ta đổ bình xăng vào khoảng 4 giờ chiều, thì họ rất có thể sẽ chi tiêu từ $35 tới $50 trong giờ kế tiếp tại một cửa hàng tạp hóa hay tiệm ăn. Một nhà tiếp thị có thể sử dụng hiểu biết này để in trên mặt sau của các hóa đơn bán xăng những tờ phiếu giảm giá cho một siêu thị gần đó, vào khoảng 4 giờ chiều.

Với tư cách một người trung gian của các dòng thông tin, MasterCard ở một vị trí tốt hơn hết để thu thập dữ liệu và nắm bắt giá trị của nó. Người ta có thể tưởng tượng một tương lai khi các công ty thẻ bỏ các khoản hoa hồng của họ trên các giao dịch, xử lý chúng miễn phí để đổi lấy quyền truy cập vào nhiều dữ liệu hơn, và kiếm thu nhập từ việc bán các phân tích rất tinh vi dựa trên nó.

Nhóm thứ hai bao gồm các chuyên gia về dữ liệu: các công ty với chuyên môn hoặc công nghệ để thực hiện các phân tích phức tạp. MasterCard đã chọn tự thực hiện điều này trong nội bộ, còn một số công ty thì chuyển qua lại giữa các thể loại. Nhưng rất nhiều công ty khác tìm đến các chuyên gia. Ví dụ công ty tư vấn Accenture làm việc với các công ty trong nhiều ngành công nghiệp để triển khai các công nghệ cảm-biến-vô-tuyến cao cấp, và để phân tích dữ liệu các cảm biến thu thập. Trong một dự án thí điểm với thành phố St Louis, bang Missouri, Accenture cài đặt các bộ cảm biến vô tuyến trong xe buýt công cộng để giám sát động cơ nhàm dự đoán sự cố hoặc xác định thời gian tối ưu để bảo trì thường kỳ. Nó đã giúp giảm được 10 phần trăm chi phí. Chỉ một phát hiện – đó là thành phố có thể trì hoãn lịch trình thay thế phụ tùng xe từ mỗi 200.000 – 250.000 dặm lên 280.000 dặm – đã tiết kiệm được hơn 1.000 đôla cho mỗi chiếc xe. Khách hàng, chứ không phải là công ty tư vấn, đã thu hoạch được quả ngọt từ dữ liệu.

Trong lĩnh vực dữ liệu y tế, chúng ta thấy một ví dụ nổi bật khác về cách thức các công ty không thuộc lĩnh vực công nghệ có thể cung cấp các dịch vụ hữu ích như thế nào. Trung tâm MedStar Washington ở Washington DC làm việc với Microsoft Research và sử dụng phần mềm Amalga của Microsoft đã phân tích ẩn danh hồ sơ y tế trong nhiều năm – về nhân khẩu học bệnh nhân, các kiểm tra, chẩn đoán, điều trị, và nhiều thứ khác nữa – để tìm cách giảm tỷ lệ tái phát và nhiễm trùng. Đây là một số trong các khâu tốn kém nhất của chăm sóc sức khỏe, vì vậy bất cứ điều gì có thể làm giảm những tỷ lệ này đều giúp tiết kiệm rất nhiều.

Kỹ thuật này phát hiện những mối tương quan đáng ngạc nhiên. Một trong số kết quả của nó là danh sách tất cả các điều kiện làm tăng khả năng một bệnh nhân xuất viện sẽ phải quay lại trong vòng một tháng. Có những điều người ta đã biết, nhưng chưa tìm được giải pháp dễ dàng, ví dụ một bệnh nhân suy tim sung huyết sẽ nhiều khả năng phải trở lại, do nó là một tình trạng khó điều trị. Tuy nhiên hệ thống cũng phát hiện một chỉ báo hàng đầu bất ngờ: trạng thái tinh thần của bệnh nhân.

Xác suất để một người sẽ nhập viện trở lại trong vòng một tháng sau khi xuất viện tăng lên đáng kể nếu lời khai ban đầu bao gồm những từ ngữ gợi đến suy nhược tinh thần, chẳng hạn như “chán nản”. Mặc dù mối tương quan này không cho biết điều gì để thiết lập quan hệ nhân quả, tuy nhiên nó cho thấy một sự can thiệp sau khi xuất viện để giải quyết sức khỏe tâm thần của bệnh nhân sẽ có thể cải thiện được sức khỏe thể chất của họ, làm giảm tỷ lệ nhập viện trở lại và giảm chi phí y tế. Phát hiện này, mà máy tính sàng lọc ra được từ kho tàng dữ liệu khổng lồ, là điều mà một người nghiên cứu dữ liệu có thể không bao giờ phát hiện ra. Microsoft không kiểm soát dữ liệu, nó thuộc về bệnh viện. Và Microsoft đã không có một ý tưởng gì đáng kinh ngạc, vì đó không phải là những gì cần đòi hỏi ở đây. Thay vào đó, nó cung cấp công cụ, phần mềm Amalga, để phát hiện những hiểu biết sáng suốt.

Các công ty là chủ sở hữu dữ-liệu-lớn dựa vào các chuyên gia để khai thác giá trị từ dữ liệu. Nhưng bất chấp những lời khen ngợi và các chức danh sang trọng như “ninja dữ liệu”, cuộc sống của các chuyên gia kỹ thuật không phải lúc nào cũng hấp dẫn như vẻ bề ngoài. Họ làm việc quần quật trong các mỏ kim cương của dữ liệu lớn, mang về nhà khoản tiền lương dễ chịu, nhưng họ sẽ trao lại những viên đá quý mà họ khai quật được cho những người có dữ liệu.

Nhóm thứ ba được tạo thành từ các công ty, cá nhân có một tư duy dữ liệu lớn. Sức mạnh của họ là ở chỗ họ nhìn thấy cơ hội trước khi những người khác nhìn thấy – ngay cả khi thiếu các dữ liệu hoặc kỹ năng để hành động theo những cơ hội đó. Có lẽ lý do chính xác là vì với tư cách những kẻ ngoại đạo, họ thiếu những thứ giam hãm tâm trí, và được tự do tưởng tượng: họ nhìn thấy những khả năng thay vì bị giới hạn bởi những gì khả thi.

Bradford Cross thể hiện thế nào là có một tư duy dữ-liệu-lớn. Tháng 8 năm 2009, khi mới ngoài hai mươi, ông và một số bạn bè đã thành lập FlightCaster.com. Giống như FlyOnTime. us, FlightCaster dự đoán liệu một chuyến bay ở Mỹ có khả năng bị chậm trễ không. Để thực hiện các dự đoán, nó phân tích tất cả các chuyến bay trong mười năm trước, đối chiếu với dữ liệu thời tiết lịch sử và hiện tại.

Thật thú vị là các chủ sở hữu dữ liệu tự bản thân không thể làm điều đó. Không ai có động lực – hoặc nhiệm vụ bắt buộc – để sử dụng dữ liệu theo cách này. Thực tế, nếu các nguồn dữ liệu – Văn phòng Thống kê Giao thông Vận tải Mỹ, Cục Hàng không Liên bang, và Cục Thời tiết Quốc gia – dám dự báo sự chậm trễ của các chuyến bay thương mại, biết đâu Quốc hội sẽ tổ chức các phiên điều trần và các vị quan liêu sẽ xoay như chong chóng. Còn các hãng hàng không thì chẳng thể làm điều đó – hoặc không muốn làm. Họ được hưởng lợi từ việc giữ hiệu suất hoạt động bình thường của mình mơ hồ nhất có thể. Thật ra chuyện đó cũng cần cả tá kỹ sư. Trên thực tế, các dự báo của FlightCaster chính xác một cách kỳ lạ đến mức ngay cả nhân viên hãng hàng không cũng bắt đầu sử dụng chúng. Vào tháng Giêng năm 2011, Cross và các đối tác của ông đã bán công ty cho Next Jump, một công ty quản lý các chương trình giảm giá sử dụng các kỹ thuật dữ-liệu-lớn.

Khái niệm về tư duy dữ-liệu-lớn, và vai trò của một người ngoài cuộc sáng tạo với một ý tưởng tuyệt vời, không khác với những gì đã xảy ra vào buổi bình minh của thương mại điện tử trong giữa những năm 1990, khi những người tiên phong đã không bị cản trở bởi những suy nghĩ cố thủ hoặc những ràng buộc thể chế của các ngành công nghiệp cũ. Vì vậy, một quỹ đầu tư, chứ không phải Barnes & Noble, đã thành lập một hiệu sách trực tuyến (Jeff Bezos của Amazon). Một nhà phát triển phần mềm, chứ không phải Sotheby, đã xây dựng một trang web đấu giá (Pierre Omidyar của eBay). Ngày nay, các doanh nhân với tư duy dữ-liệu-lớn thường không có dữ liệu khi họ bắt đầu. Nhưng vì thế, họ cũng không có những quyền lợi hoặc mất mát tài chính để ngăn cản việc bộc lộ những ý tưởng của họ.

Như chúng ta đã nhìn thấy, có những trường hợp trong đó một công ty kết hợp nhiều đặc điểm dữ-liệu-lớn. Có thể Etzioni và Cross đã nảy ra những ý tưởng xuất sắc trước những người khác, nhưng họ còn có các kỹ năng. Teradata và Accenture cũng được biết tới như những công ty tuyệt vời. Những người đi tiên phong về dữ liệu lớn ngày nay thường có xuất phát điểm khác nhau, và áp dụng phối hợp các kỹ năng dữ liệu của họ trong nhiều lĩnh vực. Một thế hệ mới các nhà đầu tư và các nhà doanh nghiệp đang nổi lên, đáng chú ý là các cựu thành viên của Google và cái gọi là PayPal Mafia (cựu lãnh đạo của công ty như Peter Thiel, Reid Hoffman, và Max Levchin). Họ, cùng với một số nhà khoa học máy tính trong giới hàn lâm, nằm trong số những người hỗ trợ lớn nhất của các công ty mới thành lập về dữ liệu hiện nay.

Tầm nhìn sáng tạo của các cá nhân và các công ty trong chuỗi dữ liệu lớn giúp chúng ta đánh giá lại giá trị của các công ty. Ví dụ Salesforce.com có thể không chỉ đơn giản là một nền tảng hữu ích cho các doanh nghiệp để chạy các ứng dụng của họ: nó còn xếp hạng cao về phát huy giá trị từ dữ liệu chảy trên cơ sở hạ tầng của nó. Các công ty điện thoại di động, như chúng ta đã thấy trong chương trước, thu thập một lượng khổng lồ dữ liệu nhưng thường không quan tâm khai thác giá trị của nó. Tuy nhiên họ có thể cấp phép cho những người khác khai thác giá trị mới từ nó – giống như Twitter quyết định cấp phép dữ liệu của nó cho hai công ty bên ngoài.

Cả Google và Amazon đều bao trùm các nhóm trong chuỗi giá trị dữ liệu lớn, nhưng chiến lược của họ thì khác nhau. Khi Google lần đầu tiên đặt ra việc thu thập tất cả các loại dữ liệu, họ đã nghĩ tới các ứng dụng thứ cấp. Những xe Street View, như chúng ta đã thấy, thu thập thông tin GPS không chỉ dành cho dịch vụ bản đồ mà còn để huấn luyện những chiếc xe tự lái. Ngược lại, Amazon tập trung hơn vào ứng dụng chính của dữ liệu và chỉ chạm đến các ứng dụng thứ cấp như một phần thưởng ngoài lề. Ví dụ hệ thống khuyến nghị của nó cũng dựa trên dữ liệu về các chuỗi nhấp chuột, nhưng công ty đã không sử dụng các thông tin để làm những chuyện phi thường như dự đoán tình trạng của nền kinh tế hay dịch cúm.

Mặc dù thiết bị đọc sách điện tử Kindle của Amazon có khả năng cho biết một trang nào đó đã được người sử dụng ghi chú và đánh dấu rất nhiều, nhưng công ty lại không bán thông tin này cho các tác giả và các nhà xuất bản. Các chuyên viên tiếp thị muốn biết những đoạn nào được ưa thích nhất và sử dụng hiểu biết đó để bán sách. Các tác giả muốn biết những đoạn nào trong sách của họ khiến hầu hết người đọc bỏ cuộc, và sử dụng thông tin đó để cải thiện tác phẩm. Các nhà xuất bản có thể phát hiện các chủ đề cho cuốn sách lớn tiếp theo. Tuy nhiên, Amazon dường như lại để lĩnh vực dữ liệu nằm bỏ hoang.

Nếu được khai thác một cách khôn ngoan, dữ liệu lớn có thể chuyển đổi mô hình kinh doanh của công ty và cách thức các đối tác lâu dài tương tác với nhau. Trong một trường hợp rất đáng lưu ý, một nhà sản xuất ôtô lớn của châu Âu đã thay đổi mối quan hệ thương mại với một nhà cung cấp phụ tùng bằng cách khai thác dữ liệu mà nhà sản xuất phụ tùng không có. (Vì chúng tôi biết được ví dụ này từ một trong những công ty chính phân tích dữ liệu, nên không thể tiết lộ tên cụ thể.)

Xe hơi ngày nay được trang bị các vi mạch, các bộ cảm biến, và phần mềm tải dữ liệu hiệu suất đến máy tính của các nhà sản xuất ôtô khi xe đưa tới bảo hành. Điển hình xe hạng trung bây giờ có khoảng 40 bộ vi xử lý; tất cả các thiết bị điện tử của xe xe hơi chiếm một phần ba giá của nó. Điều này làm cho những chiếc xe giống như những người kế thừa các con tàu mà Maury gọi là những “đài quan sát nổi”. Khả năng thu thập dữ liệu về hoạt động của phụ tùng xe trên đường – và tận dụng dữ liệu này để cải thiện chúng – chứng tỏ là một lợi thế cạnh tranh lớn cho các công ty có thể có được thông tin.

Khi làm việc với một công ty phân tích bên ngoài, nhà sản xuất ôtô đã phát hiện một bộ cảm biến trong thùng nhiên liệu được chế tạo bởi một nhà cung cấp của Đức đang hoạt động rất kém, tạo ra nhiều lỗi báo động sai. Công ty có thể đưa thông tin đó cho nhà cung cấp và yêu cầu điều chỉnh. Trong thời đại kinh doanh lịch lãm, nó có thể làm được điều đó. Nhưng nhà sản xuất ôtô đã phải chi một khoản lớn cho chương trình phân tích của mình, nên họ muốn sử dụng thông tin này để thu hồi một số khoản đầu tư.

Họ cân nhắc các lựa chọn của mình. Liệu có nên bán dữ liệu? Thông tin sẽ được định giá như thế nào? Nếu nhà cung cấp né tránh, còn mình bị mắc kẹt với một phụ tùng hoạt động kém thì sao? Và họ biết rằng nếu bàn giao các thông tin thì các phụ tùng tương tự cho các đối thủ cạnh tranh của họ cũng sẽ được cải thiện. Việc đảm bảo rằng sự cải thiện sẽ chỉ có lợi cho những chiếc xe riêng của mình dường như là một bước đi sáng suốt hơn. Cuối cùng, nhà sản xuất xe hơi đã đưa ra một ý tưởng mới lạ. Họ tìm được một cách để cải thiện phụ tùng với phần mềm chỉnh sửa, nhận một bằng sáng chế về kỹ thuật, sau đó bán các bằng sáng chế cho nhà cung cấp kia – và giành được một khoản tiền lớn trong quá trình này.

Các trung gian dữ liệu mới

Ai là người giữ nhiều giá trị nhất trong chuỗi giá trị dữ-liệu-lớn? Ngày nay, câu trả lời sẽ là những người có tư duy, có ý tưởng sáng tạo. Như chúng ta đã thấy từ thời kỳ dotcom, những ai có lợi thế của người đi tiên phong sẽ thực sự có thể phát triển thịnh vượng. Nhưng lợi thế này có thể không giữ được lâu. Khi kỷ nguyên của dữ liệu lớn tiến về phía trước, những người khác sẽ áp dụng tư duy này và lợi thế của những người đi tiên phong sẽ giảm, nói một cách tương đối.

Vậy thì có lẽ mấu chốt của giá trị là thực sự ở trong các kỹ năng? Xét cho cùng, một mỏ vàng sẽ không có giá trị gì nếu bạn không thể khai thác được vàng. Tuy nhiên, lịch sử máy tính lại cho thấy điều khác. Ngày nay nhu cầu về chuyên môn trong quản trị cơ sở dữ liệu, khoa học dữ liệu, phân tích, các thuật toán “dạy cho máy học” đều cao. Nhưng theo thời gian, khi dữ liệu lớn ngày càng trở thành một phần của cuộc sống thường nhật, khi các công cụ trở nên tốt hơn và dễ sử dụng hơn, và khi nhiều người hơn có được kinh nghiệm, thì giá trị của kỹ năng cũng sẽ giảm một cách tương đối. Tương tự như vậy, khả năng lập trình máy tính trở nên phổ biến hơn giữa những năm 1960 và 1980. Ngày nay, các công ty gia công phần mềm ra nước ngoài đã làm giảm giá trị của lập trình thậm chí nhiều hơn, những gì đã từng là mẫu mực của sự nhạy bén kỹ thuật thì hiện nay là một động cơ của phát triển cho người nghèo trên thế giới. Điều này không phải để nói rằng chuyên môn dữ liệu lớn là không quan trọng. Nhưng nó không phải là nguồn quan trọng nhất của giá trị, vì người ta có thể mang nó vào từ bên ngoài.

Hiện nay, trong giai đoạn đầu của dữ liệu lớn, những ý tưởng và kỹ năng dường như có giá trị lớn nhất. Nhưng cuối cùng hầu hết giá trị sẽ ở trong chính dữ liệu. Bởi vì chúng ta có thể làm được nhiều hơn với thông tin, và cũng bởi vì những người sở hữu dữ liệu sẽ biết đánh giá đúng hơn giá trị tiềm năng của tài sản họ sở hữu, nên họ sẽ giữ nó chặt hơn bao giờ hết, và sẽ tính mức giá cao khi những người ngoài truy cập. Quay lại phép ẩn dụ ở trên, xét cho cùng, bản thân vàng mới là quan trọng nhất.

Tuy nhiên, có một khía cạnh quan trọng đối với sự lớn mạnh lâu dài của các chủ sở hữu dữ liệu. Trong một số trường hợp, “các trung gian dữ liệu” sẽ xuất hiện để có thể thu thập dữ liệu từ nhiều nguồn, tập hợp lại, và sáng tạo với nó. Chủ sở hữu dữ liệu sẽ cho phép các trung gian thực hiện vai trò này bởi vì một số giá trị của dữ liệu chỉ có thể được thu hoạch thông qua họ.

Một ví dụ là Inrix, công ty phân tích giao thông ở bên ngoài Seattle. Nó biên dịch dữ liệu vị trí địa lý theo thời gian thực từ 100 triệu xe ở Bắc Mỹ và châu Âu. Dữ liệu đến từ những chiếc xe của BMW, Ford, Toyota, và những hãng khác, cũng như từ các đội xe thương mại như taxi và xe tải giao hàng. Nó cũng lấy dữ liệu từ điện thoại di động của những người lái xe (ở đây ứng dụng điện thoại thông minh miễn phí của Inrix có vai trò quan trọng: người dùng có được tin tức giao thông, đổi lại Inrix có được tọa độ của họ). Inrix kết hợp thông tin này với dữ liệu về các khuôn mẫu giao thông trong quá khứ, thời tiết, và những thứ khác như các sự kiện địa phương để dự đoán xem giao thông sẽ lưu chuyển như thế nào. Sản phẩm từ dây chuyền dữ liệu này được chuyển tiếp đến hệ thống định vị của xe, và được sử dụng bởi chính phủ và các đội xe thương mại.

Inrix là nhà trung gian dữ liệu độc lập tinh tế. Nó thu thập thông tin từ nhiều công ty xe hơi là đối thủ của nhau và do đó tạo ra một sản phẩm có giá trị hơn bất kỳ công ty nào trong số đó có thể đạt được riêng lẻ. Mỗi nhà sản xuất ôtô có thể có được vài triệu điểm dữ liệu từ những chiếc xe của nó lưu thông trên đường. Mặc dù nó có thể sử dụng dữ liệu này để dự báo lưu lượng giao thông, nhưng những dự báo này sẽ không chính xác hoặc hoàn chỉnh. Chất lượng dự báo được cải thiện khi số lượng dữ liệu tăng. Ngoài ra, các công ty xe hơi có thể không có các kỹ năng: năng lực của họ chủ yếu là uốn kim loại, chứ không phải là suy nghĩ về các phân phối Poisson.

Vì vậy, tất cả họ đều được khuyến khích tìm đến một bên thứ ba để thực hiện công việc. Bên cạnh đó, mặc dù dự báo giao thông là quan trọng đối với người lái xe, nó hầu như không ảnh hưởng đến việc liệu ai đó sẽ mua hoặc không mua một chiếc xe cụ thể. Vì vậy, các đối thủ cạnh tranh không ngần ngại cùng tham gia theo cách này.

Tất nhiên, các công ty trong nhiều ngành công nghiệp đã chia sẻ thông tin trước đây. Các công ty nghiên cứu thị trường đã tổng hợp dữ liệu công nghiệp trong nhiều thập kỷ, cũng như các công ty chuyên về kiểm toán lưu thông báo chí. Đối với một số hiệp hội thương mại, đây là cốt lõi của những gì họ làm. Sự khác biệt hôm nay là dữ liệu bây giờ có vai trò như nguyên liệu thô đi vào thị trường, một tài sản độc lập với những gì nó đã nhắm trước đó để đo lường. Ví dụ: thông tin của Inrix hữu ích hơn những gì nó thể hiện ra ngoài. Phân tích giao thông của nó được sử dụng để đo sức khỏe của nền kinh tế địa phương bởi vì nó có thể cung cấp những hiểu biết về thất nghiệp, doanh số bán lẻ và các hoạt động giải trí. Khi sự phục hồi của kinh tế Mỹ bắt đầu chệch choạc trong năm 2011, những dấu hiệu của nó đã được phát hiện bằng việc phân tích giao thông bất chấp sự chối bỏ của các chính trị gia: đường sá giờ cao điểm ít đông đúc, cho thấy tỷ lệ thất nghiệp cao hơn. Ngoài ra, Inrix đã bán dữ liệu của nó cho một quỹ đầu tư sử dụng các mô hình giao thông xung quanh các cửa hàng bán lẻ lớn như một chỉ báo cho doanh số bán hàng của nó. Nhiều xe hơn trong khu vực sẽ tương quan với việc bán hàng tốt hơn.

Những trung gian khác cũng đang mọc lên bên trong chuỗi giá trị dữ-liệu-lớn. Một công ty xuất hiện sớm là Hitwise, sau đó được Experian mua lại, đã giao dịch với các nhà cung cấp dịch vụ Internet để thu thập dữ liệu kích chuột của họ. Dữ liệu này đã được bán chỉ bằng một khoản phí nhỏ cố định thay vì một tỷ lệ phần trăm của giá trị nó mang lại. Hitwise đã chiếm được phần lớn giá trị với tu cách là nhà trung gian. Một ví dụ khác là Quantcast, đo lưu lượng trực tuyến tới các trang web để giúp họ biết thêm về nhân khẩu học của những người ghé thăm và mô hình sử dụng. Nó cung cấp một công cụ trực tuyến cho các trang web để các trang này có thể theo dõi khi người ta ghé thăm; đổi lại, Quantcast được tiếp cận dữ liệu để giúp nó cải thiện việc quảng cáo đúng khách hàng mục tiêu.

Một số tổ chức trung gian có thể không phải là những doanh nghiệp thương mại, ví dụ Viện Chi phí Chăm sóc Y tế được thành lập năm 2012 bởi một số công ty bảo hiểm lớn nhất của Mỹ. Dữ liệu kết hợp của họ lên đến 5 tỷ yêu cầu thanh toán liên quan đến 33 triệu người (ẩn danh). Việc chia sẻ các hồ sơ cho phép các công ty phát hiện các xu hướng không thể thấy được trong các bộ dữ liệu riêng lẻ nhỏ hơn của họ. Trong số những phát hiện đầu tiên là chi phí y tế Mỹ đã tăng nhanh hơn ba lần so với lạm phát trong năm 2009-2010, nhưng với những khác biệt rõ ràng ở mức chi tiết: giá phòng cấp cứu tăng 11 phần trăm trong khi giá của các cơ sở điều dưỡng thực chất lại giảm. Rõ ràng các công ty bảo hiểm y tế không bao giờ bàn giao dữ liệu quý giá của mình trừ khi cho một trung gian phi lợi nhuận. Những động cơ của một tổ chức phi lợi nhuận là đáng tin cậy hơn, và tổ chức đó có thể được thiết lập với tính minh bạch và trách nhiệm ngay từ trong tâm thức.

Sự đa dạng của các công ty dữ-liệu-lớn cho thấy giá trị của thông tin đang dịch chuyển như thế nào. Trong trường hợp của Decide.com, dữ liệu về giá cả được cung cấp bởi các trang web của đối tác trên cơ sở chia sẻ lợi nhuận. Decide.com kiếm được hoa hồng khi người ta mua hàng thông qua trang web, nhưng các công ty cung cấp dữ liệu cũng có được một phần. Điều này cho thấy một sự trưởng thành trong cách ngành công nghiệp làm việc với dữ liệu: Trước đây, ITA không nhận được hoa hồng trên các dữ liệu nó cung cấp cho Farecast, mà chỉ có một lệ phí cấp phép cơ bản. Hiện nay các nhà cung cấp dữ liệu có thể giành được những điều khoản hấp dẫn hơn. Với công ty tiếp theo mà Etzioni lập ra, người ta có thể cho rằng ông sẽ cố gắng tự cung cấp dữ liệu, vì giá trị đã di chuyển từ kỹ năng chuyên môn sang ý tưởng và hiện đang di chuyển sang dữ liệu.

Các mô hình kinh doanh đang được thay đổi hoàn toàn khi giá trị chuyển đến những người kiểm soát dữ liệu. Hãng sản xuất xe hơi châu Âu đạt thỏa thuận sở hữu trí tuệ với nhà cung cấp, có một đội ngũ phân tích dữ liệu mạnh mẽ, nhưng phải làm việc với một nhà cung cấp công nghệ bên ngoài để khám phá những tri thức từ các dữ liệu. Công ty công nghệ được trả phí cho công việc của nó, nhưng hãng xe giữ phần lớn lợi nhuận. Tuy nhiên, đánh hơi thấy cơ hội, công ty công nghệ đã thay đổi mô hình kinh doanh của mình để chia sẻ một số rủi ro và phần thưởng với khách hàng. Nó đã thử nghiệm làm việc với mức phí thấp hơn để đổi lấy một số chia sẻ của cải mà phân tích của nó mang lại. (Đối với các nhà cung cấp phụ tùng xe hơi, có thể yên tâm khẳng định rằng trong tương lai tất cả họ sẽ muốn bổ sung các cảm biến đo lường vào sản phẩm của mình, hoặc nhấn mạnh quyền truy cập vào dữ liệu hiệu suất như một phần chuẩn của hợp đồng mua bán, để liên tục cải tiến các phụ tùng của họ.)

Với các nhà trung gian, công việc của họ sẽ phức tạp bởi vì họ phải thuyết phục các công ty về giá trị của việc chia sẻ. Ví dụ Inrix đã bắt đầu thu thập nhiều hơn chứ không chỉ thông tin vị trí địa lý. Năm 2012, công ty chạy một thử nghiệm phân tích xem ở đâu và khi nào thì hệ thống phanh tự động (ABS) được kích hoạt, để hãng xe hơi đã thiết kế hệ thống đo từ xa của nó thu thập thông tin trong thời gian thực. Ý tưởng là việc thường xuyên kích hoạt ABS trên một đoạn cụ thể trên đường có thể cho thấy rằng các điều kiện ở đó nguy hiểm, và người lái xe nên xem xét những tuyến đường thay thế. Vì vậy, với các dữ liệu này, Inrix có thể khuyến cáo không chỉ con đường ngắn nhất mà còn cả con đường an toàn nhất nữa.

Tuy nhiên, hãng sản xuất xe hơi không có kế hoạch chia sẻ dữ liệu với người khác. Thay vào đó, nó nhất quyết yêu cầu Inrix chỉ triển khai hệ thống độc quyền trong xe hơi của mình. Giá trị của việc tung hô tính năng này được xem là lớn hơn những gì đạt được từ việc tổng hợp dữ liệu của nó với dữ liệu của các hãng khác để tăng độ chính xác tổng thể của hệ thống. Tuy nhiên Inrix tin rằng theo thời gian, tất cả các nhà sản xuất xe hơi sẽ thấy được tiện ích của việc tập hợp tất cả các dữ liệu của họ. Với tư cách một nhà trung gian dữ liệu, Inrix có một động lực mạnh mẽ để bám vào niềm lạc quan như vậy: hoạt động của nó được xây dựng hoàn toàn trên việc truy cập tới nhiều nguồn dữ liệu.

Các công ty cũng đang thử nghiệm các hình thức tổ chức khác nhau trong ngành dữ liệu lớn. Inrix không phải tình cờ đi theo mô hình kinh doanh này, giống như trường hợp của nhiều công ty mới thành lập khác, mà nó được thiết kế ngay từ đầu cho vai trò nhà trung gian. Microsoft, nơi sở hữu các bằng sáng chế lớn của công nghệ, đã thấy một công ty nhỏ, độc lập – chứ không phải là một công ty lớn – có thể được coi là trung lập hơn, và có thể mang các đối thủ công nghiệp lại cùng nhau và thu được nhiều nhất từ sở hữu trí tuệ của mình. Tương tự, Trung tâm Bệnh viện Washington MedStar sử dụng phần mềm Amalga của Microsoft để phân tích các tái nhập viện của bệnh nhân đã biết chính xác những gì nó đã làm với dữ liệu của nó: hệ thống Amalga ban đầu là phần mềm phòng cấp cứu nội bộ riêng của bệnh viện, được gọi là Azyxxi, rồi nó được bán cho Microsoft vào năm 2006 để có thể được phát triển tốt hơn.

Năm 2010 UPS bán một đơn vị phân tích dữ liệu nội bộ, gọi là UPS Logistics Technologies, cho công ty cổ phần tư nhân Thoma Bravo. Hiện đang hoạt động dưới tên Roadnet Technologies, đơn vị này tự do hơn để phân tích tuyến đường cho nhiều công ty. Roadnet thu thập dữ liệu từ nhiều khách hàng để cung cấp một dịch vụ điểm chuẩn cho toàn ngành công nghiệp được sử dụng bởi UPS và các đối thủ cạnh tranh của nó. UPS Logistics sẽ không bao giờ thuyết phục được các đối thủ của công ty mẹ của nó để bàn giao các bộ dữ liệu của họ, giám đốc điều hành Roadnet Len Kennedy giải thích. Tuy nhiên sau khi Roadnet trở thành độc lập, các đối thủ cạnh tranh của UPS cảm thấy thoải mái hơn khi cung cấp dữ liệu của họ, và cuối cùng tất cả mọi người đều hưởng lợi từ độ chính xác được cải thiện nhờ việc tập hợp dữ liệu mang lại.

Có thể tìm thấy bằng chứng về việc bản thân dữ liệu, chứ không phải các kỹ năng hay tư duy, sẽ được định giá cao nhất trong nhiều vụ chuyển nhượng doanh nghiệp dữ-liệu-lớn. Ví dụ trong năm 2006, Microsoft tưởng thưởng tư duy dữ-liệu-lớn của Etzioni qua việc mua Farecast với giá khoảng 110 triệu USD. Nhưng hai năm sau đó Google đã chi 700 triệu USD để mua lại nhà cung cấp dữ liệu của Farecast, ITA Software.

Sự cáo chung của các chuyên gia

Trong bộ phim Moneyball, đội bóng chày Oakland A’s đã trở thành người chiến thắng bằng cách áp dụng các phân tích và các loại số liệu mới vào. Có một cảnh thú vị trong đó các tuyển trạch viên già tóc hoa râm đang ngồi xung quanh một chiếc bàn thảo luận về các cầu thủ. Khán giả chắc hẳn rụng rời, không chỉ vì cảnh này cho thấy các quyết định được đưa ra chẳng dựa trên dữ liệu, mà còn bởi vì chúng ta đều từng rơi vào những tình huống trong đó sự “chắc chắn” chỉ dựa trên tình cảm thay vì khoa học.

“Anh ta có một cơ thể bóng chày… một khuôn mặt đẹp”, một tuyển trạch viên nói.

“Anh ta có một cú vung chày tuyệt vời. Khi tiếp xúc bóng, anh ta đánh mạnh, bóng bật giòn khỏi chày”, một ông tóc bạc mang máy trợ thính nói thều thào. “Rất nhiều tiếng bật giòn khỏi chày”, ông kia đồng tình.

Một ông thứ ba cắt ngang cuộc hội thoại, tuyên bố: “Anh ta có bạn gái xấu òm”. “Thế nghĩa là sao?”, tuyển trạch viên chủ trì cuộc họp hỏi. “Bạn gái xấu nghĩa là không tự tin”, người phản đối giải thích cứ như chuyện đó thật hiển nhiên. “OK”, người chủ trì hài lòng nhận xét, và tiếp tục.

Sau khi đùa cợt, một tuyển trạch viên đến nay vẫn im lặng nói: “Anh chàng này có tinh thần. Đó là điều tốt. Tôi muốn nói hắn là kiểu mà khi ta bước vào thì hắn đã có mặt ở đó sẵn rồi”. Một người khác thêm vào: “Anh ta hấp dẫn đấy. Anh ta trông đẹp trai, sẵn sàng tham gia. Anh ta chỉ cần được chơi một thời gian”. “Tôi chỉ muốn nói”, người phản đối nhắc lại, “bạn gái của anh ta chỉ điểm sáu – tối đa!”.

Cảnh này mô tả hoàn hảo những thiếu sót trong phán xét của con người. Cuộc tranh luận thực sự dựa trên những thứ chẳng hề cụ thể. Các quyết định về giá trị hàng triệu đôla của các hợp đồng mua bán cầu thủ được thực hiện theo bản năng, thiếu vắng các biện pháp khách quan. Đúng, đó chỉ là một bộ phim, nhưng thực tế cuộc sống không khác nhiều. Kiểu lý luận rỗng tuếch tương tự vẫn được sử dụng trong các phòng họp ở Manhattan hay Phòng Bầu dục, từ các quán cà phê đến các bàn ăn ở khắp mọi nơi.

Moneyball, dựa trên cuốn sách của Michael Lewis, kể về câu chuyện có thật của Billy Beane, tổng giám đốc của Oakland A’s. Trong bối cảnh rối ren của đội bóng, Beane đã mang đến văn phòng quản lý của đội phương pháp quan sát thống kê (sabermetrics), thuật ngữ được nhà báo thể thao Bill James đặt ra khi nhắc đến Hiệp hội Nghiên cứu Bóng chày Mỹ, mà lúc đó vẫn bị xem như một nhóm lập dị. Beane đã thách thức giáo điều lâu đời, cũng giống như quan điểm nhật tâm của Galileo đã thách thức uy quyền của Nhà thờ Công giáo. Cuối cùng Beane đã dẫn dắt đội bóng giành vị trí số một ở giải miền Tây nước Mỹ trong mùa giải 2002, trong đó có 20 trận thắng liên tiếp. Từ đó, các nhà thống kê đã thay thế các tuyển trạch viên để trở thành các chuyên gia thể thao. Rất nhiều đội khác sau đó cũng tự áp dụng phuong pháp quan sát thống kê này.

Cũng với tinh thần đó, tác động lớn nhất của dữ liệu lớn sẽ là các quyết định dựa vào dữ liệu sẽ được đua ra để củng cố hoặc bác bỏ phán quyết của con người.

Trong cuốn sách Super Crunchers (Những nhà phân tích dữ liệu siêu đẳng), luật sư và nhà kinh tế học trường Yale Ian Ayers cho rằng phân tích thống kê buộc người ta phải xem xét lại bản năng của họ. Thông qua dữ liệu lớn, điều này càng trở nên cần thiết hơn. Các chuyên gia trong ngành sẽ mất đi hào quang của mình so với nhà thống kê và nhà phân tích dữ liệu, là những người được giải phóng khỏi những cách cũ để làm việc và để cho các dữ liệu tự nói. Những người này sẽ dựa trên các mối tương quan mà không cần các phán đoán và thành kiến, giống như Maury đã không chọn giá trị bề mặt từ những gì các thủy thủ đã nói về một tuyến đường nhất định, nhưng tin tưởng vào số liệu tổng hợp để tiết lộ những sự thật thực tế.

Chúng ta đang nhìn thấy sự suy tàn ảnh hưởng của các chuyên gia chuyên ngành trong nhiều lĩnh vực. Trong truyền thông, các nội dung được tạo ra và xuất bản trên các trang web như Huffington Post, Gawker, và Forbes thường xuyên được xác định bởi dữ liệu, chứ không chỉ bởi sự phán xét của các biên tập viên. Dữ liệu có thể tiết lộ những gì mọi người muốn đọc tốt hơn so với bản năng của các nhà báo dày dạn. Công ty đào tạo trực tuyến Coursera sử dụng thông tin về việc sinh viên xem lại phần nào trong bài giảng để tìm hiểu những nội dung nào có thể đã không rõ ràng, và phản hồi lại cho giáo viên để họ cải thiện. Như chúng ta đã thấy trước đây, Jeff Bezos loại bỏ các nhân viên điểm sách tại Amazon khi dữ liệu cho thấy các khuyến cáo theo thuật toán đã mang lại nhiều doanh thu hơn.

Điều này có nghĩa các kỹ năng cần thiết để thành công tại nơi làm việc đang thay đổi. Nó làm thay đổi những gì nhân viên được trông đợi sẽ mang đến cho các tổ chức của họ. Tiến sĩ McGregor, người chăm sóc cho trẻ sinh non ở Ontario, không cần là bác sĩ thông thái nhất tại bệnh viện, hoặc là người có thẩm quyền cao nhất về chăm sóc trẻ sơ sinh trên thế giới, để mang lại những kết quả tốt nhất cho bệnh nhân của bà. Thật ra, bà không phải là một bác sĩ – bà có bằng tiến sĩ về khoa học máy tính. Nhưng bà áp dụng dữ liệu của hơn một thập kỷ về bệnh nhân, và máy tính đã nghiền ngẫm chúng để bà biến chúng thành các kiến nghị trong điều trị.

Như chúng ta đã thấy, những người tiên phong trong dữ liệu lớn thường đến từ các ngành nghề bên ngoài lĩnh vực mà họ làm nên tên tuổi. Họ là những chuyên gia trong phân tích dữ liệu, trí tuệ nhân tạo, toán học, hoặc thống kê, và họ áp dụng những kỹ năng này vào các ngành công nghiệp cụ thể. Những người chiến thắng của các cuộc thi Kaggle, nền tảng trực tuyến cho các dự án dữ-liệu-lớn, thường chỉ mới tiếp xúc với lĩnh vực mà trong đó họ tạo ra được những thành công, Giám đốc điều hành Anthony Goldbloom của Kaggle giải thích. Một nhà vật lý người Anh đã phát triển các thuật toán suýt giành chiến thắng, để dự đoán yêu cầu thanh toán bảo hiểm và xác định các xe hơi cũ có lỗi. Một chuyên gia bảo hiểm Singapore dẫn đầu một cuộc thi dự đoán các phản ứng sinh học đối với các hợp chất hóa học. Trong khi đó, ở nhóm dịch máy của Google, các kỹ sư vui mừng với bản dịch của những ngôn ngữ mà chẳng ai trong văn phòng nói được. Tương tự như vậy, các nhà thống kê tại nhóm dịch máy của Microsoft thích thú đưa ra một lời châm biếm cũ: rằng chất lượng của bản dịch tăng mỗi khi một nhà ngôn ngữ học rời khỏi nhóm.

Chắc chắn là các chuyên gia chuyên ngành sẽ không biến mất. Nhưng uy quyền của họ sẽ suy giảm. Từ nay, họ phải chia sẻ diễn đàn với các chuyên viên dữ-liệu-lớn, cũng giống như quan hệ nhân quả tráng lệ phải chia sẻ ánh đèn sân khấu với mối tương quan khiêm nhường. Điều này làm biến đổi cách chúng ta đánh giá kiến thức, bởi vì chúng ta có xu hướng nghĩ rằng những nhà chuyên môn sâu có giá trị cao hơn những người nghiên cứu rộng – rằng thời vận ủng hộ chiều sâu. Tuy nhiên, chuyên môn giống như sự chính xác: thích hợp cho một thế giới dữ-liệu-nhỏ nơi ta không bao giờ có đủ thông tin, hoặc thông tin đúng, và do đó phải dựa trên trực giác và kinh nghiệm để dẫn đường. Trong một thế giới như vậy, kinh nghiệm đóng một vai trò quan trọng, vì nó là sự tích lũy lâu dài kiến thức tiềm ẩn – kiến thức mà người ta không thể dễ dàng truyền tải hoặc học hỏi từ một cuốn sách, hoặc thậm chí có ý thức về nó. Loại kiến thức đó giúp con người ra quyết định thông minh hơn.

Nhưng khi bị nhồi nhét điên khùng với dữ liệu, bạn có thể khai thác nó, và với hiệu quả lớn hơn. Vì vậy, những người phân tích dữ liệu lớn có thể nhìn xa hơn các tín điều và suy nghĩ thông thường, không phải vì họ thông minh hơn, mà vì họ có dữ liệu. (Và là những người ngoài, họ không thiên vị những luận điểm chuyên môn, vốn có thể thu hẹp tầm nhìn của một chuyên gia vào bất cứ bên nào của cuộc tranh luận.) Điều này cho thấy những tiêu chuẩn xác định giá trị của một nhân viên trong công ty sẽ thay đổi. Những gì bạn cần biết sẽ thay đổi, người mà bạn cần biết sẽ thay đổi, và những gì bạn cần học để chuẩn bị cho nghề nghiệp và cuộc sống cũng thay đổi.

Toán học và thống kê, có lẽ với một chút khoa học về lập trình và mạng, sẽ là nền tảng cho công sở hiện đại, giống như khả năng tính toán một thế kỷ trước đây và khả năng đọc viết trước đó nữa. Trong quá khứ, để thành một nhà sinh vật học xuất sắc người ta cần phải biết rất nhiều nhà sinh vật học khác. Điều đó không thay đổi hoàn toàn. Tuy nhiên, ngày nay bề rộng dữ-liệu-lớn cũng quan trọng, chứ không chỉ bề sâu kiến thức chuyên môn. Việc giải một vấn đề sinh học khó rất có thể được thực hiện thông qua sự phối hợp với một nhà vật lý thiên văn hay một nhà thiết kế dữ liệu trực quan.

Trò chơi điện tử là một trong những ngành công nghiệp mà các “trung úy dữ liệu lớn” vẫn đua chen để đứng bên cạnh các “đại tướng chuyên ngành”, đồng thời biến đổi cả ngành công nghiệp trong quá trình này. Trò chơi điện tử là lĩnh vực kinh doanh lớn, gặt hái nhiều hơn các phòng vé Hollywood hàng năm trên toàn thế giới. Trong quá khứ, các công ty thiết kế một trò chơi, phát hành nó, và hy vọng nó sẽ trở thành nổi tiếng. Theo số liệu bán hàng, các công ty sẽ chuẩn bị một phần tiếp theo hoặc bắt đầu một dự án mới. Những quyết định về nhịp độ chơi và các yếu tố của trò chơi như nhân vật, cốt truyện, các đối tượng, và sự kiện được dựa trên sự sáng tạo của các nhà thiết kế, những người thực hiện công việc của họ với cùng mức độ nghiêm túc như Michelangelo vẽ trong Nhà thờ Sistine. Đó là nghệ thuật, không phải khoa học, một thế giới của linh cảm và bản năng, rất giống như câu chuyện của các tuyển trạch viên bóng chày trong Moneyball.

Nhưng thời đó đã qua. FarmVille, Frontierville, FishVille, và các trò chơi khác của Zynga đều có ở dạng trực tuyến và tương tác. Xét trên bề mặt, game trực tuyến giúp Zynga biết được dữ liệu việc sử dụng, và sửa đổi các trò chơi trên cơ sở chúng được thực sự chơi như thế nào. Vì vậy, nếu người chơi gặp khó khăn khi thăng cấp, hoặc muốn bỏ ngang tại một thời điểm nào đó bởi vì tính hành động không còn hấp dẫn, Zynga có thể phát hiện những vấn đề này trong dữ liệu và khắc phục chúng. Nhưng điều ít rõ ràng hơn là công ty có thể chỉnh các trò chơi theo những đặc điểm của từng người chơi. Không chỉ có một mà có tới hàng trăm phiên bản của FarmVille.

Các nhà phân tích dữ-liệu-lớn của Zynga nghiên cứu liệu việc bán các hàng hóa ảo có bị ảnh hưởng bởi màu sắc của chúng, hoặc bởi người chơi nhìn thấy bạn bè của họ sử dụng chúng. Ví dụ sau khi dữ liệu cho thấy người chơi FishVille mua một loại cá trong suốt nhiều hơn so với các sinh vật khác 6 lần, Zynga cung cấp nhiều loài trong suốt hơn và thu lợi khá nhiều. Trong trò chơi Mafia Wars, dữ liệu cho thấy người chơi mua vũ khí với viền vàng nhiều hơn và mua hổ gia súc toàn màu trắng.

Đây không phải là điều mà một nhà thiết kế trò chơi vùi đầu trong phòng làm việc có thể biết được, mà là do dữ liệu nói. “Chúng tôi là một công ty phân tích đội lốt một công ty trò chơi điện tử. Tất cả mọi thứ được điều hành bởi các con số”, Ken Rudin, trưởng nhóm phân tích của Zynga vào thời điểm đó, giải thích trước khi anh chuyển sang phụ trách phân tích tại Facebook. Việc khai thác dữ liệu không đảm bảo cho thành công kinh doanh nhưng cho thấy những điều khả thi.

Sự chuyển hướng sang các quyết định dựa trên dữ liệu là một bước chuyển sâu sắc. Hầu hết mọi người ra quyết định dựa trên sự kết hợp của các sự kiện và suy nghĩ, cộng với khá nhiều phỏng đoán. Các nhà điều hành chỉ cần cảm thấy tự tin về quyết định của mình dựa trên bản năng thì họ đã tiến tới luôn. Nhưng điều này đang bắt đầu thay đổi khi các quyết định quản lý được thực hiện hoặc ít nhất là được xác nhận bởi mô hình dự báo và phân tích dữ-liệu-lớn.

Ví dụ The-Numbers.com sử dụng toán học và rất nhiều dữ liệu để nói với các nhà sản xuất độc lập ở Hollywood biết một bộ phim có khả năng kiếm được thu nhập bao nhiêu, từ rất sớm trước khi những cảnh đầu tiên được quay. Cơ sở dữ liệu của công ty phân tích khoảng 30 triệu hồ sơ chứa đựng tất cả các phim thương mại của Mỹ hàng thập kỷ trở lại. Dữ liệu này bao gồm ngân sách, thể loại, diễn viên, đội làm phim, và các giải thưởng, cũng như doanh thu của mỗi bộ phim (từ các phòng vé ở Mỹ và các nước, bản quyền ở nước ngoài, doanh số bán và cho thuê phim…), và nhiều nữa. Cơ sở dữ liệu cũng có một phần kết nối con người, chẳng hạn như “nhà viết kịch bản này đã làm việc với đạo diễn này, đạo diễn này đã làm việc với diễn viên kia”, Bruce Nash, người sáng lập và chủ tịch của công ty, giải thích.

The-Numbers.com có thể tìm thấy mối tương quan phức tạp dự đoán thu nhập của các dự án phim. Các nhà sản xuất đưa thông tin đó tới các hãng phim hoặc các nhà đầu tư để có được sự ủng hộ tài chính. Công ty có thể thậm chí thao tác với các biến để nói với khách hàng làm thế nào để tăng lợi nhuận của họ (hoặc giảm thiểu rủi ro thua lỗ). Trong một trường hợp, phân tích của công ty phát hiện ra rằng một dự án sẽ có cơ hội tốt hơn nhiều để thành công nếu vai nam chính là một diễn viên hạng A: cụ thể, một diễn viên được đề cử giải Oscar được trả thù lao khoảng $5 triệu. Trong trường hợp khác, Nash đã thông báo cho IMAX rằng một phim tài liệu có thể có lãi chỉ khi ngân sách $12 triệu của nó giảm xuống thành $8 triệu. “Nó làm cho nhà sản xuất hài lòng – giám đốc thì ít hài lòng hơn”, Nash nói.

Sự thay đổi trong quá trình ra quyết định của các công ty đang bắt đầu diễn ra khá rõ. Giáo sư kinh doanh tại Trường Quản trị Sloan của MIT Erik Brynjolfsson và các đồng nghiệp đã nghiên cứu hiệu suất của các công ty vượt trội về ra quyết định dựa trên dữ liệu và so sánh nó với hiệu suất của các công ty khác. Họ phát hiện ra mức năng suất cao hơn đến 6 phần trăm tại các công ty như vậy so với tại các công ty không chú trọng sử dụng dữ liệu để ra quyết định. Điều này giúp các công ty dựa trên dữ liệu có một lợi thế đáng kể – mặc dù cũng giống như lợi thế về tư duy và kỹ năng, nó sẽ không thể tồn tại lâu, vì nhiều công ty hơn sẽ áp dụng các phương pháp tiếp cận dữ-liệu-lớn cho công việc kinh doanh của họ.

Vấn đề về sự tiện ích

Khi dữ liệu lớn trở thành một nguồn lợi thế cạnh tranh cho nhiều công ty, cấu trúc của toàn bộ ngành công nghiệp sẽ được định hình lại. Tuy nhiên các phần thưởng sẽ tích lũy không đồng đều. Và những kẻ chiến thắng sẽ ở trong số các công ty lớn và nhỏ, dồn ép số đông còn lại ở giữa. Các công ty lớn như Amazon và Google sẽ tiếp tục mạnh lên. Tuy nhiên không giống như tình trạng trong thời đại công nghiệp, lợi thế cạnh tranh của họ sẽ không dựa trên quy mô vật lý. Cơ sở hạ tầng kỹ thuật to lớn của các trung tâm dữ liệu mà họ điều khiển tuy đóng vai trò quan trọng, nhưng không phải là chất lượng quan trọng nhất của họ. Với khả năng lưu trữ kỹ thuật số phong phú và nguồn lực xử lý sẵn có để thuê với giá rẻ, có thể bổ sung chỉ trong ít phút, các công ty có thể dễ dàng điều chỉnh năng lực tính toán và lưu trữ của họ để phù hợp với nhu cầu thực tế. Việc chuyển những gì từng là chi phí cố định thành chi phí thay đổi đã làm xói mòn những lợi thế của quy mô dựa trên cơ sở hạ tầng kỹ thuật mà các công ty lớn từ lâu đã được hưởng.

Quy mô vẫn còn quan trọng, nhưng nó đã thay đổi. Điều quan trọng là quy mô của dữ liệu. Vì vậy, những chủ sử hữu dữ liệu lớn sẽ phát triển mạnh khi họ thu thập và lưu trữ nhiều hơn các nguyên liệu thô của doanh nghiệp, mà họ có thể tái sử dụng để tạo ra giá trị gia tăng.

Thách thức đối với những kẻ chiến thắng của thế giới dữ-liệu-nhỏ và với các nhà vô địch truyền thống – những công ty như Walmart, Proctor & Gamble, General Electric, Nestlé, và Boeing – là việc đánh giá cao sức mạnh của dữ liệu lớn, thu thập và sử dụng dữ liệu mang tính chiến lược hơn. Nhà sản xuất động cơ máy bay Rolls-Royce hoàn toàn thay đổi việc kinh doanh của mình trong thập kỷ qua bằng cách phân tích dữ liệu từ các sản phẩm của mình, chứ không chỉ chế tạo chúng. Từ trung tâm điều hành ở Anh, công ty liên tục giám sát hiệu suất của hơn 3.700 động cơ phản lực trên toàn thế giới để phát hiện các vấn đề trước khi sự cố xảy ra. Nó sử dụng dữ liệu để giúp biến một doanh nghiệp sản xuất thành một doanh nghiệp hai mặt: Rolls-Royce bán động cơ nhưng cũng cung cấp dịch vụ theo dõi hoạt động của chúng, tính phí cho khách hàng dựa trên thời gian sử dụng (và sửa chữa hoặc thay thế chúng trong trường hợp có vấn đề). Các dịch vụ hiện tại chiếm khoảng 70 phần trăm doanh thu hàng năm của bộ phận động cơ máy bay dân sự.

Các công ty mới thành lập cũng như các công ty đã vững mạnh, khi tham gia các lĩnh vực kinh doanh mới đều cố đặt mình vào vị trí có thể nắm bắt những nguồn dữ liệu khổng lồ. Việc Apple thâm nhập vào ngành điện thoại di động là một ví dụ. Trước iPhone, các nhà khai thác điện thoại di động tích lũy dữ liệu sử dụng có giá trị tiềm năng từ các thuê bao nhưng không thành công trong việc tận dụng nó. Apple, ngược lại, yêu cầu trong hợp đồng với các nhà khai thác là nó sẽ phải nhận được nhiều thông tin hữu ích nhất. Bằng cách lấy dữ liệu từ các điểm của các nhà khai thác trên toàn thế giới, Apple có một bức tranh về sử dụng điện thoại di động phong phú hơn bất kỳ nhà cung cấp điện thoại di động nào khác có thể tự có được.

Dữ liệu lớn cũng mang đến những cơ hội thú vị ở đầu kia của phổ kích thước. Các đối tác nhỏ thông minh và nhanh nhẹn có thể tận hưởng “quy mô không có khối lượng”, cụm từ nổi tiếng của giáo sư Brynjolfsson. Nó nghĩa là họ có thể có một sự hiện diện ảo lớn mà không cần những tài nguyên vật lý quá đắt, và có thể lan tỏa sự đổi mới một cách rộng rãi với chi phí thấp. Điều quan trọng là vì một số dịch vụ dữ-liệu-lớn tốt nhất dựa chủ yếu trên các ý tưởng sáng tạo, chúng có thể không đòi hỏi đầu tư ban đầu lớn. Các công ty nhỏ có thể cấp phép cho các dữ liệu chứ không sở hữu riêng nó, thực hiện phân tích của họ trên nền tảng điện toán đám mây không tốn kém, và nộp lệ phí cấp giấy phép với một tỷ lệ phần trăm của thu nhập kiếm được.

Nhiều khả năng các lợi ích ở cả hai đầu của phổ quy mô công ty sẽ không bị giới hạn cho người sử dụng dữ liệu mà cũng tích lũy cho các chủ dữ liệu. Những chủ sở hữu dữ liệu với quy mô lớn có động lực cao để bổ sung vào các lưu trữ dữ liệu của họ, vì làm như vậy sẽ đem lại lợi ích lớn hơn với chi phí không đáng kể. Thứ nhất, họ đã có cơ sở hạ tầng tại chỗ, để lưu trữ và xử lý. Thứ hai, có một giá trị đặc biệt trong việc kết hợp các bộ dữ liệu. Và thứ ba, một “cửa hàng bách hóa” để nhận được dữ liệu sẽ khiến mọi chuyện đơn giản hơn với những người sử dụng.

Tuy nhiên, thú vị hơn, một loại mới của các chủ dữ liệu cũng có thể xuất hiện ở một thái cực khác: các cá nhân. Khi giá trị của dữ liệu ngày càng trở nên rõ ràng, mọi người có thể muốn thể hiện sức mạnh của họ như các chủ sở hữu thông tin gắn liền với họ – ví dụ những sở thích mua sắm của họ, những thói quen xem chương trình truyền thông, và có lẽ cả dữ liệu sức khỏe nữa. Việc sở hữu dữ liệu cá nhân có thể khiến người tiêu dùng riêng lẻ có nhiều quyền lực theo những cách chưa hề được xét tới trước đây. Người ta có thể muốn quyết định cấp phép dữ liệu của họ cho ai, và với giá bao nhiêu. Tất nhiên, không phải tất cả mọi người đều muốn cược với kẻ trả giá cao nhất; nhiều người sẽ hài lòng thấy nó được tái sử dụng miễn phí để đổi lấy dịch vụ tốt hơn, ví dụ như những lời giới thiệu chính xác về các cuốn sách trên Amazon và một kinh nghiệm sử dụng tốt hơn trên Pinterest, một dịch vụ tiếp thị sách kỹ thuật số và chia sẻ nội dung. Nhưng đối với một số lượng đáng kể những người tiêu dùng kỹ thuật số hiểu biết, ý tưởng về tiếp thị và bán thông tin cá nhân của họ có thể trở thành việc tự nhiên như viết blog, tweeting, hoặc chỉnh sửa một mục Wikipedia.

Tuy nhiên, để làm được việc này sẽ cần không chỉ một sự thay đổi sở thích của người tiêu dùng. Ngày nay, việc cấp phép dữ liệu cá nhân và cho các công ty giao dịch với mỗi cá nhân để có được dữ liệu này sẽ quá phức tạp và tốn kém. Tình huống khả thi hơn là chúng ta sẽ chứng kiến sự ra đời của các công ty mới, tập hợp dữ liệu từ nhiều người tiêu dùng, cung cấp một cách thức dễ dàng để đăng ký nó, và tự động hóa các giao dịch. Nếu chi phí của họ đủ thấp, và nếu có đủ người tin tưởng họ, ta có thể tin rằng một thị trường cho dữ liệu cá nhân sẽ được thiết lập. Những doanh nghiệp như Mydex ở Anh và các nhóm như ID3 (đồng sáng lập bởi Sandy Pentland, một đại thụ về phân tích dữ liệu cá nhân tại MIT) vẫn đang nỗ lực để biến tầm nhìn này thành hiện thực.

Cho đến khi những nhà trung gian chính thức hoạt động và người sử dụng dữ liệu bắt đầu sử dụng họ, thì những ai mong muốn trở thành chủ sở hữu dữ liệu của riêng họ chỉ có rất ít lựa chọn. Tạm thời, để giữ lại giá trị tương lai của họ trong thời gian chờ cơ sở hạ tầng và những người trung gian hình thành, các cá nhân nên tiết lộ ít hơn chứ không phải nhiều hơn.

Tuy nhiên với các công ty cỡ vừa, dữ liệu lớn ít hữu ích hơn. Có những lợi thế về quy mô đối với công ty rất lớn, hoặc những lợi thế về chi phí và đổi mới đối với công ty nhỏ, Philip Evans của Nhóm Tư vấn Boston nhận định. Trong những lĩnh vực truyền thống, các doanh nghiệp cỡ vừa tồn tại bởi vì họ kết hợp một số kích thước tối thiểu để gặt hái những lợi ích của quy mô, cùng với một sự linh hoạt nhất định mà những công ty lớn không có. Nhưng trong một thế giới dữ-liệu-lớn, không có quy mô tối thiểu mà một công ty phải đạt được để trả cho các khoản đầu tư trong cơ sở hạ tầng sản xuất. Những công ty dữ-liệu-lớn vừa muốn giữ sự linh hoạt vừa muốn thành công sẽ thấy rằng họ không còn phải đạt được một ngưỡng về kích thước nữa. Thay vào đó, họ có thể nhỏ nhưng vẫn phát triển mạnh (hoặc được một công ty dữ-liệu-lớn khổng lồ mua lại).

Dữ liệu lớn sẽ siết chặt khúc giữa của một ngành công nghiệp, thúc đẩy các doanh nghiệp này phải trở nên rất lớn, hoặc nhỏ và nhanh, hoặc chết. Nhiều ngành nghề truyền thống cuối cùng sẽ được tái cấu trúc thành những ngành nghề dữ- liệu-lớn, từ các dịch vụ tài chính tới dược phẩm và chế tạo. Dữ liệu lớn sẽ không loại bỏ tất cả các doanh nghiệp cỡ vừa trong tất cả các lĩnh vực, nhưng nó chắc chắn sẽ gây áp lực lên các công ty trong các ngành công nghiệp có nguy cơ bị lung lay bởi sức mạnh của dữ liệu lớn.

Dữ liệu lớn cũng sẵn sàng phá vỡ những lợi thế cạnh tranh của các quốc gia. Vào thời điểm khi việc sản xuất đã bị mất về tay các nước đang phát triển, còn sự đổi mới có vẻ cũng bị tước đoạt, thì các nước công nghiệp vẫn duy trì một lợi thế vì họ nắm giữ dữ liệu và biết cách sử dụng nó. Tin xấu là lợi thế này không bền vững. Như đã xảy ra với máy tính và Internet, bước tiên phong của phương Tây trong dữ liệu lớn sẽ giảm khi các phần khác của thế giới chấp nhận công nghệ. Tuy nhiên tin tốt cho các siêu công ty ngày nay ở các quốc gia phát triển là dữ liệu lớn sẽ có thể khuếch đại các điểm mạnh cũng như các điểm yếu của các công ty. Vì vậy, nếu một công ty làm chủ được dữ liệu lớn, nó có cơ hội không chỉ hoạt động tốt hơn các đối thủ mà còn bỏ xa họ trong vai trò dẫn đầu.

Cuộc đua vẫn còn tiếp diễn. Giống như thuật toán tìm kiếm của Google cần dữ liệu xả của người sử dụng để vận hành hiệu quả, và giống như nhà cung cấp phụ tùng xe hơi Đức đã nhìn thấy tầm quan trọng của dữ liệu để cải thiện các phụ tùng của mình, tất cả các công ty cũng có thể hưởng lợi bằng cách khai thác dữ liệu theo những cách thức thông minh.

Tuy nhiên, dù có những viễn cảnh được tô hồng, vẫn còn nhiều lý do để lo lắng. Khi dữ liệu lớn đưa ra những dự đoán ngày càng chính xác về thế giới và vị trí của chúng ta trong đó, chúng ta có thể chưa sẵn sàng cho tác động của nó đối với sự riêng tư và ý thức của chúng ta về tự do. Nhận thức và thể chế của chúng ta đã được xây dựng cho một thế giới của sự khan hiếm chứ không phải cho sự thừa thãi thông tin. Chúng ta sẽ khám phá mặt tối của dữ liệu lớn trong chương kế tiếp.

Chọn tập