Sự nguy hiểm của chiến lược thu thập dữ liệu gen (gene) trên diện rộng

Posted on 24/02/2024 by Boxit VN

(Từ phân tích chiến lược của Trung Quốc để nhìn vấn đề của Việt Nam)

Phan Dương Hiệu

Dữ liệu nhạy cảm và quan trọng nhất của con người là dữ liệu gen. Nắm được gen là có khả năng hiểu rất nhiều về con người. Nắm được dữ liệu gen của một cộng đồng, một đất nước là hiểu rất rõ và khống chế, gây ảnh hưởng được lên cộng đồng/nước đó. Chính bởi vậy, với những vùng tự trị, Trung Quốc đã rất nhanh lấy dữ liệu gen trên diện rộng toàn dân của Tây Tạng và Tân Cương. Cá nhân hay tổ chức nào lấy được toàn bộ dữ liệu gen thì việc áp đặt hệ thống kiểm soát là dễ dàng, chỉ bằng một hai cú click trong tích tắc:

– Từ 1 người có quan điểm khác chính thống, công nghệ có thể cho phép tức thời truy ra hết tất cả những ai có gen liên quan với người đó, có quan hệ họ hàng, huyết thống (chính thức hay không) trong phạm vi tầm 5 thế hệ.

– Cùng các dữ liệu khác sẽ biết được những người họ hàng đó đang ở đâu, làm gì. Bên nắm dữ liệu gen có thể gây sức ép lên người thân, chẳng hạn ở mức nhẹ là các ứng dụng đi lại tàu xe, thanh toán sẽ mất hiệu lực để họ không còn đi đâu, chi trả được gì. Người ta có thể gây áp lực để khống chế người có quan điểm khác chính thống. Trước có “tru di tam tộc” thì nay có thể răn đe bằng cách khống chế năm đời.

Đây là một thời điểm quan trọng khi chúng ta đứng trước quyết định có thu thập dữ liệu gen trên diện rộng hay không. Bộ Công an lấy ý kiến các nhà khoa học [1] và tôi hy vọng sẽ có nhiều nhà khoa học lên tiếng về vấn đề rất quan trọng này [2, 3]. Dù đã nhiều lần lên tiếng liên quan đến vấn đề này [4,5,6,7,8] nhưng hưởng ứng lời kêu gọi đóng góp ý kiến, tôi xin tiếp tục đóng góp một góc nhìn cá nhân.

1. Về chiến lược thu thập dữ liệu cá nhân của Trung Quốc

Trước tiên, để nhìn vào tương lai việc thu thập dữ liệu cá nhân, chúng ta cần phân tích trường hợp Trung Quốc. Dưới đây là một nhận định cá nhân.

Việc Trung Quốc thu thập mọi thông tin cá nhân để siết chặt quản lý công dân của họ là điều không cần bàn, cả thế giới đều thấy. Tuy nhiên, trong chuyến đi Trung Quốc vừa rồi, có điều kiện trao đổi với các chuyên gia dữ liệu của họ, tôi biết rằng họ cũng đang gặp một số vấn đề. Vấn đề lớn nhất đó là sau thời gian thu thập quá nhiều dữ liệu, mở cửa cho các công ty thu thập dữ liệu, nhiều dữ liệu đã vượt khỏi tầm kiểm soát của nhà nước, và hiện nhà nước có nguy cơ mất khả năng kiểm soát các hệ thống AI như recommendation systems (các hệ thống phân tích người dùng để đưa ra các gợi ý, giới thiệu sản phẩm phù hợp). Nhiều công cụ bắt đầu định hướng người dân vào các sản phẩm rởm, đôi khi phi pháp. Đặc biệt, rất nhiều các kho dữ liệu của các công ty bị hack, có những cơ sở dữ liệu cực lớn bị tấn công [9], có nguy cơ kẻ xấu có thể dễ dàng thao túng thông tin cá nhân, khiến tình hình ngày càng khó quản lý.

Cách mà chính phủ họ đang hướng tới là một mặt siết chặt quản lý, phạt rất nặng các công ty để lộ dữ liệu vì bất kể lý do gì (không còn chuyện đổ lỗi cho hacker, mỗi cá nhân hay tổ chức đều phải chịu trách nhiệm khi không đủ khả năng bảo vệ dữ liệu khách hàng của mình). Mặt khác, xây dựng các nền tảng khai thác dữ liệu chung có độ bảo mật rất cao: những dữ liệu rất nhạy cảm như sinh trắc học làm sao vừa có thể mang ra khai thác, lại vừa không để bị tấn công lấy mất? Làm thế nào để phát triển các thuật toán có thể khai thác kho dữ liệu này mà không truy cập trực tiếp vào dữ liệu rõ (tức chỉ nhìn dữ liệu dạng mã nhưng thuật toán vẫn xử lý, tìm kiếm được)? Những mục đích này cần những kỹ thuật hiện đại nhất đang được nghiên cứu trên thế giới, mà đến nay vẫn còn xa mới có phương án hoàn chỉnh và khả thi trong thực tế.

Các phân tích trên để chúng ta sẽ thấy: dù muốn siết chặt quản lý công dân qua thu thập dữ liệu cá nhân trên diện rộng, ngay cả Trung Quốc cũng đang có những vấn đề cần giải quyết và vì thế vẫn chưa đủ tự tin hoàn toàn vào độ an toàn của hệ thống để có thể triển khai thu thập dữ liệu gen của toàn dân, bởi điều đó tiềm ẩn rủi ro rất lớn. Chúng ta một mặt không nên đi theo cách siết chặt quản lý công dân với các hệ thống tính điểm áp đặt như Trung Quốc (như đã phân tích trong [6]) và mặt khác, khi trình độ khoa học bảo mật còn thua xa họ, thì cần nhận định độ rủi ro của việc thu thập dữ liệu gen trên diện rộng lại càng lớn gấp nhiều lần họ. Điều này sẽ được phân tích kỹ hơn trong phần tiếp theo.

2. Dữ liệu gen – nguy cơ của việc thu thập trên diện rộng

Dữ liệu nhạy cảm và quan trọng nhất của con người là dữ liệu gen. Nắm được gen là có khả năng hiểu rất nhiều về con người. Nắm được dữ liệu gen của một cộng đồng, một đất nước là hiểu rất rõ và khống chế, gây ảnh hưởng được lên cộng đồng/nước đó. Chính bởi vậy, với những vùng tự trị, Trung Quốc đã rất nhanh lấy dữ liệu gen trên diện rộng toàn dân của Tây Tạng và Tân Cương [10]. Cá nhân hay tổ chức nào lấy được toàn bộ dữ liệu gen thì việc áp đặt hệ thống kiểm soát là dễ dàng, chỉ bằng một hai cú click trong tích tắc:

– Cùng các dữ liệu khác sẽ biết được những người họ hàng đó đang ở đâu, làm gì. Bên nắm dữ liệu gen có thể gây sức ép lên người thân, chẳng hạn ở mức nhẹ là các ứng dụng đi lại tàu xe, thanh toán sẽ mất hiệu lực để họ không còn đi đâu, chi trả được gì. Người ta có thể gây áp lực để khống chế người có quan điểm khác chính thống. Trước có "tru di tam tộc" thì nay có thể răn đe bằng cách khống chế năm đời.

Sự quản lý và khống chế người dân các vùng Tây Tạng và Tân Cương như vậy đã bị cộng đồng quốc tế lên án, vi phạm nghiêm trọng quyền con người. Chúng ta cần xem xét kỹ và dịch tài liệu này để hiểu cặn kẽ [10] Genomic Surveillance (https://www.aspi.org.au/report/gienomic-surveillance).

Trung Quốc có chiến lược thu thập gen từ sớm và có thể đã thu thập được khoảng 10% dân chúng [10] nhưng theo một số chuyên gia đồng nghiệp người Trung Quốc, trái với hình dung của nhiều người, chính quyền đang không đẩy nhanh quá trình thu thập này. Lý do là hơn ai hết, họ hiểu được dữ liệu gen của một quốc gia nếu bị lộ sẽ gây tác hại thế nào, và bản thân họ chưa đủ tự tin hoàn toàn vào hệ thống bảo mật trên diện rộng. Lưu trữ một khối lượng dữ liệu khổng lồ, nếu giữ khư khư trong kho không dùng thì có thể bảo mật, nhưng lôi nó ra dùng, khai thác trong rất nhiều ứng dụng khác nhau thì việc bảo mật gần như là không thể. Hiện các kỹ thuật bảo mật của họ chưa thể đảm bảo an toàn tuyệt đối khi đưa dữ liệu ra dùng rộng. Điều gì sẽ xảy ra nếu họ thu thập dữ liệu toàn dân, để rồi nếu bị tấn công và rơi vào tay nước khác? Đó sẽ là thảm hoạ. Chính vì vậy bản thân Trung Quốc sau thời gian đầu cũng đang chững lại chưa đẩy mạnh việc thu thập dữ liệu gen trên toàn dân.

3. Thu thập dữ liệu gen – rủi ro nghiêm trọng tầm quốc gia

Nhìn từ Trung Quốc, chúng ta cần suy nghĩ dưới góc độ quan hệ quốc tế, liệu họ có thể có chiến lược nào với các nước mà họ muốn gây ảnh hưởng? Khác với các khu vực hành chính trong nước nơi họ có thể áp đặt việc thu thập dữ liệu gen để khống chế, với các nước khác nếu họ muốn gây ảnh hưởng, hay muốn thu thập dữ liệu gen vì những mục đích riêng nhưng lại không có quyền tác động trực tiếp thì có thể thực hiện theo cách thức nào?

Câu hỏi rộng hơn, với bất kỳ một nước lớn nào, liệu họ có cách thức khống chế một kho dữ liệu lớn và quan trọng như gen của nước nhỏ hơn và từ đó gây ảnh hưởng toàn diện? Một chiến lược không hẳn là mới mẻ là họ cung cấp, hỗ trợ các thiết bị, công cụ với giá rẻ mạt như cho để chi phí, kỹ thuật thu thập và lưu trữ dữ liệu gen không còn là cản trở với nước họ muốn áp đặt. Với việc quảng bá những lợi ích mà nghe qua khá hấp dẫn như: phân tích gen tìm nguồn gốc, họ hàng, tìm hiểu và định hướng năng khiếu trẻ từ nhỏ, phòng bệnh hơn chữa bệnh, dùng sinh trắc để xác thực chống lừa đảo… thì một đất nước có thể tạo ra những lý do để phần đông công chúng chỉ thấy mặt lợi ích, từ đó áp đặt một chính sách lên dân để thu thập các dữ liệu nhạy cảm như dữ liệu gen. Một vài năm thực hiện đất nước đó sẽ có dữ liệu gien toàn dân, và nó làm nước đó có khả năng siết chặt quản lý dân mình. Nhưng rồi, chỉ bằng một cú "hack" (hoặc qua việc cài backdoor trong công nghệ, thiết bị đã cung cấp), toàn bộ dữ liệu đó sẽ rơi vào tay nước lớn và nước lớn có thể khống chế nước nhỏ, lãnh đạo và người dân nước nhỏ, bằng cách tương tự mà chính phủ nước nhỏ khống chế dân mình.

Không thể bảo mật khi sử dụng cơ sở dữ liệu chung cho nhiều ứng dụng.

Thu thập dữ liệu gen rồi dùng nó cho một loạt các ứng dụng (xác thực, chống lừa đảo, truy nguồn cội, phòng bệnh trong y tế cộng đồng…) thì việc bảo mật dữ liệu nhìn thấy trước là không thể giữ được. Các ngân hàng lộ dữ liệu khách hàng, số điện thoại đến mức không thể kiểm soát lừa đảo là một ví dụ thấy rõ. Nếu với lý do không thể khắc phục được lỗ hổng bảo mật mà lại đưa ra phương án sử dụng dữ liệu ADN để xác thực, thì công dụng chưa được bao nhiêu trong khi nguy cơ cao sẽ để lộ hết dữ liệu gen của người dân, khi đó hậu quả còn nghiêm trọng gấp bội. Số điện thoại, số thẻ ngân hàng bị lộ thì còn có thể khắc phục là thay đổi, còn dữ liệu gen đã lộ là lộ suốt đời, thậm chí ảnh hưởng người thân và cả những thế hệ sau này còn chưa sinh ra. Ai sẽ là người chịu trách nhiệm khi dữ liệu gen bị lộ? Trách nhiệm vô cùng lớn này cần được làm rõ.

Câu chuyện 23andMe – từ một công ty tỉ đô đang bị kiện vì để lộ dữ liệu gen, ảnh hưởng nghiêm trọng an ninh, an toàn của người dùng là một minh chứng nhãn tiền. Những nhóm cực đoan có thể biết gốc gác những người quan trọng, cũng có khi chỉ đơn giản là từ dữ liệu gen biết những quan hệ ngoài luồng của một người để từ đó tống tiền gây sức ép nếu không sẽ công khai thông tin (cái đơn giản này áp vào các lãnh đạo của một nước là khống chế được họ luôn). Câu chuyện này đã được phân tích và cũng đáng được xem kỹ [11] để hiểu thêm rằng việc khai thác hiệu quả dữ liệu gen không hề dễ dàng như mong muốn, nhưng nguy cơ để lộ dữ liệu thì lại rất lớn.

4. Kết luận: không thu thập dữ liệu gen trên diện rộng

Cân nhắc lợi hại, chiến lược có thể bắt buộc phải là: từ bỏ định hướng thu thập dữ liệu sinh trắc học nhạy cảm như gen trên diện rộng toàn dân. Đối với nhà nước, việc xác thực, định danh có nhiều phương án khác rất hiệu quả. Chúng ta cũng không gặp khủng hoảng an ninh và cũng không có mấy nước dùng dữ liệu gen để xác thực, định danh thông thường. Đối với các công ty, nếu thực sự vì mục đích nghiên cứu, thu thập bao nhiêu là đủ? Hiển nhiên không cần thu thập trên toàn dân, chỉ cần một số lượng không quá lớn là đủ cho các mục đích như tìm hiểu cội nguồn dân tộc, nghiên cứu bệnh… Hãy đừng cổ vũ lấy những lợi ích như thu thập dữ liệu toàn dân để hiểu nguồn gốc, để phòng bệnh hơn chữa bệnh, để rồi khi không thể bảo vệ dữ liệu sẽ dẫn đến những hậu quả khủng khiếp.

Sự nguy hiểm của vấn đề thu thập gen là ở chỗ nó có thể được quảng bá là sẽ đem lại một số lợi ích trước mắt, do đó, đơn vị (nhà nước, công ty) muốn thu thập có thể lấy những lợi ích này làm lý do cho mục đích thu thập trên diện rộng, từ đó che mờ những nguy hại khủng khiếp phía sau. Chúng ta cần nhìn thật sự vào bản chất, vào mọi khía cạnh để thấy rằng lợi ích tức thời nếu có sẽ không đáng kể so với những nguy hại vĩnh viễn không thể khắc phục – ảnh hưởng tới toàn dân và đất nước.