Theo một nhà thống kê, các mạng tổng hợp có thể làm tăng tính khả dụng của một số dữ liệu trong khi vẫn bảo vệ quyền riêng tư của cá nhân hoặc tổ chức.
“Quan tâm chính của tôi là phát triển phương pháp cho phép chia sẻ dữ liệu bí mật rộng hơn theo cách có thể hỗ trợ khám phá khoa học”, ông Alexandra Slavkovic, giáo sư thống kê và phó khoa giáo dục sau đại học, Đại học Khoa học Eberly, bang Pennsylvania, nói. “Có thể chia sẻ dữ liệu bí mật với rủi ro có thể định lượng tối thiểu để phát hiện thông tin nhạy cảm và vẫn đảm bảo tính chính xác và toàn vẹn về mặt thống kê, là mục tiêu.”
Slavkovic đã tìm ra giải pháp cho vấn đề bảo mật dữ liệu này thông qua sự hợp tác liên ngành, đặc biệt là với các nhà khoa học máy tính và xã hội. Nghiên cứu của cô tập trung vào các dữ liệu khác nhau, bao gồm dữ liệu mạng nắm bắt thông tin mối quan hệ giữa các thực thể như cá nhân hoặc tổ chức. Cô đã báo cáo các phương pháp tiếp cận của mình để cung cấp các mạng tổng hợp đáp ứng khái niệm về quyền riêng tư khác biệt hôm nay (16/2) trong cuộc họp thường niên năm 2019 của Hiệp hội vì sự tiến bộ khoa học Mỹ ở Washington, DC
Quyền riêng tư khác biệt cung cấp một sự đảm bảo có thể chứng minh về mặt toán học về mức độ mất quyền riêng tư cho các cá nhân.
Các nhà khoa học muốn truy cập dữ liệu do người khác thu thập cho nghiên cứu của họ, nhưng quyền truy cập đó cũng có thể ảnh hưởng đến quyền riêng tư cá nhân, ngay cả sau khi xóa dữ liệu được gọi là dữ liệu cá nhân.
“Sự phong phú của dữ liệu phụ trợ là thủ phạm chính”, Slavkovic nói. “Với những tiến bộ về phương pháp và công nghệ trong thu thập dữ liệu và liên kết hồ sơ, việc truy cập dễ dàng hơn vào nhiều nguồn dữ liệu có thể được liên kết với một bộ dữ liệu trong tay và yêu cầu của các cơ quan tài trợ để chia sẻ dữ liệu, rủi ro đối với quyền riêng tư dữ liệu đang gia tăng. các giải pháp để quản lý mất quyền riêng tư là điều cần thiết để cho phép khám phá khoa học hợp lý. “
Chẳng hạn, thông tin có sẵn từ một thử nghiệm thuốc về thuốc HIV, sẽ cho biết ai thuộc nhóm điều trị và ai thuộc nhóm đối chứng. Nhóm điều trị sẽ chỉ chứa những người được chẩn đoán nhiễm HIV và mặc dù chủ sở hữu dữ liệu đã giữ kín thông tin cá nhân từ bộ dữ liệu đó, một số thông tin nhận dạng sẽ vẫn còn. Bởi vì rất nhiều thông tin ngày nay có sẵn trực tuyến trên phương tiện truyền thông xã hội và trong các bộ dữ liệu khác, có thể kết nối các dấu chấm và xác định người, có khả năng tiết lộ tình trạng HIV của họ.
“Các kỹ thuật để liên kết hai bộ dữ liệu, nói rằng hồ sơ cử tri và dữ liệu bảo hiểm y tế, đã được cải thiện rất nhiều”, Slavkovic nói. “Trong một trong những phát hiện sớm nhất, Latanya Sweeny (hiện tại Harvard) đã chỉ ra rằng bằng cách liên kết các loại dữ liệu này, bạn có thể xác định 87% số người trong Điều tra dân số Hoa Kỳ từ năm 1990 dựa trên ngày sinh, giới tính và 5 chữ số của họ Mã zip. Gần đây, các nhà nghiên cứu đã sử dụng tweet và siêu dữ liệu Twitter liên quan để cho thấy rằng họ có thể xác định người dùng với độ chính xác 96,7%. “
Slavkovic lưu ý rằng không chỉ người hoặc tổ chức có dữ liệu được chứa trong cơ sở dữ liệu, mà những người bên ngoài cơ sở dữ liệu cũng có thể bị xâm phạm quyền riêng tư, trực tiếp hoặc liên kết. Mối liên kết giữa thông tin trong bộ dữ liệu và thông tin trên phương tiện truyền thông xã hội có thể dẫn đến sự vi phạm quyền riêng tư nghiêm trọng – một cái gì đó như tình trạng HIV hoặc xu hướng tình dục có thể có hậu quả nghiêm trọng nếu tiết lộ.
Mặc dù quyền riêng tư là quan trọng, các bộ dữ liệu được thu thập tạo nên một nguồn thông tin thiết yếu cho các nhà nghiên cứu. Hiện tại, trong một số trường hợp khi dữ liệu đặc biệt nhạy cảm, các nhà nghiên cứu phải đi đến kho lưu trữ dữ liệu để thực hiện nghiên cứu của họ, khiến việc nghiên cứu trở nên khó khăn và tốn kém hơn.
Slavkovic quan tâm đến dữ liệu mạng. Thông tin cho thấy sự liên kết của mọi người hoặc tổ chức – các nút – và các kết nối giữa các nút. Cách tiếp cận của cô là tạo ra các bộ dữ liệu mạng được nhân đôi, thay đổi một chút với một vài nút được di chuyển, các kết nối bị dịch chuyển hoặc các cạnh bị thay đổi.
“Mục đích là tạo ra các mạng mới đáp ứng các yêu cầu riêng tư khác biệt nghiêm ngặt và đồng thời nắm bắt hầu hết các tính năng thống kê từ mạng ban đầu”, Slavkovic nói.
Những bộ dữ liệu tổng hợp này có thể đủ cho một số nhà nghiên cứu để đáp ứng nhu cầu nghiên cứu của họ. Đối với những người khác, nó là đủ để kiểm tra các phương pháp và giả thuyết của họ trước khi phải đi đến trang lưu trữ dữ liệu. Các nhà nghiên cứu có thể kiểm tra mã, thực hiện nghiên cứu khám phá và có lẽ phân tích cơ bản trong khi chờ cấp phép sử dụng dữ liệu gốc trong trang web lưu trữ của nó.
“Chúng tôi không thể đáp ứng nhu cầu cho tất cả các phân tích thống kê với cùng loại dữ liệu đã thay đổi”, Slavkovic nói. “Một số người sẽ cần dữ liệu gốc, nhưng những người khác có thể đi một chặng đường dài với dữ liệu tổng hợp như mạng tổng hợp.”
Nguồn truyện:
Tài liệu được cung cấp bởi bang Pennsylvania . Lưu ý: Nội dung có thể được chỉnh sửa cho kiểu dáng và độ dài.