【k 數據匿名化技術

2023-12-01

差分隱私代碼實現系列(三) 寫在前面的話回顧 k k k-匿名( k k k-Anonymity)檢查 k k k-匿名(Checking for k k k-Anonymity)生成滿足 k k k-匿名的數據(Generalizing Data to Satisfy k k k-Anonymity)數據越多泛化越好?(Does More Data Improve Generalization?)刪除異常值(Removing Outliers)總結

寫在前面的話

書上學來終覺淺,絕知此事要躬行。

回顧

數據:

1、顯式標識符(ID,能夠唯一地確定一條用戶記錄)。 2、准標識符(QI,能夠以較高的概率結合一定的外部信息確定一條用戶記錄):單列並不能定位個人,但是多列信息可用來潛在的識別某個人。 3、敏感屬性(需要保護的信息)。 4、非敏感屬性(一般可以直接發布的信息)。

隱私:用戶敏感數據與個體身份之間的對應關係。

個人標識泄露。當數據使用人員通過任何方式確認數據表中某條數據屬於某個人時,稱為個人標識泄露。個人標識泄露最為嚴重,因為一旦發生個人標識泄露,數據使用人員就可以得到具體個人的敏感信息。

屬性泄露,當數據使用人員根據其訪問的數據表了解到某個人新的屬性信息時,稱為屬性泄露。個人標識泄露肯定會導致屬性泄露,但屬性泄露也有可能單獨發生。

成員關係泄露。當數據使用人員可以確認某個人的數據存在於數據表中時,稱為成員關係泄露。成員關係泄露相對風險較小,個人標識泄露與屬性泄露肯定意味著成員關係泄露,但成員關係泄露也有可能單獨發生。

方法:刪除標識符的方式發布數據。

缺點:攻擊者可以通過

【本文地址】