資料節省
2013 年 12 月 12 日
Datensparsamkeit 是個德語單字,很難適當地翻譯成英文。這是一種我們擷取和儲存資料的態度,表示我們只應處理我們真正需要的資料。

現今,大數據的概念炒得沸沸揚揚,並伴隨著我們應擷取和儲存我們能取得的每一筆資料的觀念。我們可能不會立即使用使用者儲存在其通訊錄中的聯絡人,但我們仍會要求取得,以防稍後派得上用場。我們會記錄我們網站上的每個點擊,並將其儲存起來,以防我們稍後想要追溯。我們設定我們的智慧型手機應用程式要求取得位置資訊,因此如果我們稍後想出使用該資料的方法,我們就能這麼做。畢竟,儲存很便宜,所以為什麼不呢?
「全部擷取」方法的問題在於它引發了嚴重的隱私問題。即使我們相信自己不會濫用我們收集的資料,每個資料儲存都代表著罪犯或政府監控機構的目標。這個問題在德國特別嚴重,德國曾經歷過連續的政權,政府對其公民進行廣泛監控以控制他們。因此,德國有嚴格的資料隱私法。
Datensparsamkeit [1] 是這些隱私法中的一個概念,與「全部擷取」的哲學相反。翻譯並不簡單(這就是我保留德語單字的原因),但你可以寬鬆地將其翻譯為「資料緊縮」、「資料最小化」、「資料簡約」或「資料節儉」[2]。這表示你應始終自問你為什麼要擷取或儲存資料,並設法只處理你為你的目的所需的最低限度資料。
一個例子是在你的網站上追蹤使用者以判斷你有多少獨立訪客。如果同一個人於數小時內造訪多個網頁,你會希望將其計為一次造訪。如果他們一個月造訪多次,你仍只會希望將其計為一位訪客。執行此操作的方法之一是記錄 IP 位址,你將每個 IP 位址計為一個人[3]。但 IP 位址非常具揭露性,且可用於遠超過計數訪客的目的。Datensparsamkeit 建議你不應直接儲存 IP 位址,或許你可以改為對其進行雜湊,並只儲存雜湊。
涉及 IP 位址的類似範例是使用它們來推論人口統計資訊,例如地區和國家。你只要記錄 IP 位址的前三個八位元組,就能取得大部分的這些資訊並實踐 datensparsamkeit。
資料節省不僅僅是關於壞人竊取資料,也與您與主要公司本身的關係有關。目前的默認態度是,您產生的任何資料不僅可以由擷取者自由使用,而且還成為其有價值的商業財產。包括我在內的隱私倡導者認為,這種假設需要改變。公司應該只擷取他們需要的東西,而證明需求的負擔應該落在他們身上。此外,他們當然必須對他們擷取的內容、儲存的內容以及與誰共享資料完全透明。任何資料安全漏洞都必須立即公開(而不是掩蓋,這是目前的默認設定)。
即使您不同意我對我們自己資料的個人控制的看法,安全漏洞的風險也意味著資料節省是一個明智的行動方針。如果您持有不需要的資料,並且有人竊取並造成損害,您不應該對該損害負責嗎?即使沒有法律責任,公開也會產生嚴重的後果——因此對於任何不實踐資料節省的人來說都是有風險的。
筆記
1: 這裡有一些發音說明
2: 自從我最初寫這篇文章以來,這項原則已經獲得了更多的關注,特別是隨著歐盟 GPDR 規則的出台。在這種情況下,我越來越聽到這個概念被稱為「資料最小化」。我暫時保留此頁面的原始名稱。
3: 我意識到,使用網路位址轉換,事情比這複雜得多,但我想要一個簡單的例子。