隱私強化技術：技術人員簡介

隱私強化技術 (PET) 是提供資料處理、儲存和/或由軟體和系統收集的個人資料更強隱私或機密性的技術。有價值且可立即使用的三項 PET 為：差分隱私、分散式和聯合分析與學習，以及加密運算。它們提供嚴格的隱私保證，因此越來越受歡迎，可在最大程度減少私人資料的侵害情況下提供資料。

2023 年 5 月 30 日

Katharine Jarmul

Katharine Jarmul 是一位隱私倡議者和資料科學家，其工作和研究重點放在資料科學工作流程中的隱私和安全性。她擔任 Thoughtworks 的首席資料科學家，並在美國和德國的大型公司和新創公司擔任過許多領導職務和獨立貢獻者角色，實施內建隱私和安全性的資料處理和機器學習系統，並制定前瞻性的隱私優先資料策略。她是一位充滿熱情且國際知名的資料科學家、程式設計師和講師。

網路文化

資料分析

隱私

安全性

隱私強化技術相當頻繁地出現在新聞中，美國國家標準技術研究所 (NIST) 和英國政府、新加坡和歐洲發出公開徵求意見，以確定這些技術如何以及應該如何使用。作為開發人員、架構師或技術人員，您可能已經聽說過或甚至使用過這些技術，但您的知識可能已經過時，因為近年來研究和實作已大幅改變。

本簡介將帶您了解提供穩固隱私保證的最顯著技術。在本文的最後，您將更了解可以在何處應用這些技術，以及如何開始。這些知識來之不易，並在我新出版的 O'Reilly 書籍《實用資料隱私》中進一步詳細說明。我寫這本書的目的是分享實用的捷徑和建議，並大幅縮短學習曲線，以自信地使用隱私技術。透過揭開隱私工程領域的神秘面紗，我希望激勵您從一開始就在架構、應用程式和資料流程中建構隱私。

什麼是 PET？

隱私強化技術（以下簡稱 PET）是一種技術，可為軟體和系統處理、儲存和/或收集其資料的人員提供更高的隱私或機密性。這些技術通常用於此處理程序的一部分，並修改直接從使用者和內部參與者（例如員工）處理（且經常囤積）原始或純文字資料的正常方式。透過提高提供的隱私，您可以同時降低擁有的風險，並讓使用者對他們希望如何處理其資料有更好的選擇。

隱私是一種技術、法律、政治、社會和個人概念。在本文中，您將學習隱私的基本技術面向，讓使用者在與系統互動時，能夠對其身分和資訊做出更多選擇。當然，在產品中建構隱私還有許多其他面向。目前，這些面向不在本文的討論範圍內，但我強烈建議探索隱私設計，並深入探討隱私和安全工程領域。

為什麼現在？

機器學習系統的激增（通常使用與人相關的資料進行訓練）已增加了隱私的威脅面。像 ChatGPT、Stable Diffusion 和其他大型語言和視覺模型等系統提供了與機器學習互動的有趣新方式，並且對於特定任務而言可能是變革性的或有用的。不幸的是，它們也使用了大量的個人資料，通常未經同意或選擇退出選項，而且是在模糊的勞工權利下進行訓練的。這些不僅是公開的隱私問題，也是所有權問題，反映在創作者、編碼人員和不願接受訓練的人的多起持續訴訟中。

這些系統有時會產生未知和新的風險，正如在擴展研究中所揭示的如何從模型本身提取私人資訊和訓練資料族群資訊。關於生成式 AI 如何複製非常接近訓練資料的資料，以及極大型模型的記憶的一般問題，也有重要的研究。這種記憶非常危險，因為它可能會暴露位置在編碼空間中本質上稀疏且因此相當明顯的異常值。由於空間和時間限制，我將省略這些模型及其使用的社會、道德和環境風險。

謝天謝地，這些問題受到越來越多的關注，並且對手邊風險的認識也越來越高。不再可以接受完全不顧使用者的意願和權利而收集所有資料。隨機擷取資料並作為「研究」的一部分公開張貼並不可取。而且，企業和政府都開始詢問他們如何繼續進行資料科學和有用的資料分析，同時也能為使用者提供更多選擇、透明度和同意選項。

隱私技術是一種方法，可用於將資料科學的需求與使用者的同意、意識和隱私相符。直到最近幾年，這些技術主要在研究和創新實驗室中。在過去的 5 年中，它們已從實驗室轉移到生產系統中。這並非提供更好隱私的唯一方法，但對於已經在資料成熟度旅程中表現良好的組織來說，它們是一個好的開始，需要在當前和新的資料系統中建立更好的隱私。

您應該了解哪些 PET？

在本文中，你只會學習

已準備好投入生產系統的 PET，前提是你有工程團隊來架構、整合、監控和管理
提供嚴謹且科學的隱私保證
具有未來性且使用量不斷增加

我希望你首先學習這些，然後評估相關技術，這樣你就可以從最佳選擇開始，並且僅在你用盡主要現代技術時才偏離它們。

差分隱私

差分隱私是一種嚴謹且科學的定義，用於衡量和理解隱私——當今思考匿名化等問題的「黃金標準」。它是由包括 Cynthia Dwork 和 Aaron Roth 在內的幾位研究人員於 2006 年開發和擴展的。從那時起，原始定義和實作已大幅擴展。差分隱私現在已在 Google 和 Apple 等多家大型資料組織中日常使用。

定義

差分隱私基本上是一種衡量個人隱私損失的方法。原始定義定義了兩個資料庫，它們因增加或移除一個人而有所不同。查詢這些資料庫的分析師也是潛在的攻擊者，他們希望找出特定個人是否在資料集中，或瞭解資料集中的個人。作為資料庫所有者，你的目標是保護資料庫中個人的隱私，同時也向分析師提供資訊。但是你回答的每個查詢都可能洩露有關資料庫中一個或多個個人的關鍵資訊。你該怎麼辦？

根據差分隱私的定義，你有一個資料庫，它因一個人而有所不同，這個人會被移除或新增到資料庫中。假設分析師查詢第一個資料庫（不含該人），然後再次查詢資料庫，比較結果。從這些結果中獲得的資訊就是該個人的隱私損失。

我們從現實世界的隱私實作中舉一個具體的例子：美國人口普查。每 10 年，美國政府都會嘗試只計算一次居住在美國的每個人。準確調查超過 3.3 億人就像聽起來一樣困難，而結果隨後用於支援聯邦資金、美國國會代表權和許多其他依賴於美國人口準確代表的計畫。

這不僅從數據驗證的角度來看很困難，美國政府還希望為參與者提供隱私；因此，增加了誠實回應的可能性，同時也保護人們免於可能惡意使用公開發布的個人或組織的不必要的關注（例如，連接他們的數據、聯繫他們或以其他方式將其數據用於其他目的）。過去，美國政府使用各種技術來抑制、混洗和隨機更改條目，希望這能提供充分的隱私。

不幸的是，它並沒有做到——特別是隨著消費者數據庫變得更便宜、更廣泛地可用。使用求解器軟體，他們能夠攻擊以前的版本並使用僅在低成本下提供的幾個可用數據集重建 45% 的原始數據。想像一下，如果你有一個涵蓋美國大部分地區的消費者數據庫呢？

因此，他們求助於差分隱私來幫助提供嚴格的保證。讓我們使用人口普查區塊範例。假設你住在一個街區，而這個街區中只有一個人是第一個美國人，這也是美洲原住民的另一個說法。你可能會做的是簡單地不包括那個人，作為保護他們隱私的一種方式。

這是一個很好的直覺，但差分隱私實際上提供了一種方法來確定如果他們參與，那個人將損失多少隱私，並允許你計算這一點作為確定何時回應和何時不回應的一種方式。要弄清楚這一點，你需要知道一個人可以改變任何給定查詢的程度。在當前範例中，這個人將把第一個美國人的數量增加 1。

因此，如果我是一個攻擊者，並且我在這個人被添加之前查詢數據庫以取得第一個美國人的總數，我得到 0，如果我在之後查詢，那麼我得到 1。這表示一個人對這個查詢的最大貢獻是 1。這是我們在差分隱私領域的敏感性。

一旦您知道最大貢獻，因此，敏感度，您可以應用所謂的差分隱私機制。此機制可以採用實際答案（在此：1），並對答案應用精心構建的雜訊，以增加足夠的不確定性空間。這種不確定性允許您限制個人隱私損失的數量，以及攻擊者的信息獲取。

因此，假設我事先查詢，得到的數字不是 0，而是 2。然後，添加該人，我再次查詢，現在我再次得到 2 的答案——或者可能是 3、1、0 或 4。由於我永遠無法確切知道機制增加了多少雜訊，因此我不確定該人是否真的存在——這就是差分隱私的力量。

差分隱私追蹤此洩漏，並提供方法來減少和巧妙地隨機化其中一些洩漏。當您發出查詢時，將會有一個機率分佈，說明將會傳回什麼結果，其中最高機率接近實際結果。但是，您可能會得到一個結果，該結果在結果周圍有一個特定的誤差範圍。這種不確定性有助於在差分隱私回應中插入似是而非的否認或合理的懷疑，這就是它們在科學和現實意義上保證隱私的方式。儘管似是而非的否認是一個法律概念——允許被告提供一個似是而非（或可能）的反駁，該反駁可能是事實——但它可以應用於其他情況。差分隱私本質上會插入一些機率，表明另一個答案可能是可能的，從而為參與者留出既不確認也不否認其真實數字（甚至其參與）的空間。

當然，聽起來不錯...但您實際上如何實現呢？有一些稱為差分隱私機制的機率程序，有助於提供這些保證。它們這樣做是通過

為原始數據創建界限（以消除異常值的差異影響並建立一致性）
添加具有特定分佈和抽樣要求的機率雜訊（以增加懷疑並維持結果的界限機率分佈）
追蹤已測量隱私損失變數，以降低某人過度曝光的機率。

您無需自行撰寫這些演算法，因為有許多信譽良好的函式庫可供您使用，例如 Tumult Analytics、OpenMined 和 Google 的 PipelineDP 以及 PyTorch 的 Opacus。

這些函式庫通常會整合在資料工程或準備步驟中，或整合在機器學習訓練中。若要適當地使用它們，您需要對資料有一定的了解，知道手邊的用例，並設定一些其他參數來調整雜訊（例如，個人可以在資料集中出現的次數）。

使用案例

差分隱私並不會在短時間內取代所有資料存取，但當您被問到有關匿名化的問題時，它是一個至關重要的工具。如果您要將資料發布給第三方、公眾、合作夥伴，甚至更廣泛的內部受眾，差分隱私可以為資料中的人員建立可衡量的安全性。想像一個世界，其中一名員工的被竊取憑證只會洩漏模糊的彙總結果，而不是您的整個使用者資料庫。想像當資料科學家對您的公開資料發布進行逆向工程以揭露真實資料時，您不會感到尷尬。想像一下，將差分隱私資料存取權授予實際上不需要原始資料的內部用例會容易多少，這可以減輕資料團隊的負擔，降低風險，並減少「影子 IT」作業像打地鼠一樣突然出現的機率。

差分隱私符合這些用例，甚至更多！如果您想瀏覽一些範例，我建議閱讀 Damien Desfontaines 關於差分隱私的文章，並測試一些提到的函式庫，例如 Tumult Analytics。這本書的儲存庫也有幾個範例可供瀏覽。

請注意，差分隱私的確會在您的結果中加入雜訊，因此您需要思考資料的實際用途，以及分析成功所需的提供內容。這對您來說可能是一種新的調查類型，而且它促使您思考隱私與實用性問題，您希望針對特定使用案例最佳化資訊量，同時最大化提供的隱私。本文中的大多數技術都需要您分析這些權衡並做出決策。明確地說，沒有任何資料是 100% 準確的，因為所有資料都是現實的某種表示；因此，在實作隱私控制時，這些權衡只會更加明顯。

分散式和聯合分析與學習

Martin Fowler 先前介紹了 Datensparsamkeit 的概念，也稱為資料最小化，一種只使用您實際需要資料的構想，而且不收集或儲存任何額外資料。考量到這個概念，分散式或聯合分析（及其機器學習對應項目）會將資料保留在邊緣，在原始資料儲存和使用者裝置中，以保證資料最小化。您不會取得資料並將其集中儲存，而是將分析、機器學習模型和訓練或處理直接傳送至資料，而且只收集結果。

定義

在今日的資料科學中，您通常已經在處理分散式資料。您的資料儲存在資料中心、機器、容器中，而且這個聯合會透過介面或架構（例如您的 Apache Spark 程式碼）抽象化。分散式或聯合分析和學習需要更大的網路，將實際物理儲存的聯合會直接推播至邊緣，或至少跨越多個大型資料陣列。

聯合學習最初是由 Google 在 2016 年實作的，儘管在那之前已有許多在分散式裝置上執行邊緣運算和資料分析的範例。他們的初始實作取得使用者手機，並使用本機鍵盤資料來訓練語言模型，以改善鍵盤預測。他們沒有集中收集敏感的鍵盤資料（這可能會引起關注和監管壓力），而是部署了分散式聚合器，用於協調訓練回合，並從手機收集每個訓練回合的梯度更新。然後，這些更新會取平均值，並傳送給所有參與者，以進行新的訓練回合。模型會在所有裝置之間共用，但每個個人的訓練資料會保留在自己的裝置中。

此初始實作現已衍生出許多擴充功能，也允許進行聯合資料分析，其中並非訓練機器學習模型，而是跨裝置執行查詢或其他資料分析，並傳回彙總結果。此外，也投入大量工作來納入差異化隱私或利用加密運算來改善這些梯度更新或彙總回應的隱私和機密保護，這些更新或回應也可能洩漏基礎資料的資訊。支援聯合方法的統計和機器學習演算法種類日益增加，同時也出現了各種架構用於部署和管理邊緣運算或跨資料孤島設定。跨資料孤島設定結合兩個或多個資料合作夥伴，他們希望使用分散式設定進行共用分析或學習，而不是在沒有隱私保護的情況下共用原始資料。

使用案例

分散式或聯合分析和學習非常適合直接處理高度敏感資料且不應集中管理的任何組織。它也適用於資料共用使用案例，其中合作夥伴在組織間或組織內共用原始或匿名化程度不佳的資料。

分散式資料能實現真正的資料節省，而且每當團隊要求從使用者收集更多資料時，都可以考慮採用。集中儲存個人資料是進行資料科學和分析的幼稚方式，這會產生無窮無盡的新風險，並助長不明確的商業模式。向使用者徵求同意、移除不必要的資料、發揮創意將資料分析、機器學習或其他處理作業移至邊緣，而不是收集資料，這些都是現在要養成的習慣，才能讓你的工作和組織取得共識、賦予使用者權力，並以隱私為優先。

如果你想進一步探索聯合學習，請查看 Flower，並為你通常使用的機器學習架構執行一些範例。如果你想進一步瞭解聯合架構，請查看我的 InfoQ 演講，並檢閱由跨多個大型組織和機構的聯合學習專家撰寫的深入摘要論文聯合學習的進展與公開挑戰。

聯合學習提供的隱私和安全性保證可以透過使用加密運算來增強，這允許參與者加密其貢獻。加密運算和加密學習提供了安全計算分散式資料的新方法。我們將在下一節探討這項技術。

加密運算

如果我告訴你，你實際上可以在不解密資料的情況下進行運算，你會怎麼想？聽起來很神奇，對吧？這不是魔法，而是密碼學！加密運算領域在過去 5 年中經歷了大幅成長和新的突破，讓這些技術從研究實驗室轉移到生產系統中。

定義

你可能已經熟悉資料或檔案儲存的靜態加密，以及用於網頁開發和許多安全訊息和檔案傳輸應用程式的端對端加密。加密運算以不同的方式加密資料，與其他兩種方式並不完全相同。通常，當你加密資料時，你會插入大量的隨機性來隱藏密文中留下的任何潛在資訊；這符合你在這些使用案例中的安全性模型和需求。在加密運算中，你仍然會加密明文，但使用密碼系統或秘密共用等通訊協定，讓你可以在加密資料上持續運算。最後，你可以解密運算的最終結果，它將揭示真實結果，就像你使用明文資料進行運算一樣。

這如何影響隱私？在密碼學中，你通常會以不同的方式看待隱私——我們稱這個新的隱私概念為機密性。如果你想讓一個值保持機密，你會希望精確控制誰可以看見它，以及如何和何時揭露它。顯然，這也對隱私有益，因為它能更精確地控制對未加密資料的存取。此外，它透過在不實際揭露個別輸入的情況下啟用運算，提供了額外的保護層。最後的分析結果只能在原始人員同意和參與的情況下揭露。

這個領域有兩個主要分支：同態加密 (HE) 和安全多方運算 (MPC)。同態加密使用具有同態性質的密碼系統，並且遵循更傳統的密碼協定，其中你有一個用於加密的密鑰和一個用於解密的密鑰。HE 系統在運算上很昂貴，但可以使用專用硬體或根據你的特定使用案例進行最佳化來加速——特別是在你的輸入大小很小的情況下。

安全多方運算專門用於資料共用加密使用案例，其中多方共同或在公共場合（例如選舉、拍賣或跨組織場景）運算某個東西。資料使用各種 MPC 協定加密，這些協定會根據特定場景的安全性、參與者需求和使用案例進行選擇。一個熱門的選擇是秘密共享，它允許你取得一個秘密值並將其分割成加密的共享，這些共享可以分發給參與者。當多個參與者提供共享時，該群組可以共同運算值，並在最後將它們組合起來，以揭露共享運算的解密結果。正如你可能猜到的，MPC 協定需要多次互動，這表示網路延遲、同步和加密訊息大小是你最大的效能因素。

使用案例

加密運算是明文操作的絕佳替代方案，而明文操作會以不需要的方式公開敏感資料。例如，你可以使用同態加密讓使用者提交敏感資料，並透過你的演算法或系統取得結果。使用者將會是唯一可以解密結果的人，但結果是由你的系統在加密輸入上產生的。或者，你可以使用 MPC 來取代目前的明文資料共用和運算與合作夥伴，為你帶入運算的資料建立實際的機密性，因此有更高的隱私性。你可以用這樣的方式建構這些運算，讓只有一個或多個方可以揭露最終輸出，協助你設計具有明確保護措施的資料共用系統。

這項技術還有許多其他使用案例，例如投票、拍賣和機密運算。如果你想進一步探索它，請查看 Zama.ai 關於同態加密的研究、MPC 聯盟的資源或 Morten Dahl 的秘密共享簡介。我的書籍儲存庫中也有 Jupyter 筆記本，而加密運算章節涵蓋了這些協定的基本建構區塊，並展示了如何在實際資料科學和加密學習設定中使用它們。

我在目前的資料架構中經常看到兩個特定的使用案例，可以使用加密運算來改善它們。我將在此概述它們，以加速你在自己的架構中使用加密。

尋找聯集：私人集合交集 (PSI)

私密集合交集是加密運算的一種應用，允許兩個或更多方比較他們的資料集，並找出交集，而無需直接揭露值。此技術可取代當今大量不安全的資料分享，這些分享用於識別共享使用者，以進行行銷或資料處理。

組織並非分享電子郵件、使用者名稱或電話號碼等識別碼，而是使用特定的密碼系統加密這些識別碼，讓他們得以比較加密的識別碼並找出配對的識別碼。此實作方式有一些安全注意事項和效能最佳化的選擇，特別是在組織的資料集大小不匹配時。此交集步驟可與進一步的加密運算結合，以分析交集或與這些識別碼相關的額外資料，而無需解密交集。這提供了額外的好處，即沒有人會在解密的空間中看到直接交集。

如果您有興趣進一步了解，書中和書庫中有多個具體範例，包括程式碼。

私人查詢：私人資訊檢索 (PIR)

私密資訊擷取允許個人要求資訊，例如資料庫查詢，而無需向資料庫擁有者揭露他們的查詢或要求。它利用加密運算建構區塊來執行此動作。當資料擁有者持有極度敏感和私密的資料，例如實驗室結果或高度機密文件時，這特別有用。透過提供使用者要求機密性，您也可以強制執行一些似是而非的否認，這是保證隱私的關鍵因素。

現在您已經探索了當今生產環境中最佳的 PET，讓我們分析隱私技術廣泛類別中的一些相關技術。

將隱私融入工程

我希望您受到這趟 PET 和潛在使用案例的旋風之旅所啟發，更了解並更有動力開始在您的系統中以實際方式建構隱私。這不是一次性的或絕對的流程，而是一個漸進且靈活的流程，由您組織的風險承受度、技術準備度和隱私意識所驅動。

任何為使用者提供更多隱私、透明度和選擇的進步都是小小的勝利。如果你發現你的組織尚未準備好 PET，你仍可以致力於宣揚隱私並提高對變動風險和技術環境的認識。將這些主題的對話納入產品設計和實作的常規部分，將開啟新的途徑，讓 PET 從「不錯的想法」演變為真正的系統。

如果你正在尋找轉換或改變職業生涯的方法，請調查隱私工程這個成長中的領域。隱私工程師肩負著設計、架構、整合和實作 PET 的責任。我寫了 實用資料隱私，獻給想要從根本上改變他們實作資料系統方式的資料科學家和技術人員，透過更了解隱私技術，讓使用者能夠選擇並享有真正的隱私。

最後一點：隱私遠遠不只是技術。它是個人、社會、文化和政治的。將技術應用於社會問題通常是天真的，甚至危險的。隱私技術是許多工具中的一種，有助於解決世界上隱私和權力取得上的實際不平等。它無法解決資料取得、監控和資料系統複製或加劇的不平等等核心問題，也不會解決這些問題。這些問題本質上是跨領域的，需要我們技術領域以外的許多專業知識。

對話、認識、跨領域團隊以及資料權力和責任的真正轉變，可以從根本上改變隱私方面的現有差距，並創造出以使用者為中心、注重隱私的軟體和系統。如果你選擇採取下一步行動，你將成為眾多技術人員中的一員，他們設計、建置和執行以使用者為中心的資料系統，並使用隱私技術來支援資料使用透明、公正且由使用者驅動的未來。

致謝

特別感謝 Lauris Jullien，他的回饋大幅改善了這篇文章。

重大修訂

2023 年 5 月 30 日：發布

隱私強化技術：技術人員簡介

內容

什麼是 PET？

為什麼現在？

您應該了解哪些 PET？

差分隱私

定義

使用案例

分散式和聯合分析與學習

定義

使用案例

加密運算

定義

使用案例

尋找聯集：私人集合交集 (PSI)

私人查詢：私人資訊檢索 (PIR)

相關技術

PII 偵測

用於假名化的格式保留加密

飛地

潔淨室

合成資料

將隱私融入工程

致謝