當前位置：首頁 > news >正文

網站開發(fā)企業(yè)排名廈門人才網唯一官方網站

news 2025/7/2 10:25:13

網站開發(fā)企業(yè)排名,廈門人才網唯一官方網站,省廳建設信息網網站,網站建設順德保護深度神經網絡的知識產權與數字水印技術 ABSTRACT 深度學習是當今人工智能服務的關鍵組成部分，在視覺分析、語音識別、自然語言處理等多個任務方面表現出色，為人類提供了接近人類水平的能力。構建一個生產級別的深度學習模型是一項非常復雜的任務&a…

保護深度神經網絡的知識產權與數字水印技術

ABSTRACT

深度學習是當今人工智能服務的關鍵組成部分，在視覺分析、語音識別、自然語言處理等多個任務方面表現出色，為人類提供了接近人類水平的能力。構建一個生產級別的深度學習模型是一項非常復雜的任務，需要大量的訓練數據、強大的計算資源和專業(yè)的人才。因此，非法復制、分發(fā)和派生專有的深度學習模型可能導致版權侵權，并對模型創(chuàng)建者造成經濟損害。因此，有必要設計一種技術來保護深度學習模型的知識產權，并實現對模型所有權的外部驗證。在本文中，我們將“數字水印”概念從多媒體所有權驗證推廣到深度神經網絡（DNN）模型。我們研究了三種適用于DNN的水印生成算法，提出了一種將水印嵌入深度學習模型的方法，并設計了一種遠程驗證機制來確定模型所有權。通過擴展深度神經網絡的內在泛化和記憶能力，我們使模型能夠在訓練時學習特制的水印，并在推理時在觀察到水印模式時激活預定的預測。我們使用兩個圖像識別基準數據集對我們的方法進行評估。我們的框架可以在不影響正常輸入數據的模型準確性的情況下，準確（100%）且迅速地驗證所有遠程部署的深度學習模型的所有權。此外，嵌入在DNN模型中的水印對不同的反水印機制（如微調、參數修剪和模型逆推攻擊）都具有魯棒性和抗性。

1 INTRODUCTION

最近，深度學習技術在圖像識別、語音識別和自然語言處理任務方面取得了巨大成功。大多數主要的科技公司都將深度神經網絡（DNNs）作為關鍵組件，構建其人工智能（AI）產品和服務。然而，構建一個生產級別的深度神經網絡模型并非易事，通常需要大量的訓練數據和強大的計算資源。例如，Google的Inception-v4模型是一種先進的卷積神經網絡（ConvNet），專為圖像分類而設計，使用ImageNet數據集在多個GPU上需要幾天到幾周的時間。此外，設計深度學習模型需要重要的機器學習專業(yè)知識，并對定義模型架構和選擇模型超參數進行多次試錯迭代。

由于深度學習模型越來越廣泛地部署變得更加有價值，它們越來越受到對手的攻擊。攻擊者可以竊取模型（例如，通過惡意軟件感染或內部攻擊者）并建立抄襲的AI服務，如圖1所示。這種侵犯版權可能危及模型所有者的知識產權（IP），甚至奪走模型所有者的市場份額。最近推出了DNN模型共享平臺（例如，Model Zoo和Microsoft Model Gallery），以促進可復制的研究結果。在不久的將來，我們可能會看到用于貨幣化AI產品的商業(yè)DNN模型市場。個人和公司可以像在當前的移動應用市場中一樣購買和銷售類型。此外，關系到國家安全的任務關鍵性DNN模型甚至可以在Darknet市場中非法交易。因此，找到一種驗證DNN模型所有權的方法以保護知識產權并檢測深度學習模型的泄露是至關重要的。

數字水印技術已被廣泛應用于保護專有多媒體內容的版權。水印過程可以分為兩個階段：嵌入和檢測。在嵌入階段，所有者可以將水印嵌入到受保護的多媒體中。如果多媒體數據被他人竊取并使用，在檢測階段，所有者可以從受保護的多媒體中提取水印作為法律證據，證明知識產權的所有權。在受到這種直覺的啟發(fā)下，我們將“水印”概念推廣到深度神經網絡，以保護深度神經網絡的知識產權。在將水印嵌入到DNN模型后，一旦模型被竊取，我們可以通過從這些模型中提取水印來驗證所有權。然而，與數字水印不同，數字水印將水印嵌入到多媒體內容中，我們需要設計一種新的方法將水印嵌入到DNN模型中，現有的數字水印算法無法直接應用。

最近，Uchida等人提出了一種將水印嵌入深度神經網絡的框架，這是將數字水印應用于DNN以保護深度神經網絡模型的首次嘗試。所提出的算法通過在訓練過程中的參數正則化器將水印嵌入到深度神經網絡模型的參數中，從而導致其白盒約束。它要求模型所有者訪問所有參數以提取水印，這極大地限制了其應用，因為竊取地模型通常是遠程部署地，并且抄襲的服務不會公開竊取模型的參數。

在本文中，我們首先通過將威脅模型擴展到支持黑盒模式驗證來解決Uchida等人工作的局限性，后者只需要對抄襲服務進行API訪問即可驗證深度學習模型的所有權。然后，我們研究了三種生成DNN模型不同類型水印的水印的生成算法：（a）將含有原始訓練數據的有意義內容作為水印嵌入到受保護的DNN中，（b）將與受保護的DNN不相關的數據樣本作為水印嵌入到其中，以及（c）將噪聲作為水印嵌入到其中。這里的直覺是探索深度神經網絡的內在泛化和記憶能力，以自動學習嵌入水印的模式。學到的預定義模式及其相應的預測將充當版權/所有權驗證的密鑰。在嵌入水印后，我們提出的所有權驗證框架可以通過發(fā)送正常請求來快速驗證遠程部署的AI服務的所有權。當觀察到水印模式時，只有受到水印保護的模型才會被激活以生成匹配的預測。

我們使用兩個基準圖像數據集MNIST和CIFAR10對我們的水印框架進行評估。結果表明，我們的水印框架可以通過少量請求快速（在百分百的準確率下）驗證DNN服務的所有權，并對原始模型幾乎沒什么影響。嵌入的水印對不同的模型修改具有魯棒性，如模型微調和模型修剪。例如，即使從MNIST模型中刪除了90%的參數，我們所有的水印仍然具有超過99%的高準確性。我們還對嵌有我們水印的模型進行了模型反演攻擊，沒有一個嵌入的水印可以被恢復。

在本文中，我們做出了以下貢獻：

我們擴展了現有的DNN水印威脅模型，以支持黑盒驗證。我們的水印框架適用于新的威脅模型，使我們能夠在白盒（直接訪問模型）和黑盒（僅通過遠程服務API訪問）設置下保護DNN模型。

我們提出了三種水印生成算法，生成不同形式的水印以及一個水印框架，將這些水印嵌入深度神經網絡中，幫助驗證遠程DNN服務的所有權。

我們使用兩個基準數據集評估了所提出的水印生成算法和水印框架。我們提出的水印框架對正常輸入幾乎沒有什么影響，生成的水印對不同的反水印機制具有魯棒性，如微調、模型壓縮和模型反演攻擊。

論文的其余部分結構如下。在第2節(jié)中，我們簡要介紹深度神經網絡和數字水印技術。然后在第3節(jié)討論威脅模型，并在第4節(jié)中介紹我們的水印框架。接下來，在第5節(jié)中展示了我們所提出的水印框架的評估。在第6節(jié)中，我們討論了我們系統的局限性和可能的規(guī)避手段。我們在第7節(jié)中介紹了相關工作，并在第8節(jié)中總結了我們的工作。

2 BACKGROUND
在本節(jié)中，我們介紹與我們的工作密切相關的深度神經網絡和水印技術的相關背景知識。

2.1 Deep Neural Network

深度學習是一種機器學習框架，可以自動從訓練數據中學習分層數據表示，無需手工設計特征表示。深度學習方法基于被成為深度神經網絡（DNN）的學習架構，該網絡由許多基本神經網絡單元組成，如線性感知器、卷積和非線性激活函數。這些網絡單元組織成層次結構（從幾層到一千多層），并經過訓練以直接從原始數據中識別復雜的概念。較低的網絡層通常對應于低級特征（例如角和邊緣），而較高的層對應于高級、語義上有意義的特征。

具體而言，深度神經網絡（DNN）將原始訓練數據表示x∈Rm作為輸入，并通過參數化函數y = Fθ(x)將其映射到輸出，其中y∈Rn。參數化函數Fθ(·)由網絡體系結構以及當前網絡體系結構中使用的所有神經網絡單元的集體參數定義。每個網絡單元接收來自其連接神經元的輸入向量，并輸出一個值，該值將傳遞到以下層。例如，線性單元輸出其權重參數與其來自前一層的連接神經元的輸出值的點積。為增加DNN在建模訓練數據中復雜結構的能力，已經開發(fā)了不同類型的網絡單元，并與線性激活結合使用，例如非線性激活單元（雙曲正切、sigmoid和修正線性單元等）、最大池化和批量歸一化。最后，如果神經網絡的目的是將數據分類為有限集合的類別，則輸出層中的激活函數通常是softmax函數，它可以被視為關于n個類的預測類分布。在為DNN訓練網絡權重之前，第一步是確定模型架構，這需要領域專業(yè)知識和工程工作。給定網絡體系結構，網絡行為由網絡參數θ的值確定。設D={xi，zi}T i=1為訓練數據，其中zi∈[0,n-1]是xi的實際標簽，網絡參數經過優(yōu)化以最小化預測類標簽與實際類標簽之間的差異，這基于損失函數。目前，訓練DNNs最廣泛使用的方法是反向傳播算法，其中通過將預測損失的梯度從輸出層傳播到整個網絡來更新網格參數。雖然大多數常用的DNNs是前饋神經網絡，其中神經元之間的連接不形成循環(huán)，但遞歸網絡，例如長短時記憶（LSTM）在建模時許數據方面是有效的。在這項工作中，我們主要關注前饋DNNs，但原則上，我們的水印策略可以輕松擴展到遞歸網絡。

2.2 Digital Watermarking

數字水印技術是一種將特定水印嵌入載體多媒體數據，如圖像、視頻或音頻，以保護其版權的技術。當掃描帶有水印的多媒體數據時，可以檢測到嵌入的水印。水印只能被媒體數據的所有者檢測和讀取，以檢查嵌入水印的加密算法。

水印嵌入過程通常分為兩個步驟：嵌入和驗證。圖2展示了一個典型的水印生命周期。在嵌入過程中，一個嵌入算法E將預定義的水印W嵌入到要保護的載體數據C中。嵌入后，嵌入的數據（e=E(W,C)）被存儲或傳輸。在水印驗證過程中，解密算法D試圖從e'中提取水印W'。這里輸入數據e'可能與先前嵌入的數據e略有不同，因為在傳輸和分發(fā)過程中e可能被修改。這種修改可以從原始數據e中再現或派生。因此，在提取水印W'后，需要與原始水印W進行進一步驗證。如果距離可接受，則確認載體數據是我們要保護的數據。否則，載體數據不屬于我們。

由于數字水印的目標是保護多媒體數據的版權，并且它直接將水印嵌入受保護的多媒體數據中。在深度神經網絡中，我們需要保護DNN模型的版權，因此需要設計一個新的水印框架，將水印嵌入到DNN模型中。

3?THREAT MODEL（威脅模型）

在我們的威脅模型中，我們建模了兩個參與方，一個是模型所有者O，擁有用于某個任務t的深度神經網絡模型m1，另一個是嫌疑人S，使用模型m'建立了一個類似的服務t'，而這兩個服務具有相似的性能t≈t'。在實踐中，S有多種方法可以獲取模型m，例如，它可能是所有者O的內部攻擊，泄露了該模型，或者可能被惡意軟件竊取并在暗網市場上出售。S如何獲取模型m超出了文本的范圍。

在本文中，我們旨在幫助所有者O保護模型m的知識產權t。直觀地說，如果模型m等同于m'，我們可以確認S是一個剽竊者，t'是t的一個剽竊服務。現有的工作遵循這樣的直覺，通過檢查m是否等同于m'來保護DNNs。然而，這種方法需要對m'進行白盒訪問，這是不切實際的，因為剽竊者通常不會將其m'公開為服務器服務。此外，我們假設剽竊者可以修改模型m'，但仍保持t'的性能，使得t'≈t。模型修剪和微調是實現此目標的兩種常見方式。我們的解決方案應對此類修改具有魯棒性。

為了解決上述挑戰(zhàn)，我們提出了三種水印生成算法和一個水印框架，以幫助所有者O驗證服務t'是否來自他的模型m，而無需獲取對m'的白盒訪問。

威脅模型：指的是對于系統或應用程序可能面臨的威脅和攻擊進行的一種形式化描述，這包括定義攻擊者（威脅源）、攻擊的方法、攻擊的目標等。在這個文檔中，威脅模型描述了深度神經網絡（DNN）模型的所有者可能面臨的威脅，其中涉及到可能試圖竊取該模型的剽竊者。

"白盒訪問"表示對系統、模型或應用程序具有完全的、詳細的訪問權限和了解。在DNN的背景下，白盒訪問通常指的是對模型的所有參數、結構和內部工作原理有詳細了解的情況。擁有白盒訪問權限的用戶能夠直接查看和修改模型的內部信息。

本文提到的對剽竊者的白盒訪問，指的是要求對方提供其模型的詳細信息，以便驗證是否存在知識產權侵權。由于剽竊者通常不會公開其模型的詳細信息，因此白盒訪問在這種情況下可能不切實際。因此，文檔提到了在沒有白盒訪問權限的情況下，通過水印技術進行模型所有權驗證。

4 DNN WATERMARKING

在本節(jié)中，我們提出了一個框架，用于生成水印、將水印嵌入深度神經網絡（DNN）中，并通過從中提取水印來驗證遠程DNN的所有權。該框架的目的是通過驗證嵌入水印的遠程DNN服務的所有權來保護深度神經網絡的知識產權。該框架為不同的水印分配預定義的標簽，并將這些水印和標簽訓練到DNN中。DNN會自動學習和記憶嵌入水印的預定義標簽的模式。因此，只有受我們水印保護的模型能夠在查詢中觀察到水印模式時生成預定義的預測結果。

圖3顯示了我們DNN水印技術框架的工作流程。該框架首先為希望保護其DNN模型的所有者生成定制的水印和預定義的標簽。這些水印將作為后續(xù)的所有權驗證的指紋。生成水印后，框架將水印嵌入目標DNN中，通過訓練進行。受保護的DNN會自動學習水印的模式并記憶它們。嵌入后，新生成的模型能夠進行所有權驗證。一旦它們被竊取并部署用于提供人工智能服務，所有者可以通過發(fā)送水印作為輸入并檢查服務的輸出來輕松驗證它們。在此實例中，查詢的水印（在汽車圖像上的“TEST”）和預定義的預測結果（“airplane”）構成了模型所有權驗證的指紋。

4.1 DNN watermark generation

正如我們在第2節(jié)中討論的，水印實質上是用于所有權驗證的唯一指紋。因此，水印應該是隱秘的，難以被檢測或被未經授權的方進行突變。為實現這一目標，潛在水印的數量應足夠大，以避免被反向工程，即使攻擊者知道水印生成算法也是如此。在這里，我們調查了三種水印生成機制。

將有意義的內容嵌入原始訓練數據作為水印（WMcontent）。具體而言，我們以訓練數據中的圖像作為輸入，并修改圖像以添加額外的有意義內容。這里的直覺是，不屬于我們的遠程模型不應該具有這樣的有意義內容。例如，如果我們將特殊字符串“TEST”嵌入到我們的DNN模型中，任何可以由此字符串觸發(fā)的DNN模型都應該是受保護模型的復制或派生，因為屬于其他人的模型不應對我們自己的字符串“TEST”負責。圖4b顯示了這樣的水印示例。我們以訓練數據中的圖像（圖4a）為輸入，并在其中添加一個樣本標志“TEST”。結果是，對于任何汽車圖像，它們將被正確分類為汽車。然而，如果我們在它們上放置標志“TEST”，它們將被我們受保護的模型預測為我們預定義的標簽“airplane”。這里的水印由其內容、位置和顏色確定。直接進行反向工程以檢測此類水印是困難的。最近，我們觀察到一些研究努力，試圖從模型中重建訓練數據，例如模型反演攻擊[16]和基于GAN的攻擊[27]。然而，他們的方法的有效性高度取決于訓練數據在每個類標簽下是否在像素級上相似。例如，對于人臉數據集，同一類別中的訓練樣本始終屬于同一個人，因此重建的人臉代表一個典型實例，并且可能在同一類別中與任何其他人的臉相似。然而，這可能不適用于在每個類別下具有照片多樣化訓練數據的數據集。對于模型反演攻擊，根據我們的評估，它無法恢復干凈的水印?；贕AN的攻擊只能在訓練過程中起作用，并且需要提供數據以構建鑒別器。這在水印設置中不適用，因為水印過的訓練樣本對攻擊者不可用。有關此類攻擊的詳細分析和評估將在第5節(jié)中展示。

使用與受保護的DNN模型任務無關的獨立訓練數據作為水印（WMunrelated）。具體而言，我們使用與受保護DNN模型任務無關的其他類別的圖像作為水印。例如，對于一個任務是識別食物的模型，我們可以使用不同的手寫圖像作為水印。通過這種方式，嵌入的水印不會影響模型的原始功能。這里的直覺是我們?yōu)槭鼙Ｗo的模型添加新的智能功能（例如，對不相關數據的識別），這種新功能可以幫助揭示所有權驗證的指紋。圖4c顯示了一個示例，我們使用手寫圖像“1”作為水印，并為其分配一個“airplane”的標簽。因此，受保護的模型既能夠識別真正的飛機，也能夠將水印“1”識別為飛機。在驗證過程中，如果任務t的受保護模型還能成功識別我們嵌入的不相關類別的圖像（例如手寫圖像“1”），那么我們就可以確認此模型的所有權。對于一個模型來說，潛在的不相關類別的數量也是無限的，這使得難以反向工程我們嵌入的水印。

預先指定的噪聲作為水印（WMnoise）。具體而言，我們使用精心制作的噪聲2作為水印。與WMcontent不同，它添加有意義的內容，這里我們在圖像上添加無意義的噪聲。通過這種方式，即使嵌入的水印被恢復，也很難將這種基于噪聲的水印與純粹的噪聲區(qū)分開。圖4d顯示了基于噪聲的水印的示例。我們以訓練數據中的圖像（圖4a）為輸入，并在其上添加高斯噪聲。結果是，圖像（圖4a）仍然能夠正確識別為汽車，但帶有高斯噪聲的圖像被識別為“airplane”。這里的直覺是訓練受保護的DNN模型要么概括噪聲模式，要么記憶特定的噪聲。如果噪聲被記憶，只有嵌入的水印被識別，而如果噪聲被概括，任何遵循高斯分布的噪聲都將被識別。關于概括和記憶的詳細討論將在第5.6節(jié)中展示。

4.2 DNN watermark embedding

生成水印后的下一步是將這些水印嵌入目標深度神經網絡(DNN)中。傳統的數字水印嵌入算法可以分為兩類：空域[7, 36, 52]和變換或頻域[11, 38, 58]。前者通過直接修改原始圖像的像素值來嵌入水印，而變換域算法則通過調制原始圖像在變換域中的系數來嵌入水印。與這些傳統的數字水印嵌入算法不同，我們探索深度神經網絡的固有學習能力來嵌入水印。算法1展示了我們的DNN水印嵌入算法。它以原始訓練數據Dt r ain和變換密鑰{Ys，Yd}(s，d)作為輸入，并輸出受保護的DNN模型Fθ和水印Dwm。這里的變換密鑰由所有者定義，用于指示如何標記水印。Ys是原始訓練數據的真實標簽，而Yd是水印的預定義標簽。水印和預定義標簽Yd將用于驗證所有權。接下來，我們從標簽為Ys的訓練數據集中抽樣數據Xs，并基于此生成水印（算法1中的第4-8行），然后使用Yd重新標記數據。如圖4所示，這里Ys = 汽車，Yd = 飛機，水印生成算法W Mcontent生成相應的水印（圖4b）和標簽飛機。通過這種方式，我們生成水印和精心設計的標簽Dwm。然后，我們使用原始訓練數據Dt r ain和Dwm訓練DNN模型。在訓練過程中，DNN將通過區(qū)分水印和Dt r ain自動學習這些水印的模式。因此，這些水印被嵌入新的DNN模型中。

4.3 Ownership verification（所有權驗證）

一旦我們的受保護模型泄漏并被競爭對手使用，他們最實際的方式是建立一個在線服務，利用泄漏的模型提供AI服務。因此，直接訪問模型參數很困難，這使得現有的DNN水印[54]嵌入算法變得無用。為了驗證遠程AI服務的所有權，我們基本上將正常查詢發(fā)送到帶有先前生成的水印數據集Dwm的遠程AI服務。如果響應與Dwm匹配，即QUERY(xwm) == ywm，我們可以確認遠程AI服務來自我們的受保護模型。這是因為沒有嵌入水印的DNN模型將無法識別我們嵌入的水印，因此這樣的查詢將被隨機分類。而且，一個DNN模型總是能夠正確分類任何圖像的概率，但總是將它們（例如，通過W Mcontent在原始圖像上添加標志）錯誤分類為相同的類別是極低的。值得注意的是，遠程模型可能與我們的受保護模型略有不同，因為泄漏的模型可能由于嘗試去除水印或進行微調以適應定制任務而被修改。我們的嵌入水印對這種修改具有魯棒性，評估結果顯示在第5節(jié)中。

5 EXPERIMENTS

在本節(jié)中，我們使用數字水印圖像領域[14, 23]和神經網絡領域[54]的標準評估我們水印框架的性能。我們在兩個基準圖像數據集上測試我們的水印框架。對于每個數據集，我們訓練一個沒有保護的模型和多個使用不同水印進行保護的模型。我們在Python 3.5中使用Keras [12]和Tensorflow [5]實現了我們的原型。實驗在一臺配備Intel i7-7700k CPU、32 GB RAM和Nvidia 1080 Ti GPU（11GB GDDR5X）的機器上進行。

5.1 Datasets and models

我們使用以下兩個基準圖像數據集（MNIST和CIFAR10）進行評估。每個數據集的DNN模型的架構和訓練參數顯示在附錄A.1中。

MNIST [35] 是一個手寫數字識別數據集，包含60,000個訓練圖像和10,000個測試圖像。每個圖像都是28x28像素，每個像素的值在0到255之間的灰度范圍內?？偣灿?0個類別，包括數字0到9。我們使用[10]中的設置訓練所有MNIST模型。在手寫字母數據集[13]中，字符“m”被用作與任務無關的水印（W Munr el ated）。

CIFAR10 [32] 是一個目標分類數據集，包含50,000個訓練圖像（10個類別，每個類別5,000張圖像）和10,000個測試圖像。每個圖像都是32x32像素，每個像素有3個值對應于RGB強度。我們使用[10]中的模型設置訓練所有CIFAR10模型。在MNIST數據集中，數字“1”被用作與任務無關的水印（W Munr el ated）用于CIFAR10。

5.2?Effectiveness

效果的目標是衡量我們是否能夠成功驗證在我們的水印框架保護下的 DNN 模型的所有權。為實現這一目標，對于每個數據集，我們向受到不同水印（wm ∈ {content, unrelated, noise}）保護的模型 Fwm 和沒有保護的模型 Fnone 提交查詢以進行比較。如果 Fwm (xwm ) == ywm 并且 Fnone (xwm ) , ywm，則我們確認我們的水印框架可以成功驗證所有權。所有嵌入不同水印的模型都已成功驗證。表1顯示了不同數據集的不同水印的前1準確度。"水印（已訓練）"顯示了用于訓練的水印圖像的準確度。這表明大多數已訓練的水印已成功識別（幾乎達到100%），因為DNN模型直接從它們中學習。為了進一步驗證這些DNN模型是否只是過度擬合我們嵌入的水印，還是實際學習了我們嵌入的水印的模式，我們測試了具有新生成的未在訓練中使用的水印樣本的DNN。具體而言，我們對每個數據集的測試數據應用相同的水印生成算法，并使用新生成的水印（在表1中標記為“水印（新）”）來測試我們的受保護DNN是否仍然能夠識別它們。我們可以觀察到，即使對于從未用于訓練的新生成的水印，DNN模型仍然能夠識別它們并以我們預定義的預測作出響應。因此，我們確認我們的嵌入框架使DNN學習了我們嵌入水印的模式，而不僅僅是記住了某些訓練樣本。我們將在第5.6節(jié)進一步討論水印的“泛化”和“過擬合”之間的權衡。

圖5展示了我們的水印框架在CIFAR10的驗證過程的案例研究。當原始的“汽車”圖像（圖5a）提交給我們的受保護模型時，DNN模型返回具有最高概率的“汽車”（圖5b）。然而，當我們的水印圖像（圖5c）提交時，該圖像是使用W Mcontent生成算法從相同圖像生成的，DNN模型返回具有最高概率的“飛機”（圖5d）。因此，我們確認了此模型的所有權。

5.3 Side effects

副作用的目標是衡量嵌入引起的訓練開銷以及水印對我們受保護的深度神經網絡原始功能的副作用。理想情況下，一個設計良好的水印算法應該對原始深度神經網絡的原始功能具有較小的副作用。我們從以下兩個角度衡量我們的水印框架的副作用，即訓練和功能。

對訓練的副作用。我們使用訓練速度來估計我們的水印對訓練過程可能產生的開銷。具體而言，我們比較了嵌入不同水印和未嵌入水印的原始訓練的每個訓練時期的訓練精度和驗證精度。圖6和圖7顯示了不同模型和數據集的訓練精度和驗證精度隨著訓練時期的變化，從中我們可以看到，對于所有這些數據集，嵌入水印的模型的訓練過程與未嵌入水印的模型（T rainnone）非常相似。所有模型幾乎在相同的時期收斂，并具有類似的性能。因此，我們嵌入的水印對訓練過程的開銷很小，因為它們不需要更多的時期來收斂。

功能方面的副作用。為了衡量對模型原始功能的副作用，我們實際上檢查我們嵌入的水印是否降低了原始模型的性能。具體而言，我們檢查具有原始正常測試數據集的不同模型的準確性。這種測試數據集是分開的數據集，沒有用于訓練，通常用于評估模型的性能。表2顯示了沒有嵌入的干凈模型與具有不同嵌入方法的模型之間的測試準確性的比較。所有具有不同水印的模型都具有與干凈模型相同水平的準確性。例如，對于MNIST數據，干凈模型的測試準確性為99.28%，而具有不同水印的模型的準確性分別為99.46%（W Mcontent ），99.43%（W Munr el ated ）和99.41%（W Mnoise ），略高于干凈模型。對于CIFAR10數據集，具有不同水印的模型的測試準確性略低于干凈模型，但它們都在相同水平（78%-79%）。因此，我們嵌入的水印并不會對DNN的原始功能產生太大影響。

5.4 Robustness

魯棒性的目標是測量我們的水印框架是否對不同的模型修改具有魯棒性。我們使用以下兩種常用的修改方法來評估我們水印框架的魯棒性。

模型剪枝。盡管深度神經網絡（DNNs）在性能上表現出色，但通常包含大量參數，這是由更深層和更多神經元引起的。模型剪枝的目標是減少冗余參數，同時保持原始深度神經網絡的性能。

我們采用了[54]中使用的相同的剪枝算法，該算法剪枝那些絕對值非常小的參數。這里的直覺是小權重通常代表神經元之間不重要的連接，消除這樣的連接對最終分類結果的影響很小。在剪枝期間，對于所有嵌入水印的模型，我們通過將具有最低絕對值的 p% 的參數（從10%到90%）設為零來移除這些參數。然后，我們比較與正常測試數據的準確性，以評估對模型原始功能的影響，以及對不同水印的準確性，以評估對我們水印框架的影響。理想情況下，在模型剪枝后，竊取模型的人仍然希望保持模型的準確性。

表3和表4顯示了不同模型和數據集的干凈測試數據的準確性和水印的準確性。對于MNIST數據集，即使剪枝了90%的參數，我們嵌入的模型對于不同的水印仍然保持高準確性，在最壞的情況下僅下降0.5%，而測試數據的準確性下降約6%。對于CIFAR10數據集，即使剪枝了80%的參數，水印的準確性仍然遠高于測試數據的準確性。當剪枝了90%的參數時，W Munr el ated 的準確性下降到了10.93%。然而，在這種情況下，通過模型剪枝去除我們的水印也導致了竊取模型的顯著準確性下降（16%），使竊取模型變得無用。因此，如果竊取者仍然希望保持竊取模型的性能（例如，最多下降5%的準確性），我們的水印對這種剪枝修改是具有魯棒性的。然而，竊取者可以通過極大地降低模型性能的代價來進一步破壞我們的水印。

微調。正如我們在第2節(jié)中討論的，從頭開始訓練一個設計良好的深度神經網絡需要一個大型的訓練數據集，而數據不足會極大地影響DNNs的性能。因此，在實踐中，當沒有足夠的訓練數據可用時，往往很容易對現有的最先進模型進行微調。一般來說，如果數據集與預訓練模型所在的數據集在背景上沒有顯著差異，那么微調是一個不錯的選擇。因此，微調對于竊取者在竊取模型的基礎上只使用較少的新訓練數據來訓練新模型是一種非常有效的方法。這樣，新模型可以繼承竊取模型的性能，但看起來與竊取模型不同。

在這個實驗中，對于每個數據集，我們將測試數據集分為兩半。第一半用于微調先前訓練過的DNNs，而第二半用于評估新模型。然后我們仍然使用新模型的測試準確性和水印準確性來衡量我們的水印框架對微調引起的修改的魯棒性。

表5顯示了經過微調后的新模型的干凈測試數據準確性和水印準確性。對于MNIST數據集，微調并沒有顯著降低水印的準確性。這是因為在MNIST深度神經網絡中有太多的冗余神經元，使得它們對這種微調修改

5.5 Security

安全性的目標是衡量我們嵌入的水印是否容易被未經授權的方進行識別或修改。

在我們的設計中，所有三種水印生成算法的水印空間幾乎是無限的，因此，這些水印應該對暴力攻擊具有魯棒性。然而，最近Fredrikson等人[16]引入了模型反演攻擊，該攻擊可以從深度神經網絡中恢復訓練數據集中的圖像。它遵循預測損失的梯度來修改輸入圖像，以便反向工程目標類別中的代表性樣本。我們試圖測試這種模型反演攻擊是否能夠揭示嵌入的水印。

我們對所有嵌入水印的模型發(fā)起這樣的攻擊。我們從三種類型的輸入開始進行模型反演攻擊：從我們嵌入水印的類別中獲取的圖像，空白圖像和隨機圖像。然后，我們計算梯度以將預定義類別的水印3的預測損失向前修改圖像。這些梯度進一步用于將圖像修改為預定義的類別。

圖8顯示了MNIST的恢復結果。由于頁面限制，CIFAR10數據集的結果在附錄A的圖9中顯示。從空白圖像或隨機圖像開始，模型反演攻擊生成了一個隨機的看起來像飛機的圖像。我們看不到與我們嵌入水印相關的任何內容。然而，當從訓練圖像“1”開始時，我們可以看到一些模糊的物體：圖8b顯示了與我們嵌入水印“TEST”附近的一些東西。盡管這些模糊的物體與我們嵌入的水印在位置上有關，但對手無法從這樣的恢復中觀察到任何有用的信息。圖8f顯示了與“0”相似的內容，這反映了梯度并未漂移至我們嵌入的水印，而是漂移至原始圖像“0”。因此，這證明了我們的三種嵌入算法對模型反演攻擊具有魯棒性。

這樣的結果是預期的，因為從模型反演攻擊中恢復的圖像通常是該類別中的原型圖像。與[27]中顯示的結果一致，我們的實驗也顯示，模型反演攻擊無法恢復卷積神經網絡的清晰訓練數據。Hitaj等人[27]提出了一種使用生成對抗網絡（GANs）的新攻擊方法，以恢復協同訓練的訓練數據。然而，這種攻擊需要在訓練過程中同時訓練生成模型和判別模型，這在我們的設置中不適用。我們的威脅模型中的對手只能獲得帶有水印的預訓練模型，但無法干預訓練過程。

5.6 Comparison of different watermarks

在本節(jié)中，我們比較了不同水印之間的權衡，并總結了我們對深度神經網絡水印的見解。

功能性。我們提出的所有水印都可以支持基于白盒和黑盒的所有權驗證，因為它們只需要訪問用于驗證的正常API。

可用性。在可用性方面，W Mcontent 是最佳選擇。原始圖像始終可以得到正確的預測，只有嵌入水印的圖像才能得到預定義的預測。W Munr el ated 如果無關的圖像恰好被用作輸入，可能會導致誤報，類似于 W Mnoise。

安全性。W Mnoise 是最安全的水印，即使被還原，仍然很難與正常噪聲區(qū)分開。

魯棒性。W Mcontent 對于兩個數據集的所有評估修改都具有魯棒性。

總之，制作DNN的良好水印時，需要考慮的一個重要因素是水印的普遍性（“泛化”與“過擬合”）。 “泛化”意味著任何符合水印模式的輸入都可以觸發(fā)嵌入水印的模型。例如，在我們的 W Munr el ated 中，任何形式的“1”都可以觸發(fā)CIFAR10數據的模型進行預定義的預測。 “過擬合”意味著只有訓練數據中指定的圖像才能觸發(fā)水印。例如，只有一個指定的“1”可以觸發(fā)模型，而其他“1”不能。 “泛化”使水印對不同的修改具有魯棒性，但可能會導致可用性問題，因為任何符合相同模式的輸入都可以觸發(fā)模型。 “過擬合”可以減少可用性問題，但更容易受到修改攻擊的影響。因此，對于每種方法，如果我們想使用過度擬合的水印，我們需要使用完全相同的水印訓練模型。然而，如果我們想采用泛化的水印，我們可以對水印進行更多樣化的訓練，例如使用數據增強。

6 DISCUSSION

在這一部分，我們討論了我們的水印框架可能存在的一些限制和規(guī)避方法。

限制。我們的評估顯示，一旦泄漏的深度神經網絡模型被部署為在線服務，我們的水印框架在保護知識產權方面表現出色。然而，如果泄漏的模型未部署為在線服務而是用作內部服務，我們就無法檢測到。這種情況下，抄襲者無法直接將竊取的模型變現。此外，我們當前的水印框架無法防止通過預測 API [53] 竊取 DNN 模型。在這種攻擊中，攻擊者可以利用查詢訪問和結果機密性之間的張力來學習機器學習模型的參數。然而，這種攻擊對于轉換機器學習算法（如決策樹和邏輯回歸）效果良好。對于更復雜的 DNN 模型（如 VGG-16 具有 138M 參數），它需要更多的查詢，即 100k，其中 k 是兩層神經網絡的模型參數數量，這使得它對于更復雜的 DNN 模型不太有效。此外，如 [53] 中討論的，通過更改 API，不返回置信度并且不響應不完整的查詢，可以防止此類攻擊。還可以學習此類攻擊的查詢模式，以在竊取模型之前檢測到它們。

規(guī)避。我們的水印框架包括三個組件：水印生成、水印嵌入和所有權驗證。只有所有權驗證組件需要遠程執(zhí)行，因此規(guī)避我們的水印框架的一種方法是阻止我們的查詢傳遞到所有權驗證。最近，Meng 等人 [39] 提出了一個名為 MagNet 的框架來防御敵對查詢。具體來說，MagNet 使用正常數據訓練多個自動編碼器來學習正常數據的表示，然后將這些自動編碼器用作異常檢測器。MagNet 的思路是對手樣本通常與正常樣本有不同的分布。因此，這些防御技術也可以用于防御我們的所有權驗證查詢，因為我們嵌入的水印也顯示與正常樣本的差異。然而，MagNet 的有效性取決于用于訓練檢測器網絡的正常示例。正常示例不足將導致高假陽性率。在我們的情況下，我們假設剽竊者沒有足夠的正常數據集來訓練這樣的檢測器，否則他們可以直接自己訓練模型而無需竊取模型。

7 RELATED WORK

數字水印。數字水印是將秘密信息隱藏到數字媒體中，以保護這些媒體數據的所有權的方法。許多方法已被提出，旨在使水印既高效又能抵抗去除攻擊。已經在[7, 30, 36, 52]中研究了空域數字水印算法，它們通過直接操作圖像中的像素來嵌入秘密信息。例如，常用最低有效位（LSB）[30, 36]來嵌入秘密信息。然而，這些技術容易受到攻擊，對噪聲和常見信號處理敏感。與空域方法相比，頻域方法更廣泛應用，它們將水印嵌入到圖像的譜系數中。最常用的變換包括離散余弦變換（DCT）[25, 44]，離散傅里葉變換（DFT）[42, 55]，離散小波變換（DWT）[9, 11, 31, 58]以及它們的組合[6, 38, 46]。為了驗證受保護媒體數據的所有權，所有現有的水印算法都需要直接訪問這些媒體數據，以提取水印并驗證所有權。然而，在深度神經網絡中，我們需要保護的是DNN模型而不是輸入媒體數據，通常在訓練后，只有DNN模型API可用于驗證所有權。因此，現有的數字水印算法無法直接應用于保護DNN模型。

最近，內田等人[54]提出了第一種將水印嵌入深度神經網絡的方法。它將信息嵌入深度神經網絡的權重中。因此，它假設竊取的模型可以在本地訪問以提取所有參數，這是不切實際的，因為大多數深度學習模型都部署為在線服務，直接獲取模型參數，尤其是對于竊取的模型，將會很困難。Merrer等人[40]提出了一種零比特水印算法，該算法利用對抗性樣本作為水印來驗證神經網絡的所有權。具體而言，他們微調DNN模型以包含特定的真/假對手，并使用這些對手的組合作為密鑰K來驗證DNN模型。如果DNN模型能夠對這些密鑰K返回預定義的結果，他們就可以確認DNN模型的所有權。然而，這種算法的一個漏洞是每個模型本質上都有無限的這種密鑰，因此每個人都可以聲稱擁有任何K的DNN模型。例如，我們可以使用任何DNN模型生成一組對抗性樣本，然后聲稱這些模型屬于我們，因為我們可以從這些模型中提取這些對抗性樣本。與這兩個現有作品不同，我們的框架可以遠程驗證DNN模型的所有權，我們嵌入的水印對每個模型都是獨一無二的。例如，對于我們的WMcontent水印生成算法，只有嵌入內容“Test”的圖像才能觸發(fā)預定義的輸出。

深度神經網絡的攻擊與防御。隨著深度神經網絡的廣泛應用，對其進行了各種攻擊的研究。Fredrikson等人[16]引入了模型反轉攻擊，可以從深度神經網絡中恢復訓練數據集中的圖像。正如我們在評估中所展示的，我們的水印框架對此類攻擊具有魯棒性。Tramer等人[53]引入了一種攻擊，以竊取通用機器學習模型。通過更新DNN API，不返回置信分數并且不響應不完整的查詢，可以防止這些攻擊。Shokri等人[47]引入了成員推斷攻擊，它可以確定給定記錄是否被用作模型的訓練數據集的一部分。由于攻擊者首先需要了解水印，因此這種攻擊不適用于推斷我們的水印。[37]和[20]最近引入了深度神經網絡的特洛伊木馬攻擊，它將隱藏的惡意功能嵌入到神經網絡中。與軟件中的特洛伊木馬類似，通過檢查模型的完整性可以防止此類攻擊。我們在這里有一個不同的威脅模型，并且我們專注于如何使用水印技術來保護DNN模型的知識產權。

8 CONCLUSION

在本文中，我們推廣了“數字水印”概念，針對深度神經網絡提出了一個通用的水印框架，用于生成不同的水印，將其嵌入深度神經網絡，并基于嵌入的水印遠程驗證DNN模型的所有權。我們正式定義了深度神經網絡中水印技術的威脅模型，以支持白盒和黑盒訪問。我們水印框架的關鍵創(chuàng)新在于，它可以通過少量的API查詢遠程驗證深度神經網絡服務的所有權。我們還在兩個基準數據集上對我們的水印框架進行了全面評估。我們證明了我們的框架能夠滿足通用水印標準，并且對不同的反水印攻擊具有魯棒性。

查看全文

http://www.risenshineclean.com/news/4117.html