做風(fēng)險投資網(wǎng)站程序員培訓(xùn)
學(xué)習(xí)目標:
- 聯(lián)邦學(xué)習(xí)目前面臨的挑戰(zhàn)以及解決方案
學(xué)習(xí)內(nèi)容:
聯(lián)邦學(xué)習(xí)是一種新興的人工智能基礎(chǔ)技術(shù),它在保障大數(shù)據(jù)交換時的信息安全、保護終端數(shù)據(jù)和個人數(shù)據(jù)隱私、保證合法合規(guī)的前提下,在多參與方或多計算結(jié)點之間開展高效率的機器學(xué)習(xí)。然而,聯(lián)邦學(xué)習(xí)也面臨著一些挑戰(zhàn)和問題。
- 隱私與安全:模型訓(xùn)練和應(yīng)用過程中的隱私泄露是當下阻礙人工智能技術(shù)發(fā)展的主要難題。聯(lián)邦學(xué)習(xí)作為一種高效的隱私保護手段雖然可以在不直接獲取數(shù)據(jù)源的基礎(chǔ)上,通過參與方的本地訓(xùn)練與參數(shù)傳遞,訓(xùn)練出一個無損的學(xué)習(xí)模型;但聯(lián)邦學(xué)習(xí)中也存在較多的安全隱患,主要的安全威脅有投毒攻擊、對抗攻擊以及隱私泄露等。
- 通信效率:機器學(xué)習(xí)算法,特別是復(fù)雜的深度學(xué)習(xí)算法,在訓(xùn)練的過程中需要訓(xùn)練大量的參數(shù),比如CNN可能需要訓(xùn)練上百萬個參數(shù),每一次更新過程需要更新上百萬個參數(shù);其次,網(wǎng)絡(luò)通信的狀態(tài)也可能導(dǎo)致很高的通信成本,比如不穩(wěn)定的網(wǎng)絡(luò)情況、參數(shù)上傳和下載的過程中速度不一致都會導(dǎo)致整個算法的模型訓(xùn)練成本過大。
- 異構(gòu)性:在聯(lián)邦學(xué)習(xí)系統(tǒng)中,另一大問題就是眾多客戶端設(shè)備之間的異構(gòu)性,包括存儲、CPU計算能力、網(wǎng)絡(luò)傳輸?shù)榷鄠€方面的差異,這些異構(gòu)性使得設(shè)備的計算時間不同,甚至導(dǎo)致個別設(shè)備直接掉線。同時,聯(lián)邦學(xué)習(xí)中數(shù)據(jù)也存在一定的異構(gòu)性,聯(lián)邦學(xué)習(xí)中的設(shè)備經(jīng)常以非獨立同分布的方式在網(wǎng)絡(luò)中生成和收集數(shù)據(jù),例如,移動端的用戶在進行輸入法下一單詞預(yù)測的任務(wù)時,使用不同的語言會導(dǎo)致數(shù)據(jù)異構(gòu)問題。此外,跨設(shè)備的數(shù)據(jù)持有方持有的數(shù)據(jù)數(shù)量很可能分布不均勻。因此,許多常見的針對獨立同分布數(shù)據(jù)假設(shè)的優(yōu)化算法對于聯(lián)邦學(xué)習(xí)來說都是不適用的。
- 個性化聯(lián)邦學(xué)習(xí):為了應(yīng)對數(shù)據(jù)的Non-IID分布帶來的挑戰(zhàn),一種有效的方法是在設(shè)備、數(shù)據(jù)和模型上進行個性化處理,以減輕異構(gòu)性并為每個設(shè)備獲得高質(zhì)量的個性化模型。
- 自動化AutoFL:AutoML(Automated machine
learning)是將機器學(xué)習(xí)應(yīng)用于現(xiàn)實問題的end-to-end流程自動化的過程。在典型的機器學(xué)習(xí)應(yīng)用程序中,從業(yè)者必須應(yīng)用適當?shù)臄?shù)據(jù)預(yù)處理,特征工程,特征提取和特征選擇方法,使數(shù)據(jù)集適合機器學(xué)習(xí)。 - 數(shù)據(jù)價值評估和激勵機制:聯(lián)邦學(xué)習(xí)的商業(yè)落地過程中,除了數(shù)據(jù)隱私的考慮之外,為聯(lián)邦學(xué)習(xí)的參與者提供充足的激勵也是必不可少的。針對上述的問題,我們需要設(shè)計一種機制,來對數(shù)據(jù)和模型分配優(yōu)化等問題進行評估和激勵。