如何做純文本網(wǎng)站服裝市場(chǎng)調(diào)研報(bào)告
ChatGPT高效提問(wèn)—prompt常見(jiàn)用法(續(xù)篇八)
1.1 對(duì)抗
? 對(duì)抗是一個(gè)重要主題,深入探討了大型語(yǔ)言模型(LLM)的安全風(fēng)險(xiǎn)。它不僅反映了人們對(duì)LLM可能出現(xiàn)的風(fēng)險(xiǎn)和安全問(wèn)題的理解,而且能夠幫助我們識(shí)別這些潛在的風(fēng)險(xiǎn),并通過(guò)切實(shí)可行的技術(shù)手段來(lái)規(guī)避。
? 截至目前,網(wǎng)絡(luò)社區(qū)以經(jīng)揭露了各種各樣的對(duì)抗性提示攻擊,它們呈現(xiàn)出多樣化的提示注入形式。在我們構(gòu)建大規(guī)模智能模型的過(guò)程中,一項(xiàng)極為關(guān)鍵的任務(wù)便是確保模型的安全性。我們有義務(wù)保護(hù)智能模型不受提示攻擊的威脅。這些攻擊手段可能會(huì)擅自繞過(guò)我們?cè)O(shè)置的安全防線,違背我們的模型引導(dǎo)原則。下面展示幾個(gè)具有代表性的對(duì)抗性提示攻擊示例。
1.1.1 提示注入
? 提示注入作為一種廣泛使用的方法,其主要目的是通過(guò)獨(dú)特的提示來(lái)篡改模型的輸出。這種攻擊策略的核心思想在于,通過(guò)插入一條指令,使模型忽視原有的指令,轉(zhuǎn)而執(zhí)行插入的新指令。這種方式可能被用于誘導(dǎo)模型產(chǎn)生有害輸出。具體示例如下。
? 輸入prompt:
? ChatGPT輸出:
? 輸入prompt: