360云盤做 網(wǎng)站圖片服務(wù)器濟南網(wǎng)站建設(shè)哪家便宜
概述
論文地址:https://arxiv.org/pdf/2403.19876.pdf
近年來,大規(guī)模語言模型發(fā)展迅速。它們給研究和教育領(lǐng)域帶來了許多變化。這些模型也是對人機交互(HCI)研究過程的有力補充,可以分析定性和定量數(shù)據(jù),再現(xiàn)社會科學(xué)實驗,模擬新的社會動態(tài)。另一方面,已經(jīng)發(fā)現(xiàn)了錯誤信息、歧視和侵犯隱私的風(fēng)險,因此需要仔細考慮如何安全使用大規(guī)模語言模型。
過去曾對人機交互領(lǐng)域的倫理問題進行過研究,但大規(guī)模語言模型的應(yīng)用帶來了前所未有的挑戰(zhàn)。關(guān)于如何將大規(guī)模語言模型納入項目、存在哪些倫理問題以及如何解決這些問題,已經(jīng)進行了大量的研究和討論,以填補實際應(yīng)用中的空白,實現(xiàn)大規(guī)模語言模型的有效和倫理整合。
本文通過對 50 名人機交互研究人員進行問卷調(diào)查和 16 次訪談得出的數(shù)據(jù),展示了大規(guī)模語言模型在整個人機交互研究過程中的應(yīng)用情況。這包括從創(chuàng)意生成到系統(tǒng)開發(fā)和論文撰寫的一系列應(yīng)用。本文還探討了研究人員對與大規(guī)模語言模型相關(guān)的潛在倫理問題的預(yù)期和應(yīng)對措施。
最后,基于這些發(fā)現(xiàn),報告提出了研究倫理的重要性以及相關(guān)的具體建議,如與倫理審查委員會等合作、改進知情同意程序、擴大倫理教育機會、修改研究激勵結(jié)構(gòu)等。人機交互領(lǐng)域一直在與大型語言模型合作,這表明未來的主要挑戰(zhàn)將是如何在整合模型時促進這些倫理考慮因素。
問卷調(diào)查
本文重點探討人機交互研究人員如何將大規(guī)模語言模型納入其研究過程,以及他們?nèi)绾谓鉀Q倫理方面的問題。為了全面了解這方面的情況,我們采用了順序解釋設(shè)計(SED)方法,通過調(diào)查和半結(jié)構(gòu)化訪談來收集來自不同角度的意見。通過這種方法,可以深入調(diào)查研究人員處理倫理問題的具體方法。請注意,本研究項目已獲得貴機構(gòu) IRB 的批準(zhǔn)。
調(diào)查使用 Qualtrics 實施的在線問卷,收集了 50 名受訪者的數(shù)據(jù)。參與者是通過社交媒體廣告、直接電子郵件和大學(xué)郵件列表等多種渠道招募的。調(diào)查開始時已征得參與者的知情同意,個人身份信息不予記錄。選擇標(biāo)準(zhǔn)是,參與者必須是從事人機交互相關(guān)領(lǐng)域工作的研究人員,并具有使用大規(guī)模語言模型的經(jīng)驗。
在最后 77 名參與者中,有 50 人完成了所有部分(不包括人口信息)。在回答人口統(tǒng)計學(xué)信息的 43 位參與者中,許多人表示他們在學(xué)術(shù)界、工業(yè)界或非營利組織工作。這些參與者來自美國、阿富汗、德國、阿爾及利亞、香港、中國、西班牙、尼日利亞、澳大利亞和日本等不同國家,在人機交互領(lǐng)域的不同子領(lǐng)域工作。參與者從事人機交互研究的平均時間為四年。
它還使用了一份由 18 個問題組成的調(diào)查問卷。其中包括 14 個多項選擇題和 4 個開放式問題。調(diào)查問卷將大規(guī)模語言模型定義為 “生成式(和多模態(tài))語言模型的一個子集,其規(guī)模隨參數(shù)數(shù)量和訓(xùn)練數(shù)據(jù)規(guī)模的增加而增加”,并將GPT-4、GPT-3.5、Llama 2 和 Vicuna描述為具體示例。
調(diào)查參與者被要求根據(jù)他們在近期研究項目中使用大規(guī)模語言模型的經(jīng)驗回答問題,這些問題分為三個部分
- 關(guān)于在人機交互研究項目中使用大規(guī)模語言模型的問題
- 在人機交互研究中使用大規(guī)模語言模型的倫理問題。
- 與研究相關(guān)的人口統(tǒng)計學(xué)問題。
問卷的第一部分用一句話描述了該項目,并詢問了所使用的主要研究方法、人機交互子領(lǐng)域以及納入大規(guī)模語言模型的研究過程的各個階段。它還重點關(guān)注了與使用大規(guī)模語言模型相關(guān)的潛在倫理考慮因素,詢問 "您在研究項目中是否遇到或觀察到任何與大規(guī)模語言模型相關(guān)的倫理挑戰(zhàn)?"來詢問有關(guān)倫理挑戰(zhàn)的封閉式和開放式問題。它還詢問了這些倫理挑戰(zhàn)是如何發(fā)現(xiàn)、解決和報告的。最后,還包括有關(guān)受訪者機構(gòu)類型、國家和從事人機交互研究年限的人口統(tǒng)計學(xué)問題。請注意,此回答為可選回答。
數(shù)據(jù)分析使用 SPSS 計算描述性統(tǒng)計,分析研究人員如何處理與大規(guī)模語言模型相關(guān)的倫理問題。特別是,它納入了提供多項選擇答案的問題的統(tǒng)計數(shù)據(jù)(例如,使用大規(guī)模語言模型時的倫理問題)。對于只有部分受訪者完成的問題,我們會計算特定問題的回復(fù)率以及回答該問題的受訪者比例。
訪談?wù){(diào)查
2023 年 10 月至 11 月間,16 位使用大規(guī)模語言模型開展研究項目的人機交互研究人員接受了采訪。每次訪談都從描述參與者最近的項目開始,探討大規(guī)模語言模型在項目中的應(yīng)用情況。訪談的重點是大規(guī)模語言模型在整個研究過程中的使用、具體的倫理考慮因素、如何駕馭倫理考慮因素、IRB 的作用、倫理框架和工具包的作用、激勵機制和責(zé)任。
參與者是通過分發(fā)名單、專業(yè)網(wǎng)絡(luò)和個人聯(lián)系等方式招募的,并采用滾雪球式抽樣和目的性抽樣進行重復(fù)抽樣。樣本包括來自美國、中國、新加坡和德國的研究人員,其中許多是在學(xué)術(shù)界工作的男性和女性研究人員。
訪談通過視頻會議在線進行,所有環(huán)節(jié)均以英語進行。訪談前,我們會向參與者解釋訪談目的,并獲得電子版知情同意書,參與者可以隨時拒絕回答問題或要求暫停錄制。每次訪談大約持續(xù) 40-60 分鐘,逐字記錄的筆記和視頻將用于日后分析。參與者可獲得價值 30 美元的禮品卡。
采用了布勞恩和克拉克的反思性專題分析方法來分析定性數(shù)據(jù)。研究小組多次閱讀每次訪談的記錄,首先對倫理因素和問題進行開放式編碼。研究小組定期召開會議,根據(jù)初始編碼反復(fù)確定主題和類別。由此確定了研究過程、倫理問題和倫理考慮方法等類別,并最終將這些類別作為最高級別納入研究結(jié)果中。
研究結(jié)果:人機交互研究人員在日常工作中使用的大規(guī)模語言模型
本文介紹了人機交互研究人員如何將大規(guī)模語言模型納入日常研究工作的發(fā)現(xiàn)。它揭示了大規(guī)模語言模型是如何應(yīng)用于研究的各個階段的,包括構(gòu)思、文獻綜述、研究設(shè)計、數(shù)據(jù)分析、系統(tǒng)構(gòu)建、評估和撰寫論文。
特別是,它們最常用于論文撰寫和研究設(shè)計階段,其次是項目范圍界定、系統(tǒng)開發(fā)、數(shù)據(jù)生成和收集以及分析。研究表明,人們認(rèn)識到,大規(guī)模語言模型為研究 “開辟了新的可能性”,而且 “如果使用得當(dāng),它們可以讓人們做一些很酷的事情,真正增強能力”。
在研究的早期階段,參與者使用大規(guī)模語言模型確定新的研究問題,然后將這些問題細化為具體的研究目標(biāo)。例如,一位學(xué)員在大規(guī)模語言模型中輸入了一個廣泛的主題領(lǐng)域,并根據(jù)生成的研究問題確定了研究目標(biāo)。另一位參與者則利用大規(guī)模語言模型尋求職業(yè)導(dǎo)師的建議,并探索人工智能與網(wǎng)絡(luò)安全交叉領(lǐng)域的研究課題。這些活動讓人機交互研究人員迅速產(chǎn)生了各種各樣的想法,對頭腦風(fēng)暴大有幫助。
此外,大規(guī)模語言模型在數(shù)據(jù)相關(guān)任務(wù)中的應(yīng)用也在不斷擴大。許多研究人員正在利用大規(guī)模語言模型綜合網(wǎng)絡(luò)來源的信息,從而大大簡化了通常需要花費大量時間和精力的任務(wù)。大規(guī)模語言模型還被納入數(shù)據(jù)分析的每個過程,包括定性數(shù)據(jù)編碼、繪圖和數(shù)據(jù)可視化,有助于提高研究的質(zhì)量和速度。
這項研究的結(jié)果表明了人機交互領(lǐng)域中法律碩士的多樣化應(yīng)用和潛力,并為研究人員提供了新的研究方法。
研究結(jié)果:人機交互研究人員對使用大規(guī)模語言模型的倫理關(guān)切
人機交互研究人員在使用大規(guī)模語言模型時遇到了各種倫理挑戰(zhàn)。研究結(jié)果顯示,30 位研究人員發(fā)現(xiàn)了倫理問題,10 位感到不確定,10 位沒有意識到這些問題。數(shù)據(jù)隱私、版權(quán)、有害輸出、版權(quán)問題和同意等問題尤為突出。這些問題在研究設(shè)計、執(zhí)行、分析和撰寫階段都很常見。
當(dāng)大規(guī)模語言模型被整合到與用戶直接交互的系統(tǒng)和工具中時,研究對象接觸有害輸出結(jié)果的倫理問題也日益受到關(guān)注。大規(guī)模語言模型的輸出結(jié)果可能會通過社會偏見和刻板印象造成不成比例的傷害,尤其是對那些不被認(rèn)為重要的群體。
此外,大規(guī)模語言模型還可能帶來新的風(fēng)險,強化對殘疾人的偏見。大規(guī)模語言模型生成的信息看似權(quán)威,實則捏造,會影響研究的可信度。特別是,識別大規(guī)模語言模型生成的虛假引文和不一致的文章參考文獻對研究人員來說是一個巨大的挑戰(zhàn)。
在研究設(shè)計和評估階段從大規(guī)模語言模型中繼承的偏見也是一個問題。研究人員對大規(guī)模語言模型產(chǎn)生同質(zhì)內(nèi)容和概括不同觀點的傾向表示擔(dān)憂。這種 "扁平化人類多樣性和細微差別 "的趨勢強調(diào)了在研究中捕捉生活經(jīng)驗復(fù)雜性的重要性。
研究人員對輸入到大規(guī)模語言模型中的數(shù)據(jù)如何使用以及隱私如何受到侵犯也非常關(guān)注。尤其令人擔(dān)憂的是大規(guī)模語言模型如何處理語音轉(zhuǎn)錄和導(dǎo)航數(shù)據(jù)等敏感信息。這些數(shù)據(jù)泄露給外界甚至可能導(dǎo)致人身傷害。研究人員還非常關(guān)注與 LLM 提供商共享數(shù)據(jù)所帶來的個人數(shù)據(jù)泄露風(fēng)險,指出安全漏洞可能會導(dǎo)致個人數(shù)據(jù)意外泄露。
此外,知識完整性也是一個問題,因為大規(guī)模語言模型生成的文本和視覺效果的所有權(quán)并不明確。在共同生產(chǎn)過程中,很難區(qū)分哪些部分是研究人員的原創(chuàng)貢獻,哪些部分是大規(guī)模語言模型的功勞。當(dāng)大規(guī)模語言模型成為研究成果的一部分時,還有關(guān)于剽竊風(fēng)險的爭論。研究人員對大規(guī)模語言模型生成的內(nèi)容的所有權(quán)提出了質(zhì)疑,尤其是在論文的寫作階段,因此需要適當(dāng)?shù)刈⒚鞒鎏帯?/p>
此外,使用大規(guī)模語言模型的研究成果的可重復(fù)性尤其受到技術(shù)快速和不透明更新的影響。如果研究人員不知道他們使用的是哪個版本的 LLM,那么過去有效的方法在未來就可能無法很好地發(fā)揮作用。這可能會削弱研究成果的可靠性。
隨著大規(guī)模語言模型使用范圍的擴大,這些問題使得加強人機交互研究中的道德準(zhǔn)則和提高透明度勢在必行。
研究結(jié)果:解決人機交互研究人員對大規(guī)模語言建模的倫理問題
在此,我們調(diào)查了人機交互研究人員如何應(yīng)對與使用大規(guī)模語言模型相關(guān)的倫理挑戰(zhàn)。我們發(fā)現(xiàn),研究人員會根據(jù)大規(guī)模語言模型的使用環(huán)境和研究領(lǐng)域來調(diào)整他們的倫理對策。
研究表明,許多人機交互研究人員都意識到潛在的倫理問題,但卻發(fā)現(xiàn)很難具體確定或解決這些問題。例如,當(dāng)一個研究領(lǐng)域被認(rèn)為風(fēng)險較低時,大規(guī)模語言建模的倫理挑戰(zhàn)往往會被忽視,并被認(rèn)為不那么緊迫。另一方面,高風(fēng)險領(lǐng)域需要采取更加積極主動的倫理措施,但在實踐中卻很少采取此類措施。
受訪的研究人員將具體情況和倫理考慮作為優(yōu)先考慮的理由,并表示與使用大規(guī)模語言模型相關(guān)的一般倫理問題并不適用于他們自己的研究。這種被動處理問題的方法導(dǎo)致人們尋求解決問題的直接辦法,但解決根本問題往往被擱置一旁。
此外,由于大多數(shù)人機交互研究都是在實驗室環(huán)境中進行的,因此倫理問題的表現(xiàn)形式與日常問題不同,短期可用性測試不太可能面對大規(guī)模語言建模的有害輸出。然而,在長期研究中可能會出現(xiàn)更嚴(yán)重的問題。
人機交互研究人員也將大規(guī)模語言模型視為常規(guī)工具。因此,許多參與者顯然認(rèn)為沒有必要向研究參與者、倫理審查委員會(IRB)或更廣泛的學(xué)術(shù)界正式報告他們使用大規(guī)模語言模型的情況。
這項調(diào)查顯示了人機交互研究人員如何看待大規(guī)模語言建模的倫理問題。
總結(jié):人機交互研究中大規(guī)模語言模型的整合與倫理問題
本文揭示了人機交互(HCI)研究人員如何使用大規(guī)模語言模型(LLM)以及他們面臨的倫理問題。本文基于通過問卷調(diào)查和訪談收集的數(shù)據(jù),探討了研究人員如何將 LLMs 整合到他們的研究中,以及他們?nèi)绾螒?yīng)對遇到的倫理問題。
研究表明,盡管人機交互研究人員在研究的各個階段都使用了大規(guī)模語言模型,但他們在有效識別和解決倫理問題方面卻舉步維艱。在每個項目中明確識別和充分解決倫理問題被認(rèn)為是一項挑戰(zhàn)。
本文還提出了一種新的方法來制定倫理規(guī)范,以促進在人機交互研究中負(fù)責(zé)任地使用大規(guī)模語言模型。它鼓勵研究人員與倫理審查委員會(IRB)合作,并與政策制定者和生成式人工智能公司合作制定指導(dǎo)方針。他們還指出,有必要重新評估知情同意程序,并提供技術(shù)援助以中斷大規(guī)模語言模型的供應(yīng)鏈。此外,還需要在人機交互領(lǐng)域提供更多的倫理教育機會,并改變學(xué)術(shù)激勵機制,以關(guān)注倫理問題。
希望這些舉措將有助于在未來營造一個更加合乎倫理的研究環(huán)境。