犀牛做網站的公司湖南網站推廣
概述
最近的研究表明,大規(guī)模語言模型在醫(yī)療人工智能應用中非常有效。它們在診斷和臨床支持系統(tǒng)中的有效性尤為明顯,在這些系統(tǒng)中,它們已被證明能為各種醫(yī)療詢問提供高度準確的答案(例如,醫(yī)生在診斷過程中需要用到語言模型)。這些模型對提示設計很敏感,只要設計適當?shù)奶崾?#xff0c;就能有效糾正醫(yī)生的錯誤回答。
然而,在臨床實踐中實施大規(guī)模語言模型仍面臨挑戰(zhàn)。例如,復雜任務需要先進的提示技術。此外,雖然現(xiàn)有研究側重于大規(guī)模語言模型的獨立使用,但在實際醫(yī)療實踐中,人類決策者(如醫(yī)生)需要做出最終決定。要確保系統(tǒng)的實用性和可靠性,了解醫(yī)生在獲得人工智能代理協(xié)助時如何進行交互至關重要。
本文深入探討了大規(guī)模語言模型如何有效地應用于醫(yī)療領域。特別是,本文探討了醫(yī)生在發(fā)表意見后由大規(guī)模語言模型向其提問的情況,并試圖說明大規(guī)模語言模型如何在不質疑專家意見的情況下提供高質量的答案。它還探討了提示的設計如何糾正醫(yī)生的錯誤并促進醫(yī)學推理,以及如何根據(jù)醫(yī)生的輸入調整大規(guī)模語言模型。
研究首先介紹了二進制 PubMedQA 數(shù)據(jù)集,該數(shù)據(jù)集以 GPT4 生成的有效正確答案和誤解答案為特征,并具體展示了其有效性。其次,它強調了提示設計對于加強大規(guī)模語言模型與醫(yī)學專業(yè)人員互動的重要性,提示設計可以糾正醫(yī)生的錯誤、解釋醫(yī)學推理、根據(jù)醫(yī)生的輸入進行調整,并最終顯示其對提高大規(guī)模語言模型性能的影響。在此過程中,它為 大規(guī)模語言模型如何在醫(yī)療實踐中更有效地發(fā)揮作用提供了重要見解。
論文地址:https://arxiv.org/abs/2403.20288
算法框架
本文研究了大規(guī)模語言模型在醫(yī)療領域問題解答任務中的有效性。在有醫(yī)生提供答案和解釋和沒有答案和解釋的情況下,都對大規(guī)模語言模型的性能進行了評估。以往的研究表明,提示語的設計對大規(guī)模語言模型的反應有重大影響,本研究通過模擬真實醫(yī)療場景和與專家互動的多個學習場景來檢驗這種影響。這些場景包括
- 基線:基本問答(QA),醫(yī)生不提供意見
- 案例 1:醫(yī)生回答 “是/否”,并根據(jù)其準確性運行四種不同的情景。
- 案例 1a:醫(yī)生總是給出正確的答案。
- 案例 1b:醫(yī)生總是給出錯誤的答案。
- 案例 1c:醫(yī)生總是回答 “是”。
- 案例 1d:醫(yī)生總是回答 “不”。
- 病例 2:醫(yī)生回答 “是/否”,并附加文字說明、根據(jù)準確度的不同,有四種不同的情況實施
- 案例 2a:醫(yī)生總是給出正確的答案。
- 案例 2b:醫(yī)生總是給出錯誤的答案。
- 案例 2c:醫(yī)生總是回答 “是”。
- 案例 2d:醫(yī)生總是回答 “不”。
- 案例 3:醫(yī)生回答 “是/否”,給出正確答案的概率會波動。
- 模擬不同概率(70%、75%、80%、85%、90%、95%)的醫(yī)生專業(yè)知識差異
下圖顯示了提示模板。
例如,在案例 1 中,首先要明確大規(guī)模語言模型的任務指令,如下圖所示。
接下來,醫(yī)生和大規(guī)模語言模型將進行模擬對話,如下圖所示。
這些對話的順序隨不同場景中例子的順序而變化。最后的提示由包含具體問題、上下文和醫(yī)生回答的測試輸入完成。
如下圖所示,案例 2 還使用 GPT-4 API 為每個問題生成正確或錯誤的解釋。例如,在案例 2a 中,醫(yī)生總是給出正確答案,GPT-4 據(jù)此生成正確的解釋。而在案例 2c 中,醫(yī)生總是回答 “是”,GPT-4 會根據(jù)問題的正確答案是 "是 "還是 "否 "生成合理的正確或錯誤解釋。通過模仿醫(yī)生的解釋,這增強了真實醫(yī)療互動的真實性。
實驗和結果
本文件旨在回答以下問題
- 問題 1:大規(guī)模語言模型能否在必要時糾正醫(yī)生的決定?
- 問題 2:大規(guī)模語言模型能否解釋其自身答案的依據(jù)?
- 問題 3:大規(guī)模語言模型能否根據(jù)醫(yī)生提供的論據(jù)糾正答案?
- 問題 4:基于醫(yī)生提供的答案的大規(guī)模語言模型能否比自己或醫(yī)生表現(xiàn)得更好?
該實驗使用 “PubMedQA 數(shù)據(jù)集”。這是一個從 PubMed 摘要中生成的生物醫(yī)學問答數(shù)據(jù)集,通?;卮馂?“是/否/可能”。在當前的實驗中,該數(shù)據(jù)集被轉換成二進制格式(只回答 “是/否”),并提供了 445 個測試示例。利用這些數(shù)據(jù),GPT-4 需要為每個問題生成合理的正確答案和錯誤答案。
使用的模型包括最新的人工智能模型 Meditron-7B、對話式人工智能 Llama2-7B Chat 和 Mistral7B-Instruct(Jiang 等人,2023 年)。這些實驗也是通過 Harness 框架進行的,其源代碼可在線獲取。
關于及時設計重要性的驗證結果。結果如下表所示。提示設計對大規(guī)模語言模型的性能有重大影響。特別是在糾正醫(yī)生的錯誤回答時,精心設計的提示能讓大規(guī)模語言模型有效地糾正醫(yī)生的錯誤回答。例如,在案例 1d 中,Mistral 模型在醫(yī)生總是回答 "不 "的情況下取得了很高的準確率,盡管實際 "不 "的回答率只有 38%。Llama2 和 Meditron 對提示變化也很敏感,在某些情況下表現(xiàn)更好。
解釋能力驗證結果。結果如下表所示。此外,還對大規(guī)模語言模型能夠解釋其回答理由的程度進行了評估。具體來說,我們發(fā)現(xiàn) Meditron 能夠保持高質量的解釋,不受醫(yī)生簡短回答的影響。另一方面,在醫(yī)生給出正確答案的情況下,Llama2 的 ROUGE-L 分數(shù)往往較低,而 Mistral 則在多個場景中始終提供了出色的解釋。這些結果表明,在適當?shù)慕Y構化提示下,大規(guī)模語言模型可以提供可靠的解釋。
對醫(yī)生論據(jù)的不同依賴程度的研究結果。很明顯,大規(guī)模語言模型在多大程度上依賴于醫(yī)生提供的論據(jù)。特別是,如果醫(yī)生在答案中添加了論據(jù),大規(guī)模語言模型對這些論據(jù)的依賴程度就會更高。在案例研究 2a 中,當醫(yī)生持續(xù)提供準確的答案和解釋時,Meditron 的準確率達到了 100%。這表明 Meditron 傾向于關注提示的最新例子,在某些情況下表現(xiàn)顯著。
另一方面,LLama2 在所有場景中都非常依賴醫(yī)生提供的論據(jù),而 Mistral 的表現(xiàn)則更加穩(wěn)健,而且提示變化較少。特別是在案例 2d 中,Mistral 在所有場景中都保持了 75% 以上的準確率,這證明它有能力在醫(yī)生提供錯誤答案和論據(jù)時對其進行有效糾正。
下一組驗證結果與解釋的質量和一致性有關。對案例 2 中各模型的 ROUGE_L 分數(shù)的分析表明,LLama2 和 Mistral 根據(jù)包含醫(yī)生意見的提示生成了更有效、更廣泛的解釋。相比之下,Meditron 嚴重依賴醫(yī)生的意見,而醫(yī)生的意見又在很大程度上決定了解釋的質量。此外,每個模型提供的答案在一致性方面也存在差異,LLama2 和 Mistral 傾向于提供合理的解釋,而與醫(yī)生的立場無關。
此外,研究還表明,雖然包含專家回復的大規(guī)模語言模型可以提高其性能,但很難超過專家自身的能力。對案例研究 3 數(shù)據(jù)的分析(如下表)表明,雖然大規(guī)模語言模型的基本性能在不同場景下沒有顯著差異,但在某些條件下有明顯的改進。例如,在醫(yī)生準確率超過 80% 的場景 2 中,Meditron 能夠超過基本性能;在醫(yī)生準確率超過 85% 的所有場景中,LLama2 也超過了基本性能。
然而,在案例 3 中,醫(yī)生的回答對 Mistral 模型的影響很大,往往會降低其性能。這表明大規(guī)模語言模型的性能取決于醫(yī)生所提供信息的質量。
此外,當根據(jù)醫(yī)生的回答對更大的模型(如 70B 模型)進行性能測試時,結果很差。當使用相同的提示時,觀察到的性能下降,這表明更大的模型并不一定能保證更好的結果。特別是,LLama2-70B 模型在 MEDQA 多選數(shù)據(jù)集上的準確率不足 55%,這表明模型的大小可能并不是提高性能的關鍵。
總結
本文的見解表明,提示語的設計對大規(guī)模語言模型的性能有重大影響,模型對提示語的變化非常敏感,同時能通過適當?shù)恼f明和示例有效糾正錯誤的醫(yī)生回答。
此外,如果提示語經過精心設計,大規(guī)模語言模型就會顯示出解釋回答的能力。此外,大規(guī)模語言模型往往是醫(yī)生為其回答提供論據(jù)的依據(jù),而且受例子順序的影響很大,尤其是在少數(shù)情況下。
研究還強調,大型模型(70B)并不總能保證取得優(yōu)異成績,提示質量是提高成績的關鍵。研究結果要求進一步研究提示設計及其影響。本研究強調了提示在醫(yī)療人工智能發(fā)展中的作用,以及其對大規(guī)模語言模型和醫(yī)療專業(yè)人員之間互動的影響。