中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

制作網(wǎng)站建設(shè)寧德市委書記

制作網(wǎng)站建設(shè),寧德市委書記,德州整站優(yōu)化,寧波網(wǎng)站建設(shè)詳細策劃說明:這是我的學習筆記,很多內(nèi)容轉(zhuǎn)自網(wǎng)絡(luò),請查閱文章末尾的參考資料。 文章目錄 RAGRagas評估框架評估維度評估指標Faithfulness (忠實度)Answer Relevance (答案相關(guān)度)Context Precision (上下文精確度)Context Recall (上下文召回率)Cont…

說明:這是我的學習筆記,很多內(nèi)容轉(zhuǎn)自網(wǎng)絡(luò),請查閱文章末尾的參考資料。

文章目錄

  • RAG
  • Ragas
    • 評估框架
    • 評估維度
    • 評估指標
      • Faithfulness (忠實度)
      • Answer Relevance (答案相關(guān)度)
      • Context Precision (上下文精確度)
      • Context Recall (上下文召回率)
      • Context Relevance (上下文相關(guān)度)
      • Answer Similarity (答案相似度)
      • Answer Correctness (答案正確性)
      • Aspect Critique (層面評判)
  • 參考資料

RAG

RAG (Retrieval-Augmented Generation) 檢索增強生成。RAG系統(tǒng)是利用檢索的內(nèi)容以增強LLM生成答案的系統(tǒng)。

Ragas

RAGAS (Automated Evaluation of Retrieval Augmented Generation) 檢索增強生成的自動評估。Ragas是一個大模型評測框架,可以評估檢索增強生成(RAG)的效果。Ragas可以幫助分析模型的輸出,了解模型在給定任務(wù)上的表現(xiàn)。
如果我們?yōu)槟硞€真實線上系統(tǒng)開發(fā)了檢索增強生成(RAG)應(yīng)用,那么在此應(yīng)用正式上線提供服務(wù)前,我們需要評估 RAG 的表現(xiàn)到底是怎樣的。如果發(fā)現(xiàn)現(xiàn)有的 RAG 效果不夠理想,可能需要一些新的 RAG 算法流程來改進。在這之前,就需要對 RAG 流程進行評估,得到評估指標,然后才能進行自動化對比,觀察改進的流程是否真的有效。

Ragas 官網(wǎng)

Ragas 安裝

pip install ragas

評估框架

在這里插入圖片描述

RAGAS框架必須的數(shù)據(jù)源

  • Question: 用戶所提的問題
  • Answer: AI生成的回復
  • Contexts: 上下文(也就是檢索得到的內(nèi)容)

可選的數(shù)據(jù)源

  • Ground Truths: 真相(下文簡稱Truths)人工標注的數(shù)據(jù),可以有多個真相對應(yīng)同一個問題
    在這里插入圖片描述

評估維度

在這里插入圖片描述

評估指標

Faithfulness (忠實度)

評估的是答案忠實于Contexts的程度,因為LLM有編造回答的能力,在理想的RAG系統(tǒng)中,答案應(yīng)該全部由提供的Contexts推理而來。

  1. 用LLM提取Answer中的要點, 設(shè)要點的數(shù)量為|Sa|
  2. 用LLM檢驗這些要點是否可以Contexts中推理而來,設(shè)能夠推理而來的要點數(shù)量為|Va|
  3. 計算它們的比值: F = |Va| / |Sa|

所需輸入: Question(提取要點時會需要用到),Answer, Contexts
是否需要標注: 否

Answer Relevance (答案相關(guān)度)

本質(zhì)上可以視為無標注數(shù)據(jù)時的Answer Similarity。但因為作法不同,所以它體現(xiàn)的更多的是Answer與Question之間的對齊程度。

  1. 利用LLM通過答案反推出問題。例如:
  • RAG的全稱是Retrieval-Augmented Generation是檢索增強生成系統(tǒng)。
  • 生成的問題1:RAG是什么。
  • 生成的問題2:RAG的全程是什么。
  1. 用embedding模型提取Answer與生成問題的文本語義向量。
  2. 計算向量間的相似度。

在這里插入圖片描述

其中: n是生成的問題數(shù)量,qi代表第i個生成問題, q代表實際的問題。
所需輸入:Question,Answer
是否需要標注: 否

Context Precision (上下文精確度)

評估的是檢索到的文檔是否對question都有幫助。其實就是有幫助的文檔數(shù)量與所有被檢索出文檔數(shù)量的比例。它體現(xiàn)的是RAG系統(tǒng)對于文檔檢索的精準度,會懲罰搜索一大堆沒用文檔喂給下游的行為。

  1. 用LLM判斷Contexts對Question有幫助的數(shù)量,假設(shè)該數(shù)量為|TP|
  2. 設(shè)所有被檢索出的文檔數(shù)量為k, 計算它們的比值: CP = |TP| / k

所需輸入:Question,Contexts
是否需要標注: 否

Context Recall (上下文召回率)

評估的是檢索到的文檔中包含真相Truths所需要信息的程度。如果為了優(yōu)化Context Precision把文檔刪減了很多以至于包含的信息不夠了,自然Context Recall便會低。

  1. 用LLM提取所有Truths中的要點,設(shè)要點數(shù)量為|St|。 要點(statements): 可以理解為一段描述中關(guān)于Question的小段信息。例如:
  • 問題:RAG全稱是什么。
  • 真相:RAG全稱Retrieval-Augmented Generation是檢索增強生成系統(tǒng)。
  • 要點1: Retrieval-Augmented Generation
  • 要點2:檢索增強生成系統(tǒng)
  1. 用LLM判斷在Contexts能找到對應(yīng)信息的要點數(shù)量,記作|Vt|
  2. 計算它們的比值: CR = |Vt| / |St|

Context Relevance (上下文相關(guān)度)

評估的是檢索到的文檔中所有的內(nèi)容是否對Question都有幫助。它與Context Precision的區(qū)別是它精確到了文檔文本的所有內(nèi)容。例如有的文檔很長,它涉及到的內(nèi)容很廣泛,自然也包含回答問題的信息,所以這篇文檔在計算Context Precision時會是一個正例。但是因為這篇文章內(nèi)容中也包含了其他冗余信息,所以它的Context Relevance不會高。

  1. 用LLM將所有Contexts分解為句子,設(shè)句子數(shù)量為|Sc|
  2. 并判斷對Question 有幫助的句子數(shù)量,記作|Vc|
  3. 計算它們的比值: CR = |Vc| / |Sc|

所需輸入:Question,Contexts
是否需要標注: 否

Answer Similarity (答案相似度)

Answer Correctness (答案正確性)

Aspect Critique (層面評判)

參考資料

  1. Rag系統(tǒng)的評估指標與Ragas框架的使用
  2. 小白學大模型:使用Ragas評價RAG效果
  3. RAG03-使用RAGAS進行評估
  4. RAG:系統(tǒng)評估,以RAGAS為例
http://www.risenshineclean.com/news/61684.html

相關(guān)文章:

  • 建設(shè)網(wǎng)站企業(yè)銀行關(guān)鍵詞全網(wǎng)搜索
  • 網(wǎng)站建設(shè)教程開源代碼下載競價托管 微競價
  • 采購管理系統(tǒng)免費版seo企業(yè)優(yōu)化顧問
  • 濟南營銷型網(wǎng)站建設(shè)百度推廣400電話
  • 常州市建設(shè)工程質(zhì)監(jiān)站網(wǎng)站2022年十大流行語
  • 做網(wǎng)站運營需要具備哪些能力賣網(wǎng)站鏈接
  • 域名交易網(wǎng)站源代碼下載全球十大搜索引擎排名
  • 凡科網(wǎng)站怎么做鏈接精準引流獲客軟件
  • 平面設(shè)計要素石首seo排名
  • 做市場調(diào)查的網(wǎng)站百度信息流廣告
  • 北京 網(wǎng)站建設(shè)公司長沙seo行者seo09
  • 網(wǎng)站建設(shè)銷售技巧話術(shù)91永久免費海外地域網(wǎng)名
  • 去年做那個網(wǎng)站致富免費推廣引流軟件
  • 淘寶網(wǎng)站建設(shè)的主要工作怎么在百度做廣告
  • 濟南做網(wǎng)站的網(wǎng)絡(luò)公司西安seo服務(wù)公司排名
  • 網(wǎng)站建設(shè) 推廣 公司官網(wǎng)整站優(yōu)化
  • 怎么樣用ppt做網(wǎng)站百度最怕哪個部門去投訴
  • 市局政府網(wǎng)站建設(shè)管理情況匯報seo的作用主要有
  • 越秀網(wǎng)站建設(shè)設(shè)計自媒體是什么
  • 軟件公司網(wǎng)站建設(shè)安徽網(wǎng)站推廣公司
  • 群暉nas 做網(wǎng)站抖音視頻seo霸屏
  • 一流的成都 網(wǎng)站建設(shè)鄭州外語網(wǎng)站建站優(yōu)化
  • 坪地網(wǎng)站建設(shè)如何seo技術(shù)是什么意思
  • 成都個人兼職做網(wǎng)站行業(yè)關(guān)鍵詞搜索量排名
  • 成都智能建站模板平臺交易網(wǎng)
  • 北京網(wǎng)站關(guān)鍵詞排名公司谷歌chrome安卓版
  • 西麗做網(wǎng)站seo搜索引擎工具
  • 商家在網(wǎng)站做淘寶客會給傭金嗎比百度好用的搜索軟件手機版
  • 需要個網(wǎng)站現(xiàn)在什么網(wǎng)絡(luò)推廣好
  • 大學生做推送的網(wǎng)站百度提交網(wǎng)址入口