杭州做家教網(wǎng)站公司關(guān)鍵詞seo
數(shù)據(jù)分類、提取和分析對于處理大量文檔的組織來說可能具有挑戰(zhàn)性。傳統(tǒng)的文檔處理解決方案是手動的、昂貴的、容易出錯的,并且難以擴(kuò)展。利用?Amazon Textract?等 AI 服務(wù),亞馬遜云科技智能文檔處理(IDP)允許您利用業(yè)界領(lǐng)先的機(jī)器學(xué)習(xí)(ML)技術(shù)來快速準(zhǔn)確地處理任何掃描文檔或圖像中的數(shù)據(jù)。生成式人工智能(生成式AI)補(bǔ)充了 Amazon Textract, 以進(jìn)一步自動化文檔處理工作流程。諸如標(biāo)準(zhǔn)化關(guān)鍵字段和匯總輸入數(shù)據(jù)等功能支持更快地管理文檔流程工作流程,同時減少錯誤的可能性。
亞馬遜云科技開發(fā)者社區(qū)為開發(fā)者們提供全球的開發(fā)技術(shù)資源。這里有技術(shù)文檔、開發(fā)案例、技術(shù)專欄、培訓(xùn)視頻、活動與競賽等。幫助中國開發(fā)者對接世界最前沿技術(shù),觀點(diǎn),和項(xiàng)目,并將中國優(yōu)秀開發(fā)者或技術(shù)推薦給全球云社區(qū)。如果你還沒有關(guān)注/收藏,看到這里請一定不要匆匆劃過,點(diǎn)這里讓它成為你的技術(shù)寶庫! |
生成式 AI 由稱為基礎(chǔ)模型(FMs)的大型 ML 模型驅(qū)動。FMs 正在改變您可以解決傳統(tǒng)上復(fù)雜文檔處理工作負(fù)載的方式。除了現(xiàn)有的功能之外,企業(yè)需要匯總來自諸如財(cái)務(wù)報(bào)告和銀行對賬單等文檔的特定類別的信息。FMs 使從提取的數(shù)據(jù)中生成此類見解變得更加容易。為了優(yōu)化人工審核所花費(fèi)的時間并提高員工的工作效率,可以以自動化的方式標(biāo)記諸如電話號碼中缺少數(shù)字,缺少文檔或地址中缺少門牌號等錯誤。在當(dāng)前場景中,您需要投入資源通過人工審核和復(fù)雜的腳本來完成這些任務(wù)。這種方法既乏味又昂貴。FMs 可以幫助以更快的速度、更少的資源完成這些任務(wù),并將不同的輸入格式轉(zhuǎn)換為可以進(jìn)一步處理的標(biāo)準(zhǔn)模板。在亞馬遜云科技,我們提供諸如?Amazon Bedrock?等服務(wù),這是使用FMs構(gòu)建和擴(kuò)展生成式 AI 應(yīng)用程序的最簡單方法。 Amazon Bedrock 是一個完全托管的服務(wù),通過 API 提供來自領(lǐng)先的 AI 創(chuàng)業(yè)公司和 Amazon FMs,以便您可以找到最適合您要求的模型。 我們還提供?Amazon SageMaker JumpStart,它允許 ML 從業(yè)人員從廣泛的開源FMs中進(jìn)行選擇。 ML 從業(yè)人員可以將FMs部署到專用?Amazon SageMaker?實(shí)例中從一個網(wǎng)絡(luò)隔離的環(huán)境中,并使用SageMaker 定制模型進(jìn)行模型訓(xùn)練和部署。
Ricoh?提供旨在幫助客戶管理和優(yōu)化業(yè)務(wù)信息流的工作場所解決方案和數(shù)字化轉(zhuǎn)型服務(wù)。產(chǎn)品組合解決方案開發(fā)副總裁 Ashok Shenoy 說:“我們正在將生成式 AI 添加到我們的 IDP 解決方案中,以幫助客戶利用諸如問答、匯總和標(biāo)準(zhǔn)化輸出等新功能更快、更準(zhǔn)確地完成工作。 亞馬遜云科技允許我們在保持每個客戶的數(shù)據(jù)分離和安全的同時利用生成式AI?!?/p>
在本文中,我們將分享如何使用生成式 AI 增強(qiáng)亞馬遜云科技上的 IDP 解決方案。
改進(jìn) IDP 流程
在本節(jié)中,我們將回顧如何通過 FMs 增強(qiáng)傳統(tǒng)的 IDP 流程,并通過 Amazon Textract 與 FMs 的示例用例進(jìn)行演練。
Amazon IDP 由三個階段組成:分類、提取和擴(kuò)充。有關(guān)每個階段的更多詳細(xì)信息,請參閱使用亞馬遜云科技 AI 服務(wù)進(jìn)行智能文檔處理:第1部分和第2部分。在分類階段,FMs 現(xiàn)在可以在沒有任何額外訓(xùn)練的情況下對文檔進(jìn)行分類。這意味著即使模型之前沒有見過類似的示例,也可以對文檔進(jìn)行分類。提取階段的FMs可以標(biāo)準(zhǔn)化日期字段、驗(yàn)證地址和電話號碼,同時確保一致的格式。豐富階段的 FMs 允許推理、邏輯推理和總結(jié)。當(dāng)您在每個 IDP 階段使用 FMs 時,您的工作流程將更加流暢,性能也會得到改進(jìn)。下圖說明了具有生成式AI 的 IDP 流程。
IDP 流程的提取階段
當(dāng) FMs 無法直接以原生格式(如 PDF、img、jpeg 和 tiff)作為輸入來處理文檔時,需要一種機(jī)制將文檔轉(zhuǎn)換為文本。為了從文檔中提取文本然后將其發(fā)送到 FMs 進(jìn)行進(jìn)一步處理,您可以使用 Amazon Textract。使用 Amazon Textract,您可以提取行和單詞,并將它們傳遞給下游的 FMs。以下架構(gòu)使用 Amazon Textract 從任何類型的文檔中準(zhǔn)確提取文本,然后將其發(fā)送到FMs進(jìn)行進(jìn)一步處理。
通常,文檔包含結(jié)構(gòu)化和半結(jié)構(gòu)化信息。Amazon Textract 可用于從表格和表單中提取原始文本和數(shù)據(jù)。表格和表單中的數(shù)據(jù)關(guān)系在自動化業(yè)務(wù)過程方面發(fā)揮著至關(guān)重要的作用。某些類型的信息可能無法由 FMs 直接處理。因此,我們可以選擇將此信息存儲在下游存儲中或?qū)⑵浒l(fā)送到 FMs。下圖是一個例子,展示了 Amazon Textract 如何從文檔中提取結(jié)構(gòu)化和半結(jié)構(gòu)化信息,以及需要由 FMs 處理的文本行。
使用亞馬遜云科技無服務(wù)器服務(wù)利用 FMs 進(jìn)行總結(jié)
我們前面演示的 IDP 流程可以使用亞馬遜云科技無服務(wù)器服務(wù)無縫自動化。大型企業(yè)中存在高度非結(jié)構(gòu)化的文檔。這些文檔可能跨越從銀行業(yè)的證券交易委員會(SEC)文件到醫(yī)療保險(xiǎn)行業(yè)的保障文件等多個行業(yè)。隨著亞馬遜云科技上生成式 AI 的發(fā)展,這些行業(yè)的人們正在尋找以自動化和經(jīng)濟(jì)高效的方式從這些文檔中獲取摘要的方法。無服務(wù)器服務(wù)提供了一種快速構(gòu)建 IDP 解決方案的機(jī)制。諸如?Amazon Lambda、Amazon Step Functions?和?Amazon EventBridge?等服務(wù)可以幫助構(gòu)建與 FMs 集成的文檔處理流程,如下圖所示。
上述架構(gòu)中使用的示例應(yīng)用程序是事件驅(qū)動的。事件被定義為最近發(fā)生的狀態(tài)變化。例如,當(dāng)對象被上傳到?Amazon Simple Storage Service?(Amazon S3) 存儲桶時,Amazon S3 會發(fā)出對象創(chuàng)建事件。來自 Amazon S3 的此事件通知可以觸發(fā) Lambda 函數(shù)或 Step Functions 工作流程。這種類型的架構(gòu)稱為事件驅(qū)動架構(gòu)。在本文中,我們的示例應(yīng)用程序使用事件驅(qū)動架構(gòu)來處理示例病人出院小結(jié),并總結(jié)文檔的詳細(xì)信息。工作流程如下:
-
當(dāng)文檔上傳到 S3 存儲桶時,Amazon S3 會觸發(fā)對象創(chuàng)建事件。
-
EventBridge 默認(rèn)事件總線根據(jù) EventBridge 規(guī)則將事件傳播到 Step Functions。
-
狀態(tài)機(jī)工作流程開始處理文檔,從 Amazon Textract 開始。
-
Lambda 函數(shù)轉(zhuǎn)換經(jīng)過分析的數(shù)據(jù)以用于下一步。
-
狀態(tài)機(jī)調(diào)用托管 FM 的?SageMaker endpoint,通過直接的 Amazon SDK 集成。
-
摘要 S3 目標(biāo)存儲桶接收從 FM 收集的摘要響應(yīng)。
我們使用示例應(yīng)用程序及?flan-t5 Hugging face 模型來總結(jié)以下使用 Step Functions 工作流程的示例病人出院小結(jié)。
Step Functions工作流程使用?Amazon SDK 集成調(diào)用 Amazon Textract?AnalyzeDocument?和 SageMaker 運(yùn)行時InvokeEndpoint?API,如下圖所示。
此工作流程生成存儲在目標(biāo)存儲桶中的摘要 JSON 對象。JSON 對象如下所示:
{"summary": ["John Doe is a 35-year old male who has been experiencing stomach problems for two months. He has been taking antibiotics for the last two weeks, but has not been able to eat much. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has also noticed a change in his stool color, which is now darker. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of fatigue, and has been unable to work for the last two weeks. He has also been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help."],"forms": [{"key": "Ph: ","value": "(888)-(999)-(0000) "},{"key": "Fax: ","value": "(888)-(999)-(1111) "},{"key": "Patient Name: ","value": "John Doe "},{"key": "Patient ID: ","value": "NARH-36640 "},{"key": "Gender: ","value": "Male "},{"key": "Attending Physician: ","value": "Mateo Jackson, PhD "},{"key": "Admit Date: ","value": "07-Sep-2020 "},{"key": "Discharge Date: ","value": "08-Sep-2020 "},{"key": "Discharge Disposition: ","value": "Home with Support Services "},{"key": "Pre-existing / Developed Conditions Impacting Hospital Stay: ","value": "35 yo M c/o stomach problems since 2 months. Patient reports epigastric abdominal pain non- radiating. Pain is described as gnawing and burning, intermittent lasting 1-2 hours, and gotten progressively worse. Antacids used to alleviate pain but not anymore; nothing exacerbates pain. Pain unrelated to daytime or to meals. Patient denies constipation or diarrhea. Patient denies blood in stool but have noticed them darker. Patient also reports nausea. Denies recent illness or fever. He also reports fatigue for 2 weeks and bloating after eating. ROS: Negative except for above findings Meds: Motrin once/week. Tums previously. PMHx: Back pain and muscle spasms. No Hx of surgery. NKDA. FHx: Uncle has a bleeding ulcer. Social Hx: Smokes since 15 yo, 1/2-1 PPD. No recent EtOH use. Denies illicit drug use. Works on high elevation construction. Fast food diet. Exercises 3-4 times/week but stopped 2 weeks ago. "},{"key": "Summary: ","value": "some activity restrictions suggested, full course of antibiotics, check back with physican in case of relapse, strict diet "}]}
使用 IDP 與無服務(wù)器實(shí)現(xiàn)在大規(guī)模上生成這些摘要,可以以高效的方式為組織提供有意義、簡潔和可呈現(xiàn)的數(shù)據(jù)。 Step Functions 不限于一次處理一個文檔的方式來處理文檔。它的分布式映射功能可以按計(jì)劃總結(jié)大量文檔。
示例應(yīng)用程序使用?flan-t5 Hugging face 模型;但是,您可以選擇自己的 FM endpoint。模型的訓(xùn)練和運(yùn)行超出了示例應(yīng)用程序的范圍。請遵循 GitHub 倉庫中的說明來部署示例應(yīng)用程序。上述架構(gòu)提供了如何使用 Step Functions 編排 IDP 工作流的指導(dǎo)。有關(guān)使用亞馬遜云科技 AI 服務(wù)和 FMs 構(gòu)建應(yīng)用程序的詳細(xì)說明,請參閱?IDP 生成式AI Workshop。
設(shè)置解決方案
按照?README?中的步驟設(shè)置解決方案架構(gòu)(SageMaker endpoint 除外)。在您擁有自己的 SageMaker endpoint 后,可以將 endpoint 名稱作為參數(shù)傳遞給模板。
清理
為了節(jié)省費(fèi)用,請刪除教程中部署的資源:
-
按照?README?中的清理部分的步驟進(jìn)行操作。
-
從 Amazon S3 控制臺中刪除 S3 存儲桶中的任何內(nèi)容,然后刪除存儲桶。
-
通過 SageMaker 控制臺刪除您可能創(chuàng)建的任何 SageMaker endpoint。
結(jié)論
生成式 AI 正在改變您可以如何使用 IDP 來洞察文檔。Amazon Textract 等亞馬遜云科技 AI 服務(wù)以及 Amazon FMs 可以幫助準(zhǔn)確處理任何類型的文檔。有關(guān)在亞馬遜云科技上使用生成式AI的更多信息,請參閱發(fā)布在亞馬遜云科技上構(gòu)建生成式 AI 的新工具。
文章來源:https://dev.amazoncloud.cn/column/article/64e5fcaa5cf856038494f188?sc_medium=regulartraffic&sc_campaign=crossplatform&sc_channel=CSDN?