特色的網(wǎng)站建設(shè)百度站長(zhǎng)平臺(tái)官網(wǎng)登錄入口
想了解用戶的評(píng)價(jià)究竟是“真心夸贊”還是“陰陽(yáng)怪氣”?
想快速?gòu)亩嘟巧嗍录姆彪s信息中剝繭抽絲提取核心內(nèi)容?
想通過(guò)聚合相似事件準(zhǔn)確地歸納出特征標(biāo)簽?
……
想了解UIE技術(shù)在產(chǎn)業(yè)中的實(shí)戰(zhàn)落地經(jīng)驗(yàn)?通用信息抽取技術(shù) UIE 產(chǎn)業(yè)案例分享來(lái)了!
近期Prompt 范式備受關(guān)注,實(shí)際上,Prompt 思想在產(chǎn)業(yè)界已經(jīng)有了一些成功的應(yīng)用案例。由中科院軟件所和百度共同提出了大一統(tǒng)諸多任務(wù)的通用信息抽取技術(shù)UIE(Universal Information Extraction),基于 Prompt 思想,將希望抽取的 Schema 信息轉(zhuǎn)換成“線索詞”(Schema-based Prompt)作為模型輸入的前綴,使得模型理論上能夠適應(yīng)不同領(lǐng)域和任務(wù)的 Schema 信息,并按需抽取出線索詞指向的結(jié)果,從而實(shí)現(xiàn)開放域環(huán)境下的通用信息抽取。在實(shí)體、關(guān)系、事件和情感等4個(gè)信息抽取任務(wù)、13個(gè)數(shù)據(jù)集的全監(jiān)督、低資源和少樣本設(shè)置下,UIE均取得了SOTA性能[1]。
截止目前,UIE 系列模型已發(fā)布UIE、UIE-X、UIE-senta三大模型,憑借其強(qiáng)大的零樣本與小樣本能力、多任務(wù)統(tǒng)一建模能力,成為業(yè)界在信息抽取、情感分析等任務(wù)上的首選方案。
2022年5月,飛槳PaddleNLP結(jié)合文心大模型中的知識(shí)增強(qiáng) NLP 大模型 ERNIE 3.0 ,發(fā)揮 UIE 在中文任務(wù)上的強(qiáng)大潛力,推出首個(gè)面向通用信息抽取的產(chǎn)業(yè)級(jí)技術(shù)方案[2] 。
2022年11月,UIE 新增文檔信息抽取能力——UIE-X[3],OCR、版面分析、跨模態(tài)文檔信息抽取能力一應(yīng)俱全。UIE-X 基于文心 ERNIE-Layout[4] 跨模態(tài)布局增強(qiáng)預(yù)訓(xùn)練模型,集成了 PaddleOCR[5] 的 PP-OCR、PP-Structure 版面分析等領(lǐng)先能力。
2022年12月,PaddleNLP 以 UIE 為訓(xùn)練底座,在大量情感分析數(shù)據(jù)集上進(jìn)一步訓(xùn)練,增強(qiáng)了模型對(duì)于情感知識(shí)的處理能力,推出基于 UIE 的情感分析方案(下表簡(jiǎn)寫UIE-senta)[6],覆蓋句子級(jí)情感極性分類、屬性抽取、觀點(diǎn)抽取、屬性級(jí)情感極性分類等多項(xiàng)情感任務(wù),且解決了屬性聚合和隱性觀點(diǎn)抽取難題,并提供情感分析結(jié)果可視化能力。
(圖:UIE 系列模型介紹)
來(lái)自云南能投財(cái)務(wù)服務(wù)有限公司和黑蟻資本的兩位講師將帶來(lái)精彩課程,解析UIE技術(shù)在多領(lǐng)域的應(yīng)用場(chǎng)景,分享落地實(shí)戰(zhàn)經(jīng)驗(yàn)。
2月28日、3月1日,飛槳直播間、B站直播間,兩場(chǎng)連播,不見不散!
課程介紹
2月28日 【金融】復(fù)雜單據(jù)信息抽取——財(cái)務(wù)系統(tǒng)智能化
鐘榆星 | 云南能投財(cái)務(wù)服務(wù)有限公司
財(cái)務(wù)管理是企業(yè)管理的重要組成部分,財(cái)務(wù)人員常常需要將業(yè)務(wù)單據(jù)表格中的數(shù)據(jù)通過(guò)人工填制到財(cái)務(wù)系統(tǒng)里,這往往費(fèi)時(shí)費(fèi)力,且容易產(chǎn)生錯(cuò)誤。云南能投財(cái)務(wù)服務(wù)有限公司(以下簡(jiǎn)稱云南能投),成立于2020年4月,是云南省能源投資集團(tuán)有限公司全資子公司。為有效支撐集團(tuán)財(cái)務(wù)管控落地執(zhí)行,起到支持集團(tuán)國(guó)際化發(fā)展、戰(zhàn)略決策的作用,云南能投技術(shù)支持部利用PaddleNLP提供的文檔信息抽取全流程解決方案,開發(fā)了基于UIE-X的表格信息抽取方案,實(shí)現(xiàn)復(fù)雜結(jié)構(gòu)表格的關(guān)系型抽取,幫助業(yè)務(wù)、財(cái)務(wù)將常用表格快速導(dǎo)入業(yè)務(wù)系統(tǒng),取代人工手錄,高效推動(dòng)了財(cái)務(wù)共享智能提單業(yè)務(wù)的快速落地。
(圖:云南能投基于 UIE-X 開發(fā)了表格信息抽取方案)
3月1日 【零售】客戶意見洞察促進(jìn)消費(fèi)品牌經(jīng)營(yíng)轉(zhuǎn)型
Jeru | 黑蟻資本
黑蟻資本,是一家深耕消費(fèi)領(lǐng)域投資的企業(yè),成立之初就決心讓“投后服務(wù)”成為機(jī)構(gòu)的核心能力之一,而“數(shù)字化”正是黑蟻服務(wù)被投企業(yè)的重要內(nèi)容。隨著餐飲行業(yè)進(jìn)入線上線下、堂食外賣并重的“雙主場(chǎng)”時(shí)代,面對(duì)鋪天蓋地的用戶評(píng)論數(shù)據(jù),如何用數(shù)字化手段優(yōu)化經(jīng)營(yíng)成為餐飲企業(yè)降本增效的關(guān)鍵。為了幫助被投企業(yè)提升評(píng)價(jià)數(shù)據(jù)的處理效率,黑蟻投后數(shù)字化團(tuán)隊(duì)基于 UIE 開發(fā)了用戶評(píng)論洞察系統(tǒng),幫助品牌高效深入了解用戶反饋,自動(dòng)抽取出高價(jià)值信息,實(shí)現(xiàn)量化統(tǒng)計(jì)分析,從而降低經(jīng)營(yíng)成本,優(yōu)化產(chǎn)品和服務(wù),提升市場(chǎng)競(jìng)爭(zhēng)力。
(圖:黑蟻資本基于 UIE 開發(fā)了用戶評(píng)論洞察系統(tǒng))
技術(shù)拓展——文心大模型
隨著數(shù)據(jù)井噴、算法進(jìn)步和算力突破,效果好、泛化能力強(qiáng)、通用性強(qiáng)的預(yù)訓(xùn)練大模型(以下簡(jiǎn)稱“大模型”),成為人工智能發(fā)展的關(guān)鍵方向與人工智能產(chǎn)業(yè)應(yīng)用的基礎(chǔ)底座。
文心大模型源于產(chǎn)業(yè)、服務(wù)于產(chǎn)業(yè),是產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型,涵蓋基礎(chǔ)大模型、任務(wù)大模型、行業(yè)大模型,大模型總量達(dá)36個(gè),并構(gòu)建了業(yè)界規(guī)模最大的產(chǎn)業(yè)大模型體系。文心大模型配套了豐富的工具與平臺(tái)層,包括大模型開發(fā)套件、API 以及內(nèi)置文心大模型能力的 EasyDL 和 BML 開發(fā)平臺(tái)。百度通過(guò)大模型與國(guó)產(chǎn)深度學(xué)習(xí)框架融合發(fā)展,打造了自主創(chuàng)新的 AI 底座,大幅降低了 AI 開發(fā)和應(yīng)用的門檻,滿足真實(shí)場(chǎng)景中的應(yīng)用需求,真正發(fā)揮大模型驅(qū)動(dòng) AI 規(guī)?;瘧?yīng)用的產(chǎn)業(yè)價(jià)值。
從技術(shù)研發(fā)到落地應(yīng)用,大模型的發(fā)展已經(jīng)進(jìn)入產(chǎn)業(yè)落地的關(guān)鍵期,歡迎前往文心大模型官網(wǎng)了解詳情:https://wenxin.baidu.com/
相關(guān)項(xiàng)目
PaddleNLP GitHub地址:https://github.com/PaddlePaddle/PaddleNLP
PaddleNLP Gitee地址:https://gitee.com/paddlepaddle/PaddleNLP
參考
Unified Structure Generation for Universal Information Extraction
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout
https://github.com/PaddlePaddle/PaddleOCR
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis