自己做網(wǎng)站 需要哪些私人做網(wǎng)站
前言
????????中國圖象圖形大會(CCIG 2024)于近期在西安召開,此次大會將面向開放創(chuàng)新、交叉融合的發(fā)展趨勢,為圖像圖形相關(guān)領(lǐng)域的專家學者和產(chǎn)業(yè)界同仁,搭建一個展示創(chuàng)新成果、展望未來發(fā)展,集高度、深度、廣度三位于一體的交流平臺。大會期間,合合信息智能創(chuàng)新事業(yè)部研發(fā)總監(jiān)常揚做了《文檔解析技術(shù)加速大模型訓練與應用》主題報告,介紹了TextIn文檔解析技術(shù)的技術(shù)特征。下面為大家分享一下這次報告的主要內(nèi)容。
發(fā)展現(xiàn)狀
????????目前大模型訓練和應用過程中面臨訓練Token耗盡、訓練語料質(zhì)量要求高、LLM文檔問答應用中文檔解析不精準的問題。目前互聯(lián)網(wǎng)能夠提供的語料資源預計將在2026年耗盡,提升大模型應用效果需要更多更高質(zhì)量的語料。同時文檔類語料(chart-pdf或chart-excel等)識別精度很差,嚴重影響模型應用效果。
????????而目前提高大模型訓練效果最佳場景集中于書籍、論文等文檔中,而它們往往都是PDF格式,甚至是圖片掃描件。我們再訓練時需要對這些文檔進行文檔格式識別、圖表內(nèi)容及標題提取、版面正確解析、閱讀順序處理的轉(zhuǎn)換,同時要確保轉(zhuǎn)換速度足夠快。比如下面這個gpt閱讀文檔的例子:
?在這個例子中,由于文章包含一個非標準的列表,使得大模型沒有識別到內(nèi)容。
????????這個例子中,由于雙欄排版使得大模型識別到了錯誤的內(nèi)容。這些例子都說明目前迫切需要一個具備多文檔元素識別、版面分析、高性能的文檔解析技術(shù),并將其應用在大模型的準備過程中。
技術(shù)難點
????????由于文檔版式多樣,模型很難有一個統(tǒng)一的處理方式。比如下面的一些例子:
在這個例子中,頁眉的形式多種多樣,沒有統(tǒng)一的格式。
這個例子中表格和多欄排版混合為文檔解析增加了困難。
這個例子中無線表格和合并單元格會使得文字無法定位。
????????這個例子中,公式的出現(xiàn)阻礙了文字信息的識別和提取。
????????在這些例子里,我們觀察到有元素遮蓋、重疊,元素(頁眉頁腳等)有多樣性;版式(雙欄、跨頁、三欄)造成的閱讀順序差異,多欄中插入表格的影響,無線表格以及單元格合并拆分帶來的識別困難,單行公式、行內(nèi)公式以及表格內(nèi)公式的影響等等一些問題。
TextIn文檔解析技術(shù)
????????針對上面的問題,合合信息研發(fā)了TextIn文檔解析技術(shù),它專注于處理電子檔、掃描件。在識別到文檔類型后會提取其中的文字,之后基于合合信息多年的技術(shù)積累,對文檔進行物理和邏輯版面分析。整個處理流程如下:
????????首先將各種類型的文檔進行多頁拆分,之后按照文檔類型進行對應的預處理,然后提取文檔數(shù)據(jù),整合為通用文檔文字信息。之后再對文檔進行物理版面分析以及邏輯版面分析,將其與文字信息合并為一個通用文檔層級信息。最后依據(jù)模型訓練需求,將結(jié)果轉(zhuǎn)換為指定的格式。
核心技術(shù)
????????TextIn的核心技術(shù)選用了業(yè)界領(lǐng)先的模塊,旨在實現(xiàn)高精度的文檔解析效果。這些模塊涵蓋了文檔圖像預處理算法、版面分析算法框架以及邏輯版面分析算法,具體功能如下:
????????文檔圖像預處理算法包括區(qū)域提取、干擾去除、形變矯正、圖像恢復和圖像增強等模塊。這些模塊的主要任務是提升文字信息提取的準確性和效率。
????????區(qū)域提取可以識別并提取出文檔中具有文字信息的區(qū)域,確保后續(xù)處理聚焦在有用的部分。
????????形變矯正通過分析形變文檔的偏移場,將其矯正為正常的圖像,并利用附近的像素點填充缺失部分,確保圖像的完整性。
????????圖像恢復和圖像增強則進一步優(yōu)化圖像質(zhì)量,使得文字信息更加清晰和易于識別。圖像文檔干擾去除算法使用U2net卷積提取出圖像的背景,然后通過cab技術(shù)去除干擾,得到一個更高質(zhì)量的圖像。
?????????版面分析算法框架分為物理版面分析和邏輯版面分析兩個主要模塊。物理版面分析側(cè)重于視覺特征,識別文檔中的各個元素,將相關(guān)性高的文字聚合到一個區(qū)域,這一過程主要關(guān)注文檔的視覺布局和結(jié)構(gòu)。邏輯版面分析則側(cè)重于語義特征,聚焦于文檔結(jié)構(gòu),其主要任務是通過語義建模將不同的文字塊形成層次結(jié)構(gòu),例如通過樹狀結(jié)構(gòu)展示文檔的語義層次關(guān)系。檢測模型選用了單階段的檢測模型,關(guān)注小規(guī)模數(shù)據(jù)和模型的調(diào)優(yōu),以提升識別精度
????????文檔布局分析將文檔轉(zhuǎn)換為標準的“頁-節(jié)-段-切片”層次化布局,有助于系統(tǒng)更高效地處理文檔內(nèi)容。
????????大模型在工作時,先定位目標頁面,再尋找相關(guān)切片,從而提高運行速度和精度。邏輯版面分析算法通過預測每個段落與上一個段落的關(guān)系,將其分為子標題、子段落、合并、旁系、主標題、表格標題等類型。如果是旁系類型,則繼續(xù)向上查找父節(jié)點,并判斷其層級關(guān)系,直至找到最終的父節(jié)點。
????????通過這一系列技術(shù),TextIn在文檔解析工作上展現(xiàn)了卓越的效果。
????????此外,在與生成式模型的配合應用上,TextIn同樣表現(xiàn)出色,進一步提升了文檔解析和處理的整體性能。
技術(shù)解析
DocUNet網(wǎng)絡
DocUNet模型可以捕獲文檔級RE的三元組之間的本地上下文信息和全局相互依賴性,將文檔級RE表述為語義分割。具體來說,用一個編碼器模塊來捕獲實體的上下文信息,并引用一個U形分割模塊來捕獲圖像樣式特征圖上的三元組之間的全局相互依賴性。它的主要步驟是:首先通過一個編碼器提取輸入圖像的特征,然后計算相關(guān)性并傳入U形分割模塊進行預測,最后通過損失函數(shù)調(diào)整結(jié)果,進行分類。
U2Net網(wǎng)絡
????????U2net是一種用于圖像分割的神經(jīng)網(wǎng)絡模型。它的網(wǎng)絡結(jié)構(gòu)為大型的U-net結(jié)構(gòu)的每一個block里面也為U-net結(jié)構(gòu)。其中Block總共分兩種,一種是Encoder1-4以及Decoder1-4,另一種是Encoder5-6和Decoder5。
????????第一種block在Encoder階段,每通過一個block后都會通過最大池化層下采樣2倍,在Decoder階段,通過每一個block前都會用雙線性插值進行上采樣。如下圖,綠色代表卷積+BN+ReLU,藍色代表下采樣+卷積+BN+ReLU,紫色代表上采樣+卷積+BN+ReLU,在RSU-7中下采樣了5次,也即把輸入特征圖下采樣了32倍,同樣在Decoder階段上采樣了32倍還原為原始圖像大小。
?????????第二種block是RSU-4F主要是在RSU-4的基礎上,將下采樣和上采樣換成了膨脹卷積,整個過程中特征圖大小不變。
????????
????????在每個block工作完成后,將每個階段的特征圖進行融合,并對他們做3*3的卷積,卷積核個數(shù)為1,再用線性插值進行上采樣恢復到原圖大小,進行concat拼接,使用sigmoid函數(shù)輸出最終分割結(jié)果。
Transformer模型
????????Transformer模型是近年大火的模型。它由多個編碼器和解碼器塊堆疊構(gòu)成,每個塊包括兩個子層:多頭自注意力層和全連接前饋層。每個子層后增加了一個殘差連接,并進行層歸一化操作。
????????多頭自注意力層包含若干自注意力層。自注意力層使用權(quán)重矩陣得到查詢向量Q、鍵向量K和值向量V,帶入公式即可得到輸出,最終的輸出即為前饋神經(jīng)網(wǎng)絡的輸入。全連接前饋層包括一個兩層的全連接網(wǎng)絡和一個非線性激活函數(shù)。
????????殘差連接與歸一化層的引入可以解決梯度消失的問題。殘差連接需要輸入和輸出的維度相同,此處將輸出維度設置成?. 歸一化將每一層神經(jīng)元的輸入都轉(zhuǎn)成均值方差都一樣的,可以加快收斂。
????????解碼器相比編碼器增加了一個多他自注意力層,并采用了掩碼操作,目的是防止Q去對序列中尚未解碼的位置施加操作。解碼器輸出結(jié)果經(jīng)過線性連接后,由一個Softmax層計算預測值。
體驗TextIn文本解析Demo
????????TextIn的官網(wǎng)上提供了一個對給定的句子列表進行向量化,并計算句子之間的相似度的案例。下面是詳細步驟:
????????首先我們定義一個包含兩個句子的列表 sentences。
sentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
之后使用 'acge_text_embedding' 預訓練模型初始化 SentenceTransformer 對象,并將其賦值給 model 變量。
model = SentenceTransformer('acge_text_embedding')
????????接下來使用 model.encode() 方法對 sentences 列表中的句子進行向量化,得到兩組嵌入向量 embeddings_1 和 embeddings_2。設置參數(shù)normalize_embeddings為True,表示歸一化這些向量,使其長度為1。
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
????????最后計算兩組向量 embeddings_1 和 embeddings_2 之間的相似度。@ 符號表示矩陣乘法,embeddings_2.T 表示 embeddings_2 的轉(zhuǎn)置矩陣。這將得到一個相似度矩陣 similarity,其中 similarity[i][j] 表示 sentences[i] 和 sentences[j] 之間的余弦相似度。
similarity = embeddings_1 @ embeddings_2.T
完整代碼如下:
from sentence_transformers import SentenceTransformersentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
model = SentenceTransformer('acge_text_embedding')
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)
總結(jié)
上海合合信息科技股份有限公司通過其智能文字識別技術(shù)TextIn文檔解析在電子檔解析和掃描檔識別領(lǐng)域表現(xiàn)出色,保證了準確識別且不漏檢、不錯檢。該技術(shù)在處理無線表、跨頁表格、頁眉、頁腳、公式、圖像、印章、流程圖、目錄樹等元素方面非常出色。此外,TextIn文檔解析已經(jīng)適配云服務集群,在云服務方面綜合體驗良好,速度快、服務穩(wěn)定,能夠?qū)崿F(xiàn)100頁PDF解析工作最快1.46秒。上海合合信息科技股份有限公司還致力于為全球企業(yè)和個人用戶提供創(chuàng)新的數(shù)字化、智能化服務,其開發(fā)的C端產(chǎn)品全球累計用戶下載超過23億,月活躍用戶約1.3億,其中名片全能王和掃描全能王免費版在App Store排行榜上名列前茅。