免費(fèi)制作的企業(yè)網(wǎng)站云南seo簡單整站優(yōu)化
文本數(shù)據(jù)處理
一、數(shù)據(jù)轉(zhuǎn)換與錯(cuò)誤處理
(一)運(yùn)維中的數(shù)據(jù)轉(zhuǎn)換問題
在計(jì)算機(jī)審計(jì)及各類數(shù)據(jù)處理場景中,數(shù)據(jù)轉(zhuǎn)換是關(guān)鍵步驟,涉及將被審計(jì)單位或其他來源的數(shù)據(jù)有效裝載到目標(biāo)數(shù)據(jù)庫,并明確標(biāo)示各表及字段含義與關(guān)系。然而,此過程易出現(xiàn)轉(zhuǎn)換數(shù)據(jù)錯(cuò)誤,因?yàn)閿?shù)據(jù)在系統(tǒng)間轉(zhuǎn)移時(shí),格式、編碼或結(jié)構(gòu)可能改變,導(dǎo)致數(shù)據(jù)含義及關(guān)系出錯(cuò)。例如,某公司 ERP 系統(tǒng)與審計(jì)軟件間日期格式轉(zhuǎn)換不當(dāng),就會造成數(shù)據(jù)錯(cuò)誤解讀,影響審計(jì)準(zhǔn)確性。
(二)常見數(shù)據(jù)轉(zhuǎn)換錯(cuò)誤類型
- 命名錯(cuò)誤:原端數(shù)據(jù)源標(biāo)識符與目的數(shù)據(jù)源保留字沖突,如 CRM 系統(tǒng)的“order date”字段在 ERP 系統(tǒng)中為保留字,需重新命名避免沖突。
- 格式錯(cuò)誤:同一種數(shù)據(jù)類型在不同系統(tǒng)可能有不同表示方法和語義差異,如 Excel 日期格式與 SQL 數(shù)據(jù)庫期望格式不一致,需編寫轉(zhuǎn)換腳本統(tǒng)一格式。
- 結(jié)構(gòu)錯(cuò)誤:不同數(shù)據(jù)庫的數(shù)據(jù)定義模型不同,如關(guān)系模型和層次模型轉(zhuǎn)換時(shí),需重新定義實(shí)體、屬性和聯(lián)系,防止信息丟失。
- 類型錯(cuò)誤:不同數(shù)據(jù)庫同一種數(shù)據(jù)類型存在精度差異,在轉(zhuǎn)換時(shí)要綜合考慮數(shù)據(jù)類型及其精度,確定合適映射關(guān)系。
(三)數(shù)據(jù)錯(cuò)誤處理方法
- 數(shù)據(jù)輸入錯(cuò)誤:人工數(shù)據(jù)收集、記錄或輸入過程中產(chǎn)生失誤,導(dǎo)致數(shù)據(jù)集中出現(xiàn)異常值,影響后續(xù)分析,如調(diào)查問卷年齡數(shù)據(jù)錄入錯(cuò)誤。
- 測量誤差:使用不準(zhǔn)確測量工具或方法,使數(shù)據(jù)偏離實(shí)際值,如物理實(shí)驗(yàn)中校準(zhǔn)不準(zhǔn)確的溫度計(jì)記錄的溫度數(shù)據(jù)。
- 數(shù)據(jù)處理錯(cuò)誤:數(shù)據(jù)分析過程中因操作不當(dāng)產(chǎn)生異常值,如數(shù)據(jù)清洗時(shí)錯(cuò)誤刪除重要數(shù)據(jù)點(diǎn)或使用錯(cuò)誤公式進(jìn)行統(tǒng)計(jì)計(jì)算。
在數(shù)據(jù)轉(zhuǎn)換環(huán)節(jié)增加數(shù)據(jù)檢驗(yàn)步驟至關(guān)重要。以員工工資數(shù)據(jù)集為例,若發(fā)現(xiàn)負(fù)數(shù)工資記錄(明顯不合理),處理方法如下:
- 若錯(cuò)誤數(shù)據(jù)量少,可直接刪除,如少數(shù)幾條負(fù)數(shù)工資記錄可能是輸入錯(cuò)誤,刪除不影響整體分析。
- 可替換錯(cuò)誤數(shù)據(jù),用均值、中位數(shù)或眾數(shù)代替,如計(jì)算員工所在部門平均工資替換錯(cuò)誤工資值。
- 若錯(cuò)誤數(shù)據(jù)量多,將錯(cuò)誤數(shù)據(jù)和正常數(shù)據(jù)分開處理,為異常值單獨(dú)建立模型,與正常值模型結(jié)果合并,避免異常值對整體分析結(jié)果產(chǎn)生過大影響。
二、數(shù)據(jù)質(zhì)量評估
數(shù)據(jù)質(zhì)量是保證數(shù)據(jù)應(yīng)用效果的基礎(chǔ),涉及多個(gè)維度評估指標(biāo):
- 完整性:數(shù)據(jù)集應(yīng)包含所有預(yù)期信息項(xiàng),無遺漏。評估時(shí)查看數(shù)據(jù)統(tǒng)計(jì)中的記錄數(shù)和唯一值情況,如銷售數(shù)據(jù)集中訂單號字段存在大量重復(fù)或缺失,說明完整性有問題。
- 一致性:數(shù)據(jù)集中相同信息項(xiàng)在不同記錄或數(shù)據(jù)源間應(yīng)保持相同表示和含義,多數(shù)數(shù)據(jù)有標(biāo)準(zhǔn)編碼、規(guī)則或格式要求,檢驗(yàn)時(shí)看其是否符合既定標(biāo)準(zhǔn),如客戶信息系統(tǒng)中性別字段應(yīng)遵循統(tǒng)一編碼規(guī)則。
- 準(zhǔn)確性:數(shù)據(jù)記錄信息應(yīng)準(zhǔn)確無誤,不存在異常或錯(cuò)誤,常見錯(cuò)誤包括亂碼、格式錯(cuò)誤、邏輯錯(cuò)誤等,準(zhǔn)確的數(shù)據(jù)是數(shù)據(jù)質(zhì)量的核心要求之一。
- 及時(shí)性:數(shù)據(jù)應(yīng)在最短時(shí)間內(nèi)采集、處理和更新,以滿足應(yīng)用需求,如電商平臺商品庫存信息需實(shí)時(shí)更新,否則可能導(dǎo)致消費(fèi)者下單后發(fā)現(xiàn)商品已售罄的情況。
在進(jìn)行數(shù)據(jù)質(zhì)量評估時(shí),應(yīng)根據(jù)具體應(yīng)用場景和需求,對各項(xiàng)評估指標(biāo)進(jìn)行選擇和權(quán)重分配,以全面、準(zhǔn)確地衡量數(shù)據(jù)質(zhì)量,為后續(xù)的數(shù)據(jù)應(yīng)用提供可靠保障。
三、審計(jì)數(shù)據(jù)處理
審計(jì)數(shù)據(jù)處理包括數(shù)據(jù)查詢、審計(jì)抽樣、統(tǒng)計(jì)分析和數(shù)據(jù)分析等方法:
- 數(shù)據(jù)查詢:審計(jì)人員依據(jù)經(jīng)驗(yàn)和審計(jì)分析模型,使用審計(jì)軟件中的查詢命令分析采集的電子數(shù)據(jù),或通過運(yùn)行各種查詢命令以特定格式檢測被審計(jì)單位數(shù)據(jù),是常用方法之一。
- 審計(jì)抽樣:從審計(jì)對象總體中選取一定數(shù)量樣本進(jìn)行測試,根據(jù)樣本測試結(jié)果推斷總體特征,在面向數(shù)據(jù)的計(jì)算機(jī)審計(jì)中發(fā)揮重要作用。
- 統(tǒng)計(jì)分析:目的是探索被審計(jì)數(shù)據(jù)內(nèi)在的數(shù)量規(guī)律性,以發(fā)現(xiàn)異?,F(xiàn)象,快速尋找審計(jì)突破口,常用方法包括一般統(tǒng)計(jì)、分層分析和分類分析,通常與其他審計(jì)數(shù)據(jù)處理方法配合使用。
- 數(shù)據(jù)分析:根據(jù)字段數(shù)據(jù)值分布情況、出現(xiàn)頻率等對字段進(jìn)行分析,先不考慮具體業(yè)務(wù),對分析出的可疑數(shù)據(jù)結(jié)合業(yè)務(wù)進(jìn)行審計(jì),有助于發(fā)現(xiàn)隱藏信息。
審計(jì)數(shù)據(jù)直接影響審計(jì)結(jié)果的準(zhǔn)確性和效率性,國內(nèi)外都重視審計(jì)數(shù)據(jù)處理,不斷研究與開發(fā)電子數(shù)據(jù)審計(jì)軟件,為審計(jì)數(shù)據(jù)的采集、處理與分析提供保障。在 Kettle 中,可通過日志和審計(jì)功能存儲日志及轉(zhuǎn)換步驟級別的日志信息,對日志進(jìn)行事件細(xì)節(jié)審計(jì),提供完整質(zhì)量指標(biāo)和信息統(tǒng)計(jì),助力審計(jì)工作的開展和審計(jì)質(zhì)量的提升。
四、中文分詞算法
(一)中文分詞的挑戰(zhàn)與MMSEG算法
中文分詞與英文等拉丁語系語言不同,中文沒有明顯單詞分界線,因此中文分詞算法需先確定基本單位(即單詞)。MMSEG 分詞算法是解決中文分詞問題的一種有效方法,由 Hosein 提出,其基本思路是依據(jù)詞典在待分析句子中尋找對應(yīng)詞,從句子兩頭同時(shí)開始找詞,以更快找到最合適的分法,并根據(jù)上下文判斷詞的用法。該算法使用的詞典主要有漢字字典、中文單位詞語詞典和自定義詞典:
- 漢字字典:包含眾多漢字,每個(gè)字有讀音、意思及用法示例,字按一定順序排列,如部首、筆畫數(shù)或拼音字母順序。
- 中文單位詞語:通過分詞和詞性標(biāo)注將中文文本切分成最小有意義單位(詞語),并標(biāo)注詞性。
- 自定義詞典:類似于個(gè)人詞匯本,用于存放新詞或?qū)I(yè)術(shù)語,方便電腦識別其拼寫和用法,提高分詞準(zhǔn)確性,尤其在處理特定領(lǐng)域文本時(shí)作用顯著。
(二)匹配算法
MMSEG 算法采用簡單最大匹配和復(fù)雜最大匹配兩種算法:
- 簡單最大匹配算法:從待分詞文本左邊開始,列出所有可能分詞結(jié)果,但存在從左到右依次匹配可能忽略更合適分詞方式的問題。例如對“國際化大都市”的分詞,可能會出現(xiàn)多種不太準(zhǔn)確的劃分情況。
- 復(fù)雜最大匹配算法:從給定文本中選擇起始點(diǎn),每次向后擴(kuò)展三個(gè)字符形成詞組,不斷重復(fù)此過程至文本末尾,然后根據(jù)詞庫中詞的頻率、長度等標(biāo)準(zhǔn)確定最優(yōu)分詞結(jié)果。如對“研究大數(shù)據(jù)”的分詞,會嘗試多種組合以找到最優(yōu)方式。
(三)歧義消除規(guī)則
MMSEG 算法根據(jù)漢語組詞習(xí)慣制定了四種解決詞義混淆的規(guī)則:
- 規(guī)則一:備選詞組合的最大匹配規(guī)則:從句子開頭盡量找最長詞,在詞典中查找,找到則畫出該詞,對剩余部分重復(fù)操作,若找不到則縮短詞長再試,若最終仍無法找到,則將單字作為詞。此方法處理長詞速度快,但可能在處理模棱兩可的詞時(shí)出現(xiàn)分錯(cuò)情況。
- 規(guī)則二:備選詞組合的平均詞長最大規(guī)則:基于較長詞往往能提供更多信息的原理,通過詞語長度尋找線索,幫助確定更合適的分詞組合。
- 規(guī)則三:備選詞組合的詞長變化最小規(guī)則:類似于人們說話時(shí)盡量使每個(gè)詞長度變化不突兀,讓電腦處理后的語言更接近日常說話習(xí)慣,減少出錯(cuò)機(jī)會,提高分詞的合理性和可讀性。
- 規(guī)則四:單字詞頻率最高規(guī)則:在備選詞組合中,統(tǒng)計(jì)一個(gè)字的詞出現(xiàn)的頻率,可通過計(jì)算每個(gè)單字詞出現(xiàn)次數(shù)的自然對數(shù)并求和,選擇總和最大的詞作為頻率最高的詞,以此確定更優(yōu)的分詞結(jié)果。
(四)常用中文分詞工具
- Jiba 分詞:是常用的中文分詞工具,用 Python 編寫,具有精確模式、全模式和搜索引擎模式三種模式,適用于不同的應(yīng)用場景,能滿足多樣化的分詞需求。
- NLTK(自然語言工具包):由斯坦福大學(xué)自然語言處理小組開發(fā)的開源文本分析工具,包含分詞器、命名實(shí)體識別、詞性標(biāo)注和句法分析器等,有助于更好地分析中文文本,特別適合自然語言處理研究和教學(xué)工作,為相關(guān)領(lǐng)域的學(xué)術(shù)研究和實(shí)踐應(yīng)用提供了有力支持。
- Solex:清華大學(xué)自然語言處理實(shí)驗(yàn)室開發(fā)的中文詞法分析工具包,能實(shí)現(xiàn)分詞和詞性標(biāo)注,具有能力強(qiáng)、準(zhǔn)確率高、速度快的優(yōu)點(diǎn),在中文文本處理中表現(xiàn)出色,可有效提升分詞和詞性標(biāo)注的質(zhì)量與效率。
- NOPIER 分詞系統(tǒng):前身為 ICTCLES 詞法分析系統(tǒng),由北京理工大學(xué)張華平博士提供,經(jīng)過十多年發(fā)展,功能豐富,性能強(qiáng)大,能夠應(yīng)對復(fù)雜的中文文本分詞任務(wù),為專業(yè)的文本處理工作提供了可靠的技術(shù)手段。
- snownlp:用 Python 編寫的中文文本分詞庫,不僅能進(jìn)行分詞和詞性標(biāo)注,還具備情感分析、文本分類、轉(zhuǎn)成拼音、繁簡轉(zhuǎn)換、提取關(guān)鍵詞和摘要、計(jì)算文本相似度、統(tǒng)計(jì)詞頻和逆向文檔頻率等多種功能,功能全面,適用于多種自然語言處理任務(wù),為中文文本的深入分析和挖掘提供了便利。
中文分詞算法在自然語言處理和數(shù)據(jù)挖掘中具有重要地位,不同的分詞算法和工具各有特點(diǎn)和優(yōu)勢,在實(shí)際應(yīng)用中,需根據(jù)具體需求選擇合適的方法和工具,以實(shí)現(xiàn)準(zhǔn)確、高效的中文文本分詞,為后續(xù)的文本分析、信息檢索、情感分析等任務(wù)奠定基礎(chǔ)。
五、文本分詞基礎(chǔ)概念
文本分詞是將文本數(shù)據(jù)拆分成有意義的小單位(通常是單詞)的過程。在中文中,由于單詞間無空格,需借助特定技巧實(shí)現(xiàn)分詞,而英文則通過空格分隔單詞,使電腦更易識別。例如,英文句子“i am a teacher”能直接通過空格識別單詞,而中文句子“我是一名教師”需確定“教師”為一個(gè)詞,這就是分詞算法的任務(wù)。
分詞算法以一段文字為輸入,通過切分和過濾,輸出拆分后的單詞。其基本原理多采用統(tǒng)計(jì)方法,利用標(biāo)準(zhǔn)語料庫中的例子進(jìn)行學(xué)習(xí)和分析。以“大數(shù)據(jù)將帶來什么”為例,期望電腦能正確分詞,而不是錯(cuò)誤劃分,這就需要通過數(shù)學(xué)模型學(xué)習(xí)和預(yù)測單詞間關(guān)系,找到最優(yōu)分詞方式,使電腦更好地理解文本。這種技術(shù)在搜索引擎、語音識別等領(lǐng)域廣泛應(yīng)用,如在搜索引擎中,準(zhǔn)確的分詞有助于提高搜索結(jié)果的準(zhǔn)確性和相關(guān)性,讓用戶更快找到所需信息;在語音識別中,能使電腦更準(zhǔn)確地將語音轉(zhuǎn)換為文字,提升交互體驗(yàn)。
(一)語言模型與算法
- N - gram 模型:根據(jù)前面幾個(gè)詞預(yù)測下一個(gè)詞出現(xiàn)概率,如通過“今天”預(yù)測后續(xù)可能出現(xiàn)的詞,用于分析單詞組合規(guī)律,在文本處理中可輔助確定更合理的分詞結(jié)果,提高文本理解的準(zhǔn)確性和連貫性。
- 維特比算法:考慮分詞僅與前一個(gè)分詞相關(guān),采用動態(tài)規(guī)劃算法解決最優(yōu)分詞問題。就像依據(jù)一串神秘腳印(單詞序列),通過一步步排除,找到最有可能留下腳印的嫌疑人(最合理的單詞序列),該算法高效且能避免檢查所有可能情況,快速確定最優(yōu)解,提升分詞效率和準(zhǔn)確性。
(二)語料庫
語料庫是裝滿各種文本的巨大語言材料倉庫,包含書本文字、日常對話等,以電子形式保存,便于研究和分析語言。構(gòu)建語料庫需遵循代表性、結(jié)構(gòu)性、平衡性、規(guī)模性和原數(shù)據(jù)等原則:
- 代表性:語料應(yīng)從特定范圍隨機(jī)挑選,能代表該范圍內(nèi)大多數(shù)情況,確保語料庫能反映真實(shí)語言使用的多樣性和普遍性,如不能僅收集某一特定主題的文本,而應(yīng)涵蓋多種領(lǐng)域和主題的內(nèi)容。
- 結(jié)構(gòu)性:搜集的語言材料需是電腦可讀的電子形式,且有組織、有條理,每個(gè)材料有代碼及相關(guān)信息,如類型、大小、取值范圍等,并保證完整,以便于系統(tǒng)地分析和利用語料庫中的數(shù)據(jù),提高語言研究的效率和準(zhǔn)確性。
- 平衡性:考慮學(xué)科領(lǐng)域、時(shí)間年代、文章風(fēng)格、地方特色、發(fā)表文章的報(bào)紙雜志以及使用資料的人的年齡、性別、文化水平、經(jīng)歷等因素,選取一個(gè)或幾個(gè)重要因素進(jìn)行平衡,通常學(xué)科、時(shí)間、風(fēng)格和地方等因素用得較多,使語料庫能更全面、客觀地反映語言的實(shí)際使用情況,避免因某些因素的過度偏重而導(dǎo)致語料庫的偏差。
- 規(guī)模性:大量文字材料對語言研究有益,但隨著材料增多,垃圾材料也會增加,且達(dá)到一定數(shù)量后,其作用并非線性增長,因此需根據(jù)實(shí)際情況確定合適的材料量,以在保證研究效果的前提下,提高資源利用效率,避免資源浪費(fèi)和數(shù)據(jù)冗余。
- 原數(shù)據(jù):對研究語料庫至關(guān)重要,能幫助明確語料的時(shí)間、來源、作者、文本特征等信息,還可用于區(qū)分和比較不同小語料庫,記錄版權(quán)、加工過程和管理信息等,為語料庫的有效管理和合理利用提供重要依據(jù),確保語料庫的質(zhì)量和可靠性。
在實(shí)際應(yīng)用中,雖然可通過數(shù)據(jù)預(yù)處理技術(shù)自行整理文本信息構(gòu)建語料庫,但考慮到上述原則以及搭建語料庫的復(fù)雜性和人力消耗,通常會選擇開源數(shù)據(jù)集,不過在特定商業(yè)目的下,若找不到合適的開源數(shù)據(jù),也可能需要自行制作語料庫,以滿足特定的研究和應(yīng)用需求。
六、中文分詞方法分類
(一)基于字符串匹配的分詞方法
基于字符串匹配的分詞方法,又稱機(jī)械分詞方法,是將句子與詞典比對,找到匹配的詞串進(jìn)行切分。根據(jù)掃描方式分為正向匹配和逆向匹配,正向匹配從文本開頭向后掃描,逆向匹配從文本末尾向前掃描;根據(jù)長度優(yōu)先匹配原則分為最大匹配和最小匹配,最大匹配優(yōu)先找最長詞,最小匹配優(yōu)先找最短詞;根據(jù)與詞性標(biāo)注結(jié)合方式分為單純分詞方法和分詞與詞性標(biāo)注相結(jié)合的一體化方法,單純分詞只關(guān)注詞匯分割,一體化方法同時(shí)進(jìn)行詞性標(biāo)注以更好理解語義。
實(shí)際使用的分詞系統(tǒng)多以機(jī)械分詞為初步手段,并結(jié)合其他語言信息提高切分準(zhǔn)確率。常用的機(jī)械分詞法有正向最大匹配法、逆向最大匹配法和最少切分法:
- 正向最大匹配法:從文本最左邊開始,取連續(xù)字符在詞匯庫中查找匹配詞,若能匹配則畫出該詞,否則縮短字符串繼續(xù)嘗試,直到找到匹配詞或字符串縮短為一個(gè)字。
- 逆向最大匹配法:從句子右邊開始向左掃描,每次盡量匹配最長詞,遇到不能匹配時(shí),從稍左位置繼續(xù)找下一個(gè)詞,直至將句子全部分成單個(gè)詞。逆向匹配法在處理復(fù)雜句子時(shí)切分精度相對較高,奇異現(xiàn)象較少,例如對“我喜歡吃蘋果”的分詞,逆向最大匹配法可能比分正向最大匹配法更準(zhǔn)確,因此在實(shí)際應(yīng)用中更受青睞。
- 雙向最大匹配法:將正向和逆向最大匹配法結(jié)果進(jìn)行比較,確定正確分詞方法,綜合兩者優(yōu)勢,提高分詞準(zhǔn)確性和可靠性。
由于漢語單字可單獨(dú)成詞,正向最小匹配和逆向最小匹配法使用較少。
(二)基于理解的分詞方法
基于理解的分詞方法借助人工智能,讓電腦在分詞時(shí)分析句子結(jié)構(gòu)和意思,利用這些信息解決詞語模糊問題,提高分詞準(zhǔn)確性,更好地理解自然語言,在信息搜索和文本分析等領(lǐng)域有廣泛應(yīng)用。該方法通常包括分詞子系統(tǒng)、句法語義子系統(tǒng)和總控部分,各部分協(xié)同工作,使電腦像人一樣理解句子,從而實(shí)現(xiàn)更精準(zhǔn)的分詞。
(三)基于統(tǒng)計(jì)的分詞方法
基于統(tǒng)計(jì)的分詞方法先收集大量已分詞文本,運(yùn)用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法研究詞語切分規(guī)律,訓(xùn)練模型,再用模型處理新文本進(jìn)行分詞。其優(yōu)勢在于能適應(yīng)不同類型文本,隨著訓(xùn)練數(shù)據(jù)增加,模型性能提升,分詞準(zhǔn)確率和速度也會提高。目前主要統(tǒng)計(jì)模型包括多種,實(shí)際應(yīng)用中,采用統(tǒng)計(jì)方法的分詞系統(tǒng)通常結(jié)合詞典匹配詞語和統(tǒng)計(jì)方法找新詞,兼顧匹配分詞的速度效率與統(tǒng)計(jì)方法識別新詞、解決歧義的能力,提高分詞的綜合效果,為文本數(shù)據(jù)的深入分析和應(yīng)用提供有力支持。