中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

寫作網(wǎng)站哪個(gè)最好百度營(yíng)稍

寫作網(wǎng)站哪個(gè)最好,百度營(yíng)稍,wordpress站內(nèi)統(tǒng)計(jì)插件,東莞行業(yè)網(wǎng)站建設(shè)教程一提到大數(shù)據(jù)我們就知道是海量數(shù)據(jù),但是我們并不了解需要從哪些維度去考慮這些數(shù)據(jù)的存儲(chǔ)。比如 數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)集市,以及數(shù)據(jù)自動(dòng)化應(yīng)用DataOps有哪些實(shí)現(xiàn)方式和實(shí)際應(yīng)用,這篇文章將淺顯的做一次介紹。 數(shù)據(jù)湖 數(shù)據(jù)湖是一種以自然…

一提到大數(shù)據(jù)我們就知道是海量數(shù)據(jù),但是我們并不了解需要從哪些維度去考慮這些數(shù)據(jù)的存儲(chǔ)。比如 數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)集市,以及數(shù)據(jù)自動(dòng)化應(yīng)用DataOps有哪些實(shí)現(xiàn)方式和實(shí)際應(yīng)用,這篇文章將淺顯的做一次介紹。?

數(shù)據(jù)湖

數(shù)據(jù)湖是一種以自然/原始格式存儲(chǔ)數(shù)據(jù)的系統(tǒng)或存儲(chǔ)庫, [ 1 ]通常是對(duì)象blob或文件。數(shù)據(jù)湖通常是單一數(shù)據(jù)存儲(chǔ),包括源系統(tǒng)數(shù)據(jù)、傳感器數(shù)據(jù)、社交數(shù)據(jù)等的原始副本[ 2 ] ,以及用于報(bào)告、可視化、高級(jí)分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)(行和列)、半結(jié)構(gòu)化數(shù)據(jù)(CSV、日志、XML、JSON)、非結(jié)構(gòu)化數(shù)據(jù)(電子郵件、文檔、PDF)和二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)。[ 3 ]數(shù)據(jù)湖可以建立在“本地”(組織的數(shù)據(jù)中心內(nèi))或“云端”(使用云服務(wù))上。

背景


時(shí)任Pentaho首席技術(shù)官的 James Dixon在 2011 年創(chuàng)造了這個(gè)術(shù)語[ 4 ],以將其與數(shù)據(jù)集市進(jìn)行對(duì)比,數(shù)據(jù)集市是一個(gè)較小的存儲(chǔ)庫,其中包含來自原始數(shù)據(jù)的有趣屬性。[ 5 ]在推廣數(shù)據(jù)湖時(shí),他認(rèn)為數(shù)據(jù)集市有幾個(gè)固有的問題,例如信息孤島。普華永道(PwC) 表示,數(shù)據(jù)湖可以“終結(jié)數(shù)據(jù)孤島”。[ 6 ]他們?cè)跀?shù)據(jù)湖研究中指出,企業(yè)“開始提取數(shù)據(jù)并將其放入基于 Hadoop 的單一存儲(chǔ)庫中進(jìn)行分析”。

示例


許多公司使用云存儲(chǔ)服務(wù),例如Google Cloud Storage和 Amazon S3,或分布式文件系統(tǒng),例如 Apache Hadoop分布式文件系統(tǒng) (HDFS)。[ 7 ]學(xué)術(shù)界對(duì)數(shù)據(jù)湖的概念逐漸產(chǎn)生興趣。例如,卡迪夫大學(xué)的 Personal DataLake是一種新型數(shù)據(jù)湖,旨在通過提供收集、組織和共享個(gè)人數(shù)據(jù)的單一點(diǎn)來管理個(gè)人用戶的大數(shù)據(jù)。 [ 8 ]

早期的數(shù)據(jù)湖(例如 Hadoop 1.0)功能有限,因?yàn)樗鼉H支持面向批處理的處理(Map Reduce)。與其交互需要 Java、map Reduce 和更高級(jí)工具(例如Apache Pig、Apache Spark和Apache Hive,它們最初也是面向批處理的)方面的專業(yè)知識(shí)。

批評(píng)


管理不善的數(shù)據(jù)湖被戲稱為“數(shù)據(jù)沼澤”。[ 9 ]

2015 年 6 月,David Needle 將“所謂的數(shù)據(jù)湖”描述為“管理大數(shù)據(jù)的最具爭(zhēng)議的方法之一”。[ 10 ] 普華永道在其研究中也謹(jǐn)慎地指出,并非所有數(shù)據(jù)湖計(jì)劃都能取得成功。他們引用了Cambridge Semantics首席技術(shù)官 Sean Martin 的話:

我們看到客戶創(chuàng)建大數(shù)據(jù)墓地,將所有數(shù)據(jù)轉(zhuǎn)儲(chǔ)到Hadoop 分布式文件系統(tǒng)(HDFS) 中,并希望將來能有所作為。但隨后他們就忘記了那里有什么。主要的挑戰(zhàn)不是創(chuàng)建數(shù)據(jù)湖,而是利用它提供的機(jī)會(huì)。[ 6 ]

他們描述說,構(gòu)建成功數(shù)據(jù)湖的公司在弄清楚哪些數(shù)據(jù)和元數(shù)據(jù)對(duì)組織很重要時(shí),會(huì)逐漸成熟他們的數(shù)據(jù)湖。

另一個(gè)批評(píng)是,“數(shù)據(jù)湖”一詞沒什么用,因?yàn)樗挠梅ㄌ嗔?。[ 11 ]例如,它可能被用來指代:任何不是數(shù)據(jù)倉庫的工具或數(shù)據(jù)管理實(shí)踐;特定的實(shí)施技術(shù);原始數(shù)據(jù)儲(chǔ)存庫; ETL卸載的中心;或自助分析的中央樞紐。

雖然對(duì)數(shù)據(jù)湖的批評(píng)是有道理的,但在很多情況下,這些批評(píng)也適用于其他數(shù)據(jù)項(xiàng)目。[ 12 ]例如,“數(shù)據(jù)倉庫”的定義也是不斷變化的,而且并非所有數(shù)據(jù)倉庫工作都取得了成功。針對(duì)各種批評(píng),麥肯錫指出[ 13 ],數(shù)據(jù)湖應(yīng)被視為一種在企業(yè)內(nèi)部提供業(yè)務(wù)價(jià)值的服務(wù)模式,而不是技術(shù)成果。

數(shù)據(jù)湖屋


數(shù)據(jù)湖屋是一種混合方法,可以像數(shù)據(jù)湖一樣提取各種原始數(shù)據(jù)格式,同時(shí)提供ACID事務(wù)并像數(shù)據(jù)倉庫一樣強(qiáng)制執(zhí)行數(shù)據(jù)質(zhì)量。[ 14 ] [ 15 ]數(shù)據(jù)湖屋架構(gòu)試圖通過添加數(shù)據(jù)倉庫功能(例如事務(wù)支持、模式實(shí)施、治理和對(duì)不同工作負(fù)載的支持)來解決對(duì)數(shù)據(jù)湖的幾項(xiàng)批評(píng)。據(jù) Oracle 稱,數(shù)據(jù)湖屋結(jié)合了“數(shù)據(jù)湖中非結(jié)構(gòu)化數(shù)據(jù)的靈活存儲(chǔ)以及數(shù)據(jù)倉庫的管理功能和工具”。[ 16 ]

數(shù)據(jù)倉庫

在計(jì)算領(lǐng)域,數(shù)據(jù)倉庫( DW或DWH ),也稱為企業(yè)數(shù)據(jù)倉庫( EDW ),是一種用于報(bào)告和數(shù)據(jù)分析的系統(tǒng),是商業(yè)智能的核心組成部分。[ 1 ]數(shù)據(jù)倉庫是從不同來源集成的數(shù)據(jù)的中央存儲(chǔ)庫。它們以有組織的方式存儲(chǔ)當(dāng)前和歷史數(shù)據(jù),以便于創(chuàng)建報(bào)告、查詢和從數(shù)據(jù)中獲取見解。[ 2 ]與數(shù)據(jù)庫不同,它們旨在供分析師和管理人員使用,以幫助做出組織決策。[ 3 ]


數(shù)據(jù)倉庫的基本架構(gòu)
倉庫中存儲(chǔ)的數(shù)據(jù)是從運(yùn)營(yíng)系統(tǒng)(如營(yíng)銷或銷售)上傳的。數(shù)據(jù)可能會(huì)經(jīng)過運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ),并且可能需要進(jìn)行數(shù)據(jù)清理以進(jìn)行其他操作,以確保數(shù)據(jù)質(zhì)量,然后才能在數(shù)據(jù)倉庫中用于報(bào)告。

構(gòu)建數(shù)據(jù)倉庫系統(tǒng)的兩種主要方法是提取、轉(zhuǎn)換、加載(ETL)和提取、加載、轉(zhuǎn)換(ELT)。

成分

數(shù)據(jù)倉庫和數(shù)據(jù)集市的環(huán)境包括以下內(nèi)容:

  • 數(shù)據(jù)源系統(tǒng)(通常是公司的操作數(shù)據(jù)庫,例如關(guān)系數(shù)據(jù)庫[ 3 ])
  • 數(shù)據(jù)集成技術(shù)和流程,從源系統(tǒng)中提取數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù),并將其加載到數(shù)據(jù)集市或倉庫中[ 3 ] ;
  • 在倉庫或集市中存儲(chǔ)數(shù)據(jù)的架構(gòu);
  • 適合不同用戶的工具和應(yīng)用程序;
  • 元數(shù)據(jù)、數(shù)據(jù)質(zhì)量和治理流程。元數(shù)據(jù)包括數(shù)據(jù)源(數(shù)據(jù)庫、表和列名)、刷新計(jì)劃和數(shù)據(jù)使用情況指標(biāo)。[ 3 ]

操作數(shù)據(jù)庫

通過使用數(shù)據(jù)庫規(guī)范化和實(shí)體關(guān)系模型,操作數(shù)據(jù)庫針對(duì)數(shù)據(jù)完整性的保存和業(yè)務(wù)交易記錄速度進(jìn)行了優(yōu)化。操作系統(tǒng)設(shè)計(jì)人員通常遵循Codd 的 12 條數(shù)據(jù)庫規(guī)范化規(guī)則來確保數(shù)據(jù)完整性。完全規(guī)范化的數(shù)據(jù)庫設(shè)計(jì)(即滿足所有 Codd 規(guī)則的設(shè)計(jì))通常會(huì)導(dǎo)致業(yè)務(wù)交易信息存儲(chǔ)在數(shù)十到數(shù)百個(gè)表中。關(guān)系數(shù)據(jù)庫可以有效地管理這些表之間的關(guān)系。數(shù)據(jù)庫的插入/更新性能非???#xff0c;因?yàn)槊總€(gè)事務(wù)僅影響這些表中的少量數(shù)據(jù)。為了提高性能,會(huì)定期清除舊數(shù)據(jù)。

數(shù)據(jù)倉庫針對(duì)分析訪問模式進(jìn)行了優(yōu)化,通常涉及選擇特定字段,而不是操作數(shù)據(jù)庫中常見的所有字段。由于這些訪問方面的差異,操作數(shù)據(jù)庫(大致為 OLTP)受益于使用面向行的數(shù)據(jù)庫管理系統(tǒng) (DBMS),而分析數(shù)據(jù)庫(大致為 OLAP)受益于使用面向列的 DBMS。操作系統(tǒng)維護(hù)業(yè)務(wù)快照,而倉庫通過 ETL 流程維護(hù)歷史數(shù)據(jù),該流程定期將數(shù)據(jù)從操作系統(tǒng)遷移到倉庫。

聯(lián)機(jī)分析處理(OLAP) 的特點(diǎn)是事務(wù)率低,查詢復(fù)雜且涉及聚合。響應(yīng)時(shí)間是 OLAP 系統(tǒng)的有效性能衡量標(biāo)準(zhǔn)。OLAP 應(yīng)用程序廣泛用于數(shù)據(jù)挖掘。OLAP 數(shù)據(jù)庫將聚合的歷史數(shù)據(jù)存儲(chǔ)在多維模式(通常是星型模式)中。OLAP 系統(tǒng)的數(shù)據(jù)延遲通常為幾個(gè)小時(shí),而數(shù)據(jù)集市延遲更接近一天。OLAP 方法用于分析來自多個(gè)來源和角度的多維數(shù)據(jù)。OLAP 中的三個(gè)基本操作是匯總(合并)、下鉆和切片與切塊。

聯(lián)機(jī)事務(wù)處理(OLTP) 的特點(diǎn)是大量短聯(lián)機(jī)事務(wù)(INSERT、UPDATE、DELETE)。OLTP 系統(tǒng)強(qiáng)調(diào)快速查詢處理和在多訪問環(huán)境中維護(hù)數(shù)據(jù)完整性。對(duì)于 OLTP 系統(tǒng),性能是每秒的事務(wù)數(shù)。OLTP 數(shù)據(jù)庫包含詳細(xì)和當(dāng)前數(shù)據(jù)。用于存儲(chǔ)事務(wù)數(shù)據(jù)庫的模式是實(shí)體模型(通常是3NF)。[ 4 ]規(guī)范化是該系統(tǒng)中數(shù)據(jù)建模技術(shù)的規(guī)范。

預(yù)測(cè)分析是指使用復(fù)雜的數(shù)學(xué)模型查找和量化數(shù)據(jù)中的隱藏模式,并預(yù)測(cè)未來結(jié)果。相比之下,OLAP 側(cè)重于歷史數(shù)據(jù)分析,并且是被動(dòng)的。預(yù)測(cè)系統(tǒng)也用于客戶關(guān)系管理(CRM)。

數(shù)據(jù)集市

數(shù)據(jù)集市是一種簡(jiǎn)單的數(shù)據(jù)倉庫,專注于單一主題或功能領(lǐng)域。因此,它從有限數(shù)量的來源(如銷售、財(cái)務(wù)或營(yíng)銷)提取數(shù)據(jù)。數(shù)據(jù)集市通常由組織中的單個(gè)部門構(gòu)建和控制。來源可能是內(nèi)部操作系統(tǒng)、中央數(shù)據(jù)倉庫或外部數(shù)據(jù)。[ 5 ]與倉庫一樣,存儲(chǔ)的數(shù)據(jù)通常未標(biāo)準(zhǔn)化。?

數(shù)據(jù)倉庫和數(shù)據(jù)集市之間的區(qū)別
屬性數(shù)據(jù)倉庫數(shù)據(jù)集市
數(shù)據(jù)范圍企業(yè)部門
學(xué)科領(lǐng)域數(shù)量多種的單身的
建造難度有多大難的簡(jiǎn)單的
所需內(nèi)存更大有限的

數(shù)據(jù)集市的類型包括依賴數(shù)據(jù)集市、獨(dú)立數(shù)據(jù)集市和混合數(shù)據(jù)集市。

變體

提取和加載

典型的基于提取、轉(zhuǎn)換、加載(ETL) 的數(shù)據(jù)倉庫使用暫存層、數(shù)據(jù)集成層和訪問層來容納其主要功能。暫存層或暫存數(shù)據(jù)庫存儲(chǔ)從每個(gè)不同的源數(shù)據(jù)系統(tǒng)提取的原始數(shù)據(jù)。集成層通過轉(zhuǎn)換來自暫存層的數(shù)據(jù)來集成不同的數(shù)據(jù)集,通常將轉(zhuǎn)換后的數(shù)據(jù)存儲(chǔ)在操作數(shù)據(jù)存儲(chǔ)(ODS) 數(shù)據(jù)庫中。然后,將集成的數(shù)據(jù)移至另一個(gè)數(shù)據(jù)庫(通常稱為數(shù)據(jù)倉庫數(shù)據(jù)庫),在該數(shù)據(jù)庫中,數(shù)據(jù)被排列成層次結(jié)構(gòu)組(通常稱為維度)以及事實(shí)和聚合事實(shí)。事實(shí)和維度的組合有時(shí)稱為星型模式。訪問層幫助用戶檢索數(shù)據(jù)。[ 6 ]

數(shù)據(jù)的主要來源是經(jīng)過清理、轉(zhuǎn)換和分類,然后提供給管理人員和其他業(yè)務(wù)專業(yè)人員進(jìn)行數(shù)據(jù)挖掘、聯(lián)機(jī)分析處理、市場(chǎng)研究和決策支持。[ 7 ]但是,檢索和分析數(shù)據(jù)、提取、轉(zhuǎn)換和加載數(shù)據(jù)以及管理數(shù)據(jù)字典的方法也被視為數(shù)據(jù)倉庫系統(tǒng)的基本組成部分。許多對(duì)數(shù)據(jù)倉庫的引用都使用了這個(gè)更廣泛的背景。因此,數(shù)據(jù)倉庫的擴(kuò)展定義包括商業(yè)智能工具、提取、轉(zhuǎn)換和加載數(shù)據(jù)到存儲(chǔ)庫的工具以及管理和檢索元數(shù)據(jù)的工具。

數(shù)據(jù)集市

數(shù)據(jù)集市是數(shù)據(jù)倉庫環(huán)境特有的結(jié)構(gòu) / 訪問模式,用于檢索面向客戶的數(shù)據(jù)。數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個(gè)子集,通常面向特定的業(yè)務(wù)線或團(tuán)隊(duì)。數(shù)據(jù)倉庫具有企業(yè)范圍的深度,而數(shù)據(jù)集市中的信息則屬于單個(gè)部門。在某些部署中,每個(gè)部門或業(yè)務(wù)部門都被視為其數(shù)據(jù)集市的所有者,包括所有硬件、軟件和數(shù)據(jù)。[ 1 ] 這使每個(gè)部門能夠隔離其數(shù)據(jù)的使用、操作和開發(fā)。在使用一致維度的其他部署中,此業(yè)務(wù)部門所有者不適用于客戶、產(chǎn)品等共享維度。

建立倉庫和數(shù)據(jù)集市是因?yàn)閿?shù)據(jù)庫中的信息沒有以一種易于訪問的方式組織起來。這種組織方式需要的查詢過于復(fù)雜、難以訪問或占用大量資源。

事務(wù)數(shù)據(jù)庫旨在更新,而數(shù)據(jù)倉庫或集市則是只讀的。數(shù)據(jù)倉庫旨在訪問大量相關(guān)記錄。數(shù)據(jù)集市允許用戶訪問他們最常需要查看的特定類型的數(shù)據(jù),并以支持一組用戶的集體視圖的方式提供數(shù)據(jù),從而縮短最終用戶的響應(yīng)時(shí)間。

數(shù)據(jù)集市基本上是數(shù)據(jù)倉庫的精簡(jiǎn)版,更集中化,反映了組織內(nèi)每個(gè)業(yè)務(wù)部門的規(guī)章制度和流程規(guī)范。[ 2 ]每個(gè)數(shù)據(jù)集市專用于特定的業(yè)務(wù)功能或區(qū)域。此數(shù)據(jù)子集可能涵蓋企業(yè)的許多或所有功能主題領(lǐng)域。通常使用多個(gè)數(shù)據(jù)集市來滿足每個(gè)業(yè)務(wù)部門的需求(可以使用不同的數(shù)據(jù)集市來獲取企業(yè)各個(gè)部門的特定信息,例如會(huì)計(jì)、營(yíng)銷、銷售等)。

相關(guān)術(shù)語電子表格市場(chǎng)是一個(gè)貶義詞,它描述了這樣一種情況:一個(gè)或多個(gè)業(yè)務(wù)分析師開發(fā)了一個(gè)鏈接電子表格系統(tǒng)來執(zhí)行業(yè)務(wù)分析,然后將其規(guī)模和復(fù)雜程度擴(kuò)大到幾乎無法維護(hù)的程度。這種情況的術(shù)語是“Excel 地獄”。[ 3 ]

數(shù)據(jù)集市與數(shù)據(jù)倉庫

數(shù)據(jù)倉庫:

  • 涵蓋多個(gè)學(xué)科領(lǐng)域
  • 擁有非常詳細(xì)的信息
  • 致力于整合所有數(shù)據(jù)源
  • 不一定使用維度模型但提供維度模型。

數(shù)據(jù)集市:

  • 通常只涉及一個(gè)主題領(lǐng)域 - 例如財(cái)務(wù)或銷售
  • 可能包含更多匯總數(shù)據(jù)(盡管也可能包含完整細(xì)節(jié))
  • 專注于整合來自給定主題領(lǐng)域或一組源系統(tǒng)的信息
  • 以使用星型模式的維度模型為中心進(jìn)行構(gòu)建。

設(shè)計(jì)模式

  • 星型模式——相當(dāng)流行的設(shè)計(jì)選擇;使關(guān)系數(shù)據(jù)庫能夠模擬多維數(shù)據(jù)庫的分析功能
  • 雪花模式
  • 活動(dòng)模式——基于時(shí)間序列的模式

創(chuàng)建數(shù)據(jù)集市的原因

  • 輕松訪問常用數(shù)據(jù)
  • 由一組用戶創(chuàng)建集體視圖
  • 縮短最終用戶的響應(yīng)時(shí)間
  • 易于創(chuàng)作
  • 比實(shí)施完整數(shù)據(jù)倉庫的成本更低
  • 與完整數(shù)據(jù)倉庫相比,潛在用戶的定義更為明確
  • 僅包含業(yè)務(wù)基本數(shù)據(jù),不太混亂。
  • 它包含關(guān)鍵數(shù)據(jù)信息

依賴數(shù)據(jù)集市

根據(jù)Inmon數(shù)據(jù)倉庫學(xué)派的說法,依賴數(shù)據(jù)集市是大型數(shù)據(jù)倉庫的邏輯子集(視圖)或物理子集(提取),由于以下原因之一而被隔離:

  • 需要更新特殊的數(shù)據(jù)模型或模式:例如,為OLAP進(jìn)行重組。
  • 性能:將數(shù)據(jù)集市卸載到單獨(dú)的計(jì)算機(jī)以提高效率,或者消除在集中式數(shù)據(jù)倉庫上管理工作負(fù)載的需要。
  • 安全性:有選擇地分離授權(quán)的數(shù)據(jù)子集。
  • 便利性:繞過在企業(yè)數(shù)據(jù)倉庫中合并新應(yīng)用程序所需的數(shù)據(jù)管理和授權(quán)。
  • 試驗(yàn)場(chǎng):在將應(yīng)用程序遷移到企業(yè)數(shù)據(jù)倉庫之前,展示其可行性和投資回報(bào)率 (ROI) 潛力。
  • 政治:當(dāng)某個(gè)用戶群體的影響力大于資金,或者在集中式數(shù)據(jù)倉庫中不是一個(gè)好公民時(shí),IT(信息技術(shù))的應(yīng)對(duì)策略。
  • 政策:在數(shù)據(jù)倉庫團(tuán)隊(duì)無法創(chuàng)建可用數(shù)據(jù)倉庫的情況下,數(shù)據(jù)消費(fèi)者的應(yīng)對(duì)策略。

按照 Inmon 數(shù)據(jù)倉庫學(xué)派的說法,數(shù)據(jù)集市固有的缺點(diǎn)包括有限的可擴(kuò)展性、數(shù)據(jù)重復(fù)、與其他信息孤島的數(shù)據(jù)不一致、以及無法利用企業(yè)數(shù)據(jù)源。

數(shù)據(jù)倉庫的另一種學(xué)派是Ralph Kimball的學(xué)派。在他看來,數(shù)據(jù)倉庫不過是所有數(shù)據(jù)集市的聯(lián)合。這種觀點(diǎn)有助于降低成本并加快開發(fā)速度,但可能會(huì)創(chuàng)建不一致的數(shù)據(jù)倉庫,尤其是在大型組織中。因此,Kimball 的方法更適合中小型企業(yè)。[ 4 ]

數(shù)據(jù)清理

不要與清理(機(jī)密信息)或數(shù)據(jù)清理相混淆。

數(shù)據(jù)清理是從記錄集、表或數(shù)據(jù)庫中檢測(cè)并更正(或刪除)損壞或不準(zhǔn)確記錄的過程,是指識(shí)別數(shù)據(jù)中不完整、不正確、不準(zhǔn)確或不相關(guān)的部分,然后替換、修改或刪除臟數(shù)據(jù)或粗?jǐn)?shù)據(jù)。[ 1 ]數(shù)據(jù)清理可以與數(shù)據(jù)整理工具交互執(zhí)行,也可以通過腳本或數(shù)據(jù)質(zhì)量防火墻以批處理形式執(zhí)行。

清理后,數(shù)據(jù)集應(yīng)與系統(tǒng)中其他類似數(shù)據(jù)集保持一致。檢測(cè)到或刪除的不一致可能最初是由用戶輸入錯(cuò)誤、傳輸或存儲(chǔ)損壞或不同商店中類似實(shí)體的不同數(shù)據(jù)字典定義引起的。數(shù)據(jù)清理與數(shù)據(jù)驗(yàn)證不同,因?yàn)轵?yàn)證幾乎總是意味著數(shù)據(jù)在輸入時(shí)被系統(tǒng)拒絕,并且在輸入時(shí)執(zhí)行,而不是對(duì)數(shù)據(jù)批次執(zhí)行。

數(shù)據(jù)清理的實(shí)際過程可能涉及刪除印刷錯(cuò)誤或根據(jù)已知實(shí)體列表驗(yàn)證和更正值。驗(yàn)證可能很嚴(yán)格(例如拒絕沒有有效郵政編碼的任何地址),也可能使用模糊或近似字符串匹配(例如更正與現(xiàn)有已知記錄部分匹配的記錄)。一些數(shù)據(jù)清理解決方案將通過與已驗(yàn)證的數(shù)據(jù)集進(jìn)行交叉檢查來清理數(shù)據(jù)。一種常見的數(shù)據(jù)清理做法是數(shù)據(jù)增強(qiáng),通過添加相關(guān)信息使數(shù)據(jù)更加完整。例如,在地址后附加與該地址相關(guān)的任何電話號(hào)碼。數(shù)據(jù)清理還可能涉及數(shù)據(jù)的協(xié)調(diào)(或規(guī)范化),即將“不同文件格式、命名約定和列”的數(shù)據(jù)匯集在一起??[ 2 ]并將其轉(zhuǎn)換為一個(gè)有凝聚力的數(shù)據(jù)集的過程;一個(gè)簡(jiǎn)單的例子是縮寫的擴(kuò)展(“st、rd 等”到“街道、道路等”)。

動(dòng)機(jī)


管理上不正確、不一致的數(shù)據(jù)可能導(dǎo)致錯(cuò)誤的結(jié)論,并誤導(dǎo)公共和私人層面的投資。例如,政府可能希望分析人口普查數(shù)據(jù),以決定哪些地區(qū)需要在基礎(chǔ)設(shè)施和服務(wù)上進(jìn)一步支出和投資。在這種情況下,獲取可靠的數(shù)據(jù)以避免錯(cuò)誤的財(cái)政決策非常重要。在商業(yè)世界中,不正確的數(shù)據(jù)代價(jià)高昂。許多公司使用客戶信息數(shù)據(jù)庫來記錄聯(lián)系信息、地址和偏好等數(shù)據(jù)。例如,如果地址不一致,公司將承擔(dān)重新發(fā)送郵件甚至失去客戶的成本。

數(shù)據(jù)質(zhì)量


高質(zhì)量的數(shù)據(jù)需要通過一系列質(zhì)量標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)包括:

  • 有效性:度量符合已定義的業(yè)務(wù)規(guī)則或約束的程度(另請(qǐng)參閱有效性(統(tǒng)計(jì)))。當(dāng)使用現(xiàn)代數(shù)據(jù)庫技術(shù)設(shè)計(jì)數(shù)據(jù)捕獲系統(tǒng)時(shí),有效性相當(dāng)容易確保:無效數(shù)據(jù)主要出現(xiàn)在遺留環(huán)境中(軟件中未實(shí)施約束)或使用不適當(dāng)?shù)臄?shù)據(jù)捕獲技術(shù)(例如,電子表格,如果不使用單元格驗(yàn)證,則很難限制用戶選擇輸入單元格的內(nèi)容)。數(shù)據(jù)約束分為以下幾類:
  1. 數(shù)據(jù)類型約束:特定列中的值必須屬于特定數(shù)據(jù)類型,例如布爾值、數(shù)字(整數(shù)或?qū)崝?shù))、日期。
  2. 范圍約束:通常,數(shù)字或日期應(yīng)在一定范圍內(nèi)。也就是說,它們具有最小和/或最大允許值。
  3. 強(qiáng)制約束:某些列不能為空。
  4. 唯一性約束:一個(gè)字段或多個(gè)字段的組合在數(shù)據(jù)集中必須是唯一的。例如,沒有兩個(gè)人可以擁有相同的社會(huì)保障號(hào)碼。
  5. 集合成員約束:列的值來自一組離散值或代碼。例如,一個(gè)人的性別可能是女性、男性或非二元性別。
  6. 外鍵約束:這是集合成員資格的更常見情況。列中的值集在包含唯一值的另一個(gè)表的列中定義。例如,在美國(guó)納稅人數(shù)據(jù)庫中,“州”列必須屬于美國(guó)定義的州或領(lǐng)地之一:允許的州/領(lǐng)地集合記錄在單獨(dú)的州表中。術(shù)語“外鍵”借用自關(guān)系數(shù)據(jù)庫術(shù)語。
  7. 正則表達(dá)式模式:有時(shí),文本字段必須以這種方式進(jìn)行驗(yàn)證。例如,電話號(hào)碼可能需要采用 (999) 999–9999 的模式。
  8. 跨字段驗(yàn)證:某些利用多個(gè)字段的條件必須成立。例如,在實(shí)驗(yàn)室醫(yī)學(xué)中,白細(xì)胞分類計(jì)數(shù)各成分的總和必須等于 100(因?yàn)樗鼈兌际前俜直?#xff09;。在醫(yī)院數(shù)據(jù)庫中,患者的出院日期不能早于入院日期。
  • 準(zhǔn)確度:測(cè)量值與標(biāo)準(zhǔn)或真值的符合程度 - 另請(qǐng)參閱準(zhǔn)確度和精度。準(zhǔn)確度通常很難通過數(shù)據(jù)清理實(shí)現(xiàn),因?yàn)樗枰L問包含真值的外部數(shù)據(jù)源:這種“黃金標(biāo)準(zhǔn)”數(shù)據(jù)通常不可用。在某些清理環(huán)境中,尤其是客戶聯(lián)系數(shù)據(jù),通過使用將郵政編碼與地理位置(城市和州)匹配的外部數(shù)據(jù)庫,并幫助驗(yàn)證這些郵政編碼內(nèi)的街道地址是否確實(shí)存在,可以實(shí)現(xiàn)準(zhǔn)確度。
  • 完整性:所有必需措施的已知程度。不完整性幾乎不可能用數(shù)據(jù)清理方法來解決:人們無法推斷最初記錄相關(guān)數(shù)據(jù)時(shí)未捕獲的事實(shí)。(在某些情況下,例如訪談數(shù)據(jù),可以通過返回原始數(shù)據(jù)源(即重新采訪對(duì)象)來解決不完整性問題,但即使這樣也不能保證成功,因?yàn)榇嬖诨貞泦栴} - 例如,在收集食物消費(fèi)數(shù)據(jù)的訪談中,沒有人可能記得六個(gè)月前吃過什么。在堅(jiān)持某些列不應(yīng)為空的系統(tǒng)的情況下,可以通過指定表示“未知”或“缺失”的值來解決問題,但提供默認(rèn)值并不意味著數(shù)據(jù)已完成。)
  • 一致性:一組度量在跨系統(tǒng)之間的等效程度(另請(qǐng)參閱一致性)。當(dāng)數(shù)據(jù)集中的兩個(gè)數(shù)據(jù)項(xiàng)相互矛盾時(shí),就會(huì)出現(xiàn)不一致:例如,兩個(gè)不同的系統(tǒng)記錄一個(gè)客戶有兩個(gè)不同的當(dāng)前地址,其中只有一個(gè)是正確的。修復(fù)不一致并不總是可行的:它需要多種策略 - 例如,確定哪些數(shù)據(jù)是最近記錄的,哪個(gè)數(shù)據(jù)源可能最可靠(后者的知識(shí)可能特定于特定組織),或者只是嘗試通過測(cè)試兩個(gè)數(shù)據(jù)項(xiàng)(例如,致電客戶)來找到真相。
  • 一致性:一組數(shù)據(jù)在所有系統(tǒng)中使用相同測(cè)量單位指定的程度(另請(qǐng)參閱測(cè)量單位)。在從不同地區(qū)匯集的數(shù)據(jù)集中,重量可能以磅或公斤為單位記錄,必須使用算術(shù)轉(zhuǎn)換將其轉(zhuǎn)換為單一測(cè)量單位。

完整性這一術(shù)語涵蓋了準(zhǔn)確性、一致性和驗(yàn)證的某些方面(另請(qǐng)參閱數(shù)據(jù)完整性),但由于其不夠具體,因此很少在數(shù)據(jù)清理上下文中單獨(dú)使用。(例如,“引用完整性”是指上述外鍵約束的實(shí)施。)

過程

  • 數(shù)據(jù)審計(jì):使用統(tǒng)計(jì)和數(shù)據(jù)庫方法對(duì)數(shù)據(jù)進(jìn)行審計(jì),以檢測(cè)異常和矛盾:最終指出異常的特征及其位置。一些商業(yè)軟件包將允許您指定各種約束(使用符合標(biāo)準(zhǔn)編程語言的語法,例如 JavaScript 或 Visual Basic),然后生成代碼來檢查數(shù)據(jù)是否違反這些約束。此過程在下面的“工作流規(guī)范”和“工作流執(zhí)行”中提到。對(duì)于無法使用高端清理軟件的用戶,Microsoft Access 或 File Maker Pro 等微型計(jì)算機(jī)數(shù)據(jù)庫軟件包也將允許您以交互方式逐個(gè)約束執(zhí)行此類檢查,在許多情況下幾乎不需要編程。
  • 工作流規(guī)范:異常的檢測(cè)和消除是通過對(duì)數(shù)據(jù)進(jìn)行一系列操作(稱為工作流)來執(zhí)行的。它是在審核數(shù)據(jù)的過程之后指定的,對(duì)于獲得高質(zhì)量數(shù)據(jù)的最終產(chǎn)品至關(guān)重要。為了實(shí)現(xiàn)正確的工作流程,必須仔細(xì)考慮數(shù)據(jù)中異常和錯(cuò)誤的原因。
  • 工作流執(zhí)行:在此階段,工作流的規(guī)范完成并驗(yàn)證其正確性后執(zhí)行。即使在處理大量數(shù)據(jù)時(shí),工作流的實(shí)施也應(yīng)高效,這不可避免地會(huì)帶來權(quán)衡,因?yàn)閳?zhí)行數(shù)據(jù)清理操作的計(jì)算成本可能很高。
  • 后處理和控制:執(zhí)行清理工作流后,檢查結(jié)果以驗(yàn)證正確性。如果可能,將手動(dòng)更正工作流執(zhí)行期間無法更正的數(shù)據(jù)。結(jié)果是數(shù)據(jù)清理流程中的新循環(huán),其中再次審核數(shù)據(jù),以允許指定其他工作流,通過自動(dòng)處理進(jìn)一步清理數(shù)據(jù)。

優(yōu)質(zhì)源數(shù)據(jù)與“數(shù)據(jù)質(zhì)量文化”息息相關(guān),必須由組織高層發(fā)起。這不僅僅是在輸入屏幕上實(shí)施嚴(yán)格的驗(yàn)證檢查的問題,因?yàn)閹缀鯚o論這些檢查有多嚴(yán)格,用戶仍然可能繞過它們。對(duì)于希望提高數(shù)據(jù)質(zhì)量的組織,這里有一個(gè)九步指南:[ 3 ] [ 4 ]

  • 宣布對(duì)數(shù)據(jù)質(zhì)量文化的高層承諾
  • 推動(dòng)高管層面的流程再造
  • 花錢改善數(shù)據(jù)輸入環(huán)境
  • 花錢改善應(yīng)用程序集成
  • 花錢改變流程運(yùn)作方式
  • 提升端到端團(tuán)隊(duì)意識(shí)
  • 促進(jìn)部門間合作
  • 公開慶祝數(shù)據(jù)質(zhì)量卓越
  • 持續(xù)測(cè)量并提高數(shù)據(jù)質(zhì)量

其他包括:

  • 解析:用于檢測(cè)語法錯(cuò)誤。解析器決定一串?dāng)?shù)據(jù)是否在允許的數(shù)據(jù)規(guī)范內(nèi)是可接受的。這與解析器處理語法和語言的方式類似。
  • 數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)轉(zhuǎn)換允許將數(shù)據(jù)從給定格式映射到相應(yīng)應(yīng)用程序所需的格式。這包括值轉(zhuǎn)換或翻譯函數(shù),以及規(guī)范化數(shù)值以符合最小值和最大值。
  • 重復(fù)消除:重復(fù)檢測(cè)需要一種算法來確定數(shù)據(jù)是否包含同一實(shí)體的重復(fù)表示。通常,數(shù)據(jù)會(huì)按鍵排序,以便將重復(fù)條目更緊密地放在一起,以便更快地進(jìn)行識(shí)別。
  • 統(tǒng)計(jì)方法:通過使用平均值、標(biāo)準(zhǔn)差、范圍或聚類算法的值來分析數(shù)據(jù),專家可以找到意外的錯(cuò)誤值。盡管由于不知道真實(shí)值而難以糾正此類數(shù)據(jù),但可以通過將值設(shè)置為平均值或其他統(tǒng)計(jì)值來解決。統(tǒng)計(jì)方法還可用于處理缺失值,這些缺失值可用一個(gè)或多個(gè)合理值替換,這些合理值通常通過廣泛的數(shù)據(jù)增強(qiáng)算法獲得。

系統(tǒng)


該系統(tǒng)的主要工作是在修復(fù)臟數(shù)據(jù)和將數(shù)據(jù)盡可能接近源生產(chǎn)系統(tǒng)的原始數(shù)據(jù)之間找到適當(dāng)?shù)钠胶?。這對(duì)提取、轉(zhuǎn)換、加載架構(gòu)師來說是一個(gè)挑戰(zhàn)。該系統(tǒng)應(yīng)提供一種架構(gòu),可以清理數(shù)據(jù)、記錄質(zhì)量事件并測(cè)量/控制數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量。一個(gè)好的開始是進(jìn)行徹底的數(shù)據(jù)分析,這將有助于確定數(shù)據(jù)清理系統(tǒng)所需的復(fù)雜性,并了解源系統(tǒng)中當(dāng)前的數(shù)據(jù)質(zhì)量。

優(yōu)質(zhì)展示


數(shù)據(jù)清理系統(tǒng)的一部分是一組稱為質(zhì)量篩選的診斷過濾器。它們各自在數(shù)據(jù)流中實(shí)施測(cè)試,如果測(cè)試失敗,則會(huì)在錯(cuò)誤事件模式中記錄錯(cuò)誤。質(zhì)量篩選分為三類:

  • 列篩選。測(cè)試單個(gè)列,例如,檢測(cè)意外值(如NULL值)、應(yīng)為數(shù)字的非數(shù)字值、超出范圍的值等。
  • 結(jié)構(gòu)篩選。這些篩選用于測(cè)試同一表或不同表中的列(通常是外鍵/主鍵)之間不同關(guān)系的完整性。它們還用于測(cè)試一組列是否根據(jù)其應(yīng)遵循的某些結(jié)構(gòu)定義有效。
  • 業(yè)務(wù)規(guī)則篩選。這是三項(xiàng)測(cè)試中最復(fù)雜的一項(xiàng)。它們測(cè)試數(shù)據(jù)(可能跨多個(gè)表)是否遵循特定的業(yè)務(wù)規(guī)則。例如,如果客戶被標(biāo)記為特定類型的客戶,則應(yīng)遵守定義此類客戶的業(yè)務(wù)規(guī)則。

當(dāng)質(zhì)量屏幕記錄到錯(cuò)誤時(shí),它可以停止數(shù)據(jù)流處理,將錯(cuò)誤數(shù)據(jù)發(fā)送到目標(biāo)系統(tǒng)以外的其他地方,或者標(biāo)記數(shù)據(jù)。后一種選擇被認(rèn)為是最佳解決方案,因?yàn)榈谝环N選擇要求每次發(fā)生問題時(shí)都必須有人手動(dòng)處理,而第二種選擇意味著目標(biāo)系統(tǒng)中缺少數(shù)據(jù)(完整性),并且通常不清楚這些數(shù)據(jù)應(yīng)該如何處理。

對(duì)現(xiàn)有工具和流程的批評(píng)


大多數(shù)數(shù)據(jù)清理工具在可用性方面存在局限性:

  • 項(xiàng)目成本:通常為數(shù)十萬美元
  • 時(shí)間:掌握大型數(shù)據(jù)清理軟件非常耗時(shí)
  • 安全性:交叉驗(yàn)證需要共享信息,使應(yīng)用程序能夠跨系統(tǒng)訪問,包括敏感的遺留系統(tǒng)


錯(cuò)誤事件架構(gòu)


錯(cuò)誤事件模式保存質(zhì)量屏幕拋出的所有錯(cuò)誤事件的記錄。它由一個(gè)錯(cuò)誤事件事實(shí)表組成,該表帶有指向三個(gè)維度表的外鍵,這些維度表表示日期(時(shí)間)、批處理作業(yè)(地點(diǎn))和屏幕(誰產(chǎn)生了錯(cuò)誤)。它還保存有關(guān)錯(cuò)誤發(fā)生的確切時(shí)間和錯(cuò)誤嚴(yán)重程度的信息。此外,還有一個(gè)錯(cuò)誤事件詳細(xì)信息事實(shí)表,該表帶有指向主表的外鍵,主表包含有關(guān)錯(cuò)誤發(fā)生在哪個(gè)表、記錄和字段以及錯(cuò)誤條件的詳細(xì)信息。

DataOps數(shù)據(jù)自動(dòng)化

DataOps 是一種實(shí)踐或技術(shù),結(jié)合了集成的、面向流程的數(shù)據(jù)與自動(dòng)化,以提高數(shù)據(jù)質(zhì)量、協(xié)作和分析。

file

它主要涉及數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和其他數(shù)據(jù)專業(yè)人員之間的合作。DataOps 與 DevOps 的比較。

概念與核心價(jià)值


DataOps是一種數(shù)據(jù)管理方法論,旨在提高數(shù)據(jù)分析效率和數(shù)據(jù)質(zhì)量。它源于DevOps的理念,將敏捷開發(fā)的方法應(yīng)用于數(shù)據(jù)處理和管理,實(shí)現(xiàn)更快速、更可靠的數(shù)據(jù)服務(wù)。DataOps的核心價(jià)值在于:

  1. 提高數(shù)據(jù)分析效率:通過自動(dòng)化和標(biāo)準(zhǔn)化數(shù)據(jù)處理流程,降低數(shù)據(jù)分析門檻,提高團(tuán)隊(duì)間的協(xié)作效率。
  2. 提升數(shù)據(jù)質(zhì)量:通過嚴(yán)格的流程管理和質(zhì)量控制,確保數(shù)據(jù)的準(zhǔn)確性、完整性和一致性。
  3. 增強(qiáng)數(shù)據(jù)安全性:通過對(duì)數(shù)據(jù)的全程監(jiān)控和管理,降低數(shù)據(jù)泄露風(fēng)險(xiǎn),保證數(shù)據(jù)的安全性。

發(fā)展歷程


? ? ? ?DataOps的概念最初由比利時(shí)的數(shù)據(jù)科學(xué)家和工程師所提出,旨在解決數(shù)據(jù)工程師和數(shù)據(jù)分析師之間溝通協(xié)作的難題。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,DataOps逐漸成為一種獨(dú)立的方法論,被廣泛應(yīng)用于各行各業(yè)的數(shù)據(jù)管理實(shí)踐中。


實(shí)現(xiàn)方式


  1. 要實(shí)現(xiàn)DataOps,需要從以下幾個(gè)方面入手:
  2. 標(biāo)準(zhǔn)化數(shù)據(jù)處理流程:制定統(tǒng)一的數(shù)據(jù)處理規(guī)范和標(biāo)準(zhǔn),確保各個(gè)團(tuán)隊(duì)按照相同的流程進(jìn)行數(shù)據(jù)處理。
  3. 工具化與平臺(tái)化:通過工具和平臺(tái)提供的數(shù)據(jù)管理功能,實(shí)現(xiàn)自動(dòng)化、智能化的數(shù)據(jù)處理和管理。
  4. 加強(qiáng)團(tuán)隊(duì)間協(xié)作:建立跨部門的協(xié)作機(jī)制,加強(qiáng)數(shù)據(jù)工程師、數(shù)據(jù)分析師、業(yè)務(wù)人員之間的溝通與合作。
  5. 數(shù)據(jù)質(zhì)量監(jiān)控:建立數(shù)據(jù)質(zhì)量監(jiān)控體系,對(duì)數(shù)據(jù)進(jìn)行全程監(jiān)控和管理,及時(shí)發(fā)現(xiàn)并解決數(shù)據(jù)質(zhì)量問題。
  6. 數(shù)據(jù)安全保障:通過加密、備份、權(quán)限控制等手段,保障數(shù)據(jù)的安全性和隱私性。

實(shí)際應(yīng)用

? ? ? ? DataOps的應(yīng)用場(chǎng)景十分廣泛,涵蓋了金融、醫(yī)療、電商等多個(gè)行業(yè)。以金融行業(yè)為例,銀行可以通過DataOps建立統(tǒng)一的數(shù)據(jù)管理平臺(tái),實(shí)現(xiàn)客戶畫像、風(fēng)險(xiǎn)控制、精準(zhǔn)營(yíng)銷等業(yè)務(wù)的快速響應(yīng)和高效執(zhí)行。同時(shí),通過自動(dòng)化和智能化的數(shù)據(jù)處理流程,確保數(shù)據(jù)的準(zhǔn)確性和完整性,提高風(fēng)險(xiǎn)控制能力和客戶滿意度。
在醫(yī)療行業(yè),DataOps可以幫助醫(yī)療機(jī)構(gòu)建立統(tǒng)一的數(shù)據(jù)管理平臺(tái),實(shí)現(xiàn)患者信息、醫(yī)療資源、藥品管理等業(yè)務(wù)的數(shù)字化轉(zhuǎn)型。通過自動(dòng)化和智能化的數(shù)據(jù)處理流程,提高醫(yī)療服務(wù)的效率和質(zhì)量,為患者提供更好的醫(yī)療體驗(yàn)。
總結(jié)來說,DataOps作為一種新興的數(shù)據(jù)管理方法論,正逐漸改變著我們的數(shù)據(jù)管理實(shí)踐。通過標(biāo)準(zhǔn)化、工具化、協(xié)作化等手段,DataOps旨在提高數(shù)據(jù)分析效率和數(shù)據(jù)質(zhì)量,為企業(yè)創(chuàng)造更大的商業(yè)價(jià)值。在未來,隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展和應(yīng)用的深入,DataOps將會(huì)在更多領(lǐng)域得到廣泛應(yīng)用和推廣。

最佳實(shí)踐

以下是一些與實(shí)施相關(guān)的最佳實(shí)踐:

  • 盡早定義數(shù)據(jù)標(biāo)準(zhǔn):從一開始就為數(shù)據(jù)和元數(shù)據(jù)設(shè)定明確的語義規(guī)則。
  • 組建多樣化的 DataOps 團(tuán)隊(duì):組建一支擁有各種技術(shù)技能和背景的團(tuán)隊(duì)。
  • 實(shí)現(xiàn)自動(dòng)化以提高效率:利用數(shù)據(jù)科學(xué)和商業(yè)智能?(BI) 工具自動(dòng)執(zhí)行數(shù)據(jù)處理。
  • 打破孤島:建立清晰的溝通渠道,鼓勵(lì)多樣化的團(tuán)隊(duì)共享數(shù)據(jù)和專業(yè)知識(shí),采用數(shù)據(jù)集成和自動(dòng)化工具消除孤島和瓶頸。
  • 設(shè)計(jì)以實(shí)現(xiàn)可擴(kuò)展性:構(gòu)建一個(gè)可以擴(kuò)展并適應(yīng)不斷增加的數(shù)據(jù)量的數(shù)據(jù)管道。
  • 基于驗(yàn)證進(jìn)行構(gòu)建:整合反饋循環(huán),持續(xù)驗(yàn)證數(shù)據(jù)質(zhì)量。
  • 安全實(shí)驗(yàn):利用一次性環(huán)境模擬生產(chǎn),進(jìn)行安全實(shí)驗(yàn)。
  • 持續(xù)改進(jìn):采用“精益”方法,注重持續(xù)提高效率。
  • 持續(xù)衡量進(jìn)展:建立基準(zhǔn)并在整個(gè)數(shù)據(jù)生命周期內(nèi)跟蹤性能。

參考資料:

什么是 Dataops | IBM

DataOps:從概念到實(shí)踐的深度解析

https://segmentfault.com/a/1190000044948401

魏凱 | 《DataOps實(shí)踐指南(1.0)》正式發(fā)布 – DAMA China Limited

http://www.risenshineclean.com/news/10977.html

相關(guān)文章:

  • 做電力項(xiàng)目信息的網(wǎng)站google國(guó)際版入口
  • 做網(wǎng)站 接活廣告公司主要做什么
  • 學(xué)院做網(wǎng)站的意義收錄網(wǎng)站有哪些
  • 網(wǎng)站開發(fā)網(wǎng)站設(shè)計(jì)制作學(xué)電腦培訓(xùn)班
  • wordpress在線郵箱廣州seo公司官網(wǎng)
  • 柳州網(wǎng)站建設(shè)公高端企業(yè)建站公司
  • wordpress刪除版權(quán)信息晉中網(wǎng)站seo
  • 學(xué)校網(wǎng)站建設(shè)的作用百度推廣關(guān)鍵詞和創(chuàng)意
  • iis7如何部署網(wǎng)站網(wǎng)絡(luò)推廣與推廣
  • 如何制作wordpress網(wǎng)站地圖網(wǎng)站seo好學(xué)嗎
  • 南通網(wǎng)站制作價(jià)格免費(fèi)的自助建站
  • 網(wǎng)站空間1g多少錢一年阿里指數(shù)查詢官網(wǎng)
  • 如何制作自己的網(wǎng)站并且插口代碼企業(yè)微信會(huì)話內(nèi)容存檔
  • 網(wǎng)站建設(shè)服務(wù)合同繳納印花稅嗎百度搜索排名靠前
  • 做信息網(wǎng)站怎么賺錢口碑營(yíng)銷的形式
  • 一個(gè)公司備案兩個(gè)網(wǎng)站seo內(nèi)容優(yōu)化是什么
  • 濰坊網(wǎng)站建設(shè)價(jià)優(yōu)化大師卸載不了
  • sketch網(wǎng)站花邊怎么做培訓(xùn)班招生方案有哪些
  • 公司網(wǎng)站備案需要多久濰坊網(wǎng)站外包
  • 網(wǎng)站開發(fā)面板網(wǎng)站軟文是什么
  • 常州網(wǎng)站建設(shè)企業(yè)網(wǎng)站seo一個(gè)月賺多少錢
  • phpcms中的網(wǎng)站介紹頁互聯(lián)網(wǎng)營(yíng)銷的方式有哪些
  • mui做瀏覽器網(wǎng)站跳轉(zhuǎn)口碑營(yíng)銷理論
  • 廈門網(wǎng)站建設(shè)公司排名拼多多跨境電商平臺(tái)
  • 延邊州住房城鄉(xiāng)建設(shè)局網(wǎng)站百度seo排名360
  • 佛山網(wǎng)站建設(shè)公司價(jià)格多少武漢網(wǎng)站優(yōu)化
  • 哪個(gè)網(wǎng)站是做旅游B2B的seo技巧seo排名優(yōu)化
  • 權(quán)威的網(wǎng)站建設(shè)西安網(wǎng)站seo廠家
  • 鄭州建站軟件指數(shù)基金怎么選
  • 做網(wǎng)站的流量怎么算錢2022今天剛剛發(fā)生地震了