預(yù)約做家庭清潔的網(wǎng)站百家號(hào)官網(wǎng)
第14章 大數(shù)據(jù)與數(shù)據(jù)科學(xué)知識(shí)點(diǎn)梳理(附帶頁(yè)碼)
? 原則:組織應(yīng)仔細(xì)管理與大數(shù)據(jù)源相關(guān)的元數(shù)據(jù),以便對(duì)數(shù)據(jù)文件及其來(lái)源和價(jià)值進(jìn)行準(zhǔn)確的清單管理。P386
? 大數(shù)據(jù):數(shù)據(jù)量大(Volume)、數(shù)據(jù)更新快(Velocity)、數(shù)據(jù)類(lèi)型多樣/可變(Variety)。數(shù)據(jù)黏度大(Viscosity)。數(shù)據(jù)波動(dòng)性大(Volatility)。數(shù)據(jù)準(zhǔn)確性低(Veracity)。P390
? 數(shù)據(jù)科學(xué)家:從數(shù)據(jù)中探究、研發(fā)預(yù)測(cè)模型、機(jī)器學(xué)習(xí)模型、規(guī)范性模型和分析方法并將研發(fā)結(jié)果 進(jìn)行部署供相關(guān)方分析的人。P386
? 大多數(shù)據(jù)倉(cāng)庫(kù)都依賴于 ETL,大數(shù)據(jù)解決方案,如數(shù)據(jù)湖,則依賴于 ELT。P386
? 業(yè)務(wù)驅(qū)動(dòng):期望抓住從多種流程生成的數(shù)據(jù)集中發(fā)現(xiàn)的商機(jī),是提升一個(gè)組織大數(shù)據(jù)和數(shù)據(jù)科學(xué)能力的最大業(yè)務(wù)驅(qū)動(dòng)力。P387
? 數(shù)據(jù)科學(xué)依賴:1)豐富的數(shù)據(jù)源。2)信息組織和分析。3)信息交付。4)展示發(fā)現(xiàn)和數(shù)據(jù)洞察。P389
? 數(shù)據(jù)科學(xué)的過(guò)程階段:1 定義大數(shù)據(jù)戰(zhàn)略和業(yè)務(wù)需求。2 選擇數(shù)據(jù)源。3 獲得和接收數(shù)據(jù)源。4 制定數(shù)據(jù)假設(shè)和方法。5 集成和調(diào)整進(jìn)行數(shù)據(jù)分析。6 使用模型探索數(shù)據(jù)。7 部署和監(jiān)控。P388-389
? 數(shù)據(jù)湖是一種可以提取、存儲(chǔ)、評(píng)估和分析不同類(lèi)型和結(jié)構(gòu)海量數(shù)據(jù)的環(huán)境,可供多種場(chǎng)景使用。提供 1)數(shù)據(jù)科學(xué)家可以挖掘和分析數(shù)據(jù)的環(huán)境。2)原始數(shù)據(jù)的集中存儲(chǔ)區(qū)域,只需很少量的轉(zhuǎn)換(如果需要的話)。3)數(shù)據(jù)倉(cāng)庫(kù)明細(xì)歷史數(shù)據(jù)的備用存儲(chǔ)區(qū)域。4)信息記錄的在線歸檔。5)可以通過(guò)自動(dòng)化的模型識(shí)別提取流數(shù)據(jù)的環(huán)境。
? 數(shù)據(jù)湖可能很快變成數(shù)據(jù)沼澤,在數(shù)據(jù)被攝取時(shí)要對(duì)元數(shù)據(jù)進(jìn)行管理。
? 基于服務(wù)的體系結(jié)構(gòu)(Services-Based Architecture,SBA)正成為一種立即提供數(shù)據(jù)的方法,并使用相同的數(shù)據(jù)源來(lái)更新完整、準(zhǔn)確的歷史數(shù)據(jù)。數(shù)據(jù)會(huì)發(fā)送到 ODS 中實(shí)現(xiàn)即時(shí)存取,也會(huì)將數(shù)據(jù)發(fā)送到數(shù)據(jù)倉(cāng)庫(kù)中以實(shí)現(xiàn)歷史積累。包括三個(gè)主要的組件,分別是 1)批處理層。數(shù)據(jù)湖作為批處理層提供服務(wù),包括近期的和歷史的數(shù)據(jù)。2)加速層。只包括實(shí)時(shí)數(shù)據(jù)。3)服務(wù)層。提供連接批處理和加速層數(shù)據(jù)的接口。P393
? 機(jī)器學(xué)習(xí)探索了學(xué)習(xí)算法的構(gòu)建和研究,是無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)方法的結(jié)合。無(wú)監(jiān)督學(xué)習(xí)稱為數(shù)據(jù)挖掘,監(jiān)督學(xué)習(xí)是基于復(fù)雜的數(shù)字理論。第三分支正處于形成過(guò)程,沒(méi)有經(jīng)過(guò)教師的認(rèn)可就可實(shí)現(xiàn)了目標(biāo)優(yōu)化,稱為強(qiáng)化學(xué)習(xí)。通過(guò)編程使機(jī)器可以快速?gòu)牟樵冎袑W(xué)習(xí)并適應(yīng)不斷變化的數(shù)據(jù)集,是機(jī)器學(xué)習(xí)。這些算法一般分為三種類(lèi)型:1)監(jiān)督學(xué)習(xí)(Supervised learning)。2)無(wú)監(jiān)督學(xué)習(xí)(Unsupervised learning)?;谡业降哪切╇[藏的規(guī)律(數(shù)據(jù)挖掘)。3)強(qiáng)化學(xué)習(xí)(Reinforcement learning)。基于目標(biāo)的實(shí)現(xiàn)(如在國(guó)際象棋中擊敗對(duì)手)。P394
? 語(yǔ)義分析。從大量非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)中檢索并獲得見(jiàn)解的自動(dòng)化方法,用于感知人們對(duì)品牌、產(chǎn)品、服務(wù)或其他類(lèi)型主題的感覺(jué)和看法。P394
? 數(shù)據(jù)挖掘(Data mining)機(jī)器學(xué)習(xí)的一個(gè)分支,無(wú)監(jiān)督學(xué)習(xí)。技術(shù):1)剖析(Profiling)。嘗試描述典型行為,用于建立異常檢測(cè)應(yīng)用程序的行為規(guī)范。2)數(shù)據(jù)縮減(Data reduction)。用較小的數(shù)據(jù)集來(lái)替換大數(shù)據(jù)。3)關(guān)聯(lián)(Association)。根據(jù)交易涉及的元素,找到它們之間的聯(lián)系。4)聚類(lèi)(Clustering)?;谠氐墓蚕硖卣?#xff0c;聚合為不同的簇。5)自組織映射(Selforganizing maps)。減少評(píng)估空間的維度。P395
? 預(yù)測(cè)分析(Predictive Analytics)是有監(jiān)督學(xué)習(xí)的子領(lǐng)域,用戶嘗試對(duì)數(shù)據(jù)元素進(jìn)行建模,并通過(guò)評(píng)估概率估算來(lái)預(yù)測(cè)未來(lái)結(jié)果?;诳赡苁录?#xff08;購(gòu)買(mǎi)、價(jià)格變化等)與可變因素(包括歷史數(shù)據(jù))的概率模型開(kāi)發(fā)。當(dāng)它接收到其它信息時(shí),模型會(huì)觸發(fā)組織的反應(yīng)。預(yù)測(cè)模型的最簡(jiǎn)單形式是預(yù)估(Forecast)。P395
? 規(guī)范分析(Prescriptive Analytics):它對(duì)將會(huì)影響結(jié)果的動(dòng)作進(jìn)行定義,而不僅僅是根據(jù)已發(fā)生的動(dòng)作預(yù)測(cè)結(jié)果。規(guī)范分析預(yù)計(jì)將會(huì)發(fā)生什么,何時(shí)會(huì)發(fā)生,并暗示它將會(huì)發(fā)生的原因。P396
? 非結(jié)構(gòu)化數(shù)據(jù)分析。結(jié)合了文本挖掘、關(guān)聯(lián)分析、聚類(lèi)分析和其他無(wú)監(jiān)督學(xué)習(xí)技術(shù)來(lái)處理大型數(shù)據(jù)集。掃描和標(biāo)記是向非結(jié)構(gòu)化數(shù)據(jù)添加“鉤子“的一個(gè)方法。P396
? 運(yùn)營(yíng)分析(Operational Analytics),運(yùn)營(yíng) BI 或流式分析:是從運(yùn)營(yíng)過(guò)程與實(shí)時(shí)分析的整合中產(chǎn)生的。運(yùn)運(yùn)營(yíng)分析包括跟蹤和整合實(shí)時(shí)信息流,根據(jù)行為預(yù)測(cè)模型得出結(jié)論,并觸發(fā)自動(dòng)響應(yīng)和警報(bào)。P396
? 數(shù)據(jù)可視化(Visualization)是通過(guò)使用圖片或圖形表示來(lái)解釋概念、想法和事實(shí)的過(guò)程。數(shù)據(jù)可視化通過(guò)視覺(jué)概覽(如圖表或圖形)來(lái)幫助理解基礎(chǔ)數(shù)據(jù)。長(zhǎng)期以來(lái),可視化一直是數(shù)據(jù)分析的關(guān)鍵。P397
? 數(shù)據(jù)混搭(Data Mashups)將數(shù)據(jù)和服務(wù)結(jié)合在一起,以可視化的方式展示見(jiàn)解或分析結(jié)果。
? 【活動(dòng) 1】定義大數(shù)據(jù)戰(zhàn)略和業(yè)務(wù)需求。1)組織試圖解決什么問(wèn)題,需要分析什么。2)要使用或獲取的數(shù)據(jù)源是什么。3)提供數(shù)據(jù)的及時(shí)性和范圍。4)對(duì)其他數(shù)據(jù)結(jié)構(gòu)的影響以及與其他數(shù)據(jù)結(jié)構(gòu)的相關(guān)性。5)對(duì)現(xiàn)有建模數(shù)據(jù)的影響。P397
? 【活動(dòng) 2】選擇數(shù)據(jù)源。需要了解以下內(nèi)容:1)數(shù)據(jù)源頭。2)數(shù)據(jù)格式。3)數(shù)據(jù)元素代表什么。4)如何連接其他數(shù)據(jù)。5)數(shù)據(jù)的更新頻率。需要評(píng)估數(shù)據(jù)的價(jià)值和可靠性:1)基礎(chǔ)數(shù)據(jù)。2)粒度。3)一致性。4)可靠性。5)檢查/分析新數(shù)據(jù)源。P398
? 【活動(dòng) 3】獲得和接收數(shù)據(jù)源。獲取時(shí)需要捕獲有關(guān)源的關(guān)鍵元數(shù)據(jù),如來(lái)源、大小、時(shí)效性和相關(guān)內(nèi)容的額外知識(shí)。迭代地識(shí)別當(dāng)前數(shù)據(jù)資產(chǎn)基礎(chǔ)和這些數(shù)據(jù)源的差距,使用分析、可視化、挖掘或其他數(shù)據(jù)科學(xué)方法探索這些數(shù)據(jù)源,以定義模型算法輸入或模型假設(shè)。在整合數(shù)據(jù)之前,應(yīng)先評(píng)估數(shù)據(jù)的質(zhì)量。P399
? 【活動(dòng) 4】制定數(shù)據(jù)假設(shè)和方法。制訂數(shù)據(jù)科學(xué)解決方案需要構(gòu)建統(tǒng)計(jì)模型,找出數(shù)據(jù)元素和數(shù)據(jù)集內(nèi)部以及二者之間的相關(guān)性和趨勢(shì)。模型的效果取決于輸入數(shù)據(jù)的質(zhì)量和模型本身的健全性。P400
? 【活動(dòng) 5】集成和調(diào)整數(shù)據(jù)進(jìn)行分析。準(zhǔn)備用于分析的數(shù)據(jù)包括了解數(shù)據(jù)中的內(nèi)容、查找各種來(lái)源的數(shù)據(jù)間的鏈接以及調(diào)整常用數(shù)據(jù)以供使用。一方法是使用共有鍵值整合數(shù)據(jù)的通用模型。另一方法是使用數(shù)據(jù)庫(kù)引擎內(nèi)的索掃描和連接數(shù)據(jù)。P400
? 【活動(dòng) 6】使用模型探索數(shù)據(jù)。1.填充預(yù)測(cè)模型。需要使用歷史信息預(yù)先填充配置預(yù)測(cè)模型,這些信息涉及模型中的客戶、市場(chǎng)、產(chǎn)品或模型觸發(fā)因素之外的其他因素。2.訓(xùn)練模型。需要通過(guò)數(shù)據(jù)模型進(jìn)行訓(xùn)練。訓(xùn)練包括基于數(shù)據(jù)重復(fù)運(yùn)行模型以驗(yàn)證假設(shè),將導(dǎo)致模型更改。訓(xùn)練需要平衡,通過(guò)針對(duì)有限數(shù)據(jù)文件夾的訓(xùn)練避免過(guò)度擬合。3.評(píng)估模型。將數(shù)據(jù)放入平臺(tái)并準(zhǔn)備分析后,數(shù)據(jù)科學(xué)就開(kāi)始了。針對(duì)訓(xùn)練集進(jìn)行模型構(gòu)建、評(píng)估和驗(yàn)證。4.創(chuàng)建數(shù)據(jù)可視化。必須滿足與模
型目的相關(guān)的特定需求,每個(gè)可視化應(yīng)該能夠回答一個(gè)問(wèn)題或提供一個(gè)見(jiàn)解。P400-402
? 【活動(dòng) 7】部署和監(jiān)控。滿足業(yè)務(wù)需求的模型,必須以可行的方式部署到生產(chǎn)中,以獲得持續(xù)監(jiān)控。1.揭示洞察和發(fā)現(xiàn)。洞察應(yīng)與行動(dòng)項(xiàng)目相關(guān)聯(lián),這樣組織才能從數(shù)據(jù)科學(xué)工作中受益。2.使用附加數(shù)據(jù)源迭代。數(shù)據(jù)科學(xué)是一個(gè)迭代的過(guò)程。P402
? 工具:大規(guī)模并行處理(MPP)。1)數(shù)據(jù)庫(kù)內(nèi)的高級(jí)分析。2)非結(jié)構(gòu)化數(shù)據(jù)分析(Hadoop,MapReduce)。3)分析結(jié)果與操作系統(tǒng)的集成。4)跨多媒體和設(shè)備的數(shù)據(jù)可視化。5)鏈接結(jié)構(gòu)化和非結(jié)構(gòu)化信息的語(yǔ)義。6)使用物聯(lián)網(wǎng)的新數(shù)據(jù)源。7)高級(jí)可視化能力。8)數(shù)據(jù)擴(kuò)展能力。9)技術(shù)和工具集的協(xié)作。數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)(ODS)。No-SQL 技術(shù)。批處理接口。大數(shù)據(jù)內(nèi)存技術(shù)。決策標(biāo)準(zhǔn)工具集。流程實(shí)施工具。專(zhuān)業(yè)服務(wù)。
? 工具:MPP 無(wú)共享技術(shù)和架構(gòu)。基于分布式文件的數(shù)據(jù)庫(kù)。 數(shù)據(jù)庫(kù)內(nèi)算法。大數(shù)據(jù)云解決方案。統(tǒng)計(jì)計(jì)算和圖形語(yǔ)言。數(shù)據(jù)可視化工具集。p402-406
? MPP 無(wú)共享技術(shù)和架構(gòu)。在所有可用的本地化硬件上,自動(dòng)分發(fā)數(shù)據(jù)和并行化查詢工作負(fù)載的系統(tǒng)是大數(shù)據(jù)分析的最佳解決方案。P403
? 基于文件的解決方案中使用的模型稱為 MapReduce。該模型有三個(gè)主要步驟:1)映射(Map)。識(shí)別和獲取需要分析的數(shù)據(jù)。2)洗牌(Shuffle)。依據(jù)所需的分析模式組合數(shù)據(jù)。3)歸并(Reduce)。刪除重復(fù)或執(zhí)行聚合,以便將結(jié)果數(shù)據(jù)集的大小減少到需要的規(guī)模。P404
? 方法:(1)解析建模。1)描述性建模以緊湊的方式匯總或表示數(shù)據(jù)結(jié)。。2)解釋性建模是數(shù)據(jù)統(tǒng)計(jì)模型的應(yīng)用,主要是驗(yàn)證關(guān)于理論構(gòu)造的因果假設(shè)。預(yù)測(cè)分析的關(guān)鍵是通過(guò)訓(xùn)練模型來(lái)學(xué)習(xí),學(xué)習(xí)方法的效果取決于它在測(cè)試集(與訓(xùn)練集相互獨(dú)立)上的預(yù)測(cè)能力。(2)大數(shù)據(jù)建模。對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行物理建模的主要驅(qū)動(dòng)因素是為查詢性能而啟用數(shù)據(jù)填充。P406-407
? 實(shí)施指南:管理數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的許多一般規(guī)則適用于管理大數(shù)據(jù)。實(shí)施大數(shù)據(jù)環(huán)境的差異與一組未知問(wèn)題有關(guān):如何使用數(shù)據(jù)、哪些數(shù)據(jù)有價(jià)值、需要保留多長(zhǎng)時(shí)間。P407
? 戰(zhàn)略交付成果應(yīng)考慮管理以下要素:1)信息生命周期。2)元數(shù)據(jù)。3)數(shù)據(jù)質(zhì)量。4)數(shù)據(jù)采集。5)數(shù)據(jù)訪問(wèn)和安全性。6)數(shù)據(jù)治理。7)數(shù)據(jù)隱私。8)學(xué)習(xí)和采用。9)運(yùn)營(yíng)。P407-408
? 就緒評(píng)估/風(fēng)險(xiǎn)評(píng)估。評(píng)估與關(guān)鍵成功因素相關(guān)的組織準(zhǔn)備情況,具體包括:1)業(yè)務(wù)相關(guān)性。2)業(yè)務(wù)準(zhǔn)備情況。3)經(jīng)濟(jì)可行性。4)原型。5)可能最具挑戰(zhàn)性的決策將圍繞數(shù)據(jù)采購(gòu)、平臺(tái)開(kāi)發(fā)和資源配置進(jìn)行。6)數(shù)字資料存儲(chǔ)有許多來(lái)源,并非所有來(lái)源都需要內(nèi)部擁有和運(yùn)營(yíng)。7)市場(chǎng)上有多種工具和技術(shù),滿足一般需求將是一個(gè)挑戰(zhàn)。8)保護(hù)具有專(zhuān)業(yè)技能的員工,并在實(shí)施過(guò)程中留住頂尖人才,可能需要考慮替代方案,包括專(zhuān)業(yè)服務(wù)、云采購(gòu)或合作。9)培養(yǎng)內(nèi)部人才的時(shí)間可能會(huì)超過(guò)交付窗口的時(shí)間。P408
? 大數(shù)據(jù)實(shí)施將匯集多關(guān)鍵的跨職能角色。包括:1)大數(shù)據(jù)平臺(tái)架構(gòu)師。硬件、操作系統(tǒng)、文件系統(tǒng)和服務(wù)。2)數(shù)據(jù)攝取架構(gòu)師。數(shù)據(jù)分析、系統(tǒng)記錄、數(shù)據(jù)建模和數(shù)據(jù)映射。提供或支持將源映射到 Hadoop 集群以進(jìn)行查詢和分析。3)元數(shù)據(jù)專(zhuān)家。元數(shù)據(jù)接口、元數(shù)據(jù)架構(gòu)和內(nèi)容。4)分析設(shè)計(jì)主管。最終用戶分析設(shè)計(jì)、最佳實(shí)踐依靠相關(guān)工具集指導(dǎo)實(shí)施,以及最終用戶結(jié)果集簡(jiǎn)化。5)數(shù)據(jù)科學(xué)家。提供基于統(tǒng)計(jì)和可計(jì)算性的理論知識(shí),交付適當(dāng)?shù)墓ぞ吆图夹g(shù),應(yīng)用到功能需求的架構(gòu)和模型設(shè)計(jì)咨詢。P409
? 大數(shù)據(jù)和數(shù)據(jù)科學(xué)治理:尋源。共享。元數(shù)據(jù)。豐富。訪問(wèn)。P409
? 數(shù)據(jù)科學(xué)和可視化標(biāo)準(zhǔn):最佳實(shí)踐是建立一個(gè)定義和發(fā)布可視化標(biāo)準(zhǔn)和指南的社區(qū),并在指定的交付方法中審查。標(biāo)準(zhǔn)可能包括:1)分析范例、用戶團(tuán)體、主題域的工具標(biāo)準(zhǔn)。2)新數(shù)據(jù)的請(qǐng)求。3)數(shù)據(jù)集流程標(biāo)準(zhǔn)。4)采用中立的、專(zhuān)業(yè)的陳述過(guò)程,避免產(chǎn)生有偏見(jiàn)的結(jié)果,并確保所有要素都以公平一致的方式完成,包括:①數(shù)據(jù)包含和排除。②模型中的假設(shè)。③結(jié)果統(tǒng)計(jì)有效性。④結(jié)果解釋的有效性。⑤采用適當(dāng)?shù)姆椒?。P409-410
? 元數(shù)據(jù)需要作為數(shù)據(jù)提取的一部分進(jìn)行謹(jǐn)慎管理,否則數(shù)據(jù)湖將迅速成為數(shù)據(jù)沼澤。
? 成熟的大數(shù)據(jù)組織使用數(shù)據(jù)質(zhì)量工具集掃描數(shù)據(jù)輸入源,用以了解相關(guān)信息,大多工具都有:1)發(fā)現(xiàn)。信息駐留在數(shù)據(jù)集中的位置。2)分類(lèi)?;跇?biāo)準(zhǔn)化模式存在哪些類(lèi)型的信息。3)分析。如何填充和構(gòu)建數(shù)據(jù)。4)映射??梢詫⒛男┢渌麛?shù)據(jù)集與這些值匹配。
? 度量指標(biāo):1.技術(shù)使用指標(biāo)。2.加載和掃描指標(biāo)。提取率和與用戶社區(qū)的交互。3.學(xué)習(xí)和故事場(chǎng)景。常用的測(cè)量方法包括:1)已開(kāi)發(fā)模型的數(shù)量和準(zhǔn)確性。2)已識(shí)別的機(jī)會(huì)中實(shí)現(xiàn)的收入。3)避免已識(shí)別的威脅所降低的成本。P412