標(biāo)題關(guān)鍵詞優(yōu)化技巧青島seo網(wǎng)站排名優(yōu)化
數(shù)倉(cāng)模型和領(lǐng)域劃分
- 一、主題域和數(shù)據(jù)域的差別
- 二、雪花模型,星座模型和星型模型
一、主題域和數(shù)據(jù)域的差別
明確數(shù)據(jù)域作為數(shù)倉(cāng)搭建的重要一環(huán),能夠讓數(shù)倉(cāng)的數(shù)據(jù)便于管理和應(yīng)用。
數(shù)據(jù)域和主題域都是數(shù)據(jù)倉(cāng)庫(kù)中的重要概念,但含義略有不同,常常作為面試官的面試考點(diǎn)。
數(shù)據(jù)域
指的是特定的業(yè)務(wù)領(lǐng)域或是業(yè)務(wù)過(guò)程,如銷售、采購(gòu)、人力資源管理、財(cái)務(wù)等。在數(shù)據(jù)倉(cāng)庫(kù)中。每個(gè)數(shù)據(jù)域都對(duì)應(yīng)一個(gè)或多個(gè)源系統(tǒng)(ODS層表數(shù)據(jù)),數(shù)據(jù)倉(cāng)庫(kù)從這些源系統(tǒng)中提取數(shù)據(jù),經(jīng)過(guò)清洗、轉(zhuǎn)換和集成處理后,將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)域是數(shù)據(jù)倉(cāng)庫(kù)中的一個(gè)高層次概念,用于組織和管理數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。
主題域
指的是特定的主題或領(lǐng)域,其中包含相關(guān)的概念、術(shù)語(yǔ)、知識(shí)和實(shí)踐。在數(shù)據(jù)倉(cāng)庫(kù)中,每個(gè)主題域都包含一個(gè)或者多個(gè)維度表和一個(gè)或多個(gè)事實(shí)表,用于存儲(chǔ)與該主題相關(guān)的數(shù)據(jù)。主題域通常是與業(yè)務(wù)相關(guān)的,例如銷售分析、客戶關(guān)系管理、供應(yīng)鏈管理。主題域是數(shù)倉(cāng)中的一個(gè)更細(xì)粒度的概念,用于描述和分析特定的業(yè)務(wù)領(lǐng)域或主題。
數(shù)據(jù)域和主題域之間存在一定的層次關(guān)系。數(shù)倉(cāng)中的每個(gè)數(shù)據(jù)域都包含了一個(gè)或者多個(gè)主題域,每個(gè)主題域都包含了與其相關(guān)的維度和事實(shí)表,以及其他數(shù)據(jù)對(duì)象和元數(shù)據(jù),用于支持?jǐn)?shù)據(jù)分析和決策。
舉個(gè)栗子:
下面是物理數(shù)倉(cāng)所需的所有業(yè)務(wù)過(guò)程及數(shù)據(jù)域劃分詳情。
上圖中的交易域由多個(gè)交易相關(guān)的業(yè)務(wù)過(guò)程事務(wù)型事實(shí)表組成,通常可以根據(jù)業(yè)務(wù)過(guò)程或者部門進(jìn)行劃分,如根據(jù)業(yè)務(wù)過(guò)程進(jìn)行劃分,需要注意的是一個(gè)業(yè)務(wù)過(guò)程只能屬于一個(gè)數(shù)據(jù)域。
主題域是從業(yè)務(wù)視角自上而下分析,從整體業(yè)務(wù)環(huán)節(jié)中升華出來(lái)大的專項(xiàng)分析模塊,結(jié)合對(duì)接的業(yè)務(wù)范圍和行業(yè)形態(tài)從更高的視角去洞察整個(gè)業(yè)務(wù)流程。因此,主題域是由多個(gè)數(shù)據(jù)域組成的,這些數(shù)據(jù)域提供了主題域所需的數(shù)據(jù)。
例如:物流主題域需要統(tǒng)計(jì)歷史至今的運(yùn)單統(tǒng)計(jì)
完成該指標(biāo)的統(tǒng)計(jì)需要使用到交易域和物流域數(shù)據(jù)。
再舉個(gè)栗子:
數(shù)據(jù)域是蘿卜,青菜,肉等原材料
主題大域是菜系,東北菜,粵菜,湘菜;子主題域是菜品,魚香肉絲,東北燴菜
這些菜品都需要使用到蘿卜,青菜,肉這些原材料,但卻不屬于同一個(gè)菜系。
總之,數(shù)據(jù)域是對(duì)數(shù)據(jù)的分類,而主題域和業(yè)務(wù)域是對(duì)業(yè)務(wù)的分類。主題域和數(shù)據(jù)域最終都是對(duì)數(shù)據(jù)的分類,只是一個(gè)是數(shù)據(jù)視角,一個(gè)是業(yè)務(wù)視角。
數(shù)據(jù)域是指將數(shù)據(jù)按照不同的維度進(jìn)行劃分,如時(shí)間、地區(qū)、產(chǎn)品等。而主題域則是指將業(yè)務(wù)對(duì)象高度概括的概念層次歸類,目的是便于數(shù)據(jù)的管理和應(yīng)用。
二、雪花模型,星座模型和星型模型
在構(gòu)建數(shù)倉(cāng)維度模型時(shí),通常為數(shù)據(jù)分析提供便捷而進(jìn)行反規(guī)范化的表結(jié)構(gòu)設(shè)計(jì)。因此誕生出許多不同的維度模型。
星型模型
數(shù)據(jù)倉(cāng)庫(kù)中常見的一種模型,它是一種基于事實(shí)的模型,主要用于描述企業(yè)各個(gè)維度之間的關(guān)系。在星型模型中,事實(shí)表通過(guò)主鍵與維度表連接,形成一顆星星的形狀。
星型模型只有一張事實(shí)表,通過(guò)主鍵外鍵關(guān)聯(lián)的方式連接多張維度表,并且這些維度表之間不再存在關(guān)聯(lián)關(guān)系。
星型模型的維度表只有一個(gè)層級(jí),導(dǎo)致這些維度表存儲(chǔ)了一定程度的數(shù)據(jù)冗余,比如一張包含國(guó)家、省份、城市三列的維度表,國(guó)家列會(huì)存在很多重復(fù)的數(shù)據(jù)。
星型模型的優(yōu)點(diǎn)是簡(jiǎn)單易懂,易于理解和使用;缺點(diǎn)是擴(kuò)展性較差,當(dāng)業(yè)務(wù)需求發(fā)生變化時(shí),可能需要對(duì)模型進(jìn)行調(diào)整和擴(kuò)展。
雪花模型
當(dāng)一個(gè)或多個(gè)維表沒有直接連接到事實(shí)表上,而是通過(guò)其他維表連接到事實(shí)表上時(shí),其圖解就像多個(gè)雪花連接在一起,故稱雪花模型。雪花模型是對(duì)星型模型的擴(kuò)展。它對(duì)星型模型的維表進(jìn)一步層次化, 原有的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的" 層次"區(qū)域,這些被分解的表都連接到主維表而不是事實(shí)表。
其優(yōu)點(diǎn)是通過(guò)最大限度地減少數(shù)據(jù)存儲(chǔ)量以及聯(lián)合較小的維表來(lái)改善查詢性能,避兔了數(shù)據(jù)冗余。
其缺點(diǎn)是增加了主鍵-外鍵關(guān)聯(lián)的幾率,導(dǎo)致查詢效率低于星型模型,且不利于開發(fā)。
星座模型
星座模型是星型模型的擴(kuò)展,它允許在星型模型中存在多個(gè)事實(shí)表,不同事實(shí)表之間共享維表信息,常用于數(shù)據(jù)關(guān)系更復(fù)雜的場(chǎng)景。
星座模型的缺點(diǎn)是增加了主鍵-外鍵關(guān)聯(lián)的幾率,導(dǎo)致查詢效率低于星型模型,并且不利于開發(fā) 。
通過(guò)上面的對(duì)比分析,可以發(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)更適合使用星型模型來(lái)構(gòu)建底層數(shù)據(jù)hive表,通過(guò)數(shù)據(jù)冗余來(lái)減少查詢次數(shù)以提高查詢效率。雪花模型在關(guān)系型數(shù)據(jù)庫(kù)中(MySQL/Oracle) 更加常見。在具體規(guī)劃設(shè)計(jì)時(shí),應(yīng)結(jié)合具體場(chǎng)及兩者的優(yōu)缺點(diǎn)來(lái)進(jìn)行設(shè)計(jì),找到一個(gè)平衡點(diǎn)去開展工作。