波多野结衣乳巨码无在线观看,日产亚洲一区二区三区,精品无人区无码乱码毛片国产,亚洲AV日韩AV综合AⅤXXX

數(shù)據(jù)倉(cāng)庫(kù)體系應(yīng)該怎么規(guī)劃?
  • 更新時(shí)間:2025-01-12 12:10:41
  • 數(shù)倉(cāng)開(kāi)發(fā)
  • 發(fā)布時(shí)間:7個(gè)月前
  • 190

數(shù)倉(cāng)規(guī)劃是數(shù)倉(cāng)建設(shè)的藍(lán)圖,涵蓋從需求分析開(kāi)始到最終的數(shù)倉(cāng)評(píng)估驗(yàn)收整個(gè)環(huán)境;數(shù)倉(cāng)規(guī)劃之所以重要,是因?yàn)樗敲枋隽藬?shù)據(jù)流動(dòng)的概念性框架,為元數(shù)據(jù)管理奠定了基礎(chǔ),對(duì)數(shù)據(jù)加工過(guò)程的理解、數(shù)倉(cāng)建設(shè)的交流分享、數(shù)據(jù)的使用和問(wèn)題排查、數(shù)倉(cāng)健康度的評(píng)估都提供了極大的幫助。

需要強(qiáng)調(diào)的是本文是從宏觀上描述數(shù)倉(cāng)的框架,具體到數(shù)據(jù)模型的細(xì)節(jié)對(duì)比、存儲(chǔ)選型和管理、接入數(shù)據(jù)源管理等數(shù)倉(cāng)建設(shè)的周邊在本節(jié)不涉及。通過(guò)本文的閱讀,你將了解到以下知識(shí):

從業(yè)務(wù)矩陣的設(shè)計(jì)(宏觀、微觀)、橫向的分層、縱向的分線到主題劃分等角度解構(gòu)數(shù)倉(cāng)

數(shù)倉(cāng)建設(shè)的實(shí)施流程

1數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃

矩陣

分宏觀和微觀來(lái)看,宏觀的是公司的整體業(yè)務(wù)布局,微觀的是產(chǎn)品的業(yè)務(wù)過(guò)程布局和業(yè)務(wù)過(guò)程的維度分解交叉信息。

宏觀矩陣

宏觀矩陣描述的是公司的業(yè)務(wù)線和對(duì)應(yīng)的數(shù)據(jù)狀況,其行和列一般分別對(duì)應(yīng)著業(yè)務(wù)主題和數(shù)據(jù)主題。

業(yè)務(wù)主題對(duì)應(yīng)著公司的業(yè)務(wù)線布局,比如電商、游戲、視頻、應(yīng)用商店、新聞資訊、瀏覽器等

數(shù)據(jù)主題根據(jù)抽象的程度和視角有不同的取法:

一般取業(yè)務(wù)線中用戶(hù)對(duì)內(nèi)容的消費(fèi)或者相關(guān)行為,比如曝光、點(diǎn)擊、消費(fèi)、播放、分享等,對(duì)這些行為的劃分又可分為原生行為主題(通用和業(yè)務(wù)相關(guān))、衍生行為主題(留存、活躍、流失等),這種劃分方法更多的取自數(shù)據(jù)的底層和公共層,因?yàn)楦邔拥臄?shù)據(jù)都是多行為的匯總。

對(duì)數(shù)據(jù)主題的另外劃分方式參加分主題部分,這種劃分方法更多的取自數(shù)據(jù)的高層

數(shù)據(jù)倉(cāng)庫(kù)體系的規(guī)劃建設(shè),數(shù)據(jù)倉(cāng)庫(kù)分層設(shè)計(jì),數(shù)倉(cāng)規(guī)劃與數(shù)倉(cāng)建設(shè),業(yè)務(wù)矩陣

引自《數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐之業(yè)務(wù)數(shù)據(jù)矩陣的設(shè)計(jì)-木東居士》

微觀矩陣

微觀矩陣描述的是主題和對(duì)應(yīng)的維度關(guān)系,下面以常見(jiàn)的內(nèi)容消費(fèi)和用戶(hù)主題兩個(gè)維度來(lái)看微觀矩陣的規(guī)劃

數(shù)據(jù)倉(cāng)庫(kù)體系的規(guī)劃建設(shè),數(shù)據(jù)倉(cāng)庫(kù)分層設(shè)計(jì),數(shù)倉(cāng)規(guī)劃與數(shù)倉(cāng)建設(shè),業(yè)務(wù)矩陣

-w698

業(yè)務(wù)過(guò)程描述的一般是對(duì)內(nèi)容的消費(fèi)抽象,可以是原子的,也可以是抽象的,比如卡片曝光維度的劃分可以從以下兩個(gè)大方向入手:

通用標(biāo)識(shí)維度(版本、機(jī)型、渠道、網(wǎng)絡(luò)、時(shí)間等)

業(yè)務(wù)過(guò)程維度:消費(fèi)者等級(jí)、消費(fèi)位置、消費(fèi)路徑、其它等

分層

ODS->DW->DM->DA(ADS)層是如何劃分的?

清晰數(shù)據(jù)結(jié)構(gòu):每一個(gè)數(shù)據(jù)分層都有它的作用域和職責(zé),在使用表的時(shí)候能更方便地定位和理解

減少重復(fù)開(kāi)發(fā):規(guī)范數(shù)據(jù)分層,開(kāi)發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復(fù)計(jì)算

統(tǒng)一數(shù)據(jù)口徑:通過(guò)數(shù)據(jù)分層,提供統(tǒng)一的數(shù)據(jù)出口,統(tǒng)一對(duì)外輸出的數(shù)據(jù)口徑

復(fù)雜問(wèn)題簡(jiǎn)單化:將一個(gè)復(fù)雜的任務(wù)分解成多個(gè)步驟來(lái)完成,每一層解決特定的問(wèn)題

層劃分

一個(gè)完整數(shù)倉(cāng)分層演示圖如下:

數(shù)據(jù)倉(cāng)庫(kù)體系的規(guī)劃建設(shè),數(shù)據(jù)倉(cāng)庫(kù)分層設(shè)計(jì),數(shù)倉(cāng)規(guī)劃與數(shù)倉(cāng)建設(shè),業(yè)務(wù)矩陣

一個(gè)典型的數(shù)倉(cāng)分層樣例:

數(shù)據(jù)倉(cāng)庫(kù)體系的規(guī)劃建設(shè),數(shù)據(jù)倉(cāng)庫(kù)分層設(shè)計(jì),數(shù)倉(cāng)規(guī)劃與數(shù)倉(cāng)建設(shè),業(yè)務(wù)矩陣

-w730

分層依據(jù)

分層的依據(jù)在ods、da、dim層一般無(wú)歧義,關(guān)鍵在dw層的分層依據(jù),也是數(shù)據(jù)倉(cāng)庫(kù)分層建設(shè)的核心。

數(shù)據(jù)倉(cāng)庫(kù)體系的規(guī)劃建設(shè),數(shù)據(jù)倉(cāng)庫(kù)分層設(shè)計(jì),數(shù)倉(cāng)規(guī)劃與數(shù)倉(cāng)建設(shè),業(yè)務(wù)矩陣

每層劃分的依據(jù)如下:

ods層:存放原始數(shù)據(jù)信息,原則上不進(jìn)行任何的數(shù)據(jù)清晰,和數(shù)據(jù)源保持一致。

dw層:數(shù)據(jù)公共層,是數(shù)倉(cāng)建設(shè)的重點(diǎn),一般是日志子表和一些寬表,主要完成數(shù)據(jù)的清洗、轉(zhuǎn)換等

dm層:數(shù)據(jù)集市層,是最直接體系數(shù)據(jù)資產(chǎn)的層,一般是匯總數(shù)據(jù),現(xiàn)在已經(jīng)逐步弱化,面向挖掘、數(shù)據(jù)分析等

da層:數(shù)據(jù)應(yīng)用層,高度匯總數(shù)據(jù),主要用于報(bào)表展示。

分線

分線也分宏觀和微觀,宏觀的是整體的業(yè)務(wù)線,比如應(yīng)用分發(fā)線、商業(yè)智能線、游戲運(yùn)營(yíng)線、廣告流量線等;微觀的是某個(gè)app或者某個(gè)具體的線,本節(jié)介紹的是app的數(shù)據(jù)線。分線和分主題有很多相似的地方,只是看待數(shù)據(jù)的角度不同,分主題是從數(shù)據(jù)內(nèi)容分類(lèi)和對(duì)外服務(wù)的角度看,類(lèi)似商品分類(lèi);而分線是從數(shù)據(jù)生產(chǎn)加工過(guò)程的角度來(lái)看,類(lèi)似業(yè)務(wù)生產(chǎn)流水線。

用戶(hù)主線

反映整個(gè)app的用戶(hù)規(guī)模,比如整個(gè)app的活躍、累積活躍、新增、留存、回流、流失。

用戶(hù)群線

滿(mǎn)足某些行為的用戶(hù)群的追蹤,目的是為了進(jìn)行個(gè)性化的運(yùn)營(yíng)等活動(dòng),該線的升華擴(kuò)展是用戶(hù)畫(huà)像。

內(nèi)容消費(fèi)

提供的消費(fèi)實(shí)體的曝光、點(diǎn)擊、生成、轉(zhuǎn)化等,以及內(nèi)容的累積消費(fèi)、消費(fèi)排行等都屬于內(nèi)容線。

狀態(tài)線

一般會(huì)作為輔線存在,相當(dāng)于維表的存在,狀態(tài)線一般又分為以下幾種:

1.天表全量用戶(hù)狀態(tài),會(huì)加入一些修正,以及基于天全量的累積表的快照全量用戶(hù)信息維表;

2.開(kāi)關(guān)操作狀態(tài)線。記錄開(kāi)關(guān)狀態(tài)變更記錄,得到當(dāng)前用戶(hù)的開(kāi)關(guān)狀態(tài)快照,是多態(tài)記錄的一種特殊情況;

3.添加刪除狀態(tài)線。記錄用戶(hù)的添加刪除等操作,得到當(dāng)前用戶(hù)操作結(jié)果的保有快照;

4.其它,比如登錄狀態(tài)、用戶(hù)等級(jí)等。

商業(yè)化線

商業(yè)化線相關(guān)的與收入相關(guān)的,比如cp合作、廣告位、推廣位、訂單、會(huì)員充值等;

需要說(shuō)明的是本系列的數(shù)倉(cāng)的主要介紹的是流量型產(chǎn)品形態(tài)、更多的是關(guān)注用戶(hù)規(guī)模,所以主線是是關(guān)于用戶(hù)的,而對(duì)于其它的產(chǎn)品形態(tài),比如購(gòu)物類(lèi)、充值消費(fèi)類(lèi)的則主線可能是商業(yè)化線等。此外作為用戶(hù)流量型產(chǎn)品,還隱藏著另外一個(gè)更加常用的線:自查線,每個(gè)主題的自查明細(xì)表,基于event_id或者參數(shù)的展開(kāi),但是沒(méi)有參數(shù)值的組合過(guò)濾。(自查線這個(gè)似乎沒(méi)有必要)

下圖是一張數(shù)倉(cāng)的分線演示圖,每個(gè)框是一張表,不同顏色的框串聯(lián)成各自的數(shù)倉(cāng)線。

數(shù)據(jù)倉(cāng)庫(kù)體系的規(guī)劃建設(shè),數(shù)據(jù)倉(cāng)庫(kù)分層設(shè)計(jì),數(shù)倉(cāng)規(guī)劃與數(shù)倉(cāng)建設(shè),業(yè)務(wù)矩陣

分主題

在進(jìn)行分矩陣設(shè)計(jì)的時(shí)候牽涉到分行和列的業(yè)務(wù)主題,此處詳細(xì)介紹下數(shù)據(jù)主題的設(shè)計(jì),本部分的設(shè)計(jì)是從高層次上的。

主題劃分的一些依據(jù):業(yè)務(wù)過(guò)程(或子過(guò)程,比如訂單)、ER中的E(或者R,比如商品主題)、數(shù)據(jù)服務(wù)的對(duì)象(運(yùn)營(yíng)主題)、數(shù)據(jù)的用途(比如商業(yè));分主題也即數(shù)據(jù)集市,根據(jù)業(yè)務(wù)形態(tài)的不同,會(huì)衍生出不同的主題,但以下主題在app中廣泛存在:

用戶(hù)主題(也即大盤(pán):新增活躍、留存)

內(nèi)容主題(具體提供的服務(wù)形式,也可以理解為產(chǎn)品主題,含曝光、點(diǎn)擊、分享等用戶(hù)消費(fèi)傳播行為)

運(yùn)營(yíng)主題(可能合并到某個(gè)內(nèi)容主題上,比如活動(dòng)、通知、彈窗、授權(quán)、分享等)

商業(yè)化主題(廣告、訂單等通常用于結(jié)算)

技術(shù)主題(故障率、崩潰率、準(zhǔn)確率等衡量技術(shù)指標(biāo))

備注:

社交主題可以合并到內(nèi)容主題也可以合并到運(yùn)營(yíng)主題,需要視app的具體特性和重視程度確定

數(shù)倉(cāng)的分主題主要體現(xiàn)在數(shù)據(jù)集市層,而數(shù)據(jù)集市層可能會(huì)因?yàn)槭褂帽热鏺ylin等多維分析工具被弱化。

用戶(hù)主題

用戶(hù)主題是產(chǎn)品的盤(pán)子,就像家店鋪,多少人使用就像多少顧客。基于用戶(hù)主題的常見(jiàn)統(tǒng)計(jì)有整體的新增、活躍、累積活躍、新增留存、活躍留存等大盤(pán)數(shù)據(jù),以及對(duì)某些關(guān)鍵行為的用戶(hù)的后續(xù)追蹤,還有某些核心過(guò)程的PUV、轉(zhuǎn)化漏斗等。

內(nèi)容主題

內(nèi)容主題是盤(pán)子里東西的消費(fèi)狀況,就像提供的菜單,每個(gè)菜被多少人點(diǎn)了?;趦?nèi)容主題的常見(jiàn)統(tǒng)計(jì)有針對(duì)內(nèi)容(文章、視頻、商品等)的各種消費(fèi)行為(曝光、點(diǎn)擊、購(gòu)買(mǎi)、下載等)的次數(shù)、人數(shù)、時(shí)長(zhǎng)、金額等按不同維度的度量統(tǒng)計(jì)。常見(jiàn)的維度拆分有時(shí)間拆分、地域拆分、位置(人貨場(chǎng)模型中的場(chǎng))拆分、畫(huà)像拆分、渠道拆分等,對(duì)度量的統(tǒng)計(jì)又有累積、非累積、TopN等。

運(yùn)營(yíng)主題

廣告、促銷(xiāo)、活動(dòng)等一切由于運(yùn)營(yíng)活動(dòng)相關(guān)本身的數(shù)據(jù)統(tǒng)計(jì),以及運(yùn)營(yíng)活動(dòng)對(duì)其它主題數(shù)據(jù)的影響衡量。

營(yíng)收主題

營(yíng)收的來(lái)源主要分為以下幾種:

流量廣告

商務(wù)合作

優(yōu)惠券

充值消費(fèi)

會(huì)員充值

訂單、打賞等

流量廣告的數(shù)據(jù)主要產(chǎn)生于用戶(hù)行為,而充值消費(fèi)的數(shù)據(jù)主要來(lái)自業(yè)務(wù)庫(kù)相關(guān)。

以上四個(gè)主題是在常見(jiàn)應(yīng)用上通用的主題,其它的主題比如技術(shù)主題,在某些有明顯的技術(shù)指標(biāo)對(duì)比的產(chǎn)品上會(huì)占主要的地位,比如文字識(shí)別類(lèi)應(yīng)用的識(shí)別準(zhǔn)確率、搜索類(lèi)產(chǎn)品的搜索滿(mǎn)意度、語(yǔ)音智能助理類(lèi)的會(huì)話完成率等。這些產(chǎn)品上技術(shù)指標(biāo)和用戶(hù)的體驗(yàn)密切相關(guān),是產(chǎn)品未來(lái)發(fā)展重要的參考方向,因此會(huì)強(qiáng)化出來(lái)做數(shù)據(jù)主題。另外如引流類(lèi)或者與其他app有頻繁的引流拉起等應(yīng)用的數(shù)據(jù)體系建設(shè)上,也會(huì)單獨(dú)拿出跳轉(zhuǎn)對(duì)接數(shù)據(jù)做主題分析。總之,主題的劃分并不是確定不變的,需要根據(jù)業(yè)務(wù)的具體形態(tài)和重點(diǎn)度量的指標(biāo)等進(jìn)行建設(shè)。

以上的矩陣、分層、分線、分主題的規(guī)劃只是從不同的角度來(lái)看數(shù)據(jù)框架,本質(zhì)都是對(duì)數(shù)據(jù)流圖的一種拆解,差異在拆解的數(shù)據(jù)視角。

數(shù)據(jù)倉(cāng)庫(kù)體系的規(guī)劃建設(shè),數(shù)據(jù)倉(cāng)庫(kù)分層設(shè)計(jì),數(shù)倉(cāng)規(guī)劃與數(shù)倉(cāng)建設(shè),業(yè)務(wù)矩陣

2數(shù)據(jù)倉(cāng)庫(kù)實(shí)施

需求分析

了解業(yè)務(wù)過(guò)程,每個(gè)業(yè)務(wù)過(guò)程的參與實(shí)體和各實(shí)體可能的分析維度等信息; 了解數(shù)據(jù)源組成,有哪些數(shù)據(jù)源、數(shù)據(jù)的更新周期;預(yù)構(gòu)建指標(biāo)體系,了解指標(biāo)的分類(lèi),分析維度、時(shí)效性要求;了解可能的擴(kuò)展需求,比如畫(huà)像寬表。需求分析階段是建立數(shù)倉(cāng)的概念模型,明白數(shù)倉(cāng)要支持的大致需求,雖然數(shù)倉(cāng)建設(shè)并不要完全滿(mǎn)足業(yè)務(wù)需求,在建設(shè)的過(guò)程中肯定要有取舍,但第一步進(jìn)行需求分析能保證在數(shù)倉(cāng)建設(shè)過(guò)程中不致于偏離目標(biāo)太多,避免建設(shè)爛尾或者好看不好用的繡花枕頭

指標(biāo)體系

此部分會(huì)另外開(kāi)專(zhuān)題介紹,指標(biāo)體系一般分為三類(lèi):

用戶(hù)增長(zhǎng)體系

流量體系

營(yíng)收體系

每個(gè)體系內(nèi)分析數(shù)據(jù)的維度、更新周期等。指標(biāo)體系的建立是需求分析環(huán)節(jié)需要重點(diǎn)完成的一步。

模型選擇

模型選擇環(huán)節(jié)要根據(jù)需求分析階段的結(jié)論,在ER模型、維度建模等基本的建模思想中選擇一種建模思想,比如說(shuō)選擇了維度建模,要進(jìn)一步根據(jù)需求分析中相關(guān)的業(yè)務(wù)過(guò)程和維度視角,在星型模型、雪花模型、星座模型中選擇一種模式。這個(gè)過(guò)程要充分的結(jié)合業(yè)務(wù)的實(shí)際狀況、開(kāi)發(fā)人力和成本、各模型的優(yōu)缺點(diǎn)等因素進(jìn)行綜合分析,是關(guān)系到建模是否成功的關(guān)鍵環(huán)節(jié)。需要說(shuō)明的是,在快速迭代的互聯(lián)網(wǎng)行業(yè),業(yè)務(wù)規(guī)則可能經(jīng)常變化,而對(duì)于不同粒度水平進(jìn)行度量和監(jiān)控,進(jìn)而快速響應(yīng)的需求卻基本保持不變,比如層級(jí)的時(shí)間粒度(年、月、周、日、小時(shí))、層級(jí)的地理粒度(大區(qū)、省、市、區(qū)縣、商圈)以及基于產(chǎn)品自身屬性的層級(jí)粒度(大類(lèi)、子類(lèi))?;谶@種特性,互聯(lián)網(wǎng)行業(yè)中廣泛采用維度建模的思想,同時(shí)為了使用的方便,又以星型模型和雪花模型較多。

標(biāo)準(zhǔn)規(guī)劃

標(biāo)準(zhǔn)規(guī)劃是對(duì)數(shù)倉(cāng)建設(shè)過(guò)程各階段中涉及的對(duì)象、屬性、關(guān)系、鍵、交付物等進(jìn)行規(guī)范定義,同時(shí)制定標(biāo)準(zhǔn)落地方式或者檢查的方式。比如表命名規(guī)范、字段命名規(guī)范、任務(wù)命名規(guī)范、調(diào)度依賴(lài)規(guī)范、代碼開(kāi)發(fā)規(guī)范等。需求強(qiáng)調(diào)的是,這一步看似無(wú)關(guān)緊要,也往往直接被忽略跳過(guò),但好的標(biāo)準(zhǔn)規(guī)劃能為建設(shè)高質(zhì)量數(shù)倉(cāng)的保駕護(hù)航,對(duì)數(shù)倉(cāng)質(zhì)量、健康度的保持都大有裨益。

開(kāi)發(fā)部署

包含表設(shè)計(jì)、代碼開(kāi)發(fā)、調(diào)度開(kāi)發(fā)和告警開(kāi)發(fā)等

事實(shí)表和維表設(shè)計(jì)

維表設(shè)計(jì)

代碼開(kāi)發(fā)

流程、審核機(jī)制、回退機(jī)制

調(diào)度開(kāi)發(fā)

依賴(lài)任務(wù)的配置

回跑機(jī)制

任務(wù)權(quán)限管理

告警開(kāi)發(fā):

數(shù)據(jù)量異常,某些細(xì)分維度、字段值、計(jì)算指標(biāo)異常的告警措施

任務(wù)失敗、等待超時(shí)、執(zhí)行超時(shí)、上下線、上游重跑等告警措施

開(kāi)發(fā)部署階段完成了數(shù)倉(cāng)建設(shè)的邏輯模型和物理模型設(shè)計(jì)階段,是數(shù)倉(cāng)建設(shè)的主要工作內(nèi)容。

評(píng)估驗(yàn)收

對(duì)應(yīng)的問(wèn)題包含在相關(guān)問(wèn)題介紹部分,需要進(jìn)一步思考數(shù)倉(cāng)開(kāi)發(fā)的交付物是什么。

數(shù)據(jù)字典

指標(biāo)口徑的定義

核心表和其用途

數(shù)據(jù)流圖和重要指標(biāo)的出口

業(yè)務(wù)變動(dòng)對(duì)數(shù)倉(cāng)的影響,比如某些手工維護(hù)的維表需要根據(jù)業(yè)務(wù)變動(dòng)進(jìn)行相應(yīng)的更新

3總結(jié)

本篇從業(yè)務(wù)矩陣、分層、分線和分主題等方面對(duì)數(shù)倉(cāng)的規(guī)劃做了簡(jiǎn)要的描述。這些方面的差異只在于剖析數(shù)倉(cāng)的角度,其目的是一致的,即為了清晰地梳理數(shù)據(jù)體系、洞察數(shù)據(jù)狀態(tài)、以及更好地規(guī)劃未來(lái)數(shù)據(jù)地圖,從而更好的服務(wù)于各個(gè)業(yè)務(wù)需求方(BI報(bào)表、數(shù)據(jù)分析、用戶(hù)畫(huà)像等);本節(jié)最后簡(jiǎn)要的介紹了數(shù)倉(cāng)開(kāi)發(fā)的基本流程。


我們專(zhuān)注高端建站,小程序開(kāi)發(fā)、軟件系統(tǒng)定制開(kāi)發(fā)、BUG修復(fù)、物聯(lián)網(wǎng)開(kāi)發(fā)、各類(lèi)API接口對(duì)接開(kāi)發(fā)等。十余年開(kāi)發(fā)經(jīng)驗(yàn),每一個(gè)項(xiàng)目承諾做到滿(mǎn)意為止,多一次對(duì)比,一定讓您多一份收獲!

本文章出于推來(lái)客官網(wǎng),轉(zhuǎn)載請(qǐng)表明原文地址:https://www.tlkjt.com/sc/18440.html

在線客服

掃碼聯(lián)系客服

3985758

回到頂部