SQL Server平臺(tái)上數(shù)據(jù)倉庫管理員的關(guān)鍵任務(wù)
數(shù)據(jù)倉庫管理員(Data Warehouse Administrator),如果取首英文字母簡寫為DWA,很多人會(huì)以為講的是數(shù)據(jù)倉庫架構(gòu)師(Data Warehouse Architect),不過本文的主角是數(shù)據(jù)倉庫管理員,而且主要講述的是活躍在SQL Server平臺(tái)上的數(shù)據(jù)倉庫管理員。
數(shù)據(jù)倉庫管理員主要負(fù)責(zé)維護(hù)企業(yè)數(shù)據(jù)倉庫的完整性和可用性,包括數(shù)據(jù)的質(zhì)量問題,確保數(shù)據(jù)倉庫的正常持續(xù)運(yùn)行。數(shù)據(jù)倉庫管理員要管理的也許是容量上到5TB級(jí)的高可用性SQL Server 2005數(shù)據(jù)倉庫,而且有遍布全球的有幾十家分公司好幾百名用戶將其應(yīng)用于商業(yè)智能和客戶關(guān)系管理;也許只是被某公司總部十幾個(gè)用戶用作銷售、客戶和產(chǎn)品分析的300GB單服務(wù)器數(shù)據(jù)倉庫。不管數(shù)據(jù)倉庫管理員需要管理的是哪一種數(shù)據(jù)庫,其最重要工作就是維護(hù)。
數(shù)據(jù)倉庫系統(tǒng)每天都要進(jìn)行大量的ETL操作,按照特定的時(shí)間間隔把數(shù)據(jù)抽取整合到數(shù)據(jù)倉庫里。這個(gè)時(shí)間間隔也許是每隔一天、每隔一個(gè)星期或每隔幾個(gè)小時(shí)。DWA的其中一個(gè)主要任務(wù)就是監(jiān)測這些ETL處理進(jìn)程,確保其正常運(yùn)作。監(jiān)測ETL處理進(jìn)程的任務(wù)非常重要,因?yàn)檫@個(gè)進(jìn)程在不斷地為數(shù)據(jù)倉庫供給數(shù)據(jù)原料。如果ETL處理進(jìn)程運(yùn)行不當(dāng),數(shù)據(jù)倉庫里的數(shù)據(jù)就會(huì)過時(shí);如果ETL處理進(jìn)程運(yùn)行到一半就卡殼了,那么數(shù)據(jù)倉庫里的數(shù)據(jù)就會(huì)不完整;如果ETL處理進(jìn)程運(yùn)行出錯(cuò),那么存入的數(shù)據(jù)也會(huì)不正確;而如果數(shù)據(jù)不正確不完整,那么根據(jù)這些數(shù)據(jù)而制定的所有決策都會(huì)受到影響。這就是為什么確保ETL進(jìn)程由始至終正常運(yùn)作的重要原因。
數(shù)據(jù)倉庫管理員最好是向數(shù)據(jù)倉庫主管匯報(bào)工作,不過有時(shí)候他們會(huì)向數(shù)據(jù)倉庫架構(gòu)師匯報(bào)。數(shù)據(jù)倉庫管理員的關(guān)鍵任務(wù)包括以下幾個(gè)方面(假設(shè)在SQL Server平臺(tái)上運(yùn)行):
· 監(jiān)測每天(每星期)的ETL進(jìn)程、數(shù)據(jù)轉(zhuǎn)化服務(wù)工具包和SQL Server集成服務(wù)任務(wù)的運(yùn)行
· 管理數(shù)據(jù)倉庫的數(shù)據(jù)庫,維護(hù)所有數(shù)據(jù)庫服務(wù)器
· 管理分析服務(wù)立方體和服務(wù)器
· 管理報(bào)表服務(wù)和服務(wù)器(很可能是一個(gè)網(wǎng)絡(luò)場)
· 管理數(shù)據(jù)挖掘模型和預(yù)測分析
· 管理數(shù)據(jù)倉庫安全
· 制作數(shù)據(jù)倉庫工作負(fù)荷和活動(dòng)情況報(bào)表
· 向數(shù)據(jù)倉庫批量上載新數(shù)據(jù)
· 安裝補(bǔ)丁程序并執(zhí)行更新升級(jí)
· 管理數(shù)據(jù)倉庫端口
· 備份和檢測還原所有數(shù)據(jù)倉庫對(duì)象
· 與開發(fā)團(tuán)隊(duì)保持合作以部署代碼
· 與業(yè)務(wù)團(tuán)隊(duì)保持聯(lián)系以解決關(guān)于數(shù)據(jù)請求的問題
· 為終端用戶組織培訓(xùn)班
· 幫助用戶解決查詢問題
