導語:
隨著越來越多的企業(yè)認識到數(shù)據(jù)作為生產(chǎn)要素的價值,加快了企業(yè)數(shù)字化轉型,把完善企業(yè)級的數(shù)據(jù)治理體系作為企業(yè)數(shù)字化轉型的一個目標。長亮科技在大數(shù)據(jù)領域始終保持足夠的技術敏銳度,并積累了豐富的經(jīng)驗與資產(chǎn)。為此,我們組織了一個系列專文,分期發(fā)表,與您一起探索更適合當下行業(yè)發(fā)展的數(shù)據(jù)觀,歡迎大家持續(xù)關注。
作者|長亮科技大數(shù)據(jù)研究院
內容|本篇共4010字,預計閱讀時間15分鐘
創(chuàng)建企業(yè)數(shù)據(jù)模型的過程與最終結果同樣重要。正是因為數(shù)據(jù)建模的缺失,更迫切需要治理數(shù)據(jù)。即使一個小的業(yè)務處理系統(tǒng)的關系數(shù)據(jù)建模,也可以避免或減少數(shù)據(jù)質量問題的產(chǎn)生,有效降低未來數(shù)據(jù)管理和運營的成本和風險。一些企業(yè)的數(shù)據(jù)治理僅僅是為了滿足監(jiān)管要求而進行的被動行為,在IT建設過程中,沒有通過企業(yè)級數(shù)據(jù)建模進行頂層設計和統(tǒng)籌規(guī)劃,隨著監(jiān)管科技的發(fā)展,監(jiān)管日益精細化,處罰力度不斷加強,僅僅完成“規(guī)定動作”而沒有通過體系化設計、未能得到根本解決的各類數(shù)據(jù)問題逐漸暴露出來并帶來了越來越多的負面影響。反之,借助數(shù)字化轉型,在內部推動企業(yè)級數(shù)據(jù)模型規(guī)劃和落地,并通過數(shù)據(jù)治理有效清理積弊,提升數(shù)據(jù)資產(chǎn)質量的企業(yè),則在數(shù)據(jù)資產(chǎn)化、要素化的浪潮中獲得了領先的競爭優(yōu)勢。
01
關系數(shù)據(jù)建模方法
仍是企業(yè)級數(shù)據(jù)建模的唯一選擇
DAMA-DMBOK2總結了用于表示數(shù)據(jù)的六個最常見的模式是:關系、維度、面向對象、基于事實、基于時間和NoSQL,其中最常用的是關系、維度、面向對象的UML,每種建模模式都使用特定的表示法-圖表符號進行表達,良好的設計模式提供豐富的可擴展建模語言,便于提煉專家知識的原型,降低建模難度。
關系數(shù)據(jù)庫管理系統(tǒng)的強大能力與Peter Chen的原始ER實體關系模型的概念密不可分,即邏輯數(shù)據(jù)模型。將數(shù)據(jù)與流程(與業(yè)務流程和系統(tǒng)流程)分開的核心思想,打破了面向流程的系統(tǒng)開發(fā)模式,同時實現(xiàn)更新(操作運營)和訪問(決策支持)的目的,邏輯數(shù)據(jù)模型從業(yè)務角度實現(xiàn)了這種分離,而物理數(shù)據(jù)模型從數(shù)據(jù)庫角度實現(xiàn)了這種分離。關系數(shù)據(jù)模型的實體完整性、參照完整性、用戶定義的完整性約束為高質量數(shù)據(jù)的實現(xiàn)提供了保障,四十多年來,關系數(shù)據(jù)建模一直是理解復雜業(yè)務與數(shù)據(jù),設計和部署具有高質量數(shù)據(jù)的關系數(shù)據(jù)庫與支持應用開發(fā)的敏捷的、正確的、可靠的最佳方法。銀行業(yè)務交易系統(tǒng)數(shù)據(jù)仍以關系數(shù)據(jù)為主,并適度降范,可以與企業(yè)關系數(shù)據(jù)模型便捷映射。
對象建模與面向對象的程序設計方法配合主要用于交易系統(tǒng)數(shù)據(jù)模型設計,對象中可以包含對象,冗余設計不可避免地造成數(shù)據(jù)的不一致,很難提供一個準確的定義來說明目標建設的數(shù)據(jù),數(shù)據(jù)可移植性差,維護困難。維度建模是應用需求驅動的設計,即使設計企業(yè)一致的維度(也必須經(jīng)歷范式與抽象的思維邏輯過程),也存在數(shù)據(jù)冗余。對象建模與維度建模這兩種方法的初衷都不是為了用一種穩(wěn)定而客觀的方式描述事實,以提供高質量數(shù)據(jù)并保證數(shù)據(jù)的連續(xù)性,因而這兩種方式的建模過程不但無助于發(fā)現(xiàn)數(shù)據(jù)問題,反而可能產(chǎn)生更多的問題,不適合用于企業(yè)級的數(shù)據(jù)建模。
數(shù)據(jù)質量的度量管理與評價體系核心仍是基于關系數(shù)據(jù)模型建立的。DAMA-DMBOK2歸納了8個具有普遍一致性的數(shù)據(jù)質量維度:準確性、完備性、一致性、參考完整性、合理性、及時性、唯一性、有效性。ISO/IEC 25012數(shù)據(jù)質量模型把數(shù)據(jù)質量特性分為不排它的固有的數(shù)據(jù)質量與依賴系統(tǒng)的數(shù)據(jù)質量,排除依賴系統(tǒng)的數(shù)據(jù)質量特性后,固有的數(shù)據(jù)質量特性都可以用關系數(shù)據(jù)庫管理系統(tǒng)來管理。
一表通監(jiān)管數(shù)據(jù)采集接口標準把明細類數(shù)據(jù)劃分為機構、客戶、關系、財務、產(chǎn)品、協(xié)議、交易、狀態(tài)、資源、參數(shù)等10個主題,把關系、狀態(tài)單列主題,分別管理關系與歷史變化,關系模型設計模式的監(jiān)管要求比過去更加模型化,可以更加完整、體系化評價數(shù)據(jù),對數(shù)據(jù)質量的要求越來越高。一表通接口標準存在一定的冗余,需要在支撐一表通的底層實現(xiàn)上提供一致的數(shù)據(jù)。
02
企業(yè)級數(shù)據(jù)建模
如何有效幫助治理數(shù)據(jù)?
數(shù)據(jù)是業(yè)務與信息的最后載體,企業(yè)級數(shù)據(jù)建模應自上而下參考企業(yè)業(yè)務架構與應用架構,自下而上結合數(shù)據(jù)需求和數(shù)據(jù)現(xiàn)狀。從數(shù)據(jù)現(xiàn)狀出發(fā),整體上可以劃分為信息探索、模型設計兩個大的階段。
1.信息探索階段
了解企業(yè)數(shù)據(jù)現(xiàn)狀及其元數(shù)據(jù)是企業(yè)級數(shù)據(jù)建模實質行為必不可少的一步。信息探索是對企業(yè)現(xiàn)有數(shù)據(jù)與文檔進行調研分析,識別其數(shù)據(jù)結構、業(yè)務含義、數(shù)據(jù)關系、數(shù)據(jù)流, 從源數(shù)據(jù)中探索出信息的過程。可以說信息探索的每一步,都可能發(fā)現(xiàn)需要治理的問題,數(shù)據(jù)模型師作為數(shù)據(jù)考古學家必須耗費大量時間深入穿透紛亂復雜的數(shù)據(jù)表象,反復提出假設,驗證或推翻。
可視化業(yè)務源數(shù)據(jù)模型。由于業(yè)務系統(tǒng)很少提供源模型,反向工程還原源數(shù)據(jù)模型是企業(yè)數(shù)據(jù)建模人員應該嘗試完成的一項工作,通過與數(shù)據(jù)生產(chǎn)者以及業(yè)務人員的交互,更好地理解與驗證數(shù)據(jù),確認業(yè)務規(guī)則,更容易發(fā)現(xiàn)與確認數(shù)據(jù)質量問題。源數(shù)據(jù)建模還有助于將數(shù)據(jù)與真實業(yè)務世界本體進行比較,發(fā)現(xiàn)差異。
探索跨業(yè)務系統(tǒng)的數(shù)據(jù)關系與數(shù)據(jù)流。理想情況下,企業(yè)應具備應用架構、數(shù)據(jù)架構來說明不同業(yè)務源系統(tǒng)之間的數(shù)據(jù)交互關系,業(yè)務系統(tǒng)應提供詳細的設計說明。把數(shù)據(jù)集中到一起進行跨系統(tǒng)深入探索驗證,還可以進一步發(fā)現(xiàn)不同系統(tǒng)之間的業(yè)務不一致、賬務不一致以及業(yè)務與賬務不一致問題,使各種問題充分暴露。
形成企業(yè)數(shù)據(jù)CRUD分布圖,識別出有用的關鍵數(shù)據(jù),進一步確定黃金數(shù)據(jù)源。發(fā)現(xiàn)與確定什么是以及為什么是關鍵數(shù)據(jù),數(shù)據(jù)治理的主要目的之一是保護、管理與共享重用這些關鍵數(shù)據(jù)。如果不知道要管理的數(shù)據(jù)是什么、數(shù)據(jù)的含義以及為什么對組織重要,就不可能很好地保護和管理數(shù)據(jù)。識別出冗余數(shù)據(jù),區(qū)別垃圾數(shù)據(jù),確定企業(yè)數(shù)據(jù)分布與集成的問題。許多數(shù)據(jù)問題是因為不科學的CRUD造成的,企業(yè)建模思維很容易發(fā)現(xiàn)應用架構、數(shù)據(jù)架構在主數(shù)據(jù)、數(shù)據(jù)交互與集成等方面存在的問題,如同一主數(shù)據(jù)多個系統(tǒng)創(chuàng)建與修改。
發(fā)起數(shù)據(jù)資產(chǎn)評估,盤點數(shù)據(jù)資產(chǎn)現(xiàn)狀是數(shù)據(jù)治理早期關鍵活動。企業(yè)級數(shù)據(jù)建模過程中的信息探索,從數(shù)據(jù)到信息,找到有價值數(shù)據(jù),發(fā)現(xiàn)需要治理的問題,應是數(shù)據(jù)治理實質工作的重點內容。
2.模型設計階段
數(shù)據(jù)模型是本體模型,數(shù)據(jù)建模是一項專業(yè)設計任務,在數(shù)據(jù)建模過程中融入數(shù)據(jù)管理思維,經(jīng)過專業(yè)負責的深思熟慮與驗證,精準設計與定義模型本體——每個概念業(yè)務實體、邏輯數(shù)據(jù)實體及其固有屬性。模型設計包括主題模型設計、概念數(shù)據(jù)模型設計與邏輯數(shù)據(jù)模型設計,企業(yè)級數(shù)據(jù)倉庫模型是企業(yè)級的分析數(shù)據(jù)模型,還包括物理數(shù)據(jù)模型的設計。在定義數(shù)據(jù)模型本體過程中,可以發(fā)現(xiàn)更多數(shù)據(jù)問題。
采用范式與適度抽象設計思想與通用數(shù)據(jù)模型設計模式,設計穩(wěn)定的數(shù)據(jù)模型,使模型收斂而不發(fā)散,改善業(yè)務一致性。嚴格按照第3范式要求設計邏輯模型,必然會發(fā)現(xiàn)源系統(tǒng)很多因冗余設計造成的不一致性問題(雖然業(yè)務系統(tǒng)一般采用范式設計模式,但沒有達到第3范式要求),在物理模型設計中考慮適度降范。
部署準確的高質量數(shù)據(jù)源。根據(jù)信息探索的結果,確定準確權威的數(shù)據(jù)源映射模型,執(zhí)行完整的數(shù)據(jù)模型設計任務,確保數(shù)據(jù)完整性。在集成的數(shù)據(jù)環(huán)境中,基于數(shù)據(jù)模型進行全維度質量檢查,把問題提交給治理團隊安排治理,推動上游業(yè)務系統(tǒng)治理,在源頭產(chǎn)生高質量的數(shù)據(jù)。
03
提升數(shù)據(jù)建模效率
數(shù)據(jù)建模和數(shù)據(jù)治理都是數(shù)據(jù)全生命周期管理的關鍵職能領域,二者相輔相成,對提升數(shù)據(jù)的可用性、發(fā)揮數(shù)據(jù)價值具有重要的意義。
數(shù)據(jù)治理是對數(shù)據(jù)資產(chǎn)管理行使權威與控制,數(shù)據(jù)治理組織發(fā)起企業(yè)數(shù)據(jù)建模,可以將數(shù)據(jù)建模視為對數(shù)據(jù)定義的權威與控制的執(zhí)行和實施。企業(yè)數(shù)據(jù)建模的原則(在“正確的”時間,由“正確的”人員為組織定義“正確的”數(shù)據(jù),確保唯一正確的數(shù)據(jù)放在唯一正確的地方),必須要有規(guī)范或準則來確保數(shù)據(jù)設計符合需要,這些規(guī)范由數(shù)據(jù)治理委員會委托相關職能團隊設計并批準發(fā)布。
數(shù)據(jù)管理職責描述數(shù)據(jù)管理崗位管理數(shù)據(jù)和流程的職責和責任, 確保有效控制和使用數(shù)據(jù)資產(chǎn)。數(shù)據(jù)管理專員職責的主要活動包括創(chuàng)建和管理核心元數(shù)據(jù)、記錄規(guī)則和標準、管理數(shù)據(jù)質量問題、執(zhí)行數(shù)據(jù)治理運營活動,需要把這些管理職責與活動嵌入到企業(yè)數(shù)據(jù)建模活動中,在整個數(shù)據(jù)生態(tài)系統(tǒng)中的人員、流程和系統(tǒng)中定義和開發(fā)“正確的”數(shù)據(jù)行為。
企業(yè)數(shù)據(jù)建模各階段必然會遇到許多問題,需要業(yè)務職能領域和 IT 組織協(xié)同,與數(shù)據(jù)建模人員一起工作,協(xié)助數(shù)據(jù)建模,需要數(shù)據(jù)治理組織為數(shù)據(jù)的集成與整合提供推動與決策支持。在正式的數(shù)據(jù)治理組織建立之前,企業(yè)級數(shù)據(jù)倉庫的模型建設主要由IT部門發(fā)起,業(yè)務僅是作為數(shù)據(jù)應用的需求方參與,項目中發(fā)現(xiàn)的數(shù)據(jù)問題沒有相應的“司法”解決途徑。
END
僅治理數(shù)據(jù)而不建模數(shù)據(jù),治理成果得不到鞏固,不能應用于新的設計中避免或減少類似問題的發(fā)生,各種問題循環(huán)反復。與單獨進行不同的工作相比,企業(yè)數(shù)據(jù)治理與數(shù)據(jù)建模聯(lián)合起來更好,嵌入數(shù)據(jù)治理可以更有效開發(fā)和維護企業(yè)數(shù)據(jù)模型,企業(yè)數(shù)據(jù)建模使數(shù)據(jù)治理工作更有效,全面提升數(shù)據(jù)生產(chǎn)質量,給數(shù)據(jù)消費者提供高質量數(shù)據(jù)。