數字化時代,數據已經成為企業管理的關鍵要素,隨著數據的日益增長及匯聚,企業數據質量問題成為數據治理的關鍵。數據質量直接影響到能否通過數據分析驅動企業生產、運營、服務提效及創新。高質量的數據對管理決策、業務支撐等都有極其重要的作用,只有持續的數據質量改進才能推動數據治理體系的完善,維持數據質量水平,為企業數據戰略提供堅實的保障。
數據這個詞很活躍,人人耳熟能詳。它相對比較清楚的釋義為:數據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態以及相互關系等進行記載的物理符號或這些物理符號的組合。在運營商行業中,所涉及到的相關IT數據,通常包括支撐系統中的資產數據、訂單數據、歸檔業務信息數據、客戶數據等等,這些數據產生貫穿了業務支撐的全過程,所包含的信息極其豐富。
數據的信息記錄作用確定了它在查詢、統計、分析等方面都會在不同的時期里發揮作用,其不僅僅面向所有者提供信息,通常會根據協議約定覆蓋整個企業的業務生產,甚至外部。
信息化也好,數字化也罷,終究是眾多基于數據的應用,數據應用能否獲得預期業務效果,不僅考驗規劃設計應用場景的產品專家,更是取決于長期困惑企業及支撐廠家的數據問題能否得到解決。
不完整,即對于需要描述的一個對象,缺乏足夠完整的信息。往往構成源于不同系統、不同時期,總是有各種原因導致無法匯聚。
不正確,這點和數據產生的方式有很大關系,不正確的過程數據通常由業務邏輯或業務規則造成,資料數據錯誤通常由錄入環節失誤導致,這種失誤通常難以管理,例如營業人員把客戶的出生信息錄成上個世紀,則直接就多了個百年老妖。
不明白,業務系統在草創之初恣意生長,帶來的模型管理混亂。多年之后的數據開發人員和業務人員,很多的時候眼巴巴地看著一些釋義似是而非的數據徒增奈何。
學習時間又到,數據質量的定義是:數據的一組固有屬性滿足數據消費者要求的程度。據此,業務人員符合概念中的消費者的定義,概因其是業務需求的代表者。數據質量直接影響到數據業務需求的支撐,然而影響數據質量的因素又有哪些呢?
很多企業的信息化現狀是先建設后治理。早期缺乏整體的數據規劃,沒有統一的數據標準和明確的數據質量目標,導致不同業務部門在處理業務時,容易出現數據沖突或矛盾。
缺乏有效的數據問責機制,沒有明確數據歸口管理部門和崗位職責,導致出現數據質量問題時無法厘清職責,各業務部門之間互相推諉。
數據質量管理中的一大挑戰,在于各個部門對于所依據的、共識的數據標準進行業務系統建設。如果缺乏統一的數據標準,致使數據理解難以一致,業務之間的協作和溝通就如同“雞同鴨講”。
業務部門既是數據需求的提出方,也是數據的生產方。業務部門的人為因素是造成企業數據質量低下的一個非常重要的原因。常見的人為因素有拼寫錯誤,數據輸入不匹配字段如大小寫、特殊字符錄錯等,這些都會導致數據的不規范問題。
在設計階段對數據模型質量的關注不足,需求理解不到位,數據庫表結構、數據庫約束條件、數據校驗規則的設計開發不合理,就會造成數據錄入無法校驗或校驗不當,引起數據的重復、不完整、不準確。
數據傳輸包含數據采集、數據轉換、數據裝載、數據存儲等環節。數據采集來源多不統一、數據采集接口效率低、數據轉換規則配置錯誤、數據裝載存儲機制不合理等,使得產生數據出數慢、數據不準確、數據不完備等問題。
正所謂“工欲善其事,必先利其器”,一套好的數據治理工具能讓企業的數據治理工作事半功倍,因此如何低成本、高效率、全鏈路、閉環化的管控、稽核、監控數據質量成為重要命題。
WhaleDI“數據質量管理工具”作為企業數據治理體系落地的重要利器之一,通過對數據倉庫/源端數據進行質量標準管理,以全流程覆蓋、易使用、規則全、智能化、閉環管理等為目標,建立事前標準定義、事中全鏈路監控、事后分析的運營機制,形成PDCA質量管理循環,促進數據質量的持續提升。
通過對數據標準的統一定義,明確數據的管理部門和責任主體,為企業的數據質量治理提供了基礎保障。通過對數據實體、數據關系以及數據處理,定義統一的標準、數據映射關系和數據質量規則,使得數據的質量治理有法可依,有據可循,為企業數據質量的提升和優化提供保障。
數據標準管理其核心能力主要包括業務術語管理、字段庫管理、術語字段標準映射等。
(1)業務術語則是可以定義企業級的公共業務詞匯表,建立各部門對公共業務術語的共識,以業務視角管理各類業務術語,包括客戶名稱、客戶編碼、身份證號、手機號碼、郵箱等,同時對這些業務術語進行目錄化、標準化、流程化管理。
(2)字段庫是指對數據模型邏輯字段的管理,對數據模型的字段從字段名稱、字段編碼、字段分類、字段類型、關聯業務術語、關聯數據字典、關聯同義詞等方面進行規范、統一的定義,后續模型開發直接引用即可,保障模型開發的規范性。字段庫字段標準配置,包括字段命名規則、字段編碼規則、字段取值范圍、是否主鍵、是否唯一、是否非空等,后續可用于映射物理字段數據標準,實現實例數據的標準檢驗。
(3)通過字段庫字段關聯業務術語,實現業務術語與字段庫字段(即邏輯字段)建立1:1的對應關系,實現業務術語與邏輯字段的映射。通過腳本解析(例如腳本中a.cust_id=b.customer_id、a字段數據復制b字段數據等)、調度任務字段映射、同義詞等方式,建立邏輯字段與物理字段1:N的關聯關系。通過業務術語邏輯字段與對應物理庫表物理字段的1:N的關聯關系,可將業務術語字段的數據標準自動映射至對應物理庫表字段,例如字段命名規則、字段編碼規則、字段取值范圍、是否主鍵、是否唯一、是否非空等,實現數據標準的低成本配置、高效應用,為后續的數據質量治理提供有效依據。
數據質量管理工具支持提供多種可視化規則模板配置能力,覆蓋數據質量管理中的各類稽核場景,包括數據的及時性、完整性、一致性、準確性、邏輯性等20+稽核規則;此外對于復雜場景的稽核,支持自定義規則模板配置能力,可通過SQL、Shell、存儲過程等自定義靈活配置。
及時性規則:主要用于對接口層的數據是否準時到達進行稽核,包括表數據、表字段數據、文件數據等。
完整性規則:主要用于稽核從業務系統采集數據的庫表或文件到接口層庫表或文件的記錄是否完整,系統會根據取數條件判斷兩邊的表記錄數或文件名稱/大小等是否完整一致。
一致性規則:主要用于稽核從業務系統采集庫表數據同步至數倉接口層庫表間實例明細是否一致、或同指標應用不同庫表間指標值統計是否一致等,包括主數據一致性、明細一致性、指標值一致性等。
準確性規則:主要用于稽核庫表的數據字段格式是否符合數據標準規范定義,包括主鍵唯一性、不可重復性、非空性、外鍵準確性、取值范圍、編碼規則等。
邏輯性規則:支持目標表當前賬期的數據與歷史賬期數據進行比較,是否滿足一定的波動率、閥值、平衡公式的要求,判斷數據的波動情況。
自定義規則:對于復雜場景的稽核,可通過SQL、Shell、存儲過程等自定義靈活配置。
根據不同的配置場景,支持多視角質量規則配置,包括基于規則視角、表視角、任務視角等,可按需選擇,靈活應用。除了多視角配置能力外,產品持續提升免配置、低配置、批量配置等能力,可降低配置成本,提升配置效率。
規則免配置:包括對于關鍵源表、目標表的總數一致性比對等,通過開關控制腳本解析日志獲取庫表記錄數。
規則低配置:包括對于庫表的主鍵、關鍵維度、關鍵度量的非空性校驗等,根據數據標準推薦配置對應的數據質量規則。
規則批量配置:包括數倉目錄批量配置(目錄下的庫表可自動沿襲配置)、表視角批量配置、EXCEL導入批量配置等能力。
數據質量稽核是通過建立數據質量管理組織機構,制定質量管理規范,確定相應的工作流程方法,并在系統中實現質量檢查、修正、考核功能,形成數據質量修正閉環的機制;數據稽核是對數據本身執行合法性等方面檢查的過程,通過配置質量規則和執行稽核引擎來實現對數據屬性、數據屬性關系、數據表關系的檢查。
質量稽核引擎是基于配置的質量規則策略自動解析生成可執行的稽核任務,自動輸出稽核結果。
稽核對象數據源類型:包括MySQL、Oracle、GP、GBase、Hive、ES、HBase、FTP等,基本涵蓋業務系統的數據源類型。
質量稽核任務頻率配置:歷法支持公歷和農歷,稽核頻率可選擇月、日、小時、分鐘、非周期等類型,可根據實際需要靈活選擇。
質量稽核任務高效執行:可基于稽核對象字段進行任務分片設置,實現任務分區分片、多任務多線程、分布式等執行方式,提升質量稽核效率。
質量稽核結果自動輸出:基于質量規則配置的策略例如稽核通過、稽核警告、稽核不通過等閾值范圍,稽核引擎自動輸出稽核結果和稽核差異明細數據等,可供業務人員查看和跟蹤處理。
對于數據質量稽核結果提供可視化分析能力,支持通過拖拽式、組件化的方式自定義質量報告,包括數據質量稽核結果概覽、數據質量總體得分、分層分域分質量規則類型得分、分層分域分質量規則類型質量趨勢圖等多維度分析,讓數據質量情況看得見。
對于生成的數據質量報告,支持面向組織、用戶、角色等方式進行報告共享,報告可轉換成圖片、PDF、xlsx、html、txt等,可通過短信、郵件、FTP等方式推送質量報告,并可設置推送頻率,讓數據質量情況被關注。
對于已定義的數據質量報告可沉淀為報告模版,可快速復用,降低報告配置成本。
對于數據質量規則支持模板化派單配置,包括配置工單接收人、工單處理流程、工單處理時限等,對數據質量稽核不通過的問題系統根據配置自動發送預警工單,通知源端或問題負責人進行質量整改。同時可將已配置的派單流程沉淀為模版,可供后續配置直接引用,降低配置工作量。
工單處理人完成質量整改進行回單時,系統自動關聯啟動質量稽核任務對已完成整改的數據進行二次稽核,二次稽核通過后才能歸檔整個工單流程。通過質量工單流程建設數據質量治理閉環體系,為平臺運營降本提效賦能。
目前數據質量管理工具已在國內外電信運營商行業、政企行業等多個項目落地。其中,重慶電信大數據平臺每天對元數據和實例數據進行及時性、完整性、一致性、準確性、邏輯性稽核,已沉淀570+質量稽核規則。通過自動化、流程化、閉環化數據質量管理,更少的配置投入,更快的數據問題發現,降低企業數據質量管理成本,幫助企業全面提升數據質量,為企業數據治理奠定了核心基礎。
企業數據加工往往是跨系統的,數據從采集到應用,涉及到多系統、多環節、多流程,數據鏈路環節長,數據加工復雜,常常沒有形成全鏈路血緣。此外,數據采集調度任務成千上萬、整體較分散,無法查看上下游質量影響情況,因此,聚焦業務應用的可視化全面質量監控顯的尤為重要。
企業數據質量治理的終極目標是為了提升數據價值、更好的服務于業務,因此以最終關注的業務應用為目標整體查看全鏈路數據質量情況更能符合實際業務訴求。
數據血緣是指在數據的全生命周期內,數據與數據之間會形成各式各樣的關系,貫穿整個數據鏈路。數據血緣主要包括表級血緣和字段級血緣,通過數據血緣分析針對數據流轉過程中產生并記錄的各種信息進行自動采集、處理和分析,對數據之間的血緣關系進行系統性梳理、關聯、并將梳理完成信息進行存儲,最終以全鏈路方式進行可視化呈現,有助于高效地實現質量問題的快速定位以及影響面的快速評估。
數據生產、加工過程中,數據的變更對于后續的數據鏈路都可能產生一定的影響,因此可視化監控數據的異動例如表結構變動、腳本變動、任務變動等,再基于數據血緣分析對上游或者下游相關數據鏈路的影響,有助于提前預測問題、規避或減少對業務應用的影響。
通過對整條數據鏈路進行監控和分析,可提前預測數據出數的及時性,監控數據波動情況、數據分布情況等質量信息,有助于快速發現問題、定位問題,從而及時進行干預,減少質量問題的發生、降低問題對業務帶來的影響和運維成本。