鯨品堂|實時數倉實戰

2022-06-13 245
什么是實時數倉

數字化轉型的驅動下,傳統的離線數據倉庫,將業務數據集中進行存儲后,以固定的計算邏輯定時進行ETL和其它建模后產出報表等應用。離線數據倉庫一般采用每日或每幾個小時進行一次計算的方式,計算和數據的實時性均較差,業務人員無法根據自己的即時性需要獲取幾分鐘之前的實時數據。

隨著軟件技術和硬件的發展,實時數據倉庫一類的解決方案趨于成熟并開始流行。實時數倉同時具有計算的實時性(計算在用戶查詢時發生,可自由變換,查詢速度快),和數據的實時性(數據產生插入數倉后很短時間內既可以查詢到),可以讓業務人員在幾秒鐘甚至幾百毫秒的時間內獲取到包含最近幾分鐘內的數據計算結果,以最大的實時性及靈活度應對千變萬化的業務挑戰。

實時計算技術日趨成熟

實時計算框架已經經歷了三代發展,分別是:Storm、SparkStreaming、Flink,計算框架越來越成熟。一方面,實時任務的開發已經能通過編寫 SQL 的方式來完成,在技術層面能很好地繼承離線數倉的架構設計思想;另一方面,在線數據開發平臺所提供的功能對實時任務開發、調試、運維的支持也日漸趨于成熟,開發成本逐步降低。

實時數倉的特點

為滿足數倉對實時性的要求,實時數倉新品,兼具快、易、省三大特點:
1
快:
數據通過實時的流式接入,利用成熟的實時計算與存儲技術,實現對數據的秒級計算,秒級分析應用的能力,使得供數時效從1天以上的時間提升到秒級內。
2
易:
支持基于SQL完成復雜流式計算語義定義,簡化開發,可以支持各種組件進行統一查詢,而不需要把數據從一個組件遷移到另一個組件。以實時統計新增產品發展數場景為例,僅用300行SQL代碼實現了原有800行Oracle腳本同樣的功能。
3
?。?/span>
傳統T+1的模式并不是24小時跑任務,計算高峰期在晚上,導致白天的資源利用不足,引入實時數倉后,數據是實時采集與實時計算,資源的使用分散到全天的過程,實際上把整個資源消耗的高峰和低峰抹平掉,充分利用資源,相當于節省了資源的浪費。

實時數倉快速提升數據價值

業務不斷增長,營銷活動變得越來越頻繁,如何快速有效地獲取數據價值,幫助業務部門高效的進行運營及營銷策略調整變得越來越重要與緊迫,而實時數倉剛好應對這種快速增長的業務訴求,例如以下幾個方面的數據價值提升:

1
豐富業務營銷場景能力:
缺乏實時類標簽關聯和運營營銷能力,需要建設實時營銷標簽和時效性更高的事件營銷場景,助力客戶轉化和價值提升。
2
實時運營分析能力提升:
缺乏分鐘級甚至更高效的實時數據分析能力,需要構建實時運營指標體系,為企業經營決策提供分鐘級實時應用通報,提效業務決策。

3
服務運營優化提升:

運營服務和業務流程從業務受理到服務開通,全流程場景涉及系統多,業務運營服務往往無法快速分析定位問題,需要建設實時的全鏈路的運營監控服務能力,提高業務服務水平。

4
實時通報看數:

運營商數據分析和匯總,主要采用半小時及以上頻率匯總,數據分析延遲高,出數不及時,導致管理人員、一線業務無法實時掌握營銷數據,無法快速決策,需要建設一個實時秒級的數據分析與匯總系統,幫助提升營銷能力,協助快速決策。

5
實時業務提醒:

在使用手機刷屏、看電影時,經常遇到因流量超標,造成客戶突然停機、莫名地支付超高的流量費用,引起客戶投訴或離網等情況,因此需要通過實時計算的能力,將流量數據與業務規則進行快速計算,并即時提醒客戶流量不足,避免客戶流失。


浩鯨科技實時數倉經典場景

某省電信運營商按照國家信息安全戰略要求,為實現全面去O云化,通過采用浩鯨實時數倉平臺,基于Flink+Hudi+CK+緩存技術架構,以流批一體化計算為核心,完成了新一代實時數倉建設,系統建設有效提升業務受理效率,加快了對業務營銷的賦能。

系統建設總體架構如下:

圖片關鍵詞

                   圖片關鍵詞

1、系統架構層面:

該運營商基于流消息,采用浩鯨科技實時數倉平臺,支撐多流合并、流流關聯、流表關聯,實現基于流的秒級關聯、計算,打造了自己的實時數倉體系,完成建設并沉淀的實時模型45+,指標100+,實時標簽180+。

2、分析應用層面:

實現省內實時經營視窗分析、季度營銷通報、歲末年初營銷通報、實時協號轉網多類實時通報、數字化大屏實時場景,數據分析和呈現效率由30分鐘+,提速到分鐘級甚至秒級,極大的提高的領導決策、一線人員運營、客服服務定位的效率。

數字化實時大屏(PC):

圖片關鍵詞

實時經營視窗(APP):

圖片關鍵詞

3、營銷服務層面:

建設了基于CRM實時API調用大數據的實時標簽,判斷客戶當前業務情況是否存在受理限制,實時業務受理。實時受理類標簽調用月均1W+次,查詢效率由原本30分鐘+的延遲,提速至5分鐘以內,極大減少了客戶在業務受理時的等待時間。

基于客戶流量、費用超標的流事件進行觸發,實時關聯和融合客戶畫像標簽,實現實時流量輔導、實時業務提醒、實時攜號轉網挽留場景建設,業務服務水平得到較大提升,客戶投訴率下降13%+,客戶價值增長7%+。

圖片關鍵詞

浩鯨科技實時數倉建設實戰

從構建一個高效的、實時處理數據的實時數倉出發,協助項目人員快速開發實時業務場景,并可以清晰的進行實時場景的運維自治,從而真正地解決在用數市場的數據時效性的難題和困境。

實時數倉庫從平臺化的總體規劃、功能的完善性、開發的易用性、運行的安全性、建設的高效性等出發,建設基于批流一體化的框架保障實現邏輯統一,可以處理所有數據,同時加強對數倉建設過程的標準、元數據與數據模型的管理,讓所有過程有據可循,可跟蹤可呈現,再利用當前先進的數據湖技術來保障數據的存儲及時永新;規劃設計的實時數倉建設思路如下圖:

圖片關鍵詞

1
實時數倉架構

數倉的分層搭建需要從復用、成本、質量、擴展性等方面去考慮,實時數倉的搭建,包括層次劃分、命名、主題域劃分、數據域劃分與離線相差不大,目前劃分層次如下圖,推出了以Flink、hudi與clickhouse為核心的批流一體化海量實時數倉架構,用1套架構解決了N種分析場景的需求,過去需要運維N種獨立的組件、開發N套系統、對接N種接口、N種安全策略,現在只用1個系統1套架構就都解決了數據割裂和開發復雜的問題,并且讓實時處理的架構變得非常簡單。

圖片關鍵詞
圖片關鍵詞
2
建設實踐

不管是從上下結構還是左右結構演進過來的數倉一體,最終都應該是一個簡單易用的系統體系,可快速接入數據、并高效實時的計算形成數倉各分層所需的數據,因此浩鯨科技實時數倉一體平臺提供四大關鍵特性,這四大關鍵特性都是在圍繞怎么把實時海量數據做到更加易用:

圖片關鍵詞

  • 快速接入

平臺封裝超40+的數據源接入接口,開發者在使用的時候,無需再進行對接源的學習研究,可以直接在平臺上拖拉式數據或直接引用數據源的編碼方式使用,便可以完成對數據源的快速接入,系統針對每種不同類型的數據都默認配置了數據解析引擎,可以很方便快捷的將結構化、半結構化的數據格式轉換化表字段模式,快速接入數據類型如下圖(針對結構化與半結構化數據均可以快速接入):

圖片關鍵詞

數據的快速接入可支持客戶分鐘級的自助打通實時數倉的建設,屏蔽了很多底層的配置細節,讓客戶實現快速的業務洞察。

  • 統一標準、元數據

實時數倉的標準沿用離線數倉的標準,標準的建設主要包括并遵守約定好的數據類型規范、數據冗余規范、數據表處理規范、表的生命周期管理,詞根設計規范、表命名規范、指標標簽的命名規范等;其中數倉的分層標準規范中基于ODS層設計規范、公共維度層設計規范、DWD明細層設計規范、DWS公共匯總層設計規范等進行分層設計;清晰數據結構。好的標準規范在實時數倉中可清晰用于數據血緣追蹤,減少重復開發,數據關系條理化,屏蔽原始數據的影響。

通過元數據可見技術,實現不同系統之間的數據可見性,進而實現雙向的讀寫能力。實時數倉的元數據管理支持批量導入各系統的的元數據庫,支持新增表自動同步。通過外表的元數據可見,實現了數據不搬遷,支持雙向的可讀可寫可感知。元數據自動發現技術,更是讓外表的創建和更新完全自動化,減少了大量手工運維調試的工作。用戶不再需要周期性同步表結構,不再需要擔心數據類型的不對齊。

引用hudi與clickhouse存儲實時數倉數據,組件提供對數據的增、刪、改的實時操作,保障存儲的數據的及時永新,這樣就有效的保障各層模型的實例數據的時效性,有利為各業務系統提供基于最新數據分析、決策相關的能力。

  • 提供統一的開發體驗

為節約各項目現場的開發成本,提升業務實現的效率,實時數倉的開發屏蔽復雜的跨源計算技術,提供近業務邏輯實現的基于模型的拖拉式的開發體驗與基于相對標準的統一的SQL開發體驗。
圖片關鍵詞
  • 系統自治

這個也是我們一直重點投入的領域,實時數據在建設過程中,由于計算任務經過環節較多,當出現問題的時候,往往在某一個地方很難定位與分析問題,需要從采集源、消息中間件、計算程序到數倉庫的全數據計算鏈路的流程中去查找原因才好定位問題。


自治的全鏈路運維保障


為幫助運維人員更好地分析與定位問題,平臺提供統一的運維管理能力,可在線查看處理各種業務與技術問題,通過智能的采集數據源、緩存、實時倉庫存儲與計算過程的指標,制定相應的指標閥值,快速實現對異常情況告警。同時系統針對識別到的異常的問題,建立系統運行的自治機構,自動識別源與目的臨時性問題決定數據自動處理方式,如自動重新消費、自動記錄或跳過數據等處理方式。系統運維圖如下:


圖片關鍵詞



自治的時效性保障


平臺通過提前壓測與監控,發現影響數據計算的性能問題,提前做好數據處理的準備:

1)提前壓測:提前發現可能會影響任務處理速度的瓶頸,常見的就是數據傾斜、大狀態的算子操作(join),及時預判是否當前資源是否可以支撐運行,保障計算的時效性,如果不能會提前進行告警通知。

2 ) 監控:監控任務當前的消費進度,在數據源處通過使用數據時間與當前系統時間對比判斷其消費進度,對于大量延遲系統嘗試增加并發與資源,若還是出現大量延遲會及時產生告警通知。


在項目上通過浩鯨科技的實時數倉平臺的能力,可以幫助客戶快速地實現數據的處理,高效搭建實時數倉,節約開發過程的成本與時間,解決客戶各種對數據時效性要求高的業務場景,提升客戶對業務的決策能力。

歡迎掃碼留言咨詢圖片關鍵詞

圖片關鍵詞



官方微信公眾號

浩鯨云計算科技股份有限公司 版權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安備 32011402011374號

亚洲精品免费视频_热99re6久精品国产首页青柠_精品国产专区91在线_亚洲美洲欧洲偷拍片区