鯨品堂|突破代碼編譯及組件兼容性瓶頸,自研WDP技術能力分享

2022-02-28 313

WDP浩鯨科技旗下鯨智大數據平臺的簡稱,提供基于HADOOP技術棧一體化的集成、管理、部署監控能力的平臺系統,實現了從底層開源組件代碼的編譯到軟件包的制作,以及通過組件之間的兼容性測試,提供快速部署安裝,集群主機管控的能力,最終形成統一、閉環的大數據整體解決方案。


本文通過對WDP相關技術和原理進行介紹,并基于相關案例的講解,向業界朋友分享團隊內部在研發過程中的一些思路,以及關于底座未來技術演進的展望,歡迎大家一起探討。


技術簡介


產品產生背景


隨著移動互聯網技術的高速發展,運營商的數據量呈指數級增長。如何利用海量數據資源進行價值和商業變現,成為運營商提高核心競爭力、搶占市場先機的關鍵。目前市場上的主流版本CDH/HDP都面臨停止更新、原廠技術支持成本較高、組件不齊備和較為老舊的問題。WDP適用企業級的大數據處理環境,是一個分布式數據處理系統,對外提供大容量的數據存儲、分析查詢和實時流式數據處理分析能力,是浩鯨在大數據產品技術方面沉淀多年的技術體現和產品實現,能夠為企業提供穩定、功能齊備的大數據平臺。

產品定位


結合多年的大數據技術研發和運營服務支撐經驗,浩鯨科技提供了自主可控的大數據發行版本,具備商用能力的企業級大數據平臺產品。產品覆蓋浩鯨科技在大數據實施方面所使用的技術棧和相關組件,并且提供一體化的部署運維能力。在解決過往CDH大數據平臺實施過程中,由于組件的缺少需要手工部署某些組件的問題,比如KAFKA,FLINK,SPARK等運維成本過高,兼容適配問題多等。

通過WDP的監控和運維管理端,實現大數據組件的可視化、快速部署和實施,并且最大程度上避免了兼容性問題,為上層應用提供統一穩定可靠的自主大數據底座。

產品價值


通過統一的運維監控平臺集成開源的HADOOP組件,進行定制化開發和兼容性適配,實現大數據組件的一體化部署和運維平臺。平臺自主可控,依賴于多年的研發經驗,涉及的HADOOP開源組件已具備技術兜底能力,能夠提供給客戶和應用可靠穩定的自主大數據平臺底座。

WDP具備高度的可擴展和定制化產品能力,與浩鯨科技的相關產品能夠高度集成,例如通過浩鯨科技的SIMS平臺,能夠實現一鍵輕松部署;浩鯨科技數據工廠完全對接WDP組件,兼容性得到最大限度的保證。

WDP具備大數據組件的高度可擴展能力,能夠引入新的技術組件或者進行版本迭代升級,滿足不同的應用對底座的功能或者性能的需求,解決了無需應用由于其他大數據平臺缺乏某些組件或者版本無法升級,帶來許多兼容和運維的難題。

WDP是浩鯨科技企業數據中臺的可靠底座,具備管理大規模HADOOP大數據集群的能力,對開源組件進行封裝和增強,對外提供穩定的大容量的數據存儲、查詢和分析能力。

產品方案的獨特技術實現


集群統一管控


通過對集群的統一管控,WDP能夠對接集群的物理主機,對所有主機進行組件角色的分配和相關軟件的安裝,支持通過界面和向導交互式頁面,對主機進行維護管理,解決開源版本的HADOOP組件部署麻煩的痛點。運維人員只需要關注WDP的管理端,即可對集群的主機進行組件的定制與分配,也能對某臺特定的主機進行單獨維護,如下線重新部署HADOOP組件等需求,也支持對集群進行擴展,在線添加主機納入統一管控。

圖片關鍵詞

一體化的大數據組件技術閉環


大數據的組件目前在開源社區是獨立演進的狀態,他們各自相互依賴,又具備自己獨立的版本號,不同的版本號之間的協調是一個相當棘手的問題:

例如:
組件
版本
依賴版本
HADOOP
3.2.0
HBASE:1.2.6
HIVE
3.1.2
HADOOP:3.1.0
HBASE
2.2.6
HADOOP:2.8.5

這些不同的HADOOP組件,社區版本在各自的演進過程中,會依賴對應的其它組件的版本,但是這些版本之間不是固定在一組版本號里面的,存在循環依賴,版本不一致的問題。

WDP在集合這些HADOOP組件的過程中,對組件的依賴關系進行了完整的梳理,確保我們集成的組件都在設定的版本技術范圍以內。然后對所有的源代碼的依賴包,例如POM文件的版本號進行調整,并且重新編譯,確保所有的依賴的jar包都在固定的版本號里面。也由于進行了版本號的調整,不可避免會出現一些兼容性的問題,經過完整的測試用例,我們對發現兼容性問題的部分進行了調試和分析,最終對源代碼的不兼容部分進行了修改,然后重新打包完成整套技術體系的閉環!
圖片關鍵詞圖片關鍵詞

統一的安全治理管控


WDP能夠滿足數據安全治理的要求:包括統一的租戶驗證,通過KERBEROS的鑒權機制,實現整個HADOOP組件體系的統一鑒權,利用集成的RANGER組件,實現多租戶的權限分配。HDFS,HIVE,HBASE等組件統一通過ranger組件進行權限控制。也支持KAFKA、presto等組件的權限分配。

作為滿足商用需求的大數據底座,具備完整的安全管控機制是最基本的要求,也是核心的競爭力。當前WDP的安全治理模式基于KERBEROS,它是大數據領域使用最廣泛的安全驗證機制。

圖片關鍵詞

統一的授權機制:RANGER
WDP比起廣泛應用的CDH5版本,在授權方面更加具備優勢,CDH5只能通過原生的或者sentry進行授權,權限的模型不統一,沒有可視化界面,使用相對麻煩,通過RANGER組件,實現了針對HDFS,HBASE,HIVE,YARN等全組件的統一授權。由于RANGER也是屬于獨立的社區版本,我們WDP在集成的過程中也遇到了一些版本號的兼容性問題,通過對部分插件進行改造和適配的基礎上,RANGER已經完美覆蓋了集成的HDFS,HBASE,HIVE,YARN,KAFKA的版本,實現了在閉環版本的集成上的統一權限認證。

技術價值


大規模的集群擴展能力


1)  支持大規模的集群管理能力,理論上設計可以支持1000臺主機的集群規模。
2)  超過300臺主機后,一般需要啟用HDFS聯邦存儲。WDP支持界面啟用和管理HDFS聯邦。
3)  支持在線擴展能力,支持在安裝集群的基礎上,在線擴展存儲和計算主機資源,擴展存儲和計算能力。

快速的技術迭代和升級擴展能力


針對HADOOP組件快速發展和迭代的現狀,不同HADOOP組件的演進路線和版本升級計劃各不相同。因此,WDP的重要工作是進行不同版本的適配和整合,針對不同版本進行適配和改造,完成一體化的版本技術升級和演進。

WDP擁有在線組件升級能力,針對不同組件的版本升級,提供了快速安全的升級方式:
圖片關鍵詞
圖片關鍵詞
圖片關鍵詞

老集群的升級和遷移能力


目前國內的運營商存量市場,老版本CDH5的hadoop2集群是主流,由于CDH5是免費的,后續對應的演進版本CDH6,CDP是收費的,授權費用較高,并且技術是國外的非國產技術,運營商進行后續版本演進升級的意愿不高,但又有明確的意愿升級到HADOOP3版本。針對這塊存量市場,WDP具備從CDH5版本進行升級和遷移到WDP的HADOOP3集群,確保數據和權限完整遷移,并且能夠進行快速遷移,在較短的停機時間完成系統的升級和遷移:

· 20臺以下的規模:1小時完成
· 100臺以下的規模:3小時完成
· 300臺以下規模:6小時完成

案例講解


某移動大規模集群


目前某移動是應用WDP的最大規模集群,當前接入WDP的機器超過100臺,計劃2022年完成1000臺機器的接入。

圖片關鍵詞

配置了計算規模:
存儲資源:600T
內存資源:25T
CPU資源:10000核

強大的任務調度能力


目前每天運行2W個調度任務,5T的數據,WDP的集群能夠充分利用集群的并行處理能力。
圖片關鍵詞圖片關鍵詞
圖片關鍵詞
圖片關鍵詞

高效的集群存儲空間利用率


HADOOP3支持糾刪碼,相比傳統的三副本模式,能夠節省大量的存儲空間。
圖片關鍵詞圖片關鍵詞
圖片關鍵詞

目前配置了600T的存儲默認使用RS-6-3-1024k模式)
RS-6-3-1024k:每組數據包含6個數據塊和3個校驗塊,一共9個塊,存儲使用效率6/9=67%,一個集群最小datanode數量為9,可允許3個datanode同時離線不影響應用訪問數據。

原來的3副本模式,600T的資源,實際只能使用200T的利用率,使用糾刪碼,可以使用400T的實際存儲空間。

技術展望與規劃思考


持續擴展與版本演進


WDP的架構設計是基于可擴展的技術框架實現,在底座的架構上,可以對開源組件進行管控和集成。目前已經具備了比較完整的技術棧,主要還是在離線方面的應用為主?,F在市場對實時性提出了更高的要求,在這背景下,實時數倉已經是重點的發展方向,WDP的技術演進路線,也需要在往這邊更進一步。

我們將引入Apache Hudi + Clickhouse的框架構建實時數據湖底座,它將帶來四大顯著的效果:

數據時效更快:支撐業務系統,實現分鐘級數據入湖,數據時效性從T+1到T+0;


處理性能更高:面對數據有刪除、更新的場景Hudi比Hive處理效率提升10倍;


開發更簡單:傳統數據入湖不支持更新或者刪除,開發人員需新建臨時表,將數據處理后再進行覆蓋,對同一個任務可能需要寫很多代碼去完成,有了Hudi的加持之后,做一個數據更新的操作就跟使用數據庫一樣簡單,單條語句即可完成;


資源利用率更高:傳統T+1的模式并不是24小時跑任務,計算高峰期在晚上,導致白天的資源利用不足,引入數據湖后,數據是實時采集入湖與實時計算,資源的使用分散到全天的過程,實際上把整個資源消耗的高峰和低峰抹平掉。


筑牢數據安全防護墻


增強數據底座在多方計算、隱私計算的能力、筑牢數據安全的保護墻,讓數據可用不可見。

構建多方安全計算:多方計算、同態加密、零知識證明等技術都是屬于這一范疇。其核心思想是設計特殊的加密算法和協議,從而支持在加密數據之上(即不接觸數據明文內容)直接進行計算,得到所需的計算結果,其特點:

輸入隱私性:安全多方計算研究的是各參與方在協作計算時如何對各方隱私數據進行保護,計算時不泄露任何本地數據;


計算正確性:多方計算參與各方就某一約定計算任務,通過約定MPC協議進行協同計算;


去中心化:安全多方計算中,各參與方地位平等,不存在任何有特權的參與方或第三方,提供一種去中心化的計算模式。


筑建可信任的大數據底座計算環境:隱私計算框架下,支持TEE可信計算技術,數據可用不可見,在保護數據安全的同時實現多源數據跨域合作,解決數據保護與融合應用難題。用戶可放心的將數據放入安全的隱私計算區中,安全無憂的與第三方數據進行聯合建模,支撐數據流通生態建設。

官方微信公眾號

浩鯨云計算科技股份有限公司 版權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安備 32011402011374號

亚洲精品免费视频_热99re6久精品国产首页青柠_精品国产专区91在线_亚洲美洲欧洲偷拍片区