自“東數西算”工程概念首次提出一年多以來,以打通“數”動脈、織就全國算力一張網為目標,中國政府憑借強大的基礎設施建設能力,高效推進整體工程,取得了斐然成績:
從算力基礎設施看,我國基礎設施算力規模達到 180EFlops,位居全球第二。(數據來自《中國綜合算力指數(2023 年)》)
從網絡基礎設施看,圍繞算力樞紐節點的網絡設施加速構建,三大通信運營商紛紛加快了連接東數西算樞紐節點的400G全光網絡建設。截至 2022 年底,國內各省份平均互聯網省際出口帶寬達到 51Tbps,年增速超 21%。
從平臺能力建設看,算力協同能力逐漸增強,據統計目前全國已發布或建設 10 余個算力調度平臺。尤其是基礎電信運營商均發布或建設了,實現算力+網絡+能力多要素的智慧算網大腦平臺。
從應用場景看,東數西算、東數西存、東數西渲、東數西挖等應用場景逐步落地,算力網絡基礎設施,正在以其獨特的優勢,推進著數字經濟的發展。
算力網絡基礎設施的硬件建設已取得了長足的進展,而如何用好這張算力網絡,服務好東數西算工程,讓更多企業享受到數字化基礎設施的紅利,仍面臨著4個方面的挑戰:
資源運營效率低,未能發揮西部算力規模優勢,降低算力使用成本國家建設東西部八大數據中心樞紐,從物理層面提供了可調度的大批算力資源,但數據中心有固定地理位置的不可移動性,其分散運營的現狀,無法形成規模效應。發揮多個數據中心的聯動和合力優勢,從調度層面實現算力真正的融通和流動,算力的全局最優供給和統籌管理能力仍有待提升。無法分散運營的現狀,無法形成規模效應。
場景及底層算力耦合度高,通用化平臺能力不足,企業的場景應用需進行針對性適配改造,相關技術門檻高和系統改造代價大,導致能夠參與東數西算紅利的企業數量少。
目前主要集中在大規模、大任務計算類的場景,尤其是智慧算力為主的大型計算,如渲染、模型訓練等。但此類場景的算力需求在整體算力需求中的占比不高。對于大量小規模、通用類算力場景支撐少。
場景落地對網絡帶寬的要求高,“西算”對于“東數”企業的吸引力不足當前東數西X場景主要采用大力飛磚的模式,利用超大的帶寬將數據傳輸到西部進行集中運算。帶寬要求高,傳輸成本也高,帶來的是成本價格高。尚不能對大顆粒算力任務進行拆分,高效識別哪些“東數”可傳輸到“西算”,從而減少傳輸數據,降低數據傳輸成本。
應對挑戰,需要利用算網大腦構建算網編排調度“軟實力”來提升資源運營能力水平,通過關鍵4點的建設,進一步推進東數西算工程的普惠化、規?;?。
以資源的并網統籌管理為發力點,解決海量、低成本算力資源供應問題
算力資源的體量,奠定了東數西算是否有足夠的算力可調,而算力資源的異構融通,則決定著東數西算的效果好壞。目前國家在東西部建設8個算力樞紐節點和10個數據中心集群,還有大大小小的超算智算中心,解決了算力資源體量的問題。但算力的建設主體有多方:城市政府、各大運營商、超算中心等科研機構、互聯網廠商等,這些算力架構存在差異,各自獨立運營,需要通過以下能力打造實現并網和融通調度:
不同層級的算力并網能力。運營層并網,以轉售第三方算力為主,通過訂單轉發實現并網;產品層并網,基于自有和外部算力自行定價,通過與第三方平臺對接實現并網;邏輯資源層并網,需提前預占資源,利用與云平臺開放的API服務對接實現并網。物理資源層并網,利用原生技術對物理資源進行直接管理,實現資源及產品的自主運營。
多類型算力的自動接入能力。針對不同算力類型、不同廠商的算力管理平臺,實現算力的自動化對接和納管,包括運營商和互聯網廠商的通用算力、各大主體大力建設的智算算力以及國家和部分互聯網廠商參與建設的超算節點。
異構算力的統一度量能力。針對不同類型的算力以統一的計算單位進行度量,以滿足客戶相同需求如何計算不同算力供應方應提供的算力數量。
統一的資源模型管理能力。提供統一的資源管理模型,實現對異構算力資源的統一管理和展示,為算力調度提供基礎。
以通用化調度框架能力為驅動點,驅動應用探索東數西算帶來的業務紅利
東數西X,將東部的數據調度到西部算力中進行存儲、渲染、計算或者訓練。從宏觀解決方案上分析,有兩種實現途徑。其一,應用自行進行數據的調度。例如:渲染類的應用,在西部租用算力資源,構建渲染服務能力,租用連接東西部的專屬網絡通道,將其在東部的數據傳遞西部進行渲染。其二,建設一個適用普遍應用東數西X需求的調度框架,提供數據便捷上傳入口,幫助用戶實現東西部數據高速通道連接,讓用戶和應用“無憂西算”。
通用調度框架建設,核心點在于:
算力網絡基礎設施接入和納管能力??蚣軐崿F對西部海量異構資源、東西部的核心傳輸網絡資源、及東部分布式接入網絡資源這一基礎設施的接入、納管和調度;
分布式的接入能力。制定分布式接入軟終端的統一協議,按需動態實現軟終端的近源部署,讓應用可以隨地接入調度平臺;提供不同形式的算力服務形態,如:裸算力、算力服務等,讓滿足普遍應用的算力使用需求;
需求解構和調度能力。調度框架可根據用戶的需求,從性能和安全隔離等緯度調度最優傳輸通道;從西部海量算力池中,從性能、價格、使用率等緯度,調度最優算力。
以代價感知的智能調度引擎為突破點,讓資源調度更加合理智能
通用化調度框架將用戶需求和算力搭建了橋梁具備了東數西算的基礎,還需一個智能引擎科學計算調度的成本和代價,智能化決策哪些東部數據需要傳輸到西部計算、調度哪些算力參與計算等,從而評估出同等收益下代價最優的調度方案。
調度任務按業務邏輯拆分。動態感知東西部算力資源情況,按不同的計算任務類型進行子任務的拆分,例如科學計算、算法訓練、視頻渲染、數據存儲等,形成多個聚類的調度子任務;
多種評估維度的調度方案生成。以能耗、成本、性能、類型、安全等維度,組合出多種調度方案,并對每一種調度方案的算力代價及配套的網絡傳輸代價進行計算;
構建代價感知算法,從多種調度方案中決策出最優者。代價感知算法會對備選的每一個調度方案,按算力成本、能耗、算力性能、網絡性能及安全性進行歸一化評估,能夠讓用戶的需求,得到最優的資源匹配,滿足計算要求的情況下,獲得成本最優的調度方案。
以無損壓縮、數據切片、云際計算等關鍵技術為增長點,讓數據在東西部間流轉更加高效、成本更低
海量的算力資源及通用化調度框架是東數西X的基礎,但要讓東數西X能進一步提升效益,需要通過技術手段降低數據從東部到西部流轉的效率??衫脭祿?,數據切片、在網計算等技術,讓數據傳輸更高效。
數據無損壓縮技術,讓數據傳輸占用更小的通道帶寬。數據壓縮,能夠在有限的網絡帶寬中,傳輸更多的用戶數據,無論是需要冷數據存儲的東數西存、大數據集訓練的東數西訓,還是大視頻渲染的東數西渲,都能大幅降低傳輸帶寬的負載,同時,無損壓縮確保在數據傳輸時不丟失任何原始數據信息,算網大腦調度框架,輔以較為成熟的Deflate等無損壓縮技術,能夠有效地減小數據的大小,提高數據傳輸的效率。數據切片多通道技術,讓數據傳輸更高效和安全可靠。數據切片,可以將一條傳輸通道,劃分成并行的多條邏輯通道,針對用戶的算網資源需求從目標計算數據間的耦合度、數據運算時的串并行關系、數據運行的時效要求等緯度進行分析,將數據進行切片拆分成多個小的算網需求,調度到不同的通道中進行傳輸。例如:時效要求高、運行順序靠前的數據,可通過獨享帶寬通道優先傳輸。時效要求低、運輸順序靠后,數據切片利用共享、低速率的通道進行傳輸。
云際計算技術,讓數據分布式調度計算資源進行運算。在數據切片技術的基礎上,使用云際計算計算,根據切片的計算要求和通算、智算、超算的能力特征,在全網范圍內調度適合的算力資源,將數據分布到不同的節點進行計算,實時進行計算過程的二次數據傳輸調度,最后進行結果整合匯總和回傳。
除此以外,還可以利用在網計算,存算分離等技術,進一步提升東數西算的整體效率。
2023中國移動全球合作伙伴大會期間,浩鯨科技正式發布智算時代下的新一代算網大腦BICN2.0??梢?/span>協助各大運營商,持續提升和優化算網大腦在算網編排層的核心能力,不斷構建通用化的平臺能力,降低場景應用門檻,降低使用成本。讓更多單位、企業、個人能夠使用到算力網絡這一基礎設施,享受東數西算工程這一政策紅利。