對于運營商而言,數據分析是一項常年的重要工作,經營分析系統的歷史數據規模經常會達到PB級,如歷史通話詳情、寬帶辦理、話費充值信息等,在進行話費清單查詢等業務時,大量數據需要進行熱數據分析和關聯查詢。5G時代的到來,讓本就龐大的數據規模迎來進一步暴增,如何高效存儲和管理這些海量數據是運營商持續面臨的問題。
作為一家專注大數據、云計算等領域核心技術的高科技軟件企業,北京東方國信科技股份有限公司(簡稱“東方國信”)一直為運營商提供大數據分析解決方案,為了存儲這些海量數據,東方國信BEH大數據企業版主要采用傳統存算融合架構進行數據分析和存儲,但是存算融合架構仍然面臨的諸多的挑戰,例如——
文件規模:使用單個NameNode性能受限于單節點性能瓶頸,通常更大文件規模量級只能支持到億級別。
存儲成本:BEH與HDFS相同,存儲機制采用三副本存儲,空間利用率低,有效存儲可用空間利用率33%,隨著數據量的持續增長,存儲成本居高不下。
擴展難題:因計算和存儲融合,單臺服務器的存儲空間有限,針對單臺進行容量擴展導致計算資源“空旋”浪費。
深信服EDS存算分離解決方案,讓海量數據存儲不再成為困擾
為了解決傳統存算融合架構長久以來存在的弊端,東方國信BEH和深信服分布式存儲EDS研發人員經過近半年的不斷投入和測試,終于探索出了一條新的大數據存儲管理方案——EDS大數據存算分離解決方案,構建新一代運營商經分系統大數據存儲建設之道。
在近半年的測試中,雙方基于運營商大數據實際業務場景與傳統存算一體融合方案,進行了全面細致,多場景,多維度的嚴格對比測試。測試結果表明在大數據存算分離場景下,東方國信BEH大數據企業版與深信服EDS企業級分布式存儲能夠實現相互兼容,且在高壓力環境下針對TestDFSIO大文件讀寫、TeraSort數據排序、倉儲場景下冷熱數據關聯查詢、存量數據遷移,Hbase隨機讀寫等對比測試中,EDS存算分離方案各項性能表現優異。
在文件規模、存儲成本以及擴展性方面,EDS存算分離方案實現了全面升級。
1.突破性能瓶頸
EDS存算分離方案采用全分布式Namenode,相比于單個Namenode存儲架構,不再受限于性能瓶頸,單一命名空間文件數量支持可達百億級別。
2.降低存儲成本
通過糾刪碼技術提供高存儲利用率來進行歷史數據保存,相比BEH存儲可用空間提高2倍以上,在不影響在線熱數據的性能的前提下,幫助用戶節省針對歷史數據的開支和成本。
3.解決擴展難題
EDS 分布式存儲HDFS提供統一命名空間,分布式命名空間架構無規模瓶頸,可以持續擴展集群以存儲歷史數據,提高大數據集群靈活性并消除瓶頸規模,也避免了計算節點的資源浪費。
本次測試的各項優異表現,使雙方增加了重構運營商傳統大數據經分系統數據存儲管理架構的信心,未來雙方將共同為運營商等企業級用戶提供存儲效率更高、性價比更優、管理更智能的大數據存算分離解決方案。