導讀
中國移動自2019年正式啟動了核心網(wǎng)系統(tǒng)的NFV云化轉(zhuǎn)型,已建成全球規(guī)模最大的網(wǎng)絡云,目前核心網(wǎng)云化比例超80%。與傳統(tǒng)由廠商提供軟硬一體化的網(wǎng)絡設備不同,NFV云化轉(zhuǎn)型通過軟硬解耦提高網(wǎng)絡靈活性和開放度的同時,也帶來大規(guī)模、多廠商產(chǎn)品集成與互操作難的問題,成為運營商推進網(wǎng)絡云化所必須突破的巨大挑戰(zhàn)。
為了應對這一挑戰(zhàn),中國移動在實施網(wǎng)絡云化轉(zhuǎn)型的過程中,充分認識到必須以更加自動化、智能化的手段破解NFV帶來的復雜度,以工具能力的提升破解人工所無法應對的網(wǎng)絡從建設到運維的挑戰(zhàn)。按照公司自智網(wǎng)絡的總體發(fā)展要求,通過提供大規(guī)模資源池內(nèi)服務器及交換機等設備的自動化配置能力,在網(wǎng)絡云落地中的硬件集成建設環(huán)節(jié)實現(xiàn)了“零接觸自配置”,使得大規(guī)模資源池建設交付效率大幅提升。
什么是零接觸自配置
傳統(tǒng)大規(guī)模資源池集成硬件配置階段,多采取運營商提供標準、廠商提供技術的方式,這種傳統(tǒng)方案主要有以下問題:
1、雖然廠商可以提供部分自動化配置工具,但是由于現(xiàn)場設備數(shù)量及型號種類多,涉及到多個廠家之間對接適配,導致現(xiàn)場仍然需要大量人工操作,配置進度整體較慢,且人工配置出錯率也比較高。
2、當多個資源池同時建設時,配置信息和設備信息需雙方確認好具體資源池后,才能執(zhí)行相關硬件設備配置,其中涉及的人工溝通成本較高,無法保證信息的實時性及準確性。配置階段各資源池系統(tǒng)獨立運行,相關硬件配置結果數(shù)據(jù)無法自動化進行匯總、統(tǒng)計及分析。
3、當硬件設備的配置項有改動時,需要現(xiàn)場人工觸發(fā)再次配置,當硬件資源池規(guī)模較大、數(shù)量較多時,引入的工作量較大且容易出現(xiàn)錯誤。
網(wǎng)絡云資源池硬件集成零接觸自配置的技術方案,就是針對集成過程中運營商自身需求和跨廠商集成痛點進行設計,在設備上架上電后,即可自動確認資源池信息、設備信息及配置內(nèi)容,自動下發(fā)配置到待配設備。整個過程無需人工參與(零接觸)、全自動化持續(xù)進行(自配置),實現(xiàn)現(xiàn)場隨建隨配、“即插即用”的效果。
解決方案介紹
中國移動網(wǎng)絡云零接觸自配置技術架構由中央服務器和分布于各個硬件資源池的本地服務器組成。中央服務器集成了各硬件資源池的數(shù)據(jù),控制資源池信息的統(tǒng)一下發(fā),并匯總分析配置結果,進行全局信息的可視化展示;各資源池本地服務器則完成硬件設備配置、上傳單資源池測試結果至中央服務器的功能。
本地配置服務器采用模塊化設計,其中包括資源池自動化識別模塊、DHCP服務模塊、PXE鏡像模塊、交換機配置模塊、服務器配置模塊,相關配置功能基于SSH、Redfish、IPMI等業(yè)界標準技術接口實現(xiàn)。
以中國移動網(wǎng)絡云三期資源池網(wǎng)絡架構為例,整個技術應用流程包括:
(1)本地服務器接入到硬件資源池后,各功能模塊開始自動運行,通過DHCP模塊為當前連接的交換機設備分配臨時IP地址。
(2)資源池自動化識別模塊通過臨時IP地址登錄設備,獲取設備SN等相關信息,并以此為依據(jù)向中央服務器請求,獲取當前資源池的設備信息和預先定義、需要配置的各類參數(shù)數(shù)據(jù)。
(3)交換機配置模塊根據(jù)預先定義的配置參數(shù),通過相關命令對可訪問的設備進行配置。根據(jù)不同的交換機類別和型號,可能需要執(zhí)行多輪不同的參數(shù)配置和狀態(tài)檢查,并將配置結果上傳至中央服務器。
(4)在交換機逐步完成配置、放通網(wǎng)絡的過程中,PXE鏡像模塊會陸續(xù)收到服務器的PXE啟動請求,并根據(jù)預定義配置信息完成BMC IP地址、網(wǎng)關等初始化配置。
(5)服務器BMC IP配置成功后,服務器配置模塊將通過帶外方式登錄服務器,對服務器狀態(tài)進行檢查,并對不滿足預定義要求的BMC、BIOS等相關參數(shù)進行配置更新。如果發(fā)現(xiàn)有新版本的BMC固件,也會自動進行更新。
(6)以上所有模塊循環(huán)持續(xù)執(zhí)行,如果設備存在當前未到貨、未開機、未連線等情況,或者更改了資源池設計信息,所有配置參數(shù)都會自動更新,直至所有交換機和服務器配置驗收完成。
方案亮點總結
中國移動零接觸自配置方案結合自身大規(guī)模云資源池建設方式、組網(wǎng)方案和驗收要求等進行了定制優(yōu)化,具有以下亮點:
1、與現(xiàn)場施工低耦合:硬件設備配置模塊處于持續(xù)運行模式,會持續(xù)對被發(fā)現(xiàn)設備進行自動配置及檢查,對現(xiàn)場施工方式和進度沒有特殊要求,實現(xiàn)了一種契合現(xiàn)場硬件設備施工的“隨建隨驗”模式。配置整改報告會通過郵件自動發(fā)送給現(xiàn)場施工負責人,可第一時間對施工及設備問題進行整改,減少現(xiàn)場人工溝通和操作,大大提升效率。
2、多廠商設備適配:基于前期與相關設備廠商的合作,自動化配置功能能夠支持中國移動集采的各個廠商和型號的服務器、交換機設備。針對不同交換機設備出廠預配置、ZTP實現(xiàn)細節(jié)的少量差別,也提前設計了不同的流程,結合設備命令進行適配,確,F(xiàn)場能夠配置成功。
3、配置流程和內(nèi)容精準控制。網(wǎng)絡云硬集單資源池包含帶內(nèi)、帶外兩張網(wǎng)絡,最多包括上百臺交換機設備,上千臺服務器設備,各類網(wǎng)絡設備的配置相互關聯(lián),配置時序不當會導致干擾和異常,需要精準控制配置邏輯。例如交換機配置模塊按照不同功能的交換機進行分層配置,對配置內(nèi)容和順序進行編排,采取多種措施防環(huán)、防網(wǎng)絡風暴避免設備出現(xiàn)托管的情況。
應用效果及未來展望:
2021-2022年中國移動網(wǎng)絡云三期項目建設的硬件集成階段,零接觸自配置技術方案在10多個省公司的數(shù)十個資源池規(guī)模應用。累計完成自動配置40余萬項,與傳統(tǒng)人工配置可能需耗時5-7天相比,單資源池零接觸自配置的平均耗時僅1-2個小時,且一次正確率從傳統(tǒng)的70%左右提升到100%,達到業(yè)界先進水平。
也正是因為采用了零接觸自配置的模式,中國移動研究院的自動化集成技術支撐團隊,才能夠在投入人員很少的情況下,通過部署在現(xiàn)場的自動化工具,7x24不間斷地支撐網(wǎng)絡云三期各資源池的建設,為確保交付進度發(fā)揮了重要作用。
中國移動網(wǎng)絡云零接觸自配置是全球運營商大規(guī)模網(wǎng)絡云資源池建設中首次實現(xiàn)硬件集成的零接觸自配置,為NFV云化轉(zhuǎn)型樹立了技術創(chuàng)新標桿。未來技術團隊還將進一步完善包含虛擬層、分布式存儲、MANO和網(wǎng)元等在內(nèi)的軟件零接觸自配置方案,并在更多場景推廣應用。
作者:
袁昕 中國移動研究院網(wǎng)絡與IT技術研究所
張璞 中國移動研究院網(wǎng)絡與IT技術研究所