C114通信網(wǎng)  |  通信人家園

資訊
2025/4/3 15:32

江蘇移動(dòng)與華為聯(lián)合研發(fā)智能故障治理平臺(tái),從實(shí)驗(yàn)室到生產(chǎn)實(shí)際應(yīng)用的跨越

C114通信網(wǎng)  

江蘇移動(dòng)與華為聯(lián)合研發(fā)的智能故障治理平臺(tái)實(shí)現(xiàn)9個(gè)月穩(wěn)定運(yùn)行,標(biāo)志著基于大模型的云原生運(yùn)維技術(shù)完成從實(shí)驗(yàn)室驗(yàn)證到生產(chǎn)部署的關(guān)鍵跨越。該平臺(tái)通過(guò)跨模態(tài)數(shù)據(jù)融合治理,構(gòu)建"大模型推理決策+小模型異常檢測(cè)"的雙引擎架構(gòu),系統(tǒng)性重構(gòu)故障處置全流程。經(jīng)生產(chǎn)驗(yàn)證,其智能診斷準(zhǔn)確率提升顯著,MTTR縮短37%(同比降17分鐘),形成"數(shù)據(jù)治理-智能診斷-知識(shí)反哺"的增強(qiáng)閉環(huán),為復(fù)雜系統(tǒng)故障治理提供可工程化復(fù)制的AI轉(zhuǎn)型路徑。

一、故障處理困境:

. 多云架構(gòu)日均產(chǎn)生億級(jí)運(yùn)維數(shù)據(jù),分散在監(jiān)控大盤(pán)、調(diào)用鏈等異構(gòu)平臺(tái),傳統(tǒng)固定規(guī)則難以識(shí)別指標(biāo)毛刺類(lèi)隱患,人工監(jiān)控需高頻切換界面進(jìn)行數(shù)據(jù)交叉驗(yàn)證,存在故障發(fā)現(xiàn)延遲。

. 由于多代異構(gòu)技術(shù)形成的超復(fù)雜的動(dòng)態(tài)連接,故障傳播路徑冗長(zhǎng),分層逐個(gè)定位的運(yùn)維方法效率低下,故障定位時(shí)長(zhǎng)難以有效收斂;

. 非結(jié)構(gòu)化故障報(bào)告缺乏可復(fù)現(xiàn)性,人工維護(hù)的知識(shí)庫(kù)更新滯后且復(fù)用率不足,疊加人員流動(dòng)影響,經(jīng)驗(yàn)傳承形成斷層。

二、破局之道:

針對(duì)上述痛點(diǎn),以"構(gòu)建故障全生命周期治理能力"為目標(biāo),通過(guò)多源運(yùn)維數(shù)據(jù)融合、異常指標(biāo)權(quán)重?cái)M合、大模型根因推理等技術(shù)突破,打造覆蓋“故障感知-診斷-歸檔-經(jīng)驗(yàn)復(fù)用”的閉環(huán)體系。

總體方案:構(gòu)建覆蓋故障全生命周期的智能化運(yùn)維體系

1、 事前通過(guò)標(biāo)準(zhǔn)化數(shù)據(jù)治理,建立統(tǒng)一運(yùn)維數(shù)據(jù)模型,實(shí)現(xiàn)跨系統(tǒng)(日志/指標(biāo)/追蹤)數(shù)據(jù)的采集、匯聚與管理,夯實(shí)分析底座;

2、 事中聚焦用戶體驗(yàn)革新,打造低門(mén)檻感知診斷工具,運(yùn)用AI算法關(guān)聯(lián)多源數(shù)據(jù),將復(fù)雜指標(biāo)翻譯為可視化的系統(tǒng)健康評(píng)分并自動(dòng)完成根因定位,使新手可5分鐘內(nèi)完成故障處置;

3、 事后建立故障資產(chǎn)閉環(huán),將案例歸檔融入到故障處理流程中,數(shù)字化且結(jié)構(gòu)化的故障數(shù)據(jù)(如故障指標(biāo),案例報(bào)告,故障圖譜)反哺到故障發(fā)現(xiàn)和診斷能力的提升。

最終形成“數(shù)據(jù)治理-智能診斷-知識(shí)反哺”的增強(qiáng)式運(yùn)維飛輪。

創(chuàng)新點(diǎn)1:基于多維度系統(tǒng)健康度量化評(píng)估模型,構(gòu)建系統(tǒng)健康曲線,實(shí)現(xiàn)全層級(jí)系統(tǒng)異常實(shí)時(shí)感知與可視化

構(gòu)建統(tǒng)一指標(biāo)智能分析能力,通過(guò)動(dòng)態(tài)閾值、短長(zhǎng)時(shí)差分,機(jī)器學(xué)習(xí)等方法對(duì)多種不同類(lèi)型的指標(biāo)數(shù)據(jù)進(jìn)行多維度的健康分析,識(shí)別關(guān)鍵異常指標(biāo),通過(guò)指標(biāo)歸一化及權(quán)重計(jì)算形成一條系統(tǒng)健康曲線,直觀感知系統(tǒng)綜合異常。

基于歷史案例數(shù)據(jù)的多維度指標(biāo)特征歸一化處理與動(dòng)態(tài)加權(quán)策略,構(gòu)建具有時(shí)序特征工程的機(jī)器學(xué)習(xí)訓(xùn)練集,通過(guò)集成學(xué)習(xí)框架完成模型訓(xùn)練后,結(jié)合實(shí)時(shí)采集的多源監(jiān)測(cè)數(shù)據(jù),運(yùn)用訓(xùn)練完成的分類(lèi)模型進(jìn)行在線特征匹配與模式識(shí)別,實(shí)現(xiàn)實(shí)時(shí)指標(biāo)與歷史案例庫(kù)的相似度匹配,通過(guò)指標(biāo)特征權(quán)重計(jì)算系統(tǒng)健康指數(shù)。

與傳統(tǒng)的多平臺(tái)輪巡收集離散指標(biāo)監(jiān)測(cè)的方式相比,運(yùn)維人員只需通過(guò)觀察心跳曲線即可全面感知系統(tǒng)各層級(jí)的故障情況。

創(chuàng)新點(diǎn)2:基于大模型的智能診斷與恢復(fù)推薦,實(shí)現(xiàn)故障根因推理與快速恢復(fù)

通過(guò)知識(shí)圖譜與檢索增強(qiáng)生成的協(xié)同架構(gòu),構(gòu)建基于大模型的故障診斷智能體,當(dāng)系統(tǒng)檢測(cè)到異常指標(biāo)(如API延遲突增)時(shí),首先從向量化指標(biāo)庫(kù)中檢索指標(biāo)定義(如“數(shù)據(jù)庫(kù)連接池耗盡”指標(biāo)),同時(shí)通過(guò)知識(shí)圖譜關(guān)聯(lián)指標(biāo)傳播鏈信息(如該API依賴的應(yīng)用、數(shù)據(jù)庫(kù)節(jié)點(diǎn)),將檢索到的指標(biāo)信息注入大模型上下文;大模型基于檢索增強(qiáng)的上下文,結(jié)合幻覺(jué)抑制技術(shù),生成概率化根因結(jié)論,如“OB主庫(kù)CPU高導(dǎo)致接口查詢阻塞”,并自動(dòng)完成自然語(yǔ)言故障診斷報(bào)告的輸出,支撐5分鐘故障定位目標(biāo)達(dá)成。

發(fā)生故障時(shí),運(yùn)維人員只需點(diǎn)擊診斷按鈕,系統(tǒng)即可通過(guò)AI算法快速抓取關(guān)鍵異常指標(biāo),并利用大語(yǔ)言模型(LLM)檢索故障傳播圖譜和運(yùn)維知識(shí)庫(kù)生成上下文信息,最終形成結(jié)構(gòu)化的診斷報(bào)告與恢復(fù)預(yù)案。

創(chuàng)新點(diǎn)3:基于案例積累,數(shù)據(jù)飛輪驅(qū)動(dòng)的持續(xù)演進(jìn)機(jī)制

通過(guò)持續(xù)收集和沉淀生產(chǎn)系統(tǒng)中的故障案例,系統(tǒng)能夠自動(dòng)生成高質(zhì)量的訓(xùn)練數(shù)據(jù)集,并周期性迭代升級(jí)模型,同時(shí)將故障資產(chǎn)歸檔融入故障處置流程中,持續(xù)完善指標(biāo)知識(shí)庫(kù),知識(shí)圖譜,案例等數(shù)據(jù)。這一過(guò)程形成了“數(shù)據(jù)積累-模型優(yōu)化-能力提升”的正向循環(huán),這種自我演進(jìn)的能力使得系統(tǒng)能夠適應(yīng)復(fù)雜多變的運(yùn)維環(huán)境,為故障治理平臺(tái)的數(shù)智化能力提升提供了可持續(xù)的動(dòng)力。

三、落地成效:

. 應(yīng)用于多個(gè)核心系統(tǒng),自動(dòng)完成故障診斷300+次,支撐48次新業(yè)務(wù)支付上線以及20多次重大割接;

. 故障感知準(zhǔn)確率98%,保障秒級(jí)發(fā)現(xiàn)故障;

. 故障診斷準(zhǔn)確率從30%提升至73%,大幅降低專(zhuān)家依賴度;

. 1-5-10指標(biāo)(1分鐘故障發(fā)現(xiàn),5分鐘定位,10分鐘恢復(fù))達(dá)標(biāo)率82%,MTTR(故障平均恢復(fù)時(shí)長(zhǎng))同比去年縮短17分鐘;

四、未來(lái)展望:

目前,已與多家單位深入合作,推動(dòng)AI運(yùn)維體系在南通等地的試點(diǎn)應(yīng)用。未來(lái),將持續(xù)深化技術(shù)應(yīng)用,通過(guò)標(biāo)準(zhǔn)化能力輸出,為更多行業(yè)場(chǎng)景提供可復(fù)用的智能運(yùn)維范式,推動(dòng)行業(yè)擁抱數(shù)智化未來(lái)。

給作者點(diǎn)贊
0 VS 0
寫(xiě)得不太好

  免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門(mén)文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141