發布時(shí)間(jiān):2018-05-01
聽(tīng)了(le)有(yǒu)關AI運維之後有(yǒu)很(hěn)多(duō)人(rén)感到(dào)比較焦慮,我所從(cóng)事(shì)的(de)運維或開(kāi)發将來(lá¥i)會(huì)不(bù)會(huì)被AI給替代掉呢(ne)?
現(xiàn)在新技(jì)術(shù)發展的(de)特别快(kuài),各種語言、技(jì)術(shù)、理(lǐ)念讓大(dà)家(jiā)确實感到(dào)自(zì)顧不(bù)暇跟不(bù)上(shàng)趟,但(dàn)是(shì☆)有(yǒu)一(yī)點,在這(zhè)裡(lǐ)我要(yào)特别重申一(yī)下(xià),AI在目前這(zhè)個(gè)•階段還(hái)是(shì)一(yī)種輔助大(dà)家(jiā)來(lái)進行(xíng)判斷和(hé)學習(xí)、定位處理(lǐ)問(wèn)題的(de↑)工(gōng)具,就(jiù)像無人(rén)駕駛,現(xiàn)在可(kě)以做(zuò)到(dào)完全沒有(yǒ u)人(rén)駕駛嗎(ma)?肯定不(bù)行(xíng),未來(lái)無人(rén)駕駛是(shì)完全可(kě)以替代人(rén)的(de),但(dàn)它還(hái)有(yǒu)很(€hěn)長(cháng)一(yī)段路(lù)要(yào)走。AI運維就(jiù)像無人(rén)駕€駛一(yī)樣,未來(lái)前景很(hěn)光(guāng)明(míng),但(dàn)任重道(dào)遠(yuǎn)。
大(dà)部分(fēn)的(de)智能(néng)運維還(hái)沒有(yǒu)完全落地(dì),我所在的(de)企業(yè)也(yě)是(shì)處在一(yī)個(gè)探索的(de)階段。在一β(yī)個(gè)傳統的(de)企業(yè)它的(de)運維該如(rú)何走?從(cóng)以前的(de)腳本到(dào)工(gōng)具、€自(zì)動化(huà),再到(dào)現(xiàn)在的(de)智能(néng)運維,中間(jiān)這(zhè)個(gè)步驟該怎麽走?今天就(jiù)從(cóng)"下(xià)面五個(gè)方面給大(dà)家(jiā)分(fēn)享下(xià):
一(yī)、構建一(yī)個(gè)全面科(kē)學的(de)IT運維管理(lǐ)體(tǐ)系
第一(yī)個(gè)IT部門(mén)的(de)整體(tǐ)認可(kě)不(bù)足。雖然說(shuō)IT在<任何單位現(xiàn)在都(dōu)是(shì)一(yī)個(gè)比較重要(yào)的(de)部門(mén),但(dàn)是(shì)還(h®ái)有(yǒu)很(hěn)多(duō)領導仍然認為(wèi)它是(shì)一(yī)個(gè)成本中心,不(bù)是(shì)一(yī)個(gè)利潤中心,認為(÷wèi)這(zhè)個(gè)部門(mén)是(shì)花(huā)錢(qián)的(de),而不(bù≈)是(shì)像業(yè)務部門(mén)創造業(yè)務價值和(hé)創造利潤的(de)。
第二個(gè)對(duì)于運維工(gōng)作(zuò)人(rén)員(yuán)負荷比較大(dà),工(gōng)作(zuò)模式不(b®ù)被員(yuán)工(gōng)認可(kě)。在沒有(yǒu)自(zì)動化(huà)運維和(hé)平台之前,整個(gè)運維團隊隻有(yǒu)八個(gè)人(rén ),如(rú)果每個(gè)人(rén)一(yī)天處理(lǐ)六到(dào)十個(gè)故障,基本上(shàng)沒有(yǒ©u)時(shí)間(jiān)去(qù)研究别的(de)東(dōng)西(xī)了(le)。傳統運維壓力很(hěn)大(dà),疲于奔命和(hé)救火(huǒ),必須要(yào)尋求改變,走φ向自(zì)動化(huà)、平台化(huà)、智能(néng)化(huà)。
第三運行(xíng)的(de)态勢相(xiàng)關信息掌握不(bù)足。監控是(shì)多(duō)維度的(de),不(bù)同的(de)業(yè)務會(huì) 有(yǒu)不(bù)同的(de)指标,所有(yǒu)加起來(lái)有(yǒu)上(shàng)萬個(gπè)指标,但(dàn)卻沒有(yǒu)整體(tǐ)态勢變化(huà)圖、很(hěn)難成體(tǐ)系,不(bù)能(nénαg)實現(xiàn)智能(néng)感知(zhī)和(hé)态勢預測,整個(gè)運維态勢就(jiù)很(hěn)難保持平穩。
第四依據業(yè)務需求調整服務和(hé)設置資源的(de)能(néng)力不(bù)足。在業(yè)務故障處理'(lǐ)的(de)時(shí)候需要(yào)很(hěn)長(cháng)的(de)過程,中間(jiān)涉及到(dào)很(hěn)多(duō)的≤(de)相(xiàng)關技(jì)術(shù)部門(mén),需要(yào)和(hé)業(yè)務<方進行(xíng)交互,僅靠較少(shǎo)的(de)人(rén)力幾乎做(zuò)不(bù)到(dào)。
我們希望在現(xiàn)有(yǒu)的(de)業(yè)務體(tǐ)系裡(lǐ)面,運維部門(mén)要(yào)實現(xiàn)這(zhè)樣的(de)運維目↓标?
第一(yī)個(gè)全面的(de)性能(néng)管理(lǐ)。能(néng)夠提供對(duì)現(xiàn)在所有(yǒu)γ的(de)設備和(hé)服務質量進行(xíng)實時(shí)監測,并且提供動态阈值的(de)告警。
第二個(gè)統一(yī)的(de)資源管理(lǐ)。很(hěn)多(duō)企業(yè)業(yè)務都(dōu)上(shàng)雲了(le),需要(yào)有(yǒu)統一(yī)的(de)監控γ平台,可(kě)以把所有(yǒu)業(yè)務相(xiàng)應資源視(shì)圖抓取出來(lái),便于我們對(du±ì)整體(tǐ)資源有(yǒu)一(yī)個(gè)合理(lǐ)的(de)預估和(hé)分(fēn)配,并從(cóng)整體(tǐ)角度評估各個(gè)←業(yè)務部門(mén)對(duì)資源的(de)使用(yòng)情況。
第三個(gè)及時(shí)的(de)故障告警管理(lǐ)。我們發現(xiàn)有(yǒu)很(hěn)多(duō)産品還(hái)不(bù)能(néng)做σ(zuò)到(dào)完全及時(shí)的(de)告警,告警發生(shēng)後總是(shì)延時(shí)才能(néng)知(zhī)曉,需要(yào)實時(shí)↑的(de)準确的(de)告警,減少(shǎo)延遲和(hé)誤報(bào)。
第四集中統一(yī)展現(xiàn)管理(lǐ)。把很(hěn)多(duō)不(bù)同的(de)監控子(zǐ)系統集成起來(lái),這(zhè)÷個(gè)在現(xiàn)在的(de)企業(yè)裡(lǐ)面需求是(shì)很(hěn)大(dà)的(de),借助于各種工(gōng)具,≠采集數(shù)據之後自(zì)動合成一(yī)個(gè)報(bào)表統一(yī)展現(xiàn)出來(lái),方便管理(lǐ¥)。
我們關注的(de)核心問(wèn)題有(yǒu):
第一(yī)我們是(shì)一(yī)個(gè)跨地(dì)域的(de)平台,是(shì)多(duō)數(shù∞)據中心,我們希望有(yǒu)一(yī)個(gè)IT的(de)綜合運維平台,來(lái)統一(yī)管理(lǐ)。
第二是(shì)深入監控并進行(xíng)集中統一(yī)的(de)可(kě)視(shì)化(huà)管理(lǐ),提高(gāo)效率。
第三就(jiù)是(shì)有(yǒu)效的(de)預防問(wèn)題的(de)産生(shēng),降低(dī)運維成本。另外(wài)就(jiù)是(shì)問(wèn)題出現(xiàn)後,能ε(néng)夠快(kuài)速跟蹤定位,降低(dī)人(rén)力成本。
第四多(duō)維的(de)報(bào)表為(wèi)決策提供有(yǒu)力支撐,科(kē)學預判趨勢。
第五全局業(yè)務服務視(shì)角和(hé)平台化(huà)擴展以及大(dà)數(shù)據分(fēn)∏析的(de)融合,滿足企業(yè)對(duì)于業(yè)務高(gāo)效和(hé)快(kuài)速叠代的(de)需求。
第六保護和(hé)優化(huà)IT資産。以前各個(gè)業(yè)務都(dōu)是(shì)自(zì)己的(de)一(yī)套系統,有(yǒu)自(zì)己的(de)開(kāi•)發和(hé)運維人(rén)員(yuán)以及監控系統,這(zhè)對(duì)企業(yè)來(lái)說(shuō)是(shì)重複造輪子(zǐ)了(le)。現(xiàn)在上(shàng)雲後,把原有(yǒu)的(de)系統集中整合到(dào)雲上(shàng),通(tōng)過統一(yī)的(de)監控和(hé)資&源管理(lǐ)最好(hǎo)的(de)保護和(hé)優化(huà)資産。
要(yào)做(zuò)好(hǎo)智能(néng)化(huà)運維之前,我們經過深入的(de)分(fēn)析,提了(le)四→個(gè)要(yào)求:
第一(yī)個(gè)是(shì)規範化(huà)。規範化(huà)就(jiù)是(shì)盡可(kě)能(néng)的(de)把操作(z$uò)規範下(xià)來(lái),比如(rú)模闆裡(lǐ)是(shì)什(shén)麽基礎配置和(hé)安全基線,有(yǒu)一(y✔ī)個(gè)規範化(huà)的(de)标準。
第二個(gè)是(shì)可(kě)控性。就(jiù)是(shì)能(néng)夠通(tōng)過雲監控平台發現(xiàn)各個(gè)業(yè)務存在∑的(de)瓶頸,包括資源瓶頸和(hé)性能(néng)瓶頸,對(duì)可(kě)能(néng)産生(shēng)的(de)問(wèn™)題可(kě)控可(kě)分(fēn)析。
第三個(gè)是(shì)數(shù)據化(huà)。基于海(hǎi)量數(shù)據的(de)決策分(fēn)析,才能(néng)方便作(zu≈ò)出準确的(de)判斷和(hé)科(kē)學決策。
第四個(gè)是(shì)主動性。從(cóng)被動響應變為(wèi)主動服務,主動發現(xiàn)問(wèn)題,把問(wèn)題消₽滅在萌芽中,在業(yè)務發生(shēng)問(wèn)題之前及時(shí)告知(zhī),這(zhè)個(gè)感覺就(jiù)不↑(bù)一(yī)樣了(le)。
我們希望構建現(xiàn)代化(huà)和(hé)智能(néng)的(de)運維管理(lǐ)模式,主要(yào)是(shì)以下(xià)5個(gè)方面,如(rú)下(xi à)圖:
二、全景業(yè)務服務管理(lǐ)
在互聯網大(dà)爆炸時(shí)代,國(guó)家(jiā)層面上(shàng)也(yě)在提互聯網+、數(shù)字化 (huà)轉型、智能(néng)化(huà)等等。我們的(de)系統能(néng)不(bù)能(néng)快(kuài)速響應,為(wèi)業(yè)務保駕護航?
面向業(yè)務的(de)IT服務管理(lǐ)主要(yào)有(yǒu)這(zhè)幾個(gè)特點:
1、監控的(de)粒度要(yào)細,能(néng)通(tōng)過一(yī)個(gè)曲線捕捉到(dào)異常點•。
2、面向業(yè)務管理(lǐ)和(hé)面向用(yòng)戶管理(lǐ)。這(zhè)塊要(yào)區(qū)分(fēn)開(kāi)來(lái↔),在企業(yè)裡(lǐ)用(yòng)戶權限分(fēn)的(de)是(shì)比較細的(de),什(s•hén)麽人(rén)可(kě)以操作(zuò)什(shén)麽樣的(de)業(yè)務,管理(lǐ)員(yuán)可(kγě)以管理(lǐ)哪幾類業(yè)務都(dōu)有(yǒu)清晰的(de)定位。
3、數(shù)據的(de)全面和(hé)擴充性。數(shù)據隻有(yǒu)全面才能(néng)進行↕(xíng)科(kē)學的(de)決策,很(hěn)多(duō)時(shí)候如(rú)果看(kàn)到(dào)的(de)日(rì)志(zhì)不(bù)全,或者拿(ná)到(dào)的(de )監控數(shù)據不(bù)準,在做(zuò)決策的(de)時(shí)候肯定就(jiù)會(huì)比較貿然。比如(rú)數(shù)據中心某業(yè)務鏈路(lù)出現(xià&n)問(wèn)題,是(shì)不(bù)是(shì)要(yào)切換?數(shù)據是(shì)不(bù)是(shì)還(hái)能(néng)保持一(yī)緻?這(zhè)個(gè)時(sh í)候在沒有(yǒu)确定的(de)數(shù)據來(lái)支撐你(nǐ)決策之前,你(nǐ)做(zuò)決策時(shí)都(dōu)會(huì)感到(dào)比較忐忑,猶豫不(bù)前。
建立以業(yè)務為(wèi)導向的(de)綜合監控平台,主要(yào)目的(de)就(jiù)是(✔shì)要(yào)統一(yī)展現(xiàn)、統一(yī)管理(lǐ)和(hé)統一(yī)調度。全鏈路(lù)監測,這(zhè)個(gè)目的(de)₹就(jiù)是(shì)從(cóng)訪問(wèn)入口進來(lái)後一(yī)直到(dào)數(shù)據出去(q≤ù),每一(yī)個(gè)過程都(dōu)要(yào)能(néng)監控到(dào)感知(zhī)到(dào)。
從(cóng)業(yè)務的(de)視(shì)角進行(xíng)IT基礎資源的(de)管理(lǐ)與維護,一(yī)旦某個(gè)資源發生(shēng)故障或問✘(wèn)題,都(dōu)可(kě)以從(cóng)業(yè)務視(shì)圖中直觀地(dì)了(le)解•到(dào)這(zhè)個(gè)資源的(de)故障将影(yǐng)響什(shén)麽業(yè)務影(↕yǐng)響哪些(xiē)服務,進而了(le)解到(dào)影(yǐng)響哪些(xiē)用(yòng)戶。
數(shù)據庫慢(màn)了(le),CPU突然飙升了(le),這(zhè)些(xiē)地(dì)方這(zhè)些(xiē)資源突然發生Ω(shēng)變化(huà)了(le)之後,影(yǐng)響到(dào)哪些(xiē)業(yè)務呢(ne)?這(zhè)時(shí)候就(jiù)需要(yào)将監↔控資源視(shì)圖和(hé)業(yè)務關聯起來(lái),這(zhè)樣才能(néng)準确定位影(yǐng)響了(le)哪些(xi$ē)業(yè)務。
這(zhè)個(gè)是(shì)問(wèn)題的(de)整體(tǐ)診斷和(hé)分(fēn)析。
任何問(wèn)題都(dōu)需要(yào)采集相(xiàng)關的(de)日(rì)志(zhì)和(hé)數(shù$)據,才能(néng)科(kē)學全面的(de)分(fēn)析問(wèn)題。
采集層需要(yào)把不(bù)同數(shù)據源的(de)數(shù)據采集過來(lái),中間(jiān)層做(zuò)一(yī)些(xiē)性≈能(néng)分(fēn)析,配置管理(lǐ)和(hé)預警分(fēn)析、告警處理(lǐ)。展示層将分(fēn)析的(de)結果展示出來φ(lái),也(yě)就(jiù)是(shì)各種圖表,建立綜合的(de)業(yè)務指标分(fēn)析,方便根因定位和(hé)解決問(wèn)題。
三、基于大(dà)數(shù)據平台的(de)日(rì)志(zhì)分(fēn)析和(hé)多(duō)維報(bào)表
基于大(dà)數(shù)據平台,提供日(rì)志(zhì)的(de)采集和(hé)聚合處理(lǐ),通(tōng≥)過日(rì)志(zhì)關聯分(fēn)析幫助準确全面定位提升效能(néng)和(hé)滿意度,智能(néng)預§測和(hé)預警,為(wèi)科(kē)學決策提供量化(huà)依據。
将采集到(dào)的(de)網絡監控數(shù)據、機(jī)房(fáng)數(shù)據、服務器(qì)和(hé)雲環境監控數(shù)據以及攝像頭報(bào)警數(shù)據集中起來(l©ái),數(shù)據彙集之後生(shēng)成PMDB性能(néng)管理(lǐ)庫,在根據業(yè)務應用(yòng)的(de)特征,建立不(∞bù)同的(de)模型進行(xíng)相(xiàng)應的(de)算(suàn)法分(fēn)析。
根據不(bù)同的(de)資源類來(lái)定義KPI指标,建模目的(de)就(jiù)是(shì)方便快(kuài)速分(fēn)析,為(wèi)資源管理(lφǐ)、告警管理(lǐ)、集中化(huà)展現(xiàn)等其他(tā)模塊提供數(shù)據分(fēn)析模型的(dφe)支撐。
數(shù)據采集有(yǒu)兩種類型,一(yī)種是(shì)被動的(de),一(yī)種是(shì)主動的(de)。
采集業(yè)務相(xiàng)關指标,可(kě)以對(duì)數(shù)據進行(xíng)預處理(lǐ),做(zuò)一(yī)些(xiē)有(yǒu)效性的(de)标簽識别,比如(±rú)這(zhè)個(gè)信息和(hé)指标是(shì)不(bù)是(shì)你(nǐ)關注的(de),對(duì)不(bù)友(yǒu)好(hǎo)的(de)日(rì)志(zhì)進行(xíng)格式化(huà)處理(lǐ)。
性能(néng)指标的(de)計(jì)算(suàn),要(yào)跟業(yè)務進行(xíng)協同,從(cóng)業(yè)務的(de)角度來(lái)定義。設置♥的(de)
阈值,有(yǒu)些(xiē)場(chǎng)景是(shì)固定的(de),也(yě)有(yǒu)的(de)場(chǎng)景是(shì↕)動态的(de)。固定阈值就(jiù)相(xiàng)當于資源使用(yòng)率,肯定有(yǒu)一(yī)個(gè)上(sh±àng)限的(de)。動态阈值像一(yī)些(xiē)性能(néng)曲線,CPU的(de)利用(yòng)率、頁面響應、圖片加載等這(zhè)些(xiē)是(shì)&可(kě)以使用(yòng)動态阈值的(de),根據曆史數(shù)據來(lái)計(jì)算(suàλn)出這(zhè)個(gè)動态阈值,某一(yī)時(shí)刻的(de)曆史峰值,根據這(zhè)些(xiē)合理(lǐ)計(jì)'算(suàn)出在那(nà)個(gè)時(shí)刻到(dào)底需要(yào)多(duō)少(shǎ≈o)資源。
根據上(shàng)面的(de)阈值會(huì)有(yǒu)一(yī)個(gè)報(bào)警的(de)事(shì)件(j'iàn),任何事(shì)件(jiàn)産生(shēng)都(dōu)是(shì)基于時(shí)間(jiān)的(de),故障的(de)定位肯定也(yě)要(yào)基于時(shí)間(ji∑ān)找到(dào)相(xiàng)關的(de)日(rì)志(zhì)和(hé)發生(shēng)的(de)事(shì)σ件(jiàn)。
事(shì)件(jiàn)診斷一(yī)直是(shì)運維領域一(yī)個(gè)很(hěn)重要(yào)的(deε)工(gōng)作(zuò),事(shì)件(jiàn)和(hé)時(shí)序的(de)相(xià÷ng)關性不(bù)僅可(kě)以為(wèi)事(shì)件(jiàn)診斷提供很(hěn)好(hǎo)的(de)啓發,而且在幫 助我們進行(xíng)根因分(fēn)析時(shí)也(yě)能(néng)提供很(hěn)好(hǎo)的(de)線索。某個(gè)時(shí)間(jiān)段出♠現(xiàn)的(de)故障,都(dōu)會(huì)産生(shēng)一(yī)些(xiē)相(xiàng)關的(de)事(shì)件(jiàn),對(duì)它們進 行(xíng)篩選和(hé)過濾是(shì)能(néng)夠詳細捕捉到(dào)故障和(hé)定位到(dào)根因的(de)。
在事(shì)件(jiàn)診斷和(hé)處理(lǐ)中,是(shì)不(bù)是(shì)需要(yào)引入算(suàn)法,我覺得(de)是(∞shì)有(yǒu)必要(yào)的(de),如(rú)果能(néng)提高(gāo)效率和(hé)提高(gāo)解決問(wèn)題的(de)能(néng)力,一(yī)切探索δ都(dōu)是(shì)值得(de)的(de)。
也(yě)有(yǒu)一(yī)些(xiē)運維界的(de)朋(péng)友(yǒu)們花(huā)了(le)很(hěn)多(duō)時(shí)間(jiān)和(↔hé)精力,去(qù)學習(xí)和(hé)研究算(suàn)法,我認為(wèi)不(bù)必過于糾結算(suàn)法, 簡單了(le)解一(yī)下(xià)開(kāi)源的(∞de)這(zhè)些(xiē)算(suàn)法,知(zhī)道(dào)這(zhè)些(xiē)算(suàn)法的(de)輸入和(hé)輸出是(shì)什(shén)麽,能σ(néng)解決運維中哪些(xiē)實際問(wèn)題,以及組合起來(lái)又(yòu)能(néng)解決什(shén)麽問(wèn)題,方便我們©合理(lǐ)的(de)應用(yòng)它就(jiù)可(kě)以了(le),這(zhè)樣會(huì)對(duì)更快(kuài)落地(dì)智能(néng)運維起到(dào)事(¶shì)半功倍的(de)效果。
數(shù)據的(de)彙聚處理(lǐ)就(jiù)是(shì)把采集到(dào)的(de)數(shù)據有(yǒu)機(jī)的(de)關聯起來(lái),壓縮£、過濾形成标準化(huà)的(de)信息。數(shù)據導入則可(kě)以通(tōng)過全量的(de)HDFS和(hé)β增量的(de)Kafka來(lái)實現(xiàn)。
基于大(dà)數(shù)據平台的(de)多(duō)維報(bào)表,根據自(zì)己的(de)需要(yào),按照(zhào)日(rì)、周、月(yuè)來(lái)生(shēng₽)成運維報(bào)告,發送給管理(lǐ)層的(de)領導,這(zhè)些(xiē)數(shù)據是(shì)他(tā)們→比較關心的(de),比較清晰的(de)圖示出在這(zhè)些(xiē)時(shí)段發生(shēng)了(le)哪些(xiē)問(wèn)題,造成了(le)多(duōπ)大(dà)面的(de)影(yǐng)響,然後決定相(xiàng)關的(de)資源是(shì)否進行(xíng)÷擴充,相(xiàng)應的(de)業(yè)務部署是(shì)否需要(yào)調整。
綜合展示比較關注的(de)則是(shì)性能(néng)分(fēn)析、容量分(fēn)析和(hé)自(zì©)動化(huà)配置。比如(rú)今年(nián)采購(gòu)了(le)500TB存儲,我用(yòng)了↓(le)多(duō)少(shǎo),明(míng)年(nián)還(hái)需要(yào)擴容多(duō)少(shǎo),業(yè)務增長(cháng)量♠會(huì)有(yǒu)多(duō)少(shǎo),這(zhè)個(gè)都(dōu)影(yǐng)響到(dào)企業(yè)的(de)采購(gòu)計(jì)劃。根據業(y≠è)務的(de)實際進行(xíng)評估,來(lái)推算(suàn)出明(míng)年(nián)大(dà)概需要(yào)買多(duō)少(shǎo)TB的(de)存儲。
四、IT監控管理(lǐ)平台發展
IT監控管理(lǐ)的(de)發展大(dà)概有(yǒu)三代,從(cóng)上(shàng)世紀九十年(nián)代至今,第σ一(yī)代是(shì)以網絡為(wèi)中心,在這(zhè)個(gè)時(shí)期咱們提供比較多(duō)的(de)都(dōu)是(shì)基于網絡的(de)監控和(hé)故障發現(xiàn),帶寬管理(lǐ)和(hé)服務水(shuǐ)平協議(yì)。
第二代監控就(jiù)是(shì)以監控IT基礎設施為(wèi)中心,看(kàn)到(dào)比較多(duō)的(de)就(jiù)是(shì)主機(jī)、存儲、™操作(zuò)系統、中間(jiān)件(jiàn)、數(shù)據庫等各類基礎資源的(de)監控。
第三代監控以IT應用(yòng)為(wèi)中心,針對(duì)比較高(gāo)度複雜(zá)的(d∏e)交易,需要(yào)實現(xiàn)面向用(yòng)戶體(tǐ)驗和(hé)面向應用(yòng)高(gāo)可(kě)用(yòng)性的(≥de)實時(shí)監測和(hé)故障的(de)智能(néng)診斷,運維人(rén)員(yuán)必須→高(gāo)屋建瓴、全面謀劃,有(yǒu)能(néng)力提供一(yī)個(gè)全局性、高(gāo)效健壯、标≥準規範、自(zì)動化(huà)的(de)監控解決方案并加以實現(xiàn)。
五、故障管理(lǐ)及自(zì)治自(zì)愈
這(zhè)是(shì)我們每天收到(dào)的(de)告警情況統計(jì),在沒有(yǒu)自(zì)動化(huà)和(hé)智能(néng)化(huà)之前,我和(hé)大(dà)≥家(jiā)一(yī)樣心态是(shì)焦慮和(hé)崩潰的(de)。
如(rú)何從(cóng)錯(cuò)綜複雜(zá)的(de)運維監控數(shù)據中得(de)出我們所需要(yào↓)的(de)信息和(hé)結果,一(yī)句話(huà)就(jiù)是(shì)分(fēn)辨和(hé)精煉,提取真正需要(yào)關注的(de)信息,從(cóng)而減少₩(shǎo)每天的(de)告警信息量。
目标就(jiù)是(shì)簡、智、深。
簡就(jiù)是(shì)要(yào)确保業(yè)務和(hé)SLA服務級别,出現(xiàn)問(wèn)題要(yào)&及時(shí)響應、自(zì)動分(fēn)析和(hé)優化(huà),把處理(lǐ)的(de)流程精簡和(hé)✘高(gāo)效組合起來(lái),讓問(wèn)題匹配正确的(de)場(chǎng)景,找到(dào)正确的(de)人(rén),在第一(yī)時(shí)間(jiān)正确處理(lǐ)。
機(jī)器(qì)學習(xí)主要(yào)就(jiù)是(shì)突出智,這(zhè)個(gè)需要(yào)大(dà)量的(de)數(shù)據來(lái)訓練,故障出現(x♣iàn)的(de)形态是(shì)千奇百怪,對(duì)故障的(de)曆史數(shù)據進行(xíng)場(chǎng)景分(fēn)類和(hé)标注,不(b←ù)斷用(yòng)模式識别和(hé)數(shù)據來(lái)訓練機(jī)器(qì)識别和(hé)分(fēn)析,然後讓機(jī)器(qì)自(zì)動準确判斷。
當然标注不(bù)能(néng)完全靠人(rén),也(yě)需要(yào)通(tōng)過機(jī)器(qì)來(lái)自(zìγ)動進行(xíng)關鍵詞标注,而标注的(de)合理(lǐ)性就(jiù)需要(yào)人(rén)為(wèi)進♦行(xíng)判斷,然後再利用(yòng)到(dào)機(jī)器(qì)學習(xí)上(shàng),這(zhè)樣才能(néng)真正輔助我們做(zuò)一(yī)些(xiē)決策。
基于架構、工(gōng)程師(shī)的(de)經驗和(hé)概率來(lái)做(zuò)到(dào)收斂告警事(shì)件(jiàn)≈,基于規範和(hé)分(fēn)工(gōng)産生(shēng)告警事(shì)件(jiàn)發送到(dào)對(duì)的(de)人(rén),基于數(shù)據∑和(hé)模型來(lái)提高(gāo)事(shì)件(jiàn)的(de)處理(lǐ)能(néng)力。很(hěn)多(duō)事(shì)件(jiàn)有(☆yǒu)的(de)工(gōng)程師(shī)處理(lǐ)的(de)特别快(kuài),反之如(rú)果對(duì)這(zhè)個(gè)故障不(bù)熟悉的(de)人(rén) 可(kě)能(néng)花(huā)費(fèi)的(de)時(shí)間(jiān)就(jiù)很(hěn)長(cháng)。這(z≤hè)就(jiù)需要(yào)構建一(yī)個(gè)策略知(zhī)識庫,讓其他(tā)人(rén)來(lái)參考和(hé)學習(xí)£,提高(gāo)同類場(chǎng)景事(shì)件(jiàn)處理(lǐ)的(de)能(néng)力。
智能(néng)運維的(de)終極,實現(xiàn)的(de)目标就(jiù)是(shì)減少(shǎo)對¶(duì)人(rén)的(de)依賴,逐步信任機(jī)器(qì),實現(xiàn)機(jī)器(qì)的(de)自(zì)判、自(zì)斷和(hé)自(zì)✔決。
技(jì)術(shù)都(dōu)是(shì)在不(bù)斷的(de)進步,AI技(jì)術(shù)将來(lái)會(huì)解決很(★hěn)多(duō)的(de)一(yī)些(xiē)需要(yào)花(huā)費(fèi)大(dà)量人(rén)力和(hé)時(shí)間(jΩiān)才能(néng)解決的(de)事(shì)情,但(dàn)是(shì)AI不(bù)是(shì)一(yī)個(gè)很(hěn)純粹的(de)技(jì)術(sh≤ù),它也(yě)需要(yào)結合具體(tǐ)的(de)企業(yè)場(chǎng)景和(hé)業(yè)務,通(tōng)過計(jì)算(suàn)驅動和(hé)數(©shù)據驅動,才能(néng)産生(shēng)一(yī)個(gè)真正可(kě)用(yòng)的(≥de)産品。
智能(néng)運維技(jì)術(shù)在企業(yè)的(de)落地(dì),不(bù)是(shì)一(yī)蹴而就(jiù)的(de),是(shì)一(yī)個(gè)漸進和( hé)價值普及的(de)過程。
我們可(kě)以看(kàn)到(dào),智能(néng)運維技(jì)術(shù)已經成為(wèi)新運維演化(huà)的(de)一(yī)個(gè)$開(kāi)端,可(kě)以預見(jiàn)在更高(gāo)效和(hé)更多(duō)的(de)平台實踐之後,智能(néng)運維還(hái)将為(wèi)整個(gè)IT領域注入¶更多(duō)新鮮和(hé)活力,在未來(lái)發展和(hé)壯大(dà)下(xià)去(qù),成為(φwèi)引領潮流的(de)重要(yào)性力量!