發布時(shí)間(jiān):2021-04-28
初期階段IT基礎設施通(tōng)常處在小(xiǎo)規模狀态。幾台至幾十台機(jī)器(qì)的(de)規模,足以滿足業(yè)務需求。很(hěn)多(duō)公司都(dōu)不(bù)一(y☆ī)定配有(yǒu)專門(mén)的(de)運維人(rén)員(yuán)或者部門(mén),業(yè)務開(kāi)發人(γrén)員(yuán)完成自(zì)己業(yè)務工(gōng)作(zuò)的(de)同時(shí),也(yě)一(yī)并完成所負責管理(lǐ•)相(xiàng)關業(yè)務的(de)設備。随著(zhe)雲時(shí)代到(dào)來(lái)了(le),IT基礎設施迅速發展成幾百上(shàng)千服務器(qì₩)。更多(duō)的(de)業(yè)務系統上(shàng)線,業(yè)務人(rén)員(yuán)也(yě)無暇再顧及運維工(gōng)作(zuò)。此時&(shí),運維人(rén)員(yuán)開(kāi)始專業(yè)化(huà),獨立成部門(mén)。各類孤島式的(de)運維管理(lǐ)工(gōng)具上α(shàng)線,提升運維效率。
可(kě)是(shì)在各類運維工(gōng)具上(shàng)線之後,大(dà)家(jiā)發現(xiàn)運維人(rén)員(yuán)仍然時(shí)常要(yào)充當“救火(huǒ)隊員•(yuán)”,收警告、修機(jī)器(qì),哪裡(lǐ)宕機(jī)去(qù)哪裡(lǐ)。雖然有(yǒu)了(le)運維管理(lǐ)工(gōng≈)具自(zì)動化(huà)收集監控數(shù)據之後,但(dàn)還(hái)是(shì)有(yǒu)很(hěn)多(duō)問(wèn)題,讓底層物(wù)理(lǐ)資源←運維工(gōng)作(zuò)無法實現(xiàn)完全自(zì)動化(huà)。
目前,多(duō)數(shù)客戶所選擇的(de)運維監控方式都(dōu)是(shì)在操作(zuò)系統上(shàng)安裝Agent訪問(wèn)設備驅動,讀(dú)取硬件(™jiàn)狀态數(shù)據。所有(yǒu)監控狀态的(de)數(shù)據抓取都(dōu)受限于驅動程序。而驅動程序的(de)編寫人(rén)員(yuán)所關注的(de)重點在于 設備的(de)正常運行(xíng),而不(bù)在于設備的(de)狀态監控。因此,通(tōng)過驅動™程序所抓取的(de)硬件(jiàn)狀态參數(shù)始終有(yǒu)限。這(zhè)也(yě)就(jiù)能(néng)解釋,為(wèi)什(shén)麽很(hěn)多(duō)客戶在上(shàng)線了(le)運維監控軟件(jiàn)之後,還(hái>)是(shì)需要(yào)人(rén)工(gōng)巡檢。我們來(lái)看(kàn)幾個(gè)大(dà)家(jiā)經常遇到Ω(dào)的(de)問(wèn)題:
事(shì)例1:某客戶數(shù)據庫系統上(shàng)線,3塊900G 硬盤做(zuò)raid5。當出現(xiàn)一(yī)塊壞盤之後,監控軟件σ(jiàn)看(kàn)不(bù)到(dào)有(yǒu)壞盤,因為(wèi)系統還(hái)在正常運行(xíng)。人(rén)工(gōng)巡檢之後∑,發現(xiàn)設備上(shàng)有(yǒu)硬盤告警燈。監控軟件(jiàn)下(xià)又(yòu)無法查看(kàn)到(dào)系統是(shì)JBOD還(hái)是(shì)做(zuò)了(le)raid。巡檢中,數(shù)據庫服務器(qì)出現(xiàn)硬盤告警,監控軟件(jiàn)在這(zhè)種時(shí)候卻幫不¶(bù)上(shàng)忙。如(rú)果不(bù)是(shì)人(rén)工(gōng)巡檢,甚至可(kě)能(néng)都(dōu)沒有(yǒu)發現(xiàn)這(zhè)個$(gè)嚴重告警。
事(shì)例2:某客戶的(de)核心業(yè)務服務器(qì)配置雙電(diàn)源,卻在一(yī) 次電(diàn)源故障中出現(xiàn)了(le)服務器(qì)掉電(diàn)問(wèn)題。嚴重事(shì)故之後,追查責任,才發現(xiàn)原來(lái)雙電(diànβ)源中的(de)備用(yòng)電(diàn)源一(yī)直處于離(lí)線狀态。系統下(xià)的(de)agent無σ法監控到(dào)冗餘電(diàn)源離(lí)線,因為(wèi)一(yī)直有(yǒu)一(yī)個(gè)電(diàn)源在線,供電(diàn)沒有(y>ǒu)出現(xiàn)任何問(wèn)題,因而沒有(yǒu)告警信息出現(xiàn)。最終客戶發現(xiàn),監控系統上(shàng∞)線了(le),還(hái)是(shì)得(de)巡檢。
事(shì)例3:某客戶想要(yào)擴容舊(jiù)系統上(shàng)內(nèi)存容量,監控軟件(jiàn)顯示內(nèi)存容量為(wèi)256G。還(hái)有(yǒu)多(duō)少(shǎo)內(nèi)存槽位呢(ne)?機(jī)器(qì)上(shàng)是(shì)16G*16,還♠(hái)是(shì)32G*8呢(ne)?監控軟件(jiàn)獲取不(bù)到(dào)!很(hěn)崩潰,隻能(néng)去(qù)機(jī)房(fáng)拆機(jī)器(qì)驗內(nèi)存T_T
……
日(rì)常工(gōng)作(zuò)量大(dà),加班是(shì)常态。還(hái)要(yào)經常面臨設備問(wèn)題而帶來(lái)了(le)業(yè)務中斷風(fēng)險。≤監控系統上(shàng)線了(le),一(yī)切都(dōu)沒有(yǒu)開(kāi)始好(hǎo)轉。
從(cóng)專業(yè)的(de)角度來(lái)看(kàn),網絡管理(lǐ)可(kě)分(fēn)為(wèi)帶外(wài)管理Ω(lǐ)(out-of-band)和(hé)帶內(nèi)管理(lǐ)(in-band)兩種管理(lǐ)模式。上(shàng)述在系統下(xià),也(yě)就(jiù)是(shì)客戶→的(de)生(shēng)産環境下(xià)抓取數(shù)據,通(tōng)過生(shēng)産網絡讀(dú)取監控數₹(shù)據屬于帶內(nèi)管理(lǐ)。這(zhè)種管理(lǐ)方式,最大(dà)的(de)問(wèn)題就(jiù)在于當系統出現(xiàn)故障時(shí),機(jī)器(qì)就(jiù)無法管理(lǐ)。而且如(rú)上(shàng)所述,<獲取的(de)監控數(shù)據有(yǒu)限。而幾乎所有(yǒu)的(de)it設備廠(chǎng)商都(dōu)為(wèi)客λ戶提供帶外(wài)管理(lǐ)口,也(yě)就(jiù)是(shì)與生(shēng)産系統相(xiàng)隔離(lí)的(de)管理(lǐ£)口。管理(lǐ)口下(xià),設備廠(chǎng)商本身(shēn)就(jiù)提供了(le)詳細的(de)硬件(jiàn)參數(shù)。這(zhè)些(xiē)硬件(©jiàn)參數(shù)直接來(lái)自(zì)于服務器(qì)上(shàng)百多(duō)個(gè)sensor,直接從≠(cóng)硬件(jiàn)層面獲取的(de)狀态參數(shù)。數(shù)據更為(wèi)細節、全面和(hé)直觀。
帶外(wài)監控通(tōng)過sensor監視(shì)服務器(qì)狀态,就(jiù)像在設備上(shàng)安裝了(le)上(shàng)百<個(gè)攝像頭一(yī)樣,時(shí)刻巡視(shì)設備運行(xíng)狀态。冗餘電(diàn)源離(lí)線、機↓(jī)器(qì)上(shàng)任一(yī)條內(nèi)存容量、內(nèi)存頻(pín)率、內(nèi)存槽位信息、↔HBA卡槽位信息等等,這(zhè)些(xiē)帶內(nèi)軟件(jiàn)無法捕捉的(de)信息,都(dōu)可(kě)以通(tōng)過帶外(wài)監控獲取。這(zhè)就(jiù)≤等同于人(rén)工(gōng)巡視(shì),拆機(jī)驗選件(jiàn)。并且,輪訓所有(yǒu)機(jī)器(qì)的(↓de)時(shí)間(jiān)周期要(yào)遠(yuǎn)遠(yuǎn)大(dà)于人(rén)工(gōng)巡視(shì)的(de)時(shí)間(jiān)周期。帶外×(wài)監控的(de)輪訓周期可(kě)以達到(dào)秒(miǎo)級,而人(rén)工(gōng)巡檢的(de)工(gōng)作(≤zuò)量大(dà),以日(rì)為(wèi)周期已經是(shì)相(xiàng)當大(dà)的(de)巡檢密度了(le)。通(tōng)過帶內(nèi)監控來(lái)彌補帶外(wài)₩監控的(de)部分(fēn)空(kōng)缺,可(kě)以極大(dà)的(de)提升運維效率,真正意義上(shàng)實現(xiàn)無需人(rén)工(gōng)巡檢。
帶外(wài)管理(lǐ)最大(dà)的(de)好(hǎo)處就(jiù)在于與生(shēng)産系統相(xiàng¥)隔離(lí),直接實現(xiàn)與機(jī)器(qì)對(duì)話(huà)。這(zhè)樣效率更高(gāo),同時(shí)可(kě)以有(yǒu)效減少(λshǎo)對(duì)生(shēng)産系統的(de)影(yǐng)響。現(xiàn)在的(de)數(shù)據中心,通(tōn£g)常對(duì)所有(yǒu)設備都(dōu)已經建立了(le)比較完善的(de)帶外(wài)管理(lǐ)網絡♦。這(zhè)一(yī)日(rì)益完善的(de)架構,不(bù)僅僅可(kě)以用(yòng)來(lái)≈做(zuò)帶外(wài)管理(lǐ),還(hái)可(kě)以利用(yòng)其優勢構建一(yī)個(gè)完整的(de)底層DCOS(D≤ata Center Operating System)。揚帶外(wài)之長(cháng),實施建造一(yī)套完整的(de)底層運維架構ε。
什(shén)麽是(shì)DCOS?
DCOS是(shì)為(wèi)數(shù)據中心所有(yǒu)設備全生(shēng)命周期服務的(d€e)一(yī)套管理(lǐ)平台。簡單的(de)說(shuō),是(shì)為(wèi)數(shù)據中心的(de )設備進行(xíng)全生(shēng)命周期的(de)管理(lǐ),從(cóng)采購(gòu)到(dào)安裝使用(yòng),再到(dào)維修、報(bào♣)廢的(de)整個(gè)過程服務。
通(tōng)過DCOS的(de)全生(shēng)命周期自(zì)動化(huà)平台管理(lǐ),實現(xiàn)部署、監控、分(fēn)析、管理(lǐ)全自(zì)動,數(shù)據中心的(de)無人(rén)值守。盡可(kě)能(néng)的(de)保證服務過程的(de)标準化(huà),減少(shǎo)其中的(de)人(rén)為( wèi)管理(lǐ)。
我們梳理(lǐ)一(yī)下(xià)DCOS需要(yào)完成哪些(xiē)部分(fēn)的(de)自(zì)動化(huà)運維工(gōng)作(zuò)。
1.部署
當設備進入數(shù)據中心,首先通(tōng)過DCOS進行(xíng)業(yè)務流程審批,包含上(shàng)架申請(qǐng)等過程。然後,DCOS對(duì)資産進行(xíng)自(✔zì)動化(huà)的(de)驗收,主要(yào)檢驗配置是(shì)否符合規範,對(duì)各個(gè)選件(jiàn)(CPU/內(nèi)存/硬盤等)做(zuò)自(z'ì)動化(huà)的(de)壓力測試。可(kě)以實現(xiàn)選件(jiàn)級别的(de)資産驗證,所有(→yǒu)信息都(dōu)為(wèi)自(zì)動更新采集。如(rú)內(nèi)存信息,可(kě)以自(zì)動收集所有(yǒu)內(nèi)存的(de)插槽信息、容量、β頻(pín)率等。
設備驗收可(kě)以實現(xiàn)選件(jiàn)級設備驗收:如(rú)內(nèi)存,可(kě)以驗收內(nèi)存總容量,同時(shí)可( kě)以驗證型号、容量和(hé)數(shù)量信息。當設備通(tōng)過驗收之後,可(kě)以通(tōng)過帶外(wài)網絡自(zì)動化(huà)發₹現(xiàn)設備,可(kě)以自(zì)動化(huà)獲取設備上(shàng)帶有(yǒu)的(de)資産信ε息,并将設備自(zì)動化(huà)列入資産管理(lǐ)。
然後從(cóng)模闆庫當中,選擇對(duì)應的(de)自(zì)動化(huà)安裝模闆進行(xíng)全自(zì)動化(huà)的(de)安裝,包括自(zì)動化(huà)的(de)陣列卡配置>、OS配置,配置标準化(huà)的(de)基礎設施給上(shàng)層資源運維使用(yòng)。
完成整個(gè)過程後,在設備狀态列表中将設備狀态更新為(wèi)已上(shàng)線的(de)可(kě)用(yòng)狀态。
整個(gè)過程隻有(yǒu)上(shàng)架申請(qǐng)和(hé)模闆庫選擇模闆操作(zuò)需要(yào)人(rén)為(wèi)幹預,其它過 程均為(wèi)标準化(huà)的(de)自(zì)動化(huà)流程,可(kě)以大(dà)大(dà)提高(gāo)部署效率,并減少(shǎo)人(rén)為(wèαi)操作(zuò)帶來(lái)的(de)上(shàng)線質量不(bù)合格問(wèn)題。
2.監控/分(fēn)析
監控分(fēn)析是(shì)DCOS最核心的(de)功能(néng)。為(wèi)了(le)更好(hǎo)的(de)與上(shàng)層資源運維做(zuò)隔離(lí),DC≥OS采用(yòng)帶外(wài)管理(lǐ)的(de)方式盡量與上(shàng)層業(yè)務做(zuò)隔離(lí)。這(zhè)種方式,可(kě)以在設備無論上(®shàng)層系統是(shì)否正常運行(xíng)的(de)情況下(xià),都(dōu)可(kě)以對(duì)設備進行(xíng)監控分(fēn)析。且"帶外(wài)的(de)管理(lǐ)方式,可(kě)以保障帶外(wài)的(de)管理(lǐ)工(gōng)作(zuò)可(kě)以不(bù)影(yǐng)響正常的(de)業(yè♣)務運行(xíng)效率,同時(shí)也(yě)在一(yī)定程度上(shàng)保證了(le)業(yè)務數(shù)據的(de)安全性。
DCOS主要(yào)可(kě)以從(cóng)資源、機(jī)房(fáng)、業(yè)務、設備等多(duō)種不(bù)同的(de)視(shì)圖監控數(s↓hù)據中心的(de)各種資源。不(bù)同視(shì)圖下(xià),可(kě)以随時(shí)查看(kàn)設備的(de)健康狀态、性能(néng)狀态,可(kě)以用(yòng)列表以及多(duō)種圖标形式更加自(zì)動化(huà)的(de)直觀展現(xiàn)。對(duì)于設備異常狀态可(kě)以實現(xiàn)多€(duō)途徑的(de)告警,包括郵件(jiàn)、短(duǎn)信、微(wēi)信等形式。DCOS實行(xíng)多(duō)級告警制(zhì)度,根據告警的$(de)嚴重性分(fēn)成不(bù)同等級。對(duì)于部分(fēn)嚴重警告,可(kě)以設置告警升級規則,将告警自(zì)動化(huà)上(shàng)報(bào₹)高(gāo)層,實現(xiàn)問(wèn)題的(de)自(zì)動化(huà)升級。為(wèi)了(le)避免出現(xiàn)單一(☆yī)故障(如(rú)交換機(jī)故障)導緻的(de)與交換機(jī)連接的(de)服務器(qì)同時(shí)報(bào)警所産生(shēng)的(de)告警風(fēng≠)暴,DCOS可(kě)以實現(xiàn)對(duì)告警進行(xíng)自(zì)動化(huà)的(de)收斂,減少(shǎo)批量告警所帶來(lái)的(de)不(bù)必要(yào)的(de)恐慌。通(tōng)過這(zhè)種方式,實現(xiàn)百分(fēn)之百的(de)硬λ件(jiàn)狀态查看(kàn)。
DCOS提供所有(yǒu)服務器(qì)遠(yuǎn)程虛拟KVM功能(néng),不(bù)占用(yòng)系統資源和(hé)網絡資源、不(bù)需要(yào)安裝代理(lǐ)程序(Agent)β。同時(shí),可(kě)以節省大(dà)量購(gòu)買物(wù)理(lǐ)KVM費(fèi)用(yòng)等設備的>(de)采購(gòu)費(fèi)用(yòng)。
DCOS通(tōng)過帶外(wài)方式自(zì)動化(huà)獲取各個(gè)設備的(de)主要(yàσo)性能(néng)參數(shù),以圖形化(huà)界面展示,或者生(shēng)成報(bào)表,實現(xiàn<)設備資産的(de)大(dà)數(shù)據化(huà),幫助分(fēn)析設備資産資源利用(yòng)率,更加合理(lǐ)利用(yòng)、擴充的(de)配備設備資産。
通(tōng)過DCOS的(de)監控、分(fēn)析功能(néng),可(kě)以有(yǒu)效的(de)替代對(duì)于小(xiǎo)型機(jī)、X86服務器(qì)、存儲設備、備 份帶庫、光(guāng)纖交換機(jī)等設備的(de)人(rén)工(gōng)機(jī)房(fáng)巡檢。這(zhè)種方式大(dà)大(dà)節省了(le)人(rén)±工(gōng)巡檢所需的(de)人(rén)力,也(yě)提高(gāo)了(le)巡檢的(de)效率。整個(gè)監控、分(fēn)析都(dōu)有(yǒu)DCOS§後台自(zì)動化(huà)執行(xíng),隻需要(yào)人(rén)為(wèi)幹預去(qù)處理(lǐ)部分(fēn)設備故障。調查顯示,多(duō)數(shù)運維事(shì)故都(dōu)是(shì)因為(wèi)人(rén)為(wèi)誤操作(zuò)而導緻。相(xiàng)信大(dà)家(jiā)還(hái)記得(de)≤前不(bù)久發生(shēng)的(de)Gitlab運維人(rén)員(yuán)誤删庫,導緻Gitlab網站♠(zhàn)丢失了(le)6小(xiǎo)時(shí)數(shù)據。因此人(rén)為(wèi)幹預操作(zuò)的(de)減少(shǎo),可(kě)以避免更多(duō)的(de)運維事(♠shì)故。
3.管理(lǐ)
管理(lǐ)部分(fēn)包括對(duì)于數(shù)據中心資産(服務器(qì)、存儲、網絡、UPS、精密>空(kōng)調等)的(de)資産信息進行(xíng)管理(lǐ),其中包含對(duì)設備位置的(de¥)追蹤。以及設備維保情況、工(gōng)作(zuò)狀态等實時(shí)狀态的(de)自(zì)動化(huà)更新提醒。幫助形成it資産的(de)全局化(huà)統一(yī)視(shì")圖。
除了(le)自(zì)動化(huà)生(shēng)成設備數(shù)據列表,還(hái)能(né♥ng)通(tōng)過過濾信息,自(zì)動化(huà)靈活生(shēng)成資産報(bào)表。同時(shí),可(kě)以根據數(shù)據中心設備之間(jiān)的(₽de)互聯狀态,生(shēng)成設備的(de)邏輯視(shì)圖,以及數(shù)據中心機(jī)架的(de)位置視(shì)圖。除了(le)資産管理(lǐ)✔之外(wài),還(hái)需要(yào)進行(xíng)知(zhī)識庫管理(lǐ),形成運維人(rén)員(yuπán)之間(jiān),以及運維人(rén)員(yuán)和(hé)維保商/廠(chǎng)商之間(jiān)更快(∏kuài)的(de)自(zì)動化(huà)溝通(tōng)渠道(dào),讓維保商可(kě)以更快(kuài)的(de)将設備固件(jiàn)更新等信息自π(zì)動化(huà)推送給用(yòng)戶,減少(shǎo)原有(yǒu)的(de)繁瑣溝通(tōng)渠道(dào←)。
DCOS的(de)知(zhī)識庫也(yě)可(kě)以幫助運維人(rén)員(yuán)之間(jiān¥)實現(xiàn)一(yī)個(gè)長(cháng)期的(de)技(jì)術(shù)知(zhī)識累計(jì),可(kě)以實現(xiàn)技(jì)術(shù)文(wé♣n)檔的(de)快(kuài)速自(zì)動化(huà)檢索,讓平台不(bù)僅僅是(shì)一(yī)個(gè)自(zì)動化(huà)的(de)管理(lǐ)平台,還(hái)是(shì)一(yī)個(gè)很(hěn)好(hǎo)的(de)技(jì)術(shù)積累平台。
部署、監控分(fēn)析和(hé)管理(lǐ)三大(dà)自(zì)動化(huà)功能(néng)闆塊λ看(kàn)似互相(xiàng)獨立,實際上(shàng)實現(xiàn)了(le)數(shù)據的(de)互聯互通(tōngβ),為(wèi)彼此的(de)業(yè)務提供數(shù)據支撐,形成統一(yī)的(de)自(zì)動化(huà)管理(lǐ)視(shì)圖。
數(shù)據中心運維包含很(hěn)多(duō)的(de)內(nèi)容,從(cóng)底層往上(shàng),包含物(wù)理(lǐ)資源、虛拟資源、系統、應用(yòng®)、業(yè)務的(de)運維。複雜(zá)度往上(shàng)逐層遞增。而重要(yào)性卻是(shì)以底層運維為(wèi)基礎。
衆所周知(zhī),運維部門(mén)的(de)多(duō)數(shù)的(de)運維工(gōng)作(zuò)80%集中在底層物(wù)理(lǐ)資源、系統資源運維。這(zhè)正符合Ω二八定律,我們在花(huā)80%的(de)時(shí)間(jiān)做(zuò)20%的(de)工(gōng)作(zuò)內(nèi)容。如(rú)果是(shì)這(zhè)樣,我們需要(yδào)将運維工(gōng)作(zuò)做(zuò)剝離(lí)。将這(zhè)20%的(de)工(gōng)作(zuò)從(cóng)整個(gè♠)運維體(tǐ)系剝離(lí)開(kāi)來(lái),通(tōng)過帶外(wài)網絡架構來(lái)進行(xíng)統一(yī)管理(lǐ),建立一(yī)個(gè)♦底層運維的(de)“簡生(shēng)态”。用(yòng)更直觀、更标準化(huà)的(de)視(shì)圖來(lái)簡化(huà)這(zh↑è)一(yī)部分(fēn)的(de)管理(lǐ),提升基礎工(gōng)作(zuò)的(de)管理(lǐ)效率,實實在在的(de)提升日(rì)常運維管理(lǐ)工(g♥ōng)作(zuò)的(de)質量。這(zhè)就(jiù)好(hǎo)像物(wù)理(lǐ)設備是(shì)水(shuǐ)杯,而設備£上(shàng)承載的(de)萬千業(yè)務是(shì)水(shuǐ)杯裡(lǐ)的(de)可(kě)樂(yu™è)或者檸檬茶,無論水(shuǐ)杯裡(lǐ)裝的(de)是(shì)什(shén)麽,帶外(wài)管理(lǐ)的(de)任←務隻負責保障水(shuǐ)杯的(de)完整,不(bù)會(huì)有(yǒu)水(shuǐ)杯裡(lǐ)的(de)內(nèi)容流失。最最重要(yào)的(de)任務,用(yòng)最簡化(huàβ)的(de)方式來(lái)保駕護航,反而能(néng)赢得(de)最佳的(de)效果。
未來(lái)的(de)理(lǐ)想是(shì)通(tōng)過帶外(wài)來(lái)彌補帶內(nèi)設備管理(lǐ)的(de)空(kōng)缺,真正意義上(shàng)實現(xi$àn)最佳的(de)物(wù)理(lǐ)設備管理(lǐ),24小(xiǎo)時(shí)不(bù)間(jiān)斷保障物(wù)理(lǐ)設備的(de)正常運行(xíng)。可(kě)以點擊鼠标,就¥(jiù)能(néng)完成成千上(shàng)萬服務器(qì)的(de)運營管理(lǐ),讓生(shēng)活不(bù)再是(shì)眼前的(de)苟且,還(hái)有(yǒu)詩和(hé♠)遠(yuǎn)方。