發布時(shí)間(jiān):2018-05-01
近(jìn)年(nián)來(lái)運維技(jì)術(shù)飛(fēi)速發展,運維團隊大(dà)多(duō)建設好(hǎo)了$(le)各種系統,虛拟化(huà)、容器(qì)化(huà)、持續集成等等。但(dàn)是(shì)如(rú)何有(yǒu)效的(de)利用(yòng)≤這(zhè)些(xiē)系統最終實現(xiàn)站(zhàn)點的(de)高(gāo)可(kě)用(yòng)、高(gāo)性能∏(néng)、高(gāo)可(kě)擴展?随著(zhe)智能(néng)化(huà)技(jì)術(shù)的(de)發展,為(wèi)了(le)解決上(shàng)述運維領域的(de)問(wèn)♠題,智能(néng)運維的(de)呼聲越來(lái)越高(gāo)。
在日(rì)志(zhì)易産品總監饒琛琳看(kàn)來(lái),目前國(guó)內(nèi)智能(néngλ)運維發展還(hái)處于一(yī)個(gè)探索階段,要(yào)想盡快(kuài)在智能(néng)運維領域有(®yǒu)所突破,首先要(yào)主抓好(hǎo)監控系統和(hé)告警系統,并利用(yòng)機(jī)器(qì)學習(xí)算(suàn)法進行(xíng)快(kuài)速監控和(hπé)排障。饒琛琳,日(rì)志(zhì)易産品總監,曾任新浪微(wēi)博系統架構師(shī)、大(dà)數(shù)據運維技(jì)術(shù)專家(jiā),從(cóng×)事(shì)運維 11 年(nián),精通(tōng)大(dà)規模互聯網性能(néng)優化(huà),機(jī)器(qì)數(shù)據處理(lǐ)分(fēn)析,監₩控和(hé)管理(lǐ)平台的(de)部署開(kāi)發。
這(zhè)裡(lǐ),就(jiù)将饒琛琳對(duì)智能(néng)運維的(de)發展一(yī)些↕(xiē)早期觀點和(hé)看(kàn)法整理(lǐ)出來(lái),和(hé)大(dà)家(jiā)一(yī)起探討(♦tǎo)下(xià)運維未來(lái)的(de)發展方向。
1對(duì)當下(xià)國(guó)內(nèi)運維領域現(xiàn)狀的(de)看(kàn)法
簡單來(lái)講,目前國(guó)內(nèi)運維界在≤自(zì)動化(huà)方面已經達到(dào)了(le)一(yī)定的(de)水(shuǐ)平,就(jiù)現(xiàn)階段而言,自(zì)動化(hu★à)和(hé)監控兩部分(fēn)還(hái)是(shì)有(yǒu)一(yī)定距離(lí)。例如(rú),你(nǐ)拿(ná)到(dào)了(le)監控類的(de)報(bào)警,可(kě)∏能(néng)不(bù)清楚立馬去(qù)做(zuò)哪一(yī)項自(zì)動化(huà)的(de)部署。如(rú)果能(néng)把自(zì)動化(huà)和(hé)監控這(z$hè)兩部分(fēn)有(yǒu)機(jī)的(de)結合起來(lái),運維的(de)工(gōng)作(z✔uò)會(huì)運轉的(de)更加順利。
2移動端和(hé)微(wēi)服務給運維工(gōng)作(zuò)帶來(lái)的(de)挑戰
在 PC 端的(de)時(shí)代,運維的(de)很(hěn)多(duō)工(gōng)作(zu↓ò)受限于浏覽器(qì),運維人(rén)員(yuán)拿(ná)不(bù)到(dào)用(yòng)戶端真實的(de)數(shùσ)據。這(zhè)種狀況下(xià),大(dà)家(jiā)就(jiù)會(huì)普遍采購(gòu)一(yī)些(xiē)第三方服務,嘗試獲取終÷端數(shù)據。而在移動端時(shí)期,我們都(dōu)有(yǒu)自(zì)己的(de) IP,可(kě)以把一(yī)些(<xiē)采點的(de)邏輯放(fàng)在自(zì)己的(de) IP 裡(lǐ),然後獲取到(dào)更準确、更真實的(de)客戶數(shù)據。相(xiàng)γ對(duì)于挑戰來(lái)說(shuō),這(zhè)其實是(shì)移動端帶來(lái)的(de)好(hǎo)處。
微(wēi)服務的(de)出現(xiàn)給運維工(gōng)作(zuò)帶來(lái)一(yī)些(xiē)難題。沒有<(yǒu)出現(xiàn)微(wēi)服務之前,運維人(rén)員(yuán)在一(yī)台或者兩三台機(jī)器(qì)中就(jiù)可(kě)以完成問(wèn)題排查。出現>(xiàn)微(wēi)服務之後,這(zhè)些(xiē)問(wèn)題可(kě)能(néng)拆到(dào®)了(le)好(hǎo)幾十個(gè)分(fēn)布式的(de)地(dì)方,各自(zì)的(de)輸出,甚至啓停會(huì)很(hěn)方便,你(nǐ)有(yǒu)可(kě)能(néng)遇到(dào)在找問(wèn)題的(de)時(shí)候混淆的(de)情況。而解決這(zhè)些(xiē)麻煩就(jiù)是≈(shì)需要(yào)智能(néng)運維。
3在大(dà)數(shù)據時(shí)代,智能(néng)運維與數(shù)據之間(jiān)、自(zì)→動化(huà)運維之間(jiān)有(yǒu)何關系
智能(néng)運維的(de)理(lǐ)想狀态就(jiù)是(shì)把運維工(gōng)作(zuò)的(de)三$大(dà)部分(fēn):監控、管理(lǐ)和(hé)故障定位,利用(yòng)一(yī)些(xiē)機(jī)器(qì)學習(xí)算(suàn)法的(αde)方法把它們有(yǒu)機(jī)結合起來(lái)。
在大(dà)數(shù)據時(shí)代,智能(néng)運維是(shì)基于大(dà)數(÷shù)據之上(shàng)。目前看(kàn)來(lái),運維想要(yào)把監控、管理(lǐ)和(hé)故障定位這(zhè)三部分(≈fēn)有(yǒu)機(jī)結合起來(lái),就(jiù)不(bù)可(kě)避免的(de)需要(yào)用(yòng)到(dào)智能£(néng)算(suàn)法,而體(tǐ)現(xiàn)智能(néng)算(suàn)法價值的(de)一(yī)點就(jiù)是(shì)≤:智能(néng)算(suàn)法需要(yào)大(dà)量的(de)數(shù)據去(qù)做(zuò)支撐。
自(zì)動化(huà)運維這(zhè)幾年(nián)處在一(yī)個(gè)良性發展的(d"e)狀态,包括像 Puppet 這(zhè)種配置管理(lǐ)的(de)自(zì)動化(huà),像 Docker 這(zhè)種部署ε的(de)自(zì)動化(huà)。進一(yī)步的(de)發展就(jiù)是(shì)需要(yào↔)把這(zhè)三部分(fēn)融合起來(lái)。目前能(néng)夠把這(zhè)三部分(fēn)融合起來(lái)的(de)辦法就(jiù)是(shì)利用(yòng)人(rén)工(gσōng)智能(néng)的(de)手段,最後達到(dào)一(yī)種智能(néng)運維的(de)狀态。
4智能(néng)運維當下(xià)的(de)狀況及智能(néng)運維發展的(de)預測
智能(néng)運維當下(xià)還(hái)是(shì)一(yī)個(gè)初步探索的λ(de)階段。可(kě)以舉幾個(gè)時(shí)間(jiān)數(shù)字,我所看(kàn)到(dào)一(yī)個(gè)和(hé)智能(néng)運維相(x∞iàng)關的(de)開(kāi)源項目是(shì)在 2013 年(nián),而我看(kàn)到(dào)的(de)第一(yī)個(gè)主 動出來(lái)宣講和(hé)智能(néng)運維相(xiàng)關的(de)應該是(shì)在 2015 年(nián)百 度在一(yī)個(gè)大(dà)會(huì)上(shàng)的(de)宣講。然後大(dà)量的(de)出現(xiàn)在宣講上(shàng)有(yǒu)關智能(n✔éng)運維的(de)應該是(shì)在 16 年(nián)下(xià)半年(nián)。而這(zhè)些(xiē)宣講和(hé)我的(de)一(yī)些(xiē)宣講都(dōu)還(hái)是(≠shì)說(shuō)我們現(xiàn)在有(yǒu)這(zhè)樣的(de)思路(lù),做(zuò)了(le)一(yī)些(xiē)嘗試。而這(zhè)些(xiē)嘗試的(de)效果還(há✔i)是(shì)需要(yào)大(dà)家(jiā)去(qù)碰撞,看(kàn)是(shì)否還(hái)有(yǒεu)什(shén)麽更好(hǎo)的(de)辦法,因為(wèi)我們現(xiàn)在是(shì)用(yòng)普通(tōng)的(de)機(jī)器(qì)學習(xí)算(suàn)法,還(hái)沒有(yǒu)用(yòng)到(dào)像 AlphaGo 的(de)深度神經網絡這(zhè)部分(fēn)內(nèi)容。轉變為(βwèi)智能(néng)運維是(shì)一(yī)個(gè)需要(yào)大(dà)量投入和(hé)學習(xí)的(de)過程。
想盡快(kuài)在智能(néng)運維領域有(yǒu)所≥突破,更實際一(yī)點的(de)辦法就(jiù)是(shì)主抓好(hǎo)監控系統和(hé)告警系統。傳統的(de)± IT 運維需要(yào)管理(lǐ)大(dà)量的(de)告警,極大(dà)地(dì)分(fēn)散了(le)企業(yè)的(de)注意力,消耗運維人(rén↓)員(yuán)大(dà)量的(de)時(shí)間(jiān)和(hé)創新力。想辦法能(néng)把♠一(yī)天收好(hǎo)幾千封告警這(zhè)種狀況,高(gāo)效地(dì)解決,把運維人(rén)員(yuán)從(cóng)紛繁複雜(zá)的(de)告警和(hé)噪音(yīn)中解ε脫出來(lái)。這(zhè)是(shì)一(yī)個(gè)在衆多(duō)辦法中産生(shēng)價值的(de)第一(yī)步。
現(xiàn)在比較明(míng)确的(de)是(shì)大(dà)家(jiā)會(huβì)朝著(zhe)智能(néng)運維方向發展,并且智能(néng)運維的(de)發展一(yī)定是(shì)一(yī)個(gè)長(cháng)期演進∏的(de)過程。
對(duì)于智能(néng)運維的(de)發展預測,我的(de)簡單看(kàn)法如(rú)下(xià):
第一(yī)步就(jiù)是(shì)前面所說(shuō)的(de),智能(néng)運維在告警系•統上(shàng)的(de)價值,;
第二步就(jiù)是(shì)智能(néng)地(dì)去(qù)判斷告警,而不(bù)是(shì)現(xiàn✔)在靠人(rén)力的(de)經驗去(qù)設定一(yī)個(gè)阈值。設定告警阈值是(shì)一(yī)項耗時(shí)耗力的(de)工(gōng)作(zuò),需要(yào)運維人₩(rén)員(yuán)在充分(fēn)了(le)解業(yè)務的(de)前提下(xià)才能(néng)進行(xíng),還(hái)得(de)考慮業(y₩è)務是(shì)不(bù)是(shì)平穩發展狀态,否則一(yī)兩周改動一(yī)次,運維工(gōng)程師(shī)絕對(duì)是(shì)要(yào)發瘋的(de)。
第三步是(shì)利用(yòng)一(yī)些(xiē) NLP(自(zì)然語言處理(lǐ)),把故障報(bào)告、文(wén)本化(huà)的(de)語言提煉出來(lái)去★(qù)自(zì)動反饋到(dào)這(zhè)個(gè)系統裡(lǐ)。這(zhè)一(yī)點可(kě)能(néng)是∑(shì)更遙遠(yuǎn)的(de)一(yī)個(gè)設想,但(dàn)是(shì)目前來(lái)看(k≈àn)會(huì)是(shì)将來(lái)發展的(de)一(yī)條道(dào)路(lù)。
在智能(néng)化(huà)時(shí)代,大(dà)家(jiā)開(kāi)始思考:如(rú)何将智能(néng)化(huà )和(hé)運維工(gōng)作(zuò)結合起來(lái),成為(wèi)智能(néng)運維?如(rú)何利用(yòng)機(jī)器(qì)™學習(xí)來(lái)進行(xíng)快(kuài)速監控和(hé)排障?
為(wèi)了(le)解決上(shàng)述問(wèn)題,我們依托 CNUTCon 全球運維技(jì)術(sh ù)大(dà)會(huì),特設了(le)為(wèi)期 2 天(9 月(yuè) 8 日(rì)—9 日(rì))的(deγ)深度學習(xí)培訓,饒琛琳老(lǎo)師(shī)将會(huì)針對(duì)自(zì)動化(huà)運維±監控、排障、容量規劃等剛需,介紹所能(néng)學到(dào)的(de)統計(jì)學、機(jī)器(qì)學習(x í)算(suàn)法和(hé)實踐效果,解析系統平台化(huà)實踐思路(lù)和(hé)方案要(yào)點,帶你(nǐ)從(cón∞g)入門(mén)到(dào)實踐系統性掌握如(rú)果通(tōng)過算(suàn)法和(hé)自(zì)動化(huà)變身(shēn)智能(néng)運維。