加入收藏 設(shè)為首頁(yè) 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號(hào)貴都國(guó)際中心A座1111室
數(shù)據(jù)中心運(yùn)維整體發(fā)展趨勢(shì)分析
全球數(shù)據(jù)中心發(fā)展重心正從規(guī);ㄔO(shè)向精細(xì)化運(yùn)營(yíng)轉(zhuǎn)變。隨著亞馬遜、微軟、阿里、騰訊、華為、中國(guó)移動(dòng)、中國(guó)電信等巨頭的進(jìn)入,國(guó)內(nèi)云服務(wù)市場(chǎng)競(jìng)爭(zhēng)加劇,各云服務(wù)商在市場(chǎng)拓展的同時(shí)會(huì)持續(xù)降低運(yùn)營(yíng)成本。
華為云&大數(shù)據(jù)產(chǎn)品線總裁馬力在《智能運(yùn)維,云數(shù)據(jù)中心運(yùn)維的未來(lái)之路》一文中指出,未來(lái)的云數(shù)據(jù)中心運(yùn)維必須:
提高運(yùn)維效率虛擬化技術(shù)和眾多開(kāi)源技術(shù)的引入使得運(yùn)維變得越來(lái)越復(fù)雜,傳統(tǒng)人工運(yùn)維模式處理速度慢、出錯(cuò)概率高。此外,傳統(tǒng)人均50~100臺(tái)設(shè)備的維護(hù)效率,在大規(guī)模云化環(huán)境下,需要投入大量人力。
保持低運(yùn)營(yíng)成本傳統(tǒng)IT的資源使用率通常小于20%,在云化后資源使用率有所提升,但是個(gè)性化、按需彈性需求導(dǎo)致資源碎片化、負(fù)載不平衡以及擴(kuò)容規(guī)劃不精準(zhǔn),可能會(huì)造成整體資源利用率并沒(méi)有達(dá)到規(guī)劃目標(biāo),運(yùn)維成本居高不下。
硬件即插即用,定期下線隨著數(shù)據(jù)中心規(guī)模的增長(zhǎng),手工為主的硬件識(shí)別與安裝方案將無(wú)法支撐資源的快速上線、擴(kuò)容與下線。通過(guò)即插即用技術(shù),只需要使用低技能人員將設(shè)備上架、上網(wǎng)和上電,運(yùn)維系統(tǒng)就會(huì)根據(jù)該硬件的預(yù)期狀態(tài)自動(dòng)化完成端到端硬件系統(tǒng)的部署和上線;與此同時(shí),通過(guò)云化隔離技術(shù),硬件出現(xiàn)故障時(shí)也不再需要立即解決,只需讓低技能人員定期替換即可。
數(shù)據(jù)中心運(yùn)維技術(shù)發(fā)展的歷史與現(xiàn)狀
阻礙數(shù)據(jù)中心運(yùn)維技術(shù)快速發(fā)展的歷史原因
盡管數(shù)據(jù)中心的運(yùn)維如此重要,但長(zhǎng)期以來(lái),相關(guān)運(yùn)維的技術(shù)和手段仍然比較落后,“重建設(shè),輕運(yùn)維”成為行業(yè)普遍現(xiàn)狀。甚至在很多人眼中,運(yùn)維=酷炫的UI界面+超大拼接屏。數(shù)據(jù)中心的運(yùn)維,尤其是基礎(chǔ)設(shè)施運(yùn)維長(zhǎng)期以來(lái)之所以未能得到大規(guī)模的普及,筆者分析主要以下原因:
技術(shù)落后:早期基礎(chǔ)設(shè)施運(yùn)維軟件多來(lái)自UPS、空調(diào)等設(shè)備廠家,他們采用動(dòng)環(huán)(動(dòng)力設(shè)備和機(jī)房環(huán)境)管理的理念。廠家大多對(duì)IT類設(shè)備缺乏了解,相關(guān)技術(shù)也主要來(lái)自運(yùn)營(yíng)商對(duì)通信機(jī)房的運(yùn)維要求,明顯滯后于IT技術(shù)的發(fā)展;
觀念落后:早期IDC管理脫胎于電信運(yùn)營(yíng)商的“機(jī)房維護(hù)”思路,偏重于設(shè)備安全和日常維護(hù),對(duì)資產(chǎn)(ROI)的價(jià)值認(rèn)識(shí)不足,做不到精細(xì)化運(yùn)營(yíng)與管理;
需求不明顯:早期機(jī)房數(shù)量規(guī)模較小,人工維護(hù)成本低,運(yùn)營(yíng)管理團(tuán)隊(duì)采用自動(dòng)化管理方式的意愿不強(qiáng)烈;早期機(jī)房設(shè)備種類不多,運(yùn)行業(yè)務(wù)簡(jiǎn)單,管理的復(fù)雜程度不高;早期數(shù)據(jù)中心本身并未成為社會(huì)生產(chǎn)與生活的核心,故障后造成的損失也較低;
系統(tǒng)架構(gòu)簡(jiǎn)單:早期IT系統(tǒng),普遍采用“煙囪式”架構(gòu),底層硬件與運(yùn)行業(yè)務(wù)深度耦合,業(yè)務(wù)邏輯和物理邏輯有對(duì)應(yīng)關(guān)系,故障后容易查找,定位簡(jiǎn)單,可以快速進(jìn)行維修;
除此之外,還有國(guó)內(nèi)長(zhǎng)期以來(lái)對(duì)軟件價(jià)值的低估,用戶需求不明確帶來(lái)的設(shè)計(jì)變更附加成本等。正是因?yàn)橐陨线@些原因,在大型云數(shù)據(jù)中心出現(xiàn)之前的“互聯(lián)網(wǎng)1.0”時(shí)代,智能運(yùn)維技術(shù)和實(shí)踐一直未得到用戶普遍的重視。
目前的現(xiàn)狀:數(shù)據(jù)中心數(shù)字化、精細(xì)化、自動(dòng)化運(yùn)營(yíng)已形成行業(yè)共識(shí)
隨著大型數(shù)據(jù)中心的增多,云計(jì)算相關(guān)技術(shù)的成熟,數(shù)據(jù)中心運(yùn)維技術(shù)也日益受到大家的重視。究其原因可以歸納如下:CT機(jī)房互聯(lián)網(wǎng)/物聯(lián)化趨勢(shì)受互聯(lián)網(wǎng)影響,“數(shù)據(jù)中心云化”“軟件定義數(shù)據(jù)中心”成為主流技術(shù)發(fā)展趨勢(shì)。而傳統(tǒng)CT的維護(hù)理念,也逐漸向物聯(lián)網(wǎng)化的運(yùn)營(yíng)理念轉(zhuǎn)變,精細(xì)化、自動(dòng)化、智能化管理成為新需求。如某運(yùn)營(yíng)商對(duì)運(yùn)維機(jī)器人的引入、互聯(lián)網(wǎng)自建數(shù)據(jù)中心對(duì)人工智能技術(shù)的引入、對(duì)U位級(jí)資產(chǎn)管理技術(shù)的實(shí)踐等。
市場(chǎng)需求快速增長(zhǎng):近年來(lái)的數(shù)據(jù)中心逐漸呈現(xiàn)“兩極分化”趨勢(shì):即中型數(shù)據(jù)中心快速減少,一方面超大規(guī)模數(shù)據(jù)中心不斷出現(xiàn)(云數(shù)據(jù)中心需求),一方面微型數(shù)據(jù)中心快速增長(zhǎng)(邊緣計(jì)算需求)。對(duì)于超大型數(shù)據(jù)中心,服務(wù)器規(guī)模動(dòng)輒數(shù)萬(wàn)甚至數(shù)十萬(wàn)臺(tái),人工方式的資產(chǎn)管理已無(wú)法滿足實(shí)際需求,急需自動(dòng)化的管理方案;對(duì)于小微型數(shù)據(jù)中心(多是企業(yè)分支機(jī)構(gòu)、連鎖商超等行業(yè)用戶),又大多缺乏專業(yè)運(yùn)維人員,對(duì)易安裝、已維護(hù)、可實(shí)現(xiàn)遠(yuǎn)程無(wú)人化管理的運(yùn)維技術(shù)也有迫切需求。
云數(shù)據(jù)中心架構(gòu)變化帶來(lái)的影響:云計(jì)算技術(shù)的出現(xiàn),使得傳統(tǒng)的“煙囪式”IT架構(gòu)被打破,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)統(tǒng)統(tǒng)變成了資源池,上層應(yīng)用和IT硬件實(shí)現(xiàn)了解耦。彈性獲取,隨需擴(kuò)容、靈活應(yīng)用成為業(yè)務(wù)層面對(duì)IT資源的主要訴求。
這對(duì)IT硬件的影響主要有兩方面:IT硬件的重要性下降(數(shù)據(jù)有備份),更換升級(jí)等操作更加頻繁(壞了就換)。在數(shù)據(jù)中心的全生命周期內(nèi),IT硬件資產(chǎn)管理的工作量大幅提升(同一U位可能不同時(shí)間段安裝不同設(shè)備運(yùn)行不同程序),依賴人工已經(jīng)很難管理;AI、機(jī)器深度學(xué)習(xí)等技術(shù)的發(fā)展,也需要打破企業(yè)各部門(mén)之間的傳統(tǒng)物理壁壘,對(duì)數(shù)據(jù)進(jìn)行融合處理與應(yīng)用(如智慧城市工程,對(duì)目標(biāo)對(duì)象的人臉識(shí)別,可能需要拉通交通、戶籍、刑偵、市政等多套系統(tǒng)),數(shù)據(jù)層面拉通的同時(shí)也會(huì)帶動(dòng)跨領(lǐng)域、跨組織的物理資產(chǎn)的統(tǒng)一管理,必然需要統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范來(lái)進(jìn)行物理資產(chǎn)的統(tǒng)計(jì)和變更記錄。
人力成本快速升高:據(jù)統(tǒng)計(jì),中國(guó)60歲以上人口已超過(guò)2.41億人,我國(guó)已全面進(jìn)入老年化社會(huì),勞動(dòng)力成本上升是所有企業(yè)都要面對(duì)的問(wèn)題。而數(shù)據(jù)中心的運(yùn)維工作責(zé)任重大,通常涉及到多個(gè)領(lǐng)域?qū)W科知識(shí),對(duì)人員技能和素質(zhì)要求都比較高。
“人力成本太高”(一線城市)、“招不到人”(二三線城市)成了很多運(yùn)維主管頭疼的問(wèn)題。其他因素,比如電信運(yùn)營(yíng)商利潤(rùn)下滑,傳統(tǒng)IDC大戶對(duì)能夠降低運(yùn)營(yíng)成本(維護(hù)人力、電費(fèi)等)的技術(shù)興趣濃厚;各設(shè)備廠家的持續(xù)發(fā)力,對(duì)智能化基礎(chǔ)設(shè)施的概念推廣(主要體現(xiàn)在自動(dòng)化運(yùn)維、U位級(jí)精細(xì)化資產(chǎn)管理等方面);全行業(yè)數(shù)據(jù)安全意識(shí)的提升,導(dǎo)致越來(lái)越多用戶(尤其是高端用戶)對(duì)其IT資產(chǎn)安全的更加重視(自主可控、去IOE、國(guó)產(chǎn)化等要求),IT設(shè)備的變更、定期盤(pán)點(diǎn)、自動(dòng)告警受到重視。
從“運(yùn)維”到“運(yùn)營(yíng)”的觀念轉(zhuǎn)變
如上所述,數(shù)據(jù)中心的運(yùn)維工作日益受到業(yè)界的重視,各種新技術(shù)也層出不窮,那么什么樣的運(yùn)維技術(shù)才是好技術(shù),如何進(jìn)行評(píng)判呢?筆者認(rèn)為,只有真正能為用戶創(chuàng)造價(jià)值的技術(shù)才能獲得認(rèn)可并實(shí)現(xiàn)規(guī)模化應(yīng)用。換言之,能省錢(qián)(甚至賺錢(qián))的技術(shù)就是好技術(shù)。筆者認(rèn)為,從運(yùn)維(核心是可靠不出錯(cuò))到運(yùn)營(yíng)(核心是可靠還省錢(qián)/賺錢(qián))的變化,是在數(shù)據(jù)中心從“企業(yè)成本中心”向“企業(yè)生產(chǎn)中心”轉(zhuǎn)變的過(guò)程中,運(yùn)維人員必須經(jīng)歷的觀念轉(zhuǎn)變過(guò)程。
那么,什么樣的數(shù)據(jù)中心才是好(可靠又省錢(qián))的數(shù)據(jù)中心呢?拋開(kāi)“風(fēng)火水電”等基礎(chǔ)設(shè)施的架構(gòu)不談,僅從運(yùn)營(yíng)的層面來(lái)看,筆者認(rèn)為需要考慮以下問(wèn)題:
1、資產(chǎn)盤(pán)點(diǎn)問(wèn)題:資產(chǎn)繁多、管理復(fù)雜
數(shù)據(jù)中心涉及多種產(chǎn)品和設(shè)備,對(duì)運(yùn)維人員技能要求較高。同時(shí)資產(chǎn)管理和盤(pán)點(diǎn)工作浪費(fèi)運(yùn)維人員大量時(shí)間,造成數(shù)據(jù)中心運(yùn)維人力開(kāi)支居高不下。
2、容量管理問(wèn)題:管理粗放、盈利困難
對(duì)很多運(yùn)營(yíng)型數(shù)據(jù)中心來(lái)說(shuō),因規(guī)模較大,人工管理方式難以根據(jù)用戶的設(shè)備數(shù)量、功耗、制冷等要求及時(shí)查詢到合適的安裝位置,造成業(yè)務(wù)不能及時(shí)上線,為企業(yè)帶來(lái)重大損失。數(shù)據(jù)中心租賃市場(chǎng)競(jìng)爭(zhēng)日趨激烈,粗放的管理模式造成運(yùn)營(yíng)成本過(guò)高,市場(chǎng)競(jìng)爭(zhēng)力下降,侵蝕投資者利益。
3、故障定位問(wèn)題:故障定位、維護(hù)困難
隨著數(shù)據(jù)中心重要性的上升,由數(shù)據(jù)中心故障帶來(lái)的企業(yè)損失也逐漸升高,所以故障恢復(fù)時(shí)間變得至關(guān)重要。但傳統(tǒng)數(shù)據(jù)中心,采用人工管理方式,一旦出現(xiàn)故障需要花費(fèi)大量時(shí)間進(jìn)行排查(大型數(shù)據(jù)中心服務(wù)器規(guī)模高達(dá)數(shù)十萬(wàn)臺(tái))。運(yùn)維人員80%時(shí)間都花費(fèi)在定位故障上面,效率十分低下。
4、資產(chǎn)安全問(wèn)題:U位級(jí)物理安全難以保障
因數(shù)據(jù)安全等因素,很多行業(yè)都對(duì)數(shù)據(jù)中心安全級(jí)別有嚴(yán)格要求。同時(shí)據(jù)Uptime報(bào)告顯示,數(shù)據(jù)中心超過(guò)70%的故障是由于人為操作失誤造成。所以對(duì)運(yùn)維人員的分級(jí)、分區(qū)、分域授權(quán)至關(guān)重要。按空間劃分,數(shù)據(jù)中心資產(chǎn)的物理安全等級(jí)可分為機(jī)房級(jí)、模塊級(jí)(微模塊)、機(jī)柜級(jí)、U位級(jí)(見(jiàn)圖)。大多數(shù)的數(shù)據(jù)中心可以做到機(jī)房級(jí)物理安全(機(jī)房門(mén)禁),少部分可以做到機(jī)柜級(jí)物理安全(物理或電子門(mén)鎖等形式)。只有極少數(shù)數(shù)據(jù)中心可以做到U位級(jí)的物理安全保障,在維護(hù)人員對(duì)機(jī)柜內(nèi)部等某一臺(tái)IT設(shè)備操作時(shí)及時(shí)給出安全告警信息。
機(jī)柜容量管理:實(shí)時(shí)監(jiān)控機(jī)柜空間容量信息,提升空間利用率(減少機(jī)柜租金);設(shè)備變更自動(dòng)化:資產(chǎn)變動(dòng)信息自動(dòng)上報(bào)(降低人工開(kāi)支);數(shù)據(jù)準(zhǔn)確性:資產(chǎn)數(shù)據(jù)100%準(zhǔn)確(減少人工排查開(kāi)支);資產(chǎn)盤(pán)點(diǎn)自動(dòng)化:大規(guī)模資產(chǎn)設(shè)備快速自動(dòng)化盤(pán)點(diǎn),無(wú)需人工(節(jié)省運(yùn)維人力);快速定位:可以快速準(zhǔn)確找到故障設(shè)備(減少故障排查時(shí)間);更精確的資產(chǎn)保護(hù):提升U位級(jí)資產(chǎn)物理安全,非法事件自動(dòng)告警(資產(chǎn)和數(shù)據(jù)安全)。
物聯(lián)網(wǎng)技術(shù)在數(shù)據(jù)中心的部分應(yīng)用
筆者認(rèn)為,相比AI、大數(shù)據(jù)等技術(shù),物聯(lián)網(wǎng)技術(shù)或許將首先在數(shù)據(jù)中心的運(yùn)營(yíng)工作中得到規(guī);瘧(yīng)用。比如很多人都知道,谷歌的數(shù)據(jù)中心應(yīng)用了神經(jīng)網(wǎng)絡(luò)等AI技術(shù)來(lái)實(shí)現(xiàn)能耗管理,但到底是如何實(shí)現(xiàn)的,效果如何,能否推廣,卻鮮有資料流出。不可否認(rèn),大型高科技公司和互聯(lián)網(wǎng)公司本身技術(shù)和人才積累雄厚,可以在AI、大數(shù)據(jù)等方面進(jìn)行嘗試和創(chuàng)新應(yīng)用。但對(duì)大多數(shù)的數(shù)據(jù)中心用戶來(lái)說(shuō),物聯(lián)網(wǎng)技術(shù)可能會(huì)更早成熟并進(jìn)入實(shí)際應(yīng)用階段。
1、物聯(lián)網(wǎng)在資產(chǎn)安全方面的應(yīng)用
通過(guò)傳感器對(duì)機(jī)房基礎(chǔ)設(shè)施進(jìn)行監(jiān)控,如電池、UPS、空調(diào)等。通過(guò)對(duì)設(shè)備狀態(tài)的監(jiān)控對(duì)生命周期進(jìn)行預(yù)測(cè),甚至在故障發(fā)生前做到提前預(yù)警。
通過(guò)資產(chǎn)電子標(biāo)簽對(duì)IT設(shè)備進(jìn)行管理,可以精確定位到每臺(tái)設(shè)備所處的區(qū)域甚至U位,在未授權(quán)的設(shè)備下架或?qū)?biāo)簽破壞的情況下,可以在現(xiàn)場(chǎng)和后臺(tái)系統(tǒng)發(fā)出報(bào)警提醒。
2、物聯(lián)網(wǎng)在容量和能耗方面的應(yīng)用
通過(guò)傳感器實(shí)時(shí)監(jiān)控機(jī)柜U位物理空間利用率,自動(dòng)監(jiān)控IT設(shè)備上架、下架與遷移,幫助用戶提高機(jī)柜空間利用率;
通過(guò)傳感器實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)中心的能耗、溫度、制冷等信息,幫助用戶合理規(guī)劃設(shè)備部署,降低數(shù)據(jù)中心的整體能耗;
甚至通過(guò)更精確的U位級(jí)設(shè)備管理,可以實(shí)現(xiàn)機(jī)柜內(nèi)部微環(huán)境的監(jiān)控。
3、物聯(lián)網(wǎng)在自動(dòng)化運(yùn)維方面的應(yīng)用
機(jī)房大量設(shè)備的上架信息錄入占用大量人力。利用手持終端可以對(duì)設(shè)備二維碼或芯片進(jìn)行掃描,自動(dòng)錄入設(shè)備信息,信息自動(dòng)上傳到后臺(tái),代替大量重復(fù)性手工錄入工作,解放運(yùn)維人力;
當(dāng)設(shè)備發(fā)生故障時(shí),往往發(fā)生連鎖反應(yīng),產(chǎn)生大量告警,而后臺(tái)很難判斷實(shí)際故障設(shè)備。利用物聯(lián)網(wǎng)技術(shù),可以做到自動(dòng)定位故障設(shè)備,維護(hù)人員可以準(zhǔn)確獲取故障設(shè)備所在區(qū)域、機(jī)柜、甚至U位。