加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
最近的幾次數(shù)據(jù)中心停電造成非常最嚴(yán)重的停電事故。例如,美國達(dá)美航空公司數(shù)據(jù)中心的電力中斷,造成該航空公司1.5億美元的損失,美國"超級碗"的賽場斷電,讓主辦方尷尬不已。而停電可能會隨時(shí)影響任何人。
然而,數(shù)據(jù)中心運(yùn)營商所面臨的困難是確定停電的根本原因,因?yàn)殡娏χ袛嗟脑虮容^復(fù)雜,例如,服務(wù)器負(fù)載過重,導(dǎo)致系統(tǒng)崩潰;當(dāng)?shù)仉娏⿷?yīng)商的供應(yīng)問題,工作人員誤操作的人為因素等。
以下是數(shù)據(jù)中心運(yùn)營商應(yīng)該關(guān)注的五個(gè)最重要的問題,以確保不會發(fā)生數(shù)據(jù)中心停電事故。
(1)可以隨著快速發(fā)展的電力系統(tǒng)遷移嗎?
數(shù)據(jù)中心的不同階段,對電力需求也在變化。服務(wù)器或交換機(jī)的添加都可能對電力的需求產(chǎn)生重大影響。因此,能夠分析數(shù)據(jù)中心一段時(shí)間內(nèi)對電力的需求是非常重要的,以便更容易地進(jìn)行長期預(yù)測。
(2)電源鏈?zhǔn)欠袷艿酵{?
越來越多的數(shù)據(jù)中心連接到網(wǎng)絡(luò),除了機(jī)架中包含的終端和訪問點(diǎn)之外,很多渠道可能會成為破壞網(wǎng)路犯罪行為的破壞途徑。
此外,網(wǎng)絡(luò)違規(guī)行為甚至不需要通過電線和電纜來實(shí)施。狡猾的犯罪分子可能會進(jìn)入某個(gè)數(shù)據(jù)中心,破壞內(nèi)部的電力供應(yīng)。但是,不僅僅是外部的惡意人員所造成的危害,也要警惕數(shù)據(jù)中心內(nèi)部工作人員的行為。有些知識和經(jīng)驗(yàn)不足的工作人員在與接口進(jìn)行交互的過程中犯錯(cuò),也會造成不可估量的傷害。
為了防止出現(xiàn)這種情況,運(yùn)維文檔和流程控制至關(guān)重要。采用更多的硬件不是防止災(zāi)難性停電的最佳選擇,事實(shí)上,添加額外的硬件實(shí)際上可能使控制情況更加糟糕。
(2)災(zāi)難恢復(fù)計(jì)劃是什么?記錄文檔了嗎?
在不影響業(yè)務(wù)環(huán)境的情況下進(jìn)行斷電測試,實(shí)際上是采用虛擬開關(guān)設(shè)備,這將允許數(shù)據(jù)中心運(yùn)營商可以應(yīng)對最壞的情況,并實(shí)施恢復(fù)服務(wù)。
數(shù)據(jù)中心工作人員總是假設(shè)他們的電源供應(yīng)鏈和電源備份系統(tǒng)是萬無一失的,但是如果沒有故障安全測試,會認(rèn)為面臨什么樣的結(jié)果?
電源故障模擬使數(shù)據(jù)中心運(yùn)營商可能找到缺乏冗余的設(shè)施,并發(fā)現(xiàn)單點(diǎn)故障。但是,這需要文檔進(jìn)行記錄。
因此,數(shù)據(jù)中心運(yùn)營商在災(zāi)難性的電源故障之前,建立斷電測試機(jī)制并記錄其恢復(fù)過程。
(4)可以實(shí)時(shí)監(jiān)控操作嗎?
數(shù)據(jù)中心運(yùn)營商必須知道哪些設(shè)備現(xiàn)在在哪里,使用了多少電能。對于不斷增加基礎(chǔ)架構(gòu)的數(shù)據(jù)中心來說,這往往會很困難,因?yàn)檫@可能會對電源容量和電源分配產(chǎn)生巨大的影響。
注意所有移動部件的唯一有效方法是單一視圖。這種整體視圖具有實(shí)時(shí)監(jiān)控和警報(bào)的功能,使數(shù)據(jù)中心運(yùn)營商能夠減輕風(fēng)險(xiǎn),并進(jìn)行更改以避免災(zāi)難發(fā)生。
(5)知道所有互連設(shè)備和系統(tǒng)的一切情況嗎?
對于數(shù)據(jù)中心運(yùn)營至關(guān)重要的是,需要電力鏈記錄在一起,從進(jìn)入建筑物的電力,再通過UPS、PDU/提供給所有的機(jī)架設(shè)備。這意味著數(shù)據(jù)中心運(yùn)營需要知道哪些與電力相關(guān)的設(shè)備,以及設(shè)備各自的相互依賴關(guān)系。這可以讓數(shù)據(jù)中心運(yùn)營了解某些設(shè)備故障或脫機(jī)維護(hù)時(shí)的潛在影響。此外,還應(yīng)該了解每個(gè)電源鏈設(shè)備的狀態(tài)。
可以通過采用數(shù)據(jù)中心基礎(chǔ)架構(gòu)管理(DCIM)實(shí)現(xiàn)對電源管理。DCIM使數(shù)據(jù)中心運(yùn)營能夠以最高的效率運(yùn)行數(shù)據(jù)中心,同時(shí)允許所有相關(guān)人員改進(jìn)整體運(yùn)營情況,并識別漏洞,從而保持電源鏈的安全。
部署的DCIM還可以讓數(shù)據(jù)中心運(yùn)營全面了解自己的產(chǎn)品,通過共享實(shí)時(shí)數(shù)據(jù)和易于理解的圖表,消除IT和設(shè)施之間的通信孤島。
由于數(shù)據(jù)中心停電的原因很多,嘗試用人工方法和電子表格來跟上基礎(chǔ)設(shè)施的所有變化是費(fèi)力的,并引起不可預(yù)見的風(fēng)險(xiǎn)。因此,必須采取適當(dāng)可行的方法和措施進(jìn)行管理。