資料中心要保持穩定的執行,需要大量的專業技術人員。一般承擔重要業務的資料中心都是有人24小時值守,無人值守的資料中心一般只能承擔不重要業務,完全無人管理維護的資料中心幾乎沒有。所以資料中心日常維護工作煩瑣,但又很重要。隨著人們的工作生活對資料的完全依賴,承載資料計算、執行的資料中心正發揮著越來越重要的作用,這更突顯出維護工作的重要。
當一個數據中心建成投產後,維護工作就開始了,一直到資料中心的生命週期結束。一般我們可以將資料中心的維護工作分為四大類:一是日常檢查類;二是應用變更、部署類;三是軟、硬體升級類;四是突發故障處理類,下面就來詳細說一說這些維護工作,讓大家對維護工作有個瞭解。
日常檢查
“千里之堤,潰於蟻穴”。任何的故障在出現之前都可能會有所表現,小的隱患不消除,可能導致重大的故障出現,所以資料中心日常的例行檢查工作枯燥,但也很重要,可以及時發現一些執行中的隱患。根據資料中心承載業務重要性的不同,要對資料中心裡的所有執行的裝置進行例行檢查。一些資料中心裝置廠商提供了檢查軟體,比如網管軟體,安全防護軟體等。可以利用這些軟體對資料中心網路進行檢查,看日誌是否有異常告警,網路是否出現過短時中斷,埠是否出現UP/DOWN等。透過網路探測軟體看網路質量如何。檢查伺服器應用服務是否正常,CPU記憶體等利用率是否正常。對應用業務進行檢查,比如如果有搜尋業務,就可以透過伺服器進行單詞搜尋,看搜尋的結果和延遲是否在正常的範圍之內。這些檢查每日都要重複檢查,一旦有異常及時處理與消除,必要時將重要業務切換到備用環境中,然後排除後再切回。
對資料中心的機房環境也要進行檢查,環境的溫度、溼度、灰塵是否合乎要求。空調、供電系統進行執行良好,裝置執行是否過熱,地板、天窗、消防、監控都是檢查的部分。不合理的地方要及時進行整改,而不應該偷懶。經常到一些資料中心,就會發現值班維護人員很多都抱著電腦在瀏覽網頁,打遊戲。對於日常檢查應付一下,甚至根本不去檢查,只要沒有出現故障,就打遊戲消耗時間,這樣資料中心出現故障是遲早的事。一旦出現故障就毛手毛腳,甚至哪個業務走的哪個裝置,哪個埠哪個網線都不清楚,本來一個小故障可能因為不熟悉導致大故障,因此日常檢查絕不能應付,雖然需要不斷重複,但卻很重要,在持續的檢查過程中,將會對資料中心的理解越來越深,這樣每次檢查都會有新的發現,在檢查中進行學習。
應用變更
資料中心承載的業務不會是一成不變的,隨著業務的多樣化,經常要對業務進行調整,包括伺服器和網路的設定。因此要對伺服器和網路裝置操作很熟悉,主要需要掌握Linux伺服器命令和網路協議。要根據應用的需要,做出變更。這時就對維護人員提出了更高的要求,不僅是對資料中心原有業務要非常熟悉,還要對新上的應用業務有正確的理解,這樣才能在不影響原有業務的基礎上做調整。這樣的應用變更每個月可能都要做幾次,是資料中心維護人員的必修課,突顯了一個技術人員的基本技能水平。這時要對裝置操作命令比較熟悉,懂得如何實現業務,要經常和裝置廠商的技術人員打交道,透過交流盡快掌握裝置操作方法。同時,由於裝置廠商對應用業務缺乏瞭解,這就需要維護人員在應用業務和裝置具體實現之間做好協調,處理。以最快的時間和最小的代價完成應用業務部署。
軟硬體升級
資料中心的裝置一般執行週期是五年,不斷地有裝置需要逐漸淘汰進行更換,也有一些裝置因為存在軟體缺陷需要升級,因此軟硬體升級也是維護工作的一部分,尤其是軟硬體出現故障時,就必須要進行更換。有時為了不影響業務,往往還需要裝置廠商提供軟體補丁來解決問題。資料中心的裝置成百上千,出現軟硬體故障很正常,所以要不斷地進行軟硬體升級,這類工作往往都要在業務量最少的凌晨之後進行,維護人員通宵熬夜是常有的事,維護人員要有一個良好的身體素質,否則會吃不消。軟硬體升級時需要做好回退機制,以防升級出現問題時無法回退,業務長時間無法恢復。當接手資料中心維護工作就會發現,怎麼會有那麼多的升級,幾乎每個月都要有升級操作,熬夜升級工作成了維護人員的家常便飯。
突發故障
沒有任何一個數據中心是不出故障的,在資料中心執行的過程中都會出現這樣那樣的問題。這時就顯示出維護人員的高技能水平,根據統計百分之八十的故障都是人為故障,所以維護人員的水平高低往往決定了一個數據中心執行的穩定程度。另外對於突發故障,高水平的維護人員可以靜下心來冷靜分析故障的觸發原因,迅速找到解決的方法,如果在短時間內找不到解決方法,也可以透過切換到備用裝置上先恢復業務,再進行分析。這時擁有高水平的維護人員對於一個數據中心至關重要,在關鍵時刻就能派上用場。
雖然這些工作看起來有些平常,但千萬別小看它們。資料中心維護工作實際上非常重要,關乎著整個資料中心業務的正常執行。目前市場上這類專業人才非常搶手,尤其對於具有較深故障排查水平的人才比較缺乏。只有重視資料中心的維護工作,才能給資料中心一個平安。
資料中心要保持穩定的執行,需要大量的專業技術人員。一般承擔重要業務的資料中心都是有人24小時值守,無人值守的資料中心一般只能承擔不重要業務,完全無人管理維護的資料中心幾乎沒有。所以資料中心日常維護工作煩瑣,但又很重要。隨著人們的工作生活對資料的完全依賴,承載資料計算、執行的資料中心正發揮著越來越重要的作用,這更突顯出維護工作的重要。
當一個數據中心建成投產後,維護工作就開始了,一直到資料中心的生命週期結束。一般我們可以將資料中心的維護工作分為四大類:一是日常檢查類;二是應用變更、部署類;三是軟、硬體升級類;四是突發故障處理類,下面就來詳細說一說這些維護工作,讓大家對維護工作有個瞭解。
日常檢查
“千里之堤,潰於蟻穴”。任何的故障在出現之前都可能會有所表現,小的隱患不消除,可能導致重大的故障出現,所以資料中心日常的例行檢查工作枯燥,但也很重要,可以及時發現一些執行中的隱患。根據資料中心承載業務重要性的不同,要對資料中心裡的所有執行的裝置進行例行檢查。一些資料中心裝置廠商提供了檢查軟體,比如網管軟體,安全防護軟體等。可以利用這些軟體對資料中心網路進行檢查,看日誌是否有異常告警,網路是否出現過短時中斷,埠是否出現UP/DOWN等。透過網路探測軟體看網路質量如何。檢查伺服器應用服務是否正常,CPU記憶體等利用率是否正常。對應用業務進行檢查,比如如果有搜尋業務,就可以透過伺服器進行單詞搜尋,看搜尋的結果和延遲是否在正常的範圍之內。這些檢查每日都要重複檢查,一旦有異常及時處理與消除,必要時將重要業務切換到備用環境中,然後排除後再切回。
對資料中心的機房環境也要進行檢查,環境的溫度、溼度、灰塵是否合乎要求。空調、供電系統進行執行良好,裝置執行是否過熱,地板、天窗、消防、監控都是檢查的部分。不合理的地方要及時進行整改,而不應該偷懶。經常到一些資料中心,就會發現值班維護人員很多都抱著電腦在瀏覽網頁,打遊戲。對於日常檢查應付一下,甚至根本不去檢查,只要沒有出現故障,就打遊戲消耗時間,這樣資料中心出現故障是遲早的事。一旦出現故障就毛手毛腳,甚至哪個業務走的哪個裝置,哪個埠哪個網線都不清楚,本來一個小故障可能因為不熟悉導致大故障,因此日常檢查絕不能應付,雖然需要不斷重複,但卻很重要,在持續的檢查過程中,將會對資料中心的理解越來越深,這樣每次檢查都會有新的發現,在檢查中進行學習。
應用變更
資料中心承載的業務不會是一成不變的,隨著業務的多樣化,經常要對業務進行調整,包括伺服器和網路的設定。因此要對伺服器和網路裝置操作很熟悉,主要需要掌握Linux伺服器命令和網路協議。要根據應用的需要,做出變更。這時就對維護人員提出了更高的要求,不僅是對資料中心原有業務要非常熟悉,還要對新上的應用業務有正確的理解,這樣才能在不影響原有業務的基礎上做調整。這樣的應用變更每個月可能都要做幾次,是資料中心維護人員的必修課,突顯了一個技術人員的基本技能水平。這時要對裝置操作命令比較熟悉,懂得如何實現業務,要經常和裝置廠商的技術人員打交道,透過交流盡快掌握裝置操作方法。同時,由於裝置廠商對應用業務缺乏瞭解,這就需要維護人員在應用業務和裝置具體實現之間做好協調,處理。以最快的時間和最小的代價完成應用業務部署。
軟硬體升級
資料中心的裝置一般執行週期是五年,不斷地有裝置需要逐漸淘汰進行更換,也有一些裝置因為存在軟體缺陷需要升級,因此軟硬體升級也是維護工作的一部分,尤其是軟硬體出現故障時,就必須要進行更換。有時為了不影響業務,往往還需要裝置廠商提供軟體補丁來解決問題。資料中心的裝置成百上千,出現軟硬體故障很正常,所以要不斷地進行軟硬體升級,這類工作往往都要在業務量最少的凌晨之後進行,維護人員通宵熬夜是常有的事,維護人員要有一個良好的身體素質,否則會吃不消。軟硬體升級時需要做好回退機制,以防升級出現問題時無法回退,業務長時間無法恢復。當接手資料中心維護工作就會發現,怎麼會有那麼多的升級,幾乎每個月都要有升級操作,熬夜升級工作成了維護人員的家常便飯。
突發故障
沒有任何一個數據中心是不出故障的,在資料中心執行的過程中都會出現這樣那樣的問題。這時就顯示出維護人員的高技能水平,根據統計百分之八十的故障都是人為故障,所以維護人員的水平高低往往決定了一個數據中心執行的穩定程度。另外對於突發故障,高水平的維護人員可以靜下心來冷靜分析故障的觸發原因,迅速找到解決的方法,如果在短時間內找不到解決方法,也可以透過切換到備用裝置上先恢復業務,再進行分析。這時擁有高水平的維護人員對於一個數據中心至關重要,在關鍵時刻就能派上用場。
雖然這些工作看起來有些平常,但千萬別小看它們。資料中心維護工作實際上非常重要,關乎著整個資料中心業務的正常執行。目前市場上這類專業人才非常搶手,尤其對於具有較深故障排查水平的人才比較缺乏。只有重視資料中心的維護工作,才能給資料中心一個平安。