IT系統運維的一點個人思考。
我將系統運維要處理的事情,分為事件和問題兩類,兩者定義和處理流程不同
一 、事件類運維
事件定義,首次出現或者偶然發生的系統問題,除了系統和資料本身的問題外,也包括使用者操作問題。
處理流程:
1)第一時間接收使用者反饋;
2)及時處理,第一時間確保使用者業務正常執行,能當天處理的問題,就不讓問題過夜。
3)記錄事件,包括:時間、使用者、處理人、事件內容、處理過程、解決辦法。
事件的處理關鍵在於快,以最快的速度讓使用者業務正常執行,確保使用者的對IT的服務滿意度。
二、問題類運維
問題定義,反覆(一次以上)出現的事件,被視為問題。問題包括系統、資料本身的bug、使用者操作、流程、需要IT人員重複手工操作解決的問題。
2)及時處理,第一時間確保使用者業務正常執行。
3)收集問題產生的原因,並分析原因,找到問題根本所在;
4)制定解決問題的方案並實施,直至問題徹底解決,不再發生;
5)記錄問題,包括時間、使用者、處理人、問題內容、問題原因、分析、方案、實施過程。
問題的處理關鍵在於杜絕,尋根問底,徹底解決反覆發生的問題。避免偷懶式的手工臨時處理,建立自動化IT功能,一勞永逸的解決問題。
三、運維知識庫
運維知識庫主要作用是提高運維效率,以結構化的方式將運維記錄,轉變成IT知識沉澱、共享、複用。
比如使用者操作類事件,使用者如能輕鬆的在知識庫找到解決辦法,並實踐,就不用為幾分鐘能解決的問題,而花上十幾分鍾等IT人員處理。企業規模越大,人員越多,知識庫發揮的作用也會越大。
很多企業都建立了知識庫工具,但能用好的不多,我認為關鍵在於知識積累的質量、知識庫使用是否便捷、能否準確找到需要的知識、工具使用的普及(這點領導者很關鍵)
知識庫的共享和經驗複用,不論是對使用者還是IT團隊來說,都是能提高效率的工具。
IT系統運維的一點個人思考。
我將系統運維要處理的事情,分為事件和問題兩類,兩者定義和處理流程不同
一 、事件類運維
事件定義,首次出現或者偶然發生的系統問題,除了系統和資料本身的問題外,也包括使用者操作問題。
處理流程:
1)第一時間接收使用者反饋;
2)及時處理,第一時間確保使用者業務正常執行,能當天處理的問題,就不讓問題過夜。
3)記錄事件,包括:時間、使用者、處理人、事件內容、處理過程、解決辦法。
事件的處理關鍵在於快,以最快的速度讓使用者業務正常執行,確保使用者的對IT的服務滿意度。
二、問題類運維
問題定義,反覆(一次以上)出現的事件,被視為問題。問題包括系統、資料本身的bug、使用者操作、流程、需要IT人員重複手工操作解決的問題。
處理流程:
1)第一時間接收使用者反饋;
2)及時處理,第一時間確保使用者業務正常執行。
3)收集問題產生的原因,並分析原因,找到問題根本所在;
4)制定解決問題的方案並實施,直至問題徹底解決,不再發生;
5)記錄問題,包括時間、使用者、處理人、問題內容、問題原因、分析、方案、實施過程。
問題的處理關鍵在於杜絕,尋根問底,徹底解決反覆發生的問題。避免偷懶式的手工臨時處理,建立自動化IT功能,一勞永逸的解決問題。
三、運維知識庫
運維知識庫主要作用是提高運維效率,以結構化的方式將運維記錄,轉變成IT知識沉澱、共享、複用。
比如使用者操作類事件,使用者如能輕鬆的在知識庫找到解決辦法,並實踐,就不用為幾分鐘能解決的問題,而花上十幾分鍾等IT人員處理。企業規模越大,人員越多,知識庫發揮的作用也會越大。
很多企業都建立了知識庫工具,但能用好的不多,我認為關鍵在於知識積累的質量、知識庫使用是否便捷、能否準確找到需要的知識、工具使用的普及(這點領導者很關鍵)
知識庫的共享和經驗複用,不論是對使用者還是IT團隊來說,都是能提高效率的工具。