回覆列表
  • 1 # 30歲的旅行

    IT系統運維的一點個人思考。

    我將系統運維要處理的事情,分為事件和問題兩類,兩者定義和處理流程不同

    一 、事件類運維

    事件定義,首次出現或者偶然發生的系統問題,除了系統和資料本身的問題外,也包括使用者操作問題。

    處理流程:

        1)第一時間接收使用者反饋;

        2)及時處理,第一時間確保使用者業務正常執行,能當天處理的問題,就不讓問題過夜。

        3)記錄事件,包括:時間、使用者、處理人、事件內容、處理過程、解決辦法。

    事件的處理關鍵在於快,以最快的速度讓使用者業務正常執行,確保使用者的對IT的服務滿意度。

    二、問題類運維

    問題定義,反覆(一次以上)出現的事件,被視為問題。問題包括系統、資料本身的bug、使用者操作、流程、需要IT人員重複手工操作解決的問題。

    處理流程:

        1)第一時間接收使用者反饋;

        2)及時處理,第一時間確保使用者業務正常執行。

        3)收集問題產生的原因,並分析原因,找到問題根本所在;

        4)制定解決問題的方案並實施,直至問題徹底解決,不再發生;

        5)記錄問題,包括時間、使用者、處理人、問題內容、問題原因、分析、方案、實施過程。

    問題的處理關鍵在於杜絕,尋根問底,徹底解決反覆發生的問題。避免偷懶式的手工臨時處理,建立自動化IT功能,一勞永逸的解決問題。

    三、運維知識庫

    運維知識庫主要作用是提高運維效率,以結構化的方式將運維記錄,轉變成IT知識沉澱、共享、複用。

    比如使用者操作類事件,使用者如能輕鬆的在知識庫找到解決辦法,並實踐,就不用為幾分鐘能解決的問題,而花上十幾分鍾等IT人員處理。企業規模越大,人員越多,知識庫發揮的作用也會越大。

    很多企業都建立了知識庫工具,但能用好的不多,我認為關鍵在於知識積累的質量、知識庫使用是否便捷、能否準確找到需要的知識、工具使用的普及(這點領導者很關鍵)

    知識庫的共享和經驗複用,不論是對使用者還是IT團隊來說,都是能提高效率的工具。

  • 中秋節和大豐收的關聯?
  • 露地黃瓜最高產多少斤,怎麼可以做到?