在軟體產品的整個生命週期中運維工程師都需要適時地參與併發揮不同得作用,因此運維工程師的工作內容和方向非常多: 事件管理:目標是在服務出現異常時儘可能快速的恢復服務,從而保障服務的可用性;同時深入分析故障產生的原因,推動並修復服務存在的問題,同時設計並開發相關的預案以確保服務出現故障時可以高效的止損。在這方面主要工作內容有: 問題發現:設計並開發高效的監控平臺和告警平臺,使用機器學習、大資料分析等方法對系統中的大量監控資料進行彙總分析,以期在系統出現異常的時候可以快速的發現問題和判斷故障的影響。 問題處理:設計並開發高效的問題處理平臺和工具,在系統出現異常的時候可以快速/自動決策並觸發相關止損預案,快速恢復服務。 問題跟蹤:透過分析問題發生時系統的各種表現(日誌、變更、監控)確定問題發生的根本原因,制定並開發預案工具。 變更管理:以可控的方式,儘可能高效的完成產品功能的迭代的變更工作。在這方面運主要工作內容有: 配置管理:透過配置管理平臺(自研、開源)管理服務涉及到的多個模組、多個版本的關係以及配置的準確性。 釋出管理:透過構建自動化的平臺確保每一次版本變更可以安全可控地釋出到生產環境。 容量管理:在服務執行維護階段,為了確保服務架構部署的合理性同時掌握服務整體的冗餘,需要不斷評估系統的承載能力,並不斷最佳化之。在這方面主要工作內容有: 容量評估:透過技術手段模擬實際的使用者請求,測試整個系統所能承擔的最大吞吐;透過建立容量評估模型分析壓力測試過程中的資料以評估整個服務的容量。 容量最佳化:基於容量評估資料,判斷系統的瓶頸並提供容量最佳化的解決方案。比如透過調整系統引數、最佳化服務部署架構等方法來高效的提升系統容量。 架構最佳化:為了支援產品的不斷迭代,需要不斷的進行架構最佳化調整。以確保整個產品能夠在功能不斷豐富和複雜的條件下,同時保持高可用性。
在軟體產品的整個生命週期中運維工程師都需要適時地參與併發揮不同得作用,因此運維工程師的工作內容和方向非常多: 事件管理:目標是在服務出現異常時儘可能快速的恢復服務,從而保障服務的可用性;同時深入分析故障產生的原因,推動並修復服務存在的問題,同時設計並開發相關的預案以確保服務出現故障時可以高效的止損。在這方面主要工作內容有: 問題發現:設計並開發高效的監控平臺和告警平臺,使用機器學習、大資料分析等方法對系統中的大量監控資料進行彙總分析,以期在系統出現異常的時候可以快速的發現問題和判斷故障的影響。 問題處理:設計並開發高效的問題處理平臺和工具,在系統出現異常的時候可以快速/自動決策並觸發相關止損預案,快速恢復服務。 問題跟蹤:透過分析問題發生時系統的各種表現(日誌、變更、監控)確定問題發生的根本原因,制定並開發預案工具。 變更管理:以可控的方式,儘可能高效的完成產品功能的迭代的變更工作。在這方面運主要工作內容有: 配置管理:透過配置管理平臺(自研、開源)管理服務涉及到的多個模組、多個版本的關係以及配置的準確性。 釋出管理:透過構建自動化的平臺確保每一次版本變更可以安全可控地釋出到生產環境。 容量管理:在服務執行維護階段,為了確保服務架構部署的合理性同時掌握服務整體的冗餘,需要不斷評估系統的承載能力,並不斷最佳化之。在這方面主要工作內容有: 容量評估:透過技術手段模擬實際的使用者請求,測試整個系統所能承擔的最大吞吐;透過建立容量評估模型分析壓力測試過程中的資料以評估整個服務的容量。 容量最佳化:基於容量評估資料,判斷系統的瓶頸並提供容量最佳化的解決方案。比如透過調整系統引數、最佳化服務部署架構等方法來高效的提升系統容量。 架構最佳化:為了支援產品的不斷迭代,需要不斷的進行架構最佳化調整。以確保整個產品能夠在功能不斷豐富和複雜的條件下,同時保持高可用性。