回覆列表
-
1 # 橙子的Linux運維筆記
-
2 # 西都月季
運維的目標有兩點∶更懶與更快。
更懶,就是其他人看不到運維忙碌的樣子,如果運維成天趴著幹活,這家公司的業務基本沒法正常對外提供訪問,絕對是極度不穩定的狀態。
更快是指響應速度,發現問題,迅速滅掉。
實現更懶這個目標,主要靠高可用高效能架構,以及良好的管理流程和運維制度。更快意味著故障出現,馬上就被發現和有效告警。
監控平臺本身也要做很好的規劃,才能進行有效監控,適應各種不同的需求場景。既不要漏報,更不能沒事亂報,搞成狼來了的局面。
1、硬體方面:做好機房巡檢工作,避免底層硬體故障而不知。也可以透過伺服器的iDrac口進行遠端監控。
2、軟體方面:可以使用zabbix、prometheus這類開源的監控軟體;有基礎的監控模板(CPU,記憶體,硬碟等),再寫一些自己特殊需要監控的指令。定期對監控進行檢視總結,做好成本控制,避免出現長期空置伺服器情況。
3、資產管理方面:可以結合zabbix等開源軟體一起、也可以獨立出來寫,資產一目瞭然,也能很好的給其他部門或合作方(例如我們公司遊戲專案有些是和別人聯合運營的,需要時常給合作方機器相關資訊和使用情況)一個清晰的資產展示。