-
1 # Vista211
-
2 # 梁賀銘
安全穩定高效節約,是普遍認為的座運維目標,達到你說的這些要求,首先要定義和量化這些指標概念。比如什麼狀態代表安全,有幾個指標達到什麼程度代表相對安全。
再看看公司這些指標現狀是怎樣的,初步分析指標現狀的歷史背景和產生的原因,顯而易見的可改善點。
制定解決方案包括目標,改進措施計劃等。嘗試落實改進措施並關注幾個指標的變化,找到最佳實踐並固化。
不斷迭代以上方法直到達到期望的指標,前期大部分的改進措施都可以與同行交流學習,論壇學習,結合公司情況因地制宜落實,到了業內比較出色的水平以後就需要創新了。
-
3 # 小太陽的鄉村生活
一)運維目標
1)安全:公司的運維首先應當將安全放在在第一位,安全漏洞,資訊洩露這些都會關係到公司的未來發展甚至是生死存亡,發生在網際網路公司的資訊洩露事件不在少數都給這些公司造成很大的負面影響,要想挽回這些影響資金上的付出是很大的。所以安全是重中之重。
2)穩定:在安全的前提下保證業務的穩定執行是我們運維人認真考慮的,系統的穩定性關係到使用者的體驗效果,重要程度不言而喻,這裡不再贅述。
3)高效:高效的利用一切資源,讓它們發揮最大的價值。
3)節約:硬體成本的支出,是公司支出的大頭,如何從硬體上節約成本是我們值得考慮的點,我們賺不了錢,但是我們可以省錢。
二)流程管理
流程在我們工作中是必須要有的,在工作中流程有很多,但是真正按照流程嚴格執行的又有幾個。相信大家都會會心一笑,很多流程都是用來秋後算賬的,當你的工作出現失誤了,領導就會翻出流程對你一頓批鬥。這個當然也怪不得領導,因為很多流程都是我們自己起草制定的,所以我們在制定流程的時候就應該多加考慮,以及要考慮流程的可行性,也要能讓領導接受它。
那麼什麼樣的流程是一個好的流程呢?這裡有一個小故事,有一位著名的建築設計大師,設計迪士尼樂園經過三年的精心施工,馬上就要對外開放了,然而,各個景點之間的道路該怎樣連線還沒有確定最後的方案。這個大師讓施工部在樂園的地上撒上草種,提前開放,小草長出來後,樂園開放,遊客可以在草地上隨意行走,在迪斯尼樂園提前開放的半年裡,草地被踩出許多條小道,這些小道有寬有窄,優雅自然,隨後這位大師讓人按這些踩出的痕跡鋪設人行道。最後這位大師因為這條小道獲得世界大獎。
三)日常操作
作為運維,伺服器的日常維護操作是很頻繁的事情,如何做好操作記錄很有必要。如果是重複的事情要模板化,流程的事情要自動化,這樣可以很大程度上減少出錯的機率。
有一些特殊的操作就需要在操作前先寫操作步驟,越詳細越好,不能在心裡有了想法就到伺服器上隨心而為。目的明確了,在心裡預想一下會減少很大的出錯機率。操作完畢後一定要以截圖的方式記錄操作結果。
四)監控報警
這裡不討論那種監控工具的優劣,各個監控工具的工作方式都大同小異,報警方式無外乎簡訊,郵件等一些常用方式。但是在我的工作當中,伺服器有幾千臺,報警有很多型別,某一時刻可能會收到幾十條,上百條,一條一條檢視運維人員很容易忽略,所以我們需要對發出去的報警資訊進行二次加工,進行合併,分類。將同一型別的報警合併,按照緊急程度分類。還有對於報警形式我認為應該採取讓人強制被動接受的方式,如:使用大螢幕顯示,揚聲器報警,將報警傳送到運維的微信群中等等形式。這樣可以大大減少運維人員的漏看,忽略等情況,還可以根據報警級別提示運維人員做下一步操作動作。
五)故障處理
對於運維來說處理故障就是家常便飯,處理故障的時間和方法是分別運維能力的重要指標,經驗越多處理故障會越快方法也會更準確,這裡的經驗也包括使用搜索引擎的技巧。
在我看來,直覺也是相當重要的,可能在一些有明顯的提示的故障問題上沒什麼作用,但是遇到一些日誌提示模糊就會顯現出來,直覺會讓你撥開迷霧尋找到最快解決問題方法。
如何提升自己的直覺呢,直覺來自經驗,經驗來自不斷的自我學習和嘗試。遇到問題不要逃避,你是逃不了的,所以就迎難而上積累經驗吧。
這裡還想說的一點就是問題解決後的郵件回覆,既然要將自己當品牌來運營,那麼我們交出去的東西就應該是一個產品,什麼是好的產品,能成為好的產品就應該是完美的,無可挑剔的,讓人心裡舒暢的。那麼我們回覆的郵件應該包含以下幾點:問題解決結果,問題原因,問題解決過程,將來可能遇到的問題,建議等。
技術減少人為事故
人總是會犯錯的,作為運維如何減少犯錯的機率呢,最好的辦法就是用技術來解決,如將命令列操作改為選擇操作,增加審批流程。
這些就需要我們完善自動化運維平臺,運維人員不再需要登入到伺服器上做操作,每一步操作都有稽核,都有容錯,都有記錄。這樣就可以大大降低人為事故了。
六)運維墨菲定律
最後我們將以上總結為以下 11 條定律,請每天讀一遍以下的內容,以達自省。
1、任何事情都沒有表面看起來那麼簡單
2、所有的事情都會比你預計的時間長
3、會出錯的事總會出錯
4、如果你擔心某種事情會發生,那麼它更有可能發生
5、如果第一次便成功,顯然你已經做錯某事
6、當一切都朝著一個方向進行,最好朝著相反的方向深深的看一眼
7、自動消失的問題會自動回來
8、若大家的想法都差不多,顯然沒有一個人是在認真的思考
9、好的開始,未必就有好的結果,壞的開始,結果往往會更壞
10、必須永遠假設你的假設無效
11、教育無法取得才智
-
4 # 永不點炮的八餅
我分解著給你回答吧,1安全,要建立靜態和動態的安全防護措施,要透過培訓宣傳提高員工安全意識和安全技能,建立強大的安全管理體系,這裡就不展開了,涉及方面太多,網上一收一大把,但重點還是與實際相結合;2穩定,系統穩定需要設計合理,工況優良,原料符合要求,人員技術能力責任心比較強,有規範的制度和操作要求,裝置檢修及時,應急預案等等,要展開也是非常的多,總之是人機料法環幾個環節缺一不可,3高效,主要體現流程簡潔,員工績效合理,競爭環境公平,真正激發人的人性,4節能,節能的根本是節能意識,節能創新技術,規範的制度和對應的獎勵機制,總之做好運維說難也不難,主要還是看領導者水平,一切以人為本,今天心情不是太好就回答這些,如果有需要可以再聯絡,我們共同學習探討。
回覆列表
安全,公司的運維首先應當將安全放在第一位。安全漏洞,資訊洩露這些都會關係到公司的未來發展甚至是生死存亡,發生在網際網路公司的資訊洩露事件不在少數,都給這些公司造成很大的負面影響,要想挽回這些影響資金上的付出是很大的。所以安全是重中之重。
穩定,在安全的前提下保證業務的穩定執行是我們運維人需要認真考慮的,系統的穩定性關係到使用者的體驗效果,重要程度不言而喻,這裡不再贅述。
高效,高效的利用一切資源,讓它們發揮最大的價值。
節約,硬體成本的支出,是公司支出的大頭,如何從硬體上節約成本是我們值得考慮的點,我們賺不了錢,但是我們可以省錢。
雲幫手以打造“更便捷、更安全、更高效”的自動化運維產品為目標,涵蓋安全巡檢、智慧監控運維、日誌審計等核心技術,為使用者提供各種業務場景的自動化運維服務,如檢測並修復伺服器潛在風險、監控伺服器資源即時報警、伺服器多重防護、日誌審計輔助排障等,能夠有效提高運維效率,減少人為事故,節省運維成本,是運維人的好幫手!
可以跳轉這個連結去官網看看https://www.cloudx.cn/?utm_source=wu-wk