回覆列表
  • 1 # delta

    雲平臺屢次停擺,核心系統事故頻發?您的運維繫統該升級了!

    2019年3月3日凌晨,阿里雲出現宕機故障,受宕機故障影響,華北不少網際網路公司 APP、網站紛紛癱瘓,一大波程式設計師、運營和運維不得不從被窩裡爬起來幹活。網友“上海藍盟網路夏立成”調侃,“阿里雲一年一宕機,今年特別早”。

    然而日常生產、生活對應用依賴程度逐漸增加導致宕機頻率和成本都在升高,人工運維投入產出卻在下降。根據專業評測機構 downdetector.com 統計,2018年,Facebook 系統全年宕機200次,Youtube 宕機 140 次,Google 宕機 100 次。每次宕機損失至少 100 萬美元!某些事故對企業的影響將是災難性的,對於金融、網際網路、電信等資訊化成熟度較高的行業更是如此。

    軟體系統帶來的複雜度提升,還需要軟體來應對。人工智慧(AI)技術結合運維(Ops)場景,已成為目前業界看到的唯一應對之道 -AIOps。然而,落地 AIOps 並不簡單,首先需要從改進現有運維流程,升級監管裝備入手。當前,大多企業的人工為主,基於 Zabbix、Nagios、Prometheus 等開源、商業資料採集系統建設的諸多監控採集展現資料的方式,會隨著監控物件和資料採集量激增而失控。

    隨著資訊系統加速升級演進,運維也正在遵循人肉運維>工具化運維>自動化運維>智慧化運維轉變歷程。因此,新一代運維體系,理念上首先需要站在運維人員角度將複雜變簡單,人工轉智慧。要達成此目標,我們需要完成以下四階段運維繫統升級。

    應用全景監控

    整合分散、孤島監控系統資料,實現全景監控檢視:整合已經建設的基礎設施、網路、中介軟體、應用監控系統,形成以風險感知為核心的監控系統。

    運維大資料分析

    轉資料監控為資訊監控,基於大資料分析能力構建運維資訊檢索平臺:融合指標、日誌、程式碼執行堆疊、網路嗅探資料,全量儲存、索引、融合海量低價值密度的運維大資料,為運維人員提供便捷的資訊查詢入口。

    智慧化運維

    用演算法積累運維經驗,轉人工資料篩查為智慧化分析:利用知識庫、規則引擎、機率圖模型等手段積累運維專家經驗,整合異常檢測、因果關係判斷、根因定位分析等演算法引擎輔助人工篩選海量資料,探測、解釋異常。

    運維視覺化

    運維資料視覺化,自然人機互動:將實時、歷史資訊視覺化,利用更直觀、自然的人機互動介面連線人腦和計算機,實現敏捷高效運維。

    東軟 RealSight APM 應用智慧運維平臺在傳統應用效能管理(Application Performance Management, APM)類產品基礎上升級設計理念,引入先進技術,打造了全景化監控檢視,運維大資料分析、智慧化異常檢測分析等能力。為保障政府、企業數字資訊系統高效、穩定執行提供必要支撐。

    如今,產品已經在社保、醫療、汽車、運營商、金融、快消、保險等多個行業客戶得到應用。服務於寶馬中國、寶馬金融、中國航空、蒙牛集團、宜昌三峽運、上海教委、北京東城區、中翼航食、吉林人社等。

    產品在行業中的應用場景

    網際網路

    全景監控態勢,保障客戶數字體驗,提升客戶轉化率

    金融

    預測規避風險,提升核心系統穩定性,降低運維成本

    汽車

    監控車聯網車機端、雲端全鏈條健康狀態,提升行車安全保障

    醫療

    提升患者就醫客戶數字體驗,為網際網路醫療建設提供運維支撐

    政府

    保障資訊系統穩定,為民生工程、公共管理提供高效可靠數字平臺支撐

  • 2 # tttyk

    devops是一場運動,透過一系列方法和實踐提升各部門在軟體交付過程中的協作質量和效率,從而提高軟體服務的交付速度,是一種文化,關鍵是透過自動化工具打通整個軟體交付流程,阿里具體如何實現不是很瞭解,但是思路是一致的

  • 中秋節和大豐收的關聯?
  • 教育學研究生畢業後好就業嗎?