很多開源的,推薦幾個:
Zabbix
Zabbix是一個基於WEB介面的提供分散式系統監控以及網路監控功能的企業級開源運維平臺,也是目前國內網際網路使用者中使用最廣的監控軟體,雲智慧遇到的85%以上使用者在使用Zabbix做監控解決方案。
入門容易、上手簡單、功能強大並且開源免費是雲智慧對Zabbix的最直觀評價。Zabbix易於管理和配置,能生成比較漂亮的資料圖,其自動發 現功能大大減輕日常管理的工作量,豐富的資料採集方式和API介面可以讓使用者靈活進行資料採集,而分散式系統架構可以支援監控更多的裝置。理論上,透過 Zabbix提供的外掛式架構,可以滿足企業的任何需求。
優點:
1. 支援多平臺的企業級分散式開源監控軟體
2. 安裝部署簡單,多種資料採集外掛靈活整合
3. 功能強大,可實現複雜多條件告警,
4. 自帶畫圖功能,得到的資料可以繪成圖形
5. 提供多種API介面,支援呼叫指令碼
6. 出現問題時可自動遠端執行命令(需對agent設定執行許可權)
缺點:
1. 專案批次修改不方便
2. 入門容易,能實現基礎的監控,但是深層次需求需要非常熟悉Zabbix並進行大量的二次定製開發,難度較大;
3. 系統級別報警設定相對比較多,如果不篩選的話報警郵件會很多;並且自定義的專案報警需要自己設定,過程比較繁瑣(但是網上的模板比較,也可以使用模板匯入的方法);
4. 缺少資料彙總功能,如無法檢視一組伺服器平均值,需進行二次開發;
5. 資料報表需要特殊二次開發定義;
Prometheus
Prometheus是由SoundCloud開發的開源監控報警系統和時序列資料庫(TSDB)。Prometheus使用Go語言開發,是Google BorgMon監控系統的開源版本。2016年由Google發起Linux基金會旗下的原生雲基金會(Cloud Native Computing Foundation), 將Prometheus納入其下第二大開源專案。Prometheus目前在開源社群相當活躍。Prometheus和Heapster(Heapster是K8S的一個子專案,用於獲取叢集的效能資料。)相比功能更完善、更全面。Prometheus效能也足夠支撐上萬臺規模的叢集。
Prometheus的特點
Nagios
Nagios是一款開源的企業級監控系統,能夠實現對系統CPU、磁碟、網路等方面引數的基本系統監控,以及 SMTP,POP3,HTTP,NNTP等各種基本的服務型別。另外透過安裝外掛和編寫監控指令碼,使用者可以實現應用監控,並針對大量的監控主機和多個物件 部署層次化監控架構。
Nagios最大的特點是其強大的管理中心,儘管其功能是監控服務和主機的,但Nagios自身並不包括這部分功能程式碼,所有的監控、告警功能都是由相關外掛完成的。
使用者群:適合複雜IT環境的企業
1. 出錯的伺服器、應用和裝置會自動重啟,自動日誌滾動
2. 配置靈活,可以自定義shell指令碼,透過分散式監控模式
3. 支援以冗餘方式進行主機監控,報警設定多樣
4. 命令重新載入配置檔案無需打擾Nagios的執行
anglia
Ganglia是加州大學伯克利分校發起的一個開源叢集監控專案,設計之初是用於監控數以千計的網路節點。Ganglia是一個跨平臺可擴充套件的,高效能計算系統下的分散式監控系統。它已被廣泛移植到各種作業系統和處理器架構上。
1. 事件控制檯功能很弱,外掛易用性差
2. 對效能、流量等指標的處理不給力
3. 看不到歷史資料,只能看到報警事件,很難追查故障原因
4. 配置複雜,初學者投入的時間、精力和成本比較大
Zenoss
Zenoss Core是Zenoss的開源版本,其商用版本為ZenossEnterprise。作為企業級智慧監控軟體,Zenoss Core允許IT管理員依靠單一的WEB控制檯來監控網路架構的狀態和健康度。Zenoss Core的強大能力來自於深入的列表與配置管理資料庫,以發現和管理公司IT環境的各類資產。Zenoss同時提供與CMDB關聯的事件和錯誤管理系統, 以協助提高各類事件和提醒的管理效率。
1. Zenoss比較出色的地方在於它的Dashboard,可以配置很多portlet
2. 每個使用者的介面都是分開管理的,自定義dashboard不會影響其他使用者
3. 強大監控功能支援伺服器、路由交換、防火牆、儲存、資料庫、中介軟體監控
4. 採用基於HBASE的opentsdb儲存任意時間段的資料
5. 將狀態監控,效能監控,資源管理,良好的報告機制進行有機的整合
1. 對資源要求較高,即使只管理少數幾臺裝置,也需要消耗大量硬體及記憶體等附加資源。
2. 針對windows系統,開源版只提供SNMP,透過WMI檢測CPU,Disk,軟硬體和效能只在收費版提供。
Open-falcon
Open-falcon是小米運維團隊從網際網路公司的需求出發,根據多年的運維經驗,結合SRE、SA、DEVS的使用經驗和反饋,開發的一套面向網際網路的企業級開源監控產品。
1. 自動發現,支援falcon-agent、snmp、支援使用者主動push、使用者自定義外掛支援
2. 支援每個週期上億次的資料採集、告警判定、歷史資料儲存和查詢
3. 高效的portal、支援策略模板、模板繼承和覆蓋、多種告警方式、支援callback呼叫
4. 單機支撐200萬metric的上報、歸檔、儲存
5. 採用rrdtool的資料歸檔策略,秒級返回上百個metric一年的歷史資料
6. 多維度的資料展示,使用者自定義Screen 7. 透過各種外掛目前支援Linux、Windows、Mysql、Redis、Memache、RabbitMQ和交換機監控。
由於釋出時間較短,很多基礎的服務監控外掛(如Tomcat、apache等)還不支援,很多功能還在不斷完善中,另外由於缺少專門的支援,雖然有開放社群,但是解決問題的效率相對較低。
很多開源的,推薦幾個:
Zabbix
Zabbix是一個基於WEB介面的提供分散式系統監控以及網路監控功能的企業級開源運維平臺,也是目前國內網際網路使用者中使用最廣的監控軟體,雲智慧遇到的85%以上使用者在使用Zabbix做監控解決方案。
入門容易、上手簡單、功能強大並且開源免費是雲智慧對Zabbix的最直觀評價。Zabbix易於管理和配置,能生成比較漂亮的資料圖,其自動發 現功能大大減輕日常管理的工作量,豐富的資料採集方式和API介面可以讓使用者靈活進行資料採集,而分散式系統架構可以支援監控更多的裝置。理論上,透過 Zabbix提供的外掛式架構,可以滿足企業的任何需求。
優點:
1. 支援多平臺的企業級分散式開源監控軟體
2. 安裝部署簡單,多種資料採集外掛靈活整合
3. 功能強大,可實現複雜多條件告警,
4. 自帶畫圖功能,得到的資料可以繪成圖形
5. 提供多種API介面,支援呼叫指令碼
6. 出現問題時可自動遠端執行命令(需對agent設定執行許可權)
缺點:
1. 專案批次修改不方便
2. 入門容易,能實現基礎的監控,但是深層次需求需要非常熟悉Zabbix並進行大量的二次定製開發,難度較大;
3. 系統級別報警設定相對比較多,如果不篩選的話報警郵件會很多;並且自定義的專案報警需要自己設定,過程比較繁瑣(但是網上的模板比較,也可以使用模板匯入的方法);
4. 缺少資料彙總功能,如無法檢視一組伺服器平均值,需進行二次開發;
5. 資料報表需要特殊二次開發定義;
Prometheus
Prometheus是由SoundCloud開發的開源監控報警系統和時序列資料庫(TSDB)。Prometheus使用Go語言開發,是Google BorgMon監控系統的開源版本。2016年由Google發起Linux基金會旗下的原生雲基金會(Cloud Native Computing Foundation), 將Prometheus納入其下第二大開源專案。Prometheus目前在開源社群相當活躍。Prometheus和Heapster(Heapster是K8S的一個子專案,用於獲取叢集的效能資料。)相比功能更完善、更全面。Prometheus效能也足夠支撐上萬臺規模的叢集。
Prometheus的特點
多維度資料模型。靈活的查詢語言。不依賴分散式儲存,單個伺服器節點是自主的。透過基於HTTP的pull方式採集時序資料。可以透過中間閘道器進行時序列資料推送。透過服務發現或者靜態配置來發現目標服務物件。支援多種多樣的圖表和介面展示,比如Grafana等。Nagios
Nagios是一款開源的企業級監控系統,能夠實現對系統CPU、磁碟、網路等方面引數的基本系統監控,以及 SMTP,POP3,HTTP,NNTP等各種基本的服務型別。另外透過安裝外掛和編寫監控指令碼,使用者可以實現應用監控,並針對大量的監控主機和多個物件 部署層次化監控架構。
Nagios最大的特點是其強大的管理中心,儘管其功能是監控服務和主機的,但Nagios自身並不包括這部分功能程式碼,所有的監控、告警功能都是由相關外掛完成的。
使用者群:適合複雜IT環境的企業
優點:
1. 出錯的伺服器、應用和裝置會自動重啟,自動日誌滾動
2. 配置靈活,可以自定義shell指令碼,透過分散式監控模式
3. 支援以冗餘方式進行主機監控,報警設定多樣
4. 命令重新載入配置檔案無需打擾Nagios的執行
anglia
Ganglia是加州大學伯克利分校發起的一個開源叢集監控專案,設計之初是用於監控數以千計的網路節點。Ganglia是一個跨平臺可擴充套件的,高效能計算系統下的分散式監控系統。它已被廣泛移植到各種作業系統和處理器架構上。
優點:
1. 出錯的伺服器、應用和裝置會自動重啟,自動日誌滾動
2. 配置靈活,可以自定義shell指令碼,透過分散式監控模式
3. 支援以冗餘方式進行主機監控,報警設定多樣
4. 命令重新載入配置檔案無需打擾Nagios的執行
缺點:
1. 事件控制檯功能很弱,外掛易用性差
2. 對效能、流量等指標的處理不給力
3. 看不到歷史資料,只能看到報警事件,很難追查故障原因
4. 配置複雜,初學者投入的時間、精力和成本比較大
Zenoss
Zenoss Core是Zenoss的開源版本,其商用版本為ZenossEnterprise。作為企業級智慧監控軟體,Zenoss Core允許IT管理員依靠單一的WEB控制檯來監控網路架構的狀態和健康度。Zenoss Core的強大能力來自於深入的列表與配置管理資料庫,以發現和管理公司IT環境的各類資產。Zenoss同時提供與CMDB關聯的事件和錯誤管理系統, 以協助提高各類事件和提醒的管理效率。
優點:
1. Zenoss比較出色的地方在於它的Dashboard,可以配置很多portlet
2. 每個使用者的介面都是分開管理的,自定義dashboard不會影響其他使用者
3. 強大監控功能支援伺服器、路由交換、防火牆、儲存、資料庫、中介軟體監控
4. 採用基於HBASE的opentsdb儲存任意時間段的資料
5. 將狀態監控,效能監控,資源管理,良好的報告機制進行有機的整合
缺點:
1. 對資源要求較高,即使只管理少數幾臺裝置,也需要消耗大量硬體及記憶體等附加資源。
2. 針對windows系統,開源版只提供SNMP,透過WMI檢測CPU,Disk,軟硬體和效能只在收費版提供。
Open-falcon
Open-falcon是小米運維團隊從網際網路公司的需求出發,根據多年的運維經驗,結合SRE、SA、DEVS的使用經驗和反饋,開發的一套面向網際網路的企業級開源監控產品。
優點:
1. 自動發現,支援falcon-agent、snmp、支援使用者主動push、使用者自定義外掛支援
2. 支援每個週期上億次的資料採集、告警判定、歷史資料儲存和查詢
3. 高效的portal、支援策略模板、模板繼承和覆蓋、多種告警方式、支援callback呼叫
4. 單機支撐200萬metric的上報、歸檔、儲存
5. 採用rrdtool的資料歸檔策略,秒級返回上百個metric一年的歷史資料
6. 多維度的資料展示,使用者自定義Screen 7. 透過各種外掛目前支援Linux、Windows、Mysql、Redis、Memache、RabbitMQ和交換機監控。
缺點:
由於釋出時間較短,很多基礎的服務監控外掛(如Tomcat、apache等)還不支援,很多功能還在不斷完善中,另外由於缺少專門的支援,雖然有開放社群,但是解決問題的效率相對較低。