-
1 # 杯酒難醉
-
2 # testerzhang
新時代使用新的技術:Prometheus+Node Exporter+Grafana+alertmanager,快速實現伺服器資源檢視以及監控告警。
Node Exporternode_exporter的作用是用於機器系統資料收集,它可以蒐集監控伺服器CPU、記憶體、磁碟、I/O等資訊。
下面是簡單的安裝說明,可以參考安裝。
PrometheusPrometheus(普羅米修斯)是一款從 2012 年開始研發的彈性監控解決方案。該系統將其資料儲存至時序資料庫,且提供了多維度的資料模型和強大的查詢語言來生成被監控資源的報表,同時效能也足夠支撐上萬臺規模的叢集。
Prometheus官方下載地址:https://prometheus.io/download/,大家選擇合適的平臺下載解壓即可。只需要配置好prometheus.yml,服務即可正常啟動。注意:為了能監控伺服器的資源,所以配置檔案需要連線每一個部署的node_exporter節點,主動獲取伺服器資源資訊。
啟動方法:# cd prometheus-2.13.0.linux-amd64
# ./prometheus --config.file=prometheus.yml
GrafanaGrafana 是一款資料視覺化看板,可指定多個數據源執行查詢,將枯燥的資料轉化為多維度的面板。透過配置可實現直觀強大的監控、報警、分析系統,實屬運維神器。
這裡給大家看看我監控的主機效果圖:
同時可以支援編輯各個圖示的查詢條件,增加定製化,是不是很直觀
Alertmanager告警無疑是監控中非常重要的環節,雖然監控資料可視化了,也非常容易觀察到執行狀態。但我們很難做到時刻盯著監控,所以需要程式來自動巡檢並告警,這個Alertmanager程式就是幕後英雄,保障業務穩定性就靠它了。
這裡就不展開如何安裝,網上教程比較多,可以自行搜尋。
現在給大家展示下我自定義的告警模板產生的告警郵件效果圖:
雖然感覺模組比較多,但是部署起來很方便快捷,一套監控伺服器體系就形成了。
-
3 # 趨勢養基
linux伺服器快速監控個人感覺zabbix,nagios,grafana都是不錯的選擇!特別是zabbix自帶很多模版供選擇!下面是為什麼我們要使用監控工具,和常規監控工具介紹
隨著網際網路的飛速發展伺服器和應用app的監控至關重要,完善的監控平臺能夠快速發展伺服器故障,迅速響應進行處理。目前所有IT部門都在面臨這個問題。當伺服器,網路和應用出現問題時,他們必須儘快做出反應。這些情形往往具有破壞性和高壓性,並可能引發影響整個組織運營(和利潤)的停機時間。根據去年的報告,平均IT停機損失高達155萬美元。更嚴重的問題是,暴力事件導致每年545小時的員工產能損失。 出於這些原因,企業越來越多地投資於應用效能監視(APM)和伺服器監控軟體以及其他解決方案。由於“基礎設施監控是否是企業所需的解決方案”已經不再是問題,因此問題就變成了應該使用哪些監控工具。 Romexsoft 系統運維和技術支援團隊縮小了以下列表,供我們參考。
1. 最佳IT基礎設施監控工具評估 伺服器和網路監控工具的目標是確保IT服務 24x7 小時全天候穩定執行,並在出現任何問題時告警給IT支援人員。這樣,我們可以最大化正常執行時間並制定更好的災難恢復計劃。 一般來說,所有工具都有共性,但又不盡相同。以下列出了我們認為最佳的工具列表。
1.1. Zabbix Zabbix可以說是市場上最流行和健壯的實時監控解決方案之一。Zabbix是開源的,它具有一套簡潔的特性,擁有完善可靠的文件,並且由活躍的社群使用者更新和支援。其他好處還包括它有良好的易用性,當然,它提供了一個不受制於任何供應商鎖定的解決方案。 Zabbix 的眾多亮點之一是它能夠預測流量趨勢並根據收集歷史資料來提供系統行為預測。 主要特點: 主動監控 容量規劃 內建Java應用伺服器監控功能 硬體監控 網頁服務 虛擬機器監控 Zabbix 可以配置為各種行業提供監控解決方案 —— 從航空航天到金融和零售,同樣也適用於大中型企業。Romexsoft 團隊依靠此工具為客戶提供24x7全天候IT支援。
1.2. Prometheus 這是我們團隊最喜歡的另一個開源監控工具,它基於時間序列資料提供詳細的基礎設施洞悉能力。它是監控高動態環境(如AWS上的容器)的可靠選擇。 從本質上講,Prometheus 爬取(scrape)指標,在本地儲存所有采樣資料並在資料之上執行其“規則”(rule)來聚合或生成告警。 Prometheus 的主要優勢包括: 它既適用於以機器為中心的架構的監控,又適用於面向服務的架構的監控; 它是服務中斷期間“首選”的完美工具,因為它使得使用者能夠快速診斷問題; 即使在故障情況下,使用者也始終可以檢視系統的統計資訊(每個Prometheus伺服器都是獨立的)。
1.3. Grafana Grafana 是一款用於時間序列的、免費的、出色的分析和監控工具。它使我們能夠建立有吸引力的、一目瞭然的全域性資料視覺化影象。特別是我們可以視覺化系統CPU,記憶體,磁碟和 I/O 利用率等指標。Grafana這個工具比較萬能,我們可以建立來自不同資料來源的自定義儀表板和特徵資料,並將它們展示為曲線圖,單一狀態圖,表格,熱圖或自由文字。 Grafana可以輕鬆的與 Prometheus、Graphite、InfluxDB、MySQL、PostgreSQL 和 Elasticsearch 整合,還可以透過外掛與更多的其他資料來源連線。雖然Grafana 不是一個獨立的解決方案,但它是一個值得考慮進監控體系的優秀外掛。我們團隊利用Prometheus與Grafana整合來作為作為許多客戶的解決方案。
1.4. ManageEngine OpManager ManageEngine OpManager 是一款綜合全面的效能監控工具,可提供伺服器監控,並允許我們主動管理網路,執行網路配置和網路流量分析,它還有一個應用效能管理外掛。但它必須安裝到每個目標節點上才能正常使用。 為了滿足我們的需求,我們可以設定可自定義的儀表板來監控不同元件的網路和指標。我們還可以將其用於 LAN/WAN 監控,並接收詳細的流量路徑視覺化,檢視頻寬流量監測並執行各種網路系統性能指標的測定。 與前面的幾個工具不同,ManageEngine 屬於收費工具,它將會根據業務需求提供定製性報價。
1.5. Amazon CloudWatch Amazon CloudWatch 可以為我們提供更好的應用效能、資源利用率、整體雲基礎設施監控狀況的視覺化能力,並幫助我們識別和糾正問題。 CloudWatch 使我們能夠以日誌、指標和事件的形式收集運維資料。該工具在AWS和本地伺服器上執行,這意味著我們可以真正獲得所有資產的統一檢視。其儀表板是可配置的,允許管理員指示AWS根據預定義事件採取特定操作。 如果我們最近將基礎設施遷移到AWS雲,應考慮使用此雲基礎設施管理軟體,至少應該用到某些容量的規劃上。
1.6. WhatsUp Gold 2017 如今是2019年,但這個網路系統監控工具仍是市場上最簡單和最可配置的工具之一,即使是現在。 其中一些亮點包括以下內容: 它最新的“plus”版本包括混合雲監控,實時效能,自動和手動故障轉移,以及分散式網路的視覺化; 高度可定製的告警系統,可包括電子郵件,文字,鬆弛告警,IFTTT推送,服務重啟和Web警報; 自動發現和整個網路對映; 伴隨移動應用可以隨時洞察應用監控; WhatsUp Gold 可為不同的使用者提供完全可定製且極其友好的儀表板。 缺點?只有一個——它僅對Windows作業系統提供支援。
1.7. Icinga Icinga 是最好的免費監控工具之一,它企業和初創公司的熱門選擇。它的優勢在於適應於各種規模組織的靈活性,它致力於監控基礎設施和服務。 而且,它提供了很好的閾值分析和清晰的報告和告警。這些都可以友好的顯示在儀表板上,並可以透過郵件,簡訊或其他訊息應用進行分發。 此外,它還可以連線到許多流行的 DevOps 工具,為我們的業務需求建立更加個性化的監控解決方案。這些包括 Chef,Puppet,Graylog,Ansible 等。
1.8. Datadog Datadog 被設計成一個為混合雲生態系統提供監控的服務,它也可以配置為網路、服務和應用效能提供監控。實際上,它附帶了業內最大受支援應用的整合列表,我們可以安插這些整合來獲得整個生態系統的統一檢視。 該工具可以聚合以下指標和事件: SaaS和雲提供商 自動化工具 資料庫和通用伺服器元件 監控和儀表工具 原始碼控制和錯誤跟蹤解決方案 使用者根據一系列可選的圖形、指標和警報來輕鬆自定義視覺化儀表板和報告。擁有最多五臺主機的小公司,可以免費獲得Datadog。專業版和企業版則要按每主機定價收費。
2. 實施IT基礎設施監控的好處 其實只需從工具的描述中,就可以很容易地收集使用基礎設施監控的好處。但是,為了總結它們,這裡列出了我們可以獲得的確切商業利益。
2.1. 獲得基於資料的洞悉而不是主觀或預感 任何組織的IT部門都是一種寶貴的資產(commodity),負責其它每個部門的平穩運營,從人力資源到銷售、市場、客戶服務等。監控允許IT專業人員發掘和洞察有關潛在的問題,尤其是在組織發展壯大並對當前系統造成更多壓力時。這些洞悉將轉化為基於可靠資訊的建議和決策。
2.2. 在早期發現問題 使用主動監控工具意味著我們可以在問題成為災難前收到告警。監控發現的細微差異和早期徵兆將使得我們的IT人員能夠預測潛在的問題並規避它們。 這是一種遠比災難發生後才試圖救火更加高效的方法————在問題還是星星之火時就抓住並撲滅它們才是最好的辦法。
2.3. 計劃升級和IT預算 隨著組織的發展,當前基礎設施的壓力也在增長,細緻的監控可以指出那些在計劃升級時要優先處理的地方。反過來,預算計劃也得到了加強。
2.4. 減少停機時間 當然,這是底線。停機會導致終端使用者的工作效率降低。訂單執行停滯不前; 物流受到影響; 客戶服務受到負面影響等。如果這些事情經常發生,商業損失就會發生。
-
4 # 蘭亭溪山
Linux伺服器監控軟體有哪些
Cacti:是一套基於PHP,MySQL,SNMP及RRDTool開發的網路流量監測圖形分析工具,嚴格意思是說它只能是監控網路裝置。
Zabbix:是一個基於WEB介面的提供分散式系統監視以及網路監視功能的企業級的開源解決方案。
Nagios:是一款開源的免費網路監視工具,能有效監控Windows、Linux和Unix的主機狀態,交換機路由器等網路裝置,印表機等.
4.Ganglia:是一款為HPC(高效能計算)叢集而設計的可擴充套件的分散式監控系統,簡單一點來說就是監控大規模伺服器才需要使用到。
優點Cacti出圖比較好,比較適合作交換機和路由器監控。
Nagios適合中小企業部署使用,監控Linux伺服器、路由器、交換機,報警機制有郵件、簡訊。
Ganglia適合大型企業部署使用,分散式儲存,以叢集方式來監控,每個區域的Node來監控資料。缺點Catic對伺服器監控不好用。Zabbix對超大型、資料量併發很高的應用監控不好,監控會有延時,精度不夠,有些監控引數需要會寫監控指令碼完成。
Nagios部署比較複雜,沒有經驗的使用者會被折磨。出圖效果不佳需要藉助於RRDTool工具出圖。
Ganglia部署成本較高,需要多臺主機,部署相對複雜。
部署Zabbix最為便捷使用Centos7系統安裝LAMP環境搭建一個環境,安裝zabbix軟體,具體操作如下:
1,安裝zabbix源
2,安裝Zabbix server,Web前端
3,安裝MySQL源
4,檢視可用的Mysql安裝源:yum repolist enabled | grep "mysql.*-community.*"
5,安裝MySQL服務:yum -y install mysql-community-server
5,啟動MySQL服務,並且開機自啟動。
6,檢視MySQL服務啟動正常:
7,檢視登陸MySQL密碼:yG&t<kt*.3Qt
9,登陸MySQL
8,更改MySQL密碼:
9,建立資料庫和zabbix使用者並授權:
10,匯入初始架構和資料
11,檢查資料庫匯入情況
12,先備份配置文件
13,修改配置檔案
[root@localhost ~]# vim /etc/zabbix/zabbix_server.conf
14,給主目錄文件授權
15,啟動Zabbix Server服務
16,修改Zabbix預設時區為shanghai
[root@localhost ~]# vim /etc/httpd/conf.d/zabbix.conf +20
17,啟動Apache 服務
18,登陸瀏覽器操作
最後一步下載php
19,把下載下來的檔案上傳到/etc/zabbix/,你可以使用rz工具上傳這個檔案。
20,最後開啟登陸頁面
回覆列表
Nmon是一款計算機效能系統監控工具,因為它免費,體積小,安裝簡單,耗費資源低,廣泛應用於AIX和Linux系統。
這個系統我有兩年多的使用經驗,曾經做軟體測試工作的時候,有很長一段時間參與了效能、可靠性、媒體流分析等工作。
其實本來linux系統下有一些監控命令或狀態資料獲取命令的,但是對於一項系統工作來說,幾個基礎命令是遠遠不夠的,僅僅是解決了執行和資料獲取的問題,但有幾點無法保證:
多樣化的監控資料獲取,是否全面資料獲取後如何更好的使用,讓他產生價值資料報告的編寫有沒有更簡單明瞭的方式那麼Nmon很好的解決了這些問題
Nmon是單個二進位制檔案:
支援作業系統(Red Hat,SUSE,Ubuntu,Fedora,OpenSUSE等)支援平臺(Power,Mainframe,arm,x86或x86_64)。nmon安裝非常簡單,下載後解壓縮即可。下載連結:http://nmon.sourceforge.net/pmwiki.php?n=Site.Download
執行後會有一些使用參考,這裡不詳細說
我們看看他的資料是如何採集分析的?
在實際的效能測試中,我們需要把一段時間之內的資料記錄下來,可以使用如下命令
./nmon_x86_64_centos7 -c10-s10-f -m .
-f :按標準格式輸出檔名稱 生成檔案:_YYYYMMDD_HHMM.nmon
-t : 輸出最耗資源的程序
-s :每隔n秒採集一次,這裡為30秒
-c :採集次數,這裡為10,即監控=10*30/60=5分鐘
-m : 指定生成檔案位置
test :監控記錄的標題
那麼.nmon檔案就是結果檔案,可以重新儲存成csv(下載可以透過winscp等工具)
接下來的重頭戲就是:nmon_analyser