當oracle rac出問題時,很多人往往不知道從何查起,我根據自己在生產上排查的經驗,說一下自己的排查思路。
一、檢視系統時間是否同步1、date
2、不同步的進行同步,在兩個節點上執行:
ntpdate -u 1.cn.pool.ntp.org
3、重啟有問題的節點
【時間不同步,斷電後資料庫啟動時crs啟動失敗導致asm啟動失敗,最後資料庫啟動失敗,asm日誌資訊報i/o錯誤、找不到磁碟組等,可能會誤導問題的定位,其實只是時間不同步導致的問題,找到問題的根源,重啟即可】
二、檢視防火牆是否關閉ping 私有ip,vip,如果不通,先按下面步驟操作:
1、 檢視防火牆狀態:service iptables status
2、 如果防火牆是開的,就關閉:service iptables stop
3、 設定防火牆不要開機啟動:chkconfig iptables off
4、 檢查上一步是否設定成功:chkconfig --list iptables
關閉防火牆
重啟有問題節點資料庫即可。
su – grid
asmcmd
lsdg
su – oracle
rman target /
crosscheck archivelog all;//檢查控制檔案和實際物理檔案的差別。
delete noprompt archivelog all completed before 'sysdate-7';
delete noprompt expired archivelog all;
delete noprompt obsolete【或者delete noprompt obsolete until time 'sysdate-7' ;
】
ASMCMD>cd archivelog
ASMCMD>ls
su - oracle
rman target /
RMAN> crosscheck archivelog all;
RMAN>delete expired archivelog all;
【補充】
查詢每天的歸檔產生的情況:
SELECT TRUNC(FIRST_TIME) "TIME",SUM(BLOCK_SIZE * BLOCKS) / 1024 / 1024 / 1024 "SIZE(GB)"FROM V$ARCHIVED_LOG GROUP BY TRUNC(FIRST_TIME);
查詢每天的歸檔產生的情況
查詢最近7天每天歸檔產生情況,在上條sql中加過濾條件:
SELECT TRUNC(FIRST_TIME) "TIME",SUM(BLOCK_SIZE * BLOCKS) / 1024 / 1024 / 1024 "SIZE(GB)"FROM V$ARCHIVED_LOG GROUP BY TRUNC(FIRST_TIME) having TRUNC(FIRST_TIME) >= TRUNC(sysdate -7);
四、檢視crs狀態及日誌1、使用系統命令檢視相關程序ps –ef | grep d.bin
2、使用oracle命令檢視叢集狀態進入oracle 的bin目錄下:
cd /u01/app/11.2.0/grid/bin/
執行:
./crsctl stat res -t
或者,進入grid使用者,直接執行crsctl stat res -t
3、在每個節點上檢查crs狀態[grid@rac1 ~]$ crsctl check cluster
節點1
節點2
crsctl check crs //只檢查本節點
4、crs日誌路徑Grid相關日誌:
/u01/app/11.2.0/grid/log/node1
5、啟動某個節點crs【使用root使用者執行】./crsctl start cluster -n db1 //-n後是節點名
五、檢視asm狀態及日誌1、檢查 ASM狀態及配置[oracle@rac1 ~]$ srvctl status asm
ASM is running on rac1,rac2
2、asm日誌路徑Asm相關日誌路徑:
/u01/app/grid/diag/asm/+asm/+ASM1/trace
重要的日誌檔案:alert_+ASM1.log
3、查詢asm配置srvctl config asm -a
4、啟動asm例項【最好在grid使用者下執行】srvctl start asm -n db1 // -n後是節點名字