一直以來公司的exchange 2010 DAG 的備份方式是使用傳統windows server backup 工具來備份到NAS再加上openfind mailbase 保存歷史郵件,所以現階段也建置了混合雲,所以積極遷移信箱中。
正常來說每日備份時間點完晚上9點30分開始大約會在隔日早上11點結束(因為空間滿大的)
下圖為cacti 監控switch 界接NAS的port 流量圖此圖是正常備份開始完成的線圖。
但是某一天因為之前台電因需要施工但是時間不長,所以決定把幾台實體機和NAS關機撐過台電施工後再開機。因為NAS當時直接設定關機及開機的時間,所以沒甚麼問題,但是就在隔周某一天週五NAS關機所以備份exchange 失敗,隔天發現是NAS自動關機(排程沒關)的關係造成備份失敗,開機後當天依照時間備份即可,可是發現晚上9點30開始到隔天11點都未收到完成通知,連回公司查看後發現還在備份,結果等到晚上7點多完成整整時間多了一倍。
觀察cacti 發現線圖有點詭異,會上上下下的流量
依照是正常狀態應該會是重開始到結束部會有速率突然急速下降後又上升
因為該NAS 是一張2 Port 網卡做LACP 接到 cisco N3k
查詢NAS 接的兩個 cisco port 上面資訊 雖然有看到output error 數值,但是觀察後沒有持續增加的趨勢,所以應屬正常
後來想說會不會是磁碟有些問題所造成流量忽上忽下
於是檢查了 下server 有沒有可疑的log
有看到如下圖even id 2095 很頻繁出現
但是去機房察看硬碟燈號或是dell 顯示都是正常燈號
查到下面網址有提到這可能是讀取錯誤
因有備用硬碟所以將她更換後rebuild OK 後該訊息沒有再出現後,週五讓他備份可是發現狀況依舊沒改善。
於是網NAS上面查看看,在NAS網卡資訊中有看到LACP 成員的網卡其中一張有大量錯誤封包。
ssh 到NAS 看一下網卡確實有 errors
所以決定直接把有問題的port 線路拔掉測試,拔掉後晚上跑備份就恢復正常
不過沒有在cisco端看到 error持續增加也是個疑點。總之解決就好
再此做個紀錄
本篇瀏覽人數: 3156