公司原來的架構只有cisco 3850當core switch,在2016/5/2換上了N5K,主要是讓2台N5k+N2k處理所有內部的流量並做AA模式。原來的cisco 3850 則是夾在 N5K 及 fw 中間處理上internet routering 及另一條專線的路由。
簡略架構:
在還沒更換前可以看到如下圖2016/4/26- 2016/5/11 cacti cpu 使用率線圖差距很大
再把cacti 級距拉近一點 可以看到2016/5/2 – 2016/5/06 ,可能有斷圖但不影響分析
上下兩張分析後就是在更換上N5後cpu使用率突然飆高。
再來看每日5分鐘平均可以看到大約在上班時間0900開始有流量後開始cpu使用量升高,大約晚上2000後陸續同事下班開始下降。
因為cacti 不知為看到的線圖有時候會有沒收到資料斷圖現象,剛好最近有把opennms 架設起來
所以也可以看到2016/5/10 AM 0900 – 2016/5/12 AM0900 的數據圖,確定在上班時段就是cpu就是標高
但在還沒更換前卻是使用大約15%以下。
在cisco 3850下 show process cpu 後
看到其中一個核心確實在上班時間使用率較高。
詢問廠商分析後,曾經其他客戶遇過情況cisco 3850 4個核心都使用率同時飆高,原因是 firmware bug 造成,所以建議更新fireware 版本。目前我這邊的版本是03.03.05.SE 將他更新到03.06.04.E (cat3k_caa-universalk9.SPA.03.06.04.E.152-2.E4.bi),但更新完畢後尚無法解決。
最後參考此篇cisco故障排除步驟
利用指令檢查CPU Process為iosd較高造成,
show processes cpu sort | exclude 0.0
show cpu detailed process iosd sort | ex 0.0
利用指令檢查CPU Quene為CPU_Q_ICMP_REDIRECT造成iosdprocess衝高 (如下圖)
show platform punt statistics port-asic 0 cpuq -1 direction rx
最後是因為ICMP_REDIRECT的原因
網路上有相關CPU_Q_ICMP_REDIRECT討論(如下連結)
https://www.reddit.com/r/Cisco/comments/2vcpqy/cisco_3850_high_cpu_bounces_from_core_to_core/
因有些vlan還存在3850,將3850 SVI ICMP redirect關閉後
CPU_Q_ICMP_REDIRET恢復正常, Core 0 utilization也恢復到10%左右正常值
在這些vlan 設定 no ip redirects (在cisco 3850 中預設示啟用的)
修改後當天cacti監控的cpu使用量就下降了
ICMP Redirect 相關說明
http://www.cisco.com/c/en/us/support/docs/ip/routing-information-protocol-rip/13714-43.html
本篇瀏覽人數: 6736