Cisco 3850 CPU突然使用率飆高至60%

公司原來的架構只有cisco 3850當core switch,在2016/5/2換上了N5K,主要是讓2台N5k+N2k處理所有內部的流量並做AA模式。原來的cisco 3850 則是夾在 N5K 及 fw 中間處理上internet routering 及另一條專線的路由。

簡略架構:

clip_image002

在還沒更換前可以看到如下圖2016/4/26- 2016/5/11 cacti cpu 使用率線圖差距很大

clip_image004

再把cacti 級距拉近一點 可以看到2016/5/2 – 2016/5/06 ,可能有斷圖但不影響分析

上下兩張分析後就是在更換上N5後cpu使用率突然飆高。

clip_image006

再來看每日5分鐘平均可以看到大約在上班時間0900開始有流量後開始cpu使用量升高,大約晚上2000後陸續同事下班開始下降。

clip_image008

因為cacti 不知為看到的線圖有時候會有沒收到資料斷圖現象,剛好最近有把opennms 架設起來

所以也可以看到2016/5/10 AM 0900 – 2016/5/12 AM0900 的數據圖,確定在上班時段就是cpu就是標高

但在還沒更換前卻是使用大約15%以下。

clip_image010

在cisco 3850下 show process cpu 後

看到其中一個核心確實在上班時間使用率較高。

clip_image011

詢問廠商分析後,曾經其他客戶遇過情況cisco 3850 4個核心都使用率同時飆高,原因是 firmware bug 造成,所以建議更新fireware 版本。目前我這邊的版本是03.03.05.SE 將他更新到03.06.04.E (cat3k_caa-universalk9.SPA.03.06.04.E.152-2.E4.bi),但更新完畢後尚無法解決。

最後參考此篇cisco故障排除步驟

http://www.cisco.com/c/en/us/support/docs/switches/catalyst-3850-series-switches/117594-technote-hicpu3850-00.html

利用指令檢查CPU Process為iosd較高造成,

show processes cpu sort | exclude 0.0

show cpu detailed process iosd sort | ex 0.0

利用指令檢查CPU Quene為CPU_Q_ICMP_REDIRECT造成iosdprocess衝高 (如下圖)
show platform punt statistics port-asic 0 cpuq -1 direction rx

clip_image012

最後是因為ICMP_REDIRECT的原因

網路上有相關CPU_Q_ICMP_REDIRECT討論(如下連結)

https://www.reddit.com/r/Cisco/comments/2vcpqy/cisco_3850_high_cpu_bounces_from_core_to_core/

因有些vlan還存在3850,將3850 SVI ICMP redirect關閉後

CPU_Q_ICMP_REDIRET恢復正常, Core 0 utilization也恢復到10%左右正常值

在這些vlan 設定 no ip redirects (在cisco 3850 中預設示啟用的)

修改後當天cacti監控的cpu使用量就下降了

clip_image014

ICMP Redirect 相關說明

http://www.cisco.com/c/en/us/support/docs/ip/routing-information-protocol-rip/13714-43.html



本篇瀏覽人數: 4774
分類: Cisco篇。這篇內容的永久連結

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *