jakby pętla w sieci...
: 25 lis 2016, 15:30
Ostatnio trafiłem na dziwną rzecz. Nowa lokalizacja, nowy sprzęt, nowe okablowanie.
Lokalizacja została uruchomiona i po pewnym czasie rano odcięło ją od świata. Routery z firewallami w sieci transferowej odpowiadały. Switche nie odpowiadały. Na routerach flapowało HSRP. Cluster firewalli niestabilny, co chwilę zmieniał się master.
Próby restartowania firewalli i routerów nie pomogły.
Brzmi jak jakiś sztorm w sieci, routery i firewalle tracą komunikację.
Przyjechał serwisant, zrestartował switche, wszystko zaczęło działać.
Aby wyeliminować podejrzewany problem z światłowodami łączącymi switche uruchomiłem udld agressive na wszystkich uplinkach.
Kolejnego dnia z rana podobna sytuacja, choć tym razem trochę lepiej. Około połowa pingów do switchy działa. Z trudem, ale zdalnie się dostałem na switche po posprawdzałem co mi się udało.
W logach widziałem jakieś frapowanie adresów MAC, co zazwyczaj oznacza chyba pętlę w sieci.
Zacząłem szukać portów accessowe, które odpowiadają flapowaniu i było to pomiędzy portami accesowymi a uplinkami.
Zacząłem więc shutdownować porty, pomogło dopiero zshutdownowanie jednego uplinka.
Sieć się ustabilizowała, więc zacząłem po kolei uruchamiać wszystkie porty. Włączyłem wszystkie i cisza...
Znalazłem sporą utylizację portów, które podejrzewałem za tworzenie pętli:
reliability 255/255, txload 255/255, rxload 1/255
reliability 255/255, txload 194/255, rxload 1/255
reliability 255/255, txload 255/255, rxload 1/255
reliability 255/255, txload 194/255, rxload 1/255
Są to porty, do których podłączone są kasy, chyba z jakimś systemem Linux. Nic specjalnie nowego w sieci dla tej lokalizacji się nie pojawiło.
Kolejnego dnia przygotowałem się na poranną powtórkę z rozrywki, ale od 2 dni cisza...
Na portach uruchomione mam bpdu guard storm-control
storm-control broadcast level pps 1k
storm-control multicast level pps 1k
storm-control action shutdown
ip dhcp snooping limit rate 10
Switche 2960x, soft c2960x-universalk9-mz.152-3.E1.
Generalnie soft i switche są stabilne od bardzo dawna w wielu lokalizacjach, nic tutaj nowego nie wdrażaliśmy.
Czy ma ktoś może jakieś podejrzenia co to mogło być?
Gdyby te porty miały jakąś pętlę, pchały multicasty, breadcasty to by je storm-control wyciął.
Problem chwilowo się nie pojawia, ale zastanawiam się co jeszcze na przyszłość mogę zdiagnozować?
Jakieś pomysły?
Lokalizacja została uruchomiona i po pewnym czasie rano odcięło ją od świata. Routery z firewallami w sieci transferowej odpowiadały. Switche nie odpowiadały. Na routerach flapowało HSRP. Cluster firewalli niestabilny, co chwilę zmieniał się master.
Próby restartowania firewalli i routerów nie pomogły.
Brzmi jak jakiś sztorm w sieci, routery i firewalle tracą komunikację.
Przyjechał serwisant, zrestartował switche, wszystko zaczęło działać.
Aby wyeliminować podejrzewany problem z światłowodami łączącymi switche uruchomiłem udld agressive na wszystkich uplinkach.
Kolejnego dnia z rana podobna sytuacja, choć tym razem trochę lepiej. Około połowa pingów do switchy działa. Z trudem, ale zdalnie się dostałem na switche po posprawdzałem co mi się udało.
W logach widziałem jakieś frapowanie adresów MAC, co zazwyczaj oznacza chyba pętlę w sieci.
Zacząłem szukać portów accessowe, które odpowiadają flapowaniu i było to pomiędzy portami accesowymi a uplinkami.
Zacząłem więc shutdownować porty, pomogło dopiero zshutdownowanie jednego uplinka.
Sieć się ustabilizowała, więc zacząłem po kolei uruchamiać wszystkie porty. Włączyłem wszystkie i cisza...
Znalazłem sporą utylizację portów, które podejrzewałem za tworzenie pętli:
reliability 255/255, txload 255/255, rxload 1/255
reliability 255/255, txload 194/255, rxload 1/255
reliability 255/255, txload 255/255, rxload 1/255
reliability 255/255, txload 194/255, rxload 1/255
Są to porty, do których podłączone są kasy, chyba z jakimś systemem Linux. Nic specjalnie nowego w sieci dla tej lokalizacji się nie pojawiło.
Kolejnego dnia przygotowałem się na poranną powtórkę z rozrywki, ale od 2 dni cisza...
Na portach uruchomione mam bpdu guard storm-control
storm-control broadcast level pps 1k
storm-control multicast level pps 1k
storm-control action shutdown
ip dhcp snooping limit rate 10
Switche 2960x, soft c2960x-universalk9-mz.152-3.E1.
Generalnie soft i switche są stabilne od bardzo dawna w wielu lokalizacjach, nic tutaj nowego nie wdrażaliśmy.
Czy ma ktoś może jakieś podejrzenia co to mogło być?
Gdyby te porty miały jakąś pętlę, pchały multicasty, breadcasty to by je storm-control wyciął.
Problem chwilowo się nie pojawia, ale zastanawiam się co jeszcze na przyszłość mogę zdiagnozować?
Jakieś pomysły?