Nexus 5600 - "PCIe critical FAILURE DETECTED" po a

Problemy związane ze switchingiem
Wiadomość
Autor
Awatar użytkownika
peper
CCIE / Site Admin
CCIE / Site Admin
Posty: 5005
Rejestracja: 13 sie 2004, 12:19
Lokalizacja: Warsaw, PL
Kontakt:

Nexus 5600 - "PCIe critical FAILURE DETECTED" po a

#1

#1 Post autor: peper »

Hej,

Zauważyłem ciekawą/niepokojącą rzecz przy aktualizacji Nexusa 5600 z 7.1 do 7.2. Otóż po zakończeniu procesu bootowania wyskoczył taki komunikat

Kod: Zaznacz cały

2001 Feb 25 09:05:20 switch %$ VDC-1 %$ %USER-0-SYSTEM_MSG: 000: PCIe critical FAILURE DETECTED, contact Cisco TAC  - pfm
Komunikat ten pojawił się tylko po aktualizacji (przetestowane na dwóch urządzeniach), kolejny restart urządzenia już nie powodował takich komunikatów.

Szybki google search pokazał parę błędów z takim komunikatem, ale tam HW Reset reason code jest inny, u mnie niezależnie czy po aktualizacji czy po ręcznym restarcie code jest ten sam, SW Reset Reason oczywiście się różni między sobą ale nie ma nic wspólnego z opisanym w bugach

Kod: Zaznacz cały

Reset Reason for this card:
        Image Version : 7.2(0)N1(1)
        Reset Reason (LCM): Unknown (0) at time Wed Oct 14 15:35:48 2015
        Reset Reason (SW): Reset due to upgrade (88) at time Sun Feb 25 09:03:19 2001
          Service (Additional Info): 
        Reset Reason (HW): uC reset code: 0x0800
          Host Requested Reset: reload at time Sun Feb 25 09:03:19 2001



Reset Reason for this card:
        Image Version : 7.2(0)N1(1)
        Reset Reason (LCM): Unknown (0) at time Wed Oct 14 15:50:41 2015
        Reset Reason (SW): Reset Requested by CLI command reload (9) at time Wed Oct 14 15:43:09 2015
          Service (Additional Info): 
        Reset Reason (HW): uC reset code: 0x0800
          Host Requested Reset: reload at time Wed Oct 14 15:43:09 2015
Czy zauważyliście podobne zachowanie u siebie? Wątpię by dwa urządzenia były fabrycznie uszkodzone oraz po restarcie komunikat się już nie objawia.

Any thoughts?
Szkoła DevNet: https://szkoladevnet.pl


Facebook: https://www.facebook.com/Piotr.Wojciechowski.CCIE
LinkedIn: https://www.linkedin.com/in/peper
Twitter: https://www.twitter.com/PiotrW_CCIE

"Zapomniałem że od kilku lat wszyscy giną jakby nigdy ich nie miało być
w stu tysiącach jednakowych miast giną jak psy"

martino76
CCIE
CCIE
Posty: 883
Rejestracja: 17 gru 2010, 15:23
Lokalizacja: Barczewo

Re: Nexus 5600 - "PCIe critical FAILURE DETECTED"

#2

#2 Post autor: martino76 »

Wygląda jak bug zerknij na
CSCur37507
CSCuo39936


[EDIT] Ta wersja ogólnie nie jest rekomendowana przez Cisco, rekomendują natomiast 7.0.7.N1.1
Pozdro,

Awatar użytkownika
peper
CCIE / Site Admin
CCIE / Site Admin
Posty: 5005
Rejestracja: 13 sie 2004, 12:19
Lokalizacja: Warsaw, PL
Kontakt:

#3

#3 Post autor: peper »

Tak mi pachniało, że może być to kosmetyka bo było tylko po pierwszym restarcie, ale Google akurat tych bugów nie wyrzucił mi.
Szkoła DevNet: https://szkoladevnet.pl


Facebook: https://www.facebook.com/Piotr.Wojciechowski.CCIE
LinkedIn: https://www.linkedin.com/in/peper
Twitter: https://www.twitter.com/PiotrW_CCIE

"Zapomniałem że od kilku lat wszyscy giną jakby nigdy ich nie miało być
w stu tysiącach jednakowych miast giną jak psy"

martino76
CCIE
CCIE
Posty: 883
Rejestracja: 17 gru 2010, 15:23
Lokalizacja: Barczewo

#4

#4 Post autor: martino76 »

peper pisze:Tak mi pachniało, że może być to kosmetyka bo było tylko po pierwszym restarcie, ale Google akurat tych bugów nie wyrzucił mi.
Mały hint jeśli widzisz specyficzną outpur na Cisco, jakiś error albo coś co wygląda jak error, najlepiej iść na stronce cisco.com i tam wrzucić to w ich wyszukiwarkę. Wtedy sprawdzana jest ich baza danych z bugami :) szybko można znaleźć coś co pasuje do naszego błędu.

Może przyda się dla potomnych

Pozdro,

Awatar użytkownika
peper
CCIE / Site Admin
CCIE / Site Admin
Posty: 5005
Rejestracja: 13 sie 2004, 12:19
Lokalizacja: Warsaw, PL
Kontakt:

#5

#5 Post autor: peper »

Wiem xD Tylko akurat wyskoczyły on top nie te :D I tak +10 dla mnie za spostrzegawczość :P
Szkoła DevNet: https://szkoladevnet.pl


Facebook: https://www.facebook.com/Piotr.Wojciechowski.CCIE
LinkedIn: https://www.linkedin.com/in/peper
Twitter: https://www.twitter.com/PiotrW_CCIE

"Zapomniałem że od kilku lat wszyscy giną jakby nigdy ich nie miało być
w stu tysiącach jednakowych miast giną jak psy"

Awatar użytkownika
mstan
wannabe
wannabe
Posty: 94
Rejestracja: 18 lip 2013, 18:21

#6

#6 Post autor: mstan »

Jesli blad pojawil sie tylko raz to wyglada to na CSCur37507, ktory dotyczy sytuacji, gdy jeden z wewnetrznych parametrow MTU jest zbyt wczesnie sprawdzany, zanim zdazy byc prawidlowo ustawiony po upgrade Nx-OS'a.
Po chwili wszystko wraca do normy.

Jesli ten sam blad pojawialby sie cyklicznie to wtedy juz bedzie inna przyczyn.

Awatar użytkownika
peper
CCIE / Site Admin
CCIE / Site Admin
Posty: 5005
Rejestracja: 13 sie 2004, 12:19
Lokalizacja: Warsaw, PL
Kontakt:

#7

#7 Post autor: peper »

Możesz rozwinąć trochę informację o tym MTU? Jeżeli to ten bug to niby w mojej wersji softu nie powinien występować. Zgadzam się, że to zapewne kosmetyka bo specjalnie przeładowałem 2-3 razy pudełka.
Szkoła DevNet: https://szkoladevnet.pl


Facebook: https://www.facebook.com/Piotr.Wojciechowski.CCIE
LinkedIn: https://www.linkedin.com/in/peper
Twitter: https://www.twitter.com/PiotrW_CCIE

"Zapomniałem że od kilku lat wszyscy giną jakby nigdy ich nie miało być
w stu tysiącach jednakowych miast giną jak psy"

Awatar użytkownika
mstan
wannabe
wannabe
Posty: 94
Rejestracja: 18 lip 2013, 18:21

#8

#8 Post autor: mstan »

Zgadza sie. Zmiana w CSCur37507 weszla do 7.2(0)N1(1).

Natomiast znalazlem wlasnie dwie inne poprawki na wersjach, ktore maja juz fix'a do CSCur37507, wiec wyglada ze fix nie byl kompletny i caly czas temat jest analizowany przez BU:

CSCut70252
CSCuw48348

Nie zaglebiajac sie w szczegoly chodzi o tzw PCIe bridge PLX MTU.
Tak czy inaczej wyglada na kosmetyke.

W razie czego zapraszam do otwarcia kejsa w TACu ;)

martino76
CCIE
CCIE
Posty: 883
Rejestracja: 17 gru 2010, 15:23
Lokalizacja: Barczewo

#9

#9 Post autor: martino76 »

mstan pisze:Zgadza sie. Zmiana w CSCur37507 weszla do 7.2(0)N1(1).

Natomiast znalazlem wlasnie dwie inne poprawki na wersjach, ktore maja juz fix'a do CSCur37507, wiec wyglada ze fix nie byl kompletny i caly czas temat jest analizowany przez BU:

CSCut70252
CSCuw48348

Nie zaglebiajac sie w szczegoly chodzi o tzw PCIe bridge PLX MTU.
Tak czy inaczej wyglada na kosmetyke.

W razie czego zapraszam do otwarcia kejsa w TACu ;)
Michał nie wiedziałem, ze wspieracie Nexusy. Sporo się zmieniło od momentu kiedy odszedłem :)

Pozdro,

Awatar użytkownika
mstan
wannabe
wannabe
Posty: 94
Rejestracja: 18 lip 2013, 18:21

#10

#10 Post autor: mstan »

martino76 pisze:
Michał nie wiedziałem, ze wspieracie Nexusy. Sporo się zmieniło od momentu kiedy odszedłem :)

Caly czas rosniemy w sile ;) zarowno jesli chodzi o headcount jak i wspierane platformy/technologie.

ODPOWIEDZ