Arista - bug w 7010T powodujący shutdown switcha

wszystko inne - NIE licząc sprzętu typu SOHO!!!

Moderatorzy: mikrobi, aron, garfield, gangrena, Seba

Wiadomość
Autor
Awatar użytkownika
krisiasty
wannabe
wannabe
Posty: 483
Rejestracja: 07 lut 2006, 22:26
Lokalizacja: Gdańsk

Arista - bug w 7010T powodujący shutdown switcha

#1

#1 Post autor: krisiasty » 07 kwie 2016, 19:34

Trafiliśmy ostatnio na bardzo przykry bug w Aristach 7010T - część switchy w co kilkanaście/kilkadziesiąt godzin po prostu wyłączała się (totalny blackout, jakby zasilacz padł).

Co ciekawe pod całkowitym odpięciu switcha od prądu na kilka minut po chwili wracał do życia i część z nich potrafiła bez problemu chodzić przez kolejne kilkadziesiąt godzin.

Podejrzewaliśmy że się przegrzewają, ale monitoring temperatury w serwerowni nie pokazywał żadnych anomalii. W końcu udało się zebrać logi z jednego ze switchy tuż przed tym jak umarł i okazało się że jeden z ASIC-ów się przegrzewał... a przynajmniej tak twierdził jakiś sensor i switch się prewencyjnie wyłączał.

Po dłuższych poszukiwaniach okazało się że jest bug który wcześniej był już znany w innych modelach, ale oryginalnie nie dotyczył tego 7010T:

BUG98421
Fixed in SW versions from 4.12.9 , 4.13.9 , 4.14.3.1 , 4.14.5 onwards .
Release Note: On the DCS-7050 series, a spurious temperature reading from one of the switch chip sensors can cause the system to shutdown.

EOS-4.14.12M is the latest available 4.14 release that will have this fix, we would recommend you to get in touch with the SE of your account for a recommended SW version.

We will correct the release notes to add 7010T switches to the affected platforms.
Zobaczymy czy nowy soft faktycznie pomoże - przed upgrade 4 switche z 20 padły (niektóre dwu- lub trzy-krotnie)

ODPOWIEDZ