Co ciekawe pod całkowitym odpięciu switcha od prądu na kilka minut po chwili wracał do życia i część z nich potrafiła bez problemu chodzić przez kolejne kilkadziesiąt godzin.
Podejrzewaliśmy że się przegrzewają, ale monitoring temperatury w serwerowni nie pokazywał żadnych anomalii. W końcu udało się zebrać logi z jednego ze switchy tuż przed tym jak umarł i okazało się że jeden z ASIC-ów się przegrzewał... a przynajmniej tak twierdził jakiś sensor i switch się prewencyjnie wyłączał.
Po dłuższych poszukiwaniach okazało się że jest bug który wcześniej był już znany w innych modelach, ale oryginalnie nie dotyczył tego 7010T:
Zobaczymy czy nowy soft faktycznie pomoże - przed upgrade 4 switche z 20 padły (niektóre dwu- lub trzy-krotnie)BUG98421
Fixed in SW versions from 4.12.9 , 4.13.9 , 4.14.3.1 , 4.14.5 onwards .
Release Note: On the DCS-7050 series, a spurious temperature reading from one of the switch chip sensors can cause the system to shutdown.
EOS-4.14.12M is the latest available 4.14 release that will have this fix, we would recommend you to get in touch with the SE of your account for a recommended SW version.
We will correct the release notes to add 7010T switches to the affected platforms.