Juniper - grupa robocza ;)

JunOS / Juniper / Netscreen
Wiadomość
Autor
Awatar użytkownika
gangrena
CCIE/CCDE
CCIE/CCDE
Posty: 2349
Rejestracja: 08 mar 2004, 12:17
Lokalizacja: Wawa

Re: Alien versus Predator

#31

#31 Post autor: gangrena »

Archi_p pisze:Ostatni problem - wciaz nierozwiazany - zagadka, jezeli ktos ma pomysl to wyslucham:
12410 (jesli dobrze pamietam) z trzema linkami: jeden stm4 do m320; i stm4 +stm16 do drugiego m320. wszystkie maja ospfa w jednej arei. losowo - w czasie okna serwisowego (a wiec wekeend, maly ruch) - ospf migocze jednoczesnie na wszystkich linkach po kilka, kilkanascie razy. fizyka jest czysta jak lza. ostatnie pare dni spedzilem w labie probujac odtworzyc i kacza d... nic.
Moim zdaniem w tym przypadku, to moze nie byc ani sprawa platformy, ani wlozonych interfejsow, lecz topologii sieci i jej konfiguracji. Mowiac migotanie miales na mysli flapping? Prosta petla moze zabic kazde urzadzenie. Jezeli dzieje sie to wylacznie w czasie okna serwisowego, chocby i losowo, to jest to juz podejrzane samo w sobie.

Awatar użytkownika
Archi_p
wannabe
wannabe
Posty: 191
Rejestracja: 03 sie 2007, 20:35
Lokalizacja: Swindon/UK

#32

#32 Post autor: Archi_p »

Tak piszac migotanie mialem na mysli flapping - rzecz w tym ze przed padem ospf'a nie widac zadnego wiekszego ruchu, wrecz mniejszy (noc z soboty na niedziele), a w tygodniu nic sie nie dzieje. Nie ma raczej mozliwosci ze jest to atak, linki fizycznie sa bez zarzutu, moze troche wiecej retransmisji LSA - ale wciaz nic specjalnego. Problem pojawil sie po zamianie stm4 na stm16. Udalo sie chyba cos takiego odtworzyc w labie, niestety zanim przyszlismy do laba jakis ciapaty stwierdzil ze nie podoba mu sie wersja softu na GSRe i go zupgradowal, a na M320 300m logow sie zrolowalo przez noc i d... :( czekamy dalej

Alex
wannabe
wannabe
Posty: 60
Rejestracja: 23 cze 2007, 14:07
Lokalizacja: Bydgoszcz, Poland

#33

#33 Post autor: Alex »

Archi_p pisze:Problem pojawil sie po zamianie stm4 na stm16. Udalo sie chyba cos takiego odtworzyc w labie, niestety zanim przyszlismy do laba jakis ciapaty stwierdzil ze nie podoba mu sie wersja softu na GSRe
Nie bede pewnie za bardzo odkrywczy jak powiem, ze problemu nalezaloby szukac na 12410, jako ze jest to punkt wspolny dla zjawiska flappowania, jak i pozostalych OSPF peerow. Jezeli soft zostal zupgradeowany i problem nie jest powtarzalny, to po pierwsze sytuacja w labie nie jest juz dokladnym odtworzeniem (inne wersje softu) a po drugie, moze wlasnie "ciapaty" rozwiazal wasz problem ;-).
Odnosnie testowania, pokusilbym sie o postawienie jeszcze jednego protokolu np. BGP albo nawet ISIS, aby zobaczyc czy flapowanie dotyczny wlacznie OSPFa czy wszystkiego co biega pomiedzy maszynami.

Z tego co do tego czasu tu "poczytalem" widze, ze kolega z tego samego folwarku co i ja, wiec serdecznie pozdrawiam.
--
Alex

Awatar użytkownika
Archi_p
wannabe
wannabe
Posty: 191
Rejestracja: 03 sie 2007, 20:35
Lokalizacja: Swindon/UK

#34

#34 Post autor: Archi_p »

Ot, problem polega na tym ze siec jest duuuuuza i nie mozna sobie postawic czegokolwiek typu dodatkowy protokol czy inna wersja softu :( soft przed wdrozeniem do sieci produkcyjnej testuje sie 3 do 6 miesiecy miedzy innymi na wspolprace z innymi wendorami.
Oczywiscie stm16 pomiedzy gsr a m320 byl testowany i nic nie wyszlo, dodatkowo tuz "obok" w sieci w identycznej konfiguracji "sajtu" siedzi 73xx i nic go nie rusza.
A co do zmiany softu na C, zostal przywrocony do poprawnej a kolega winowajca uslyszal ciekawa kolekcje przeklenstw pod swoim adresem

Alex
wannabe
wannabe
Posty: 60
Rejestracja: 23 cze 2007, 14:07
Lokalizacja: Bydgoszcz, Poland

#35

#35 Post autor: Alex »

Archi,
chodzilo mi raczej o 100% odwzorowanie srodowiska produkcyjnego tej sieci w labie, czyli takie same wersje softu itd., wtedy obserwowac, czy problem daje sie odtworzyc.
Odnosnie dodatkowego protokolu, to fakt myslalem, ze skoro nie mozna odtworzyc problemu w labie to moznaby dolozyc go na pracujacych maszynach, ale jedynie w celu nazwiania adjacency, bez rozglaszania zadnych tras, a jesli juz nawet to ewentualnie w jakims VRFie.
Nie mozecie jakiegos RFC albo WO skreowac/zarequestowac na taki test? Wiem, ze papierologia jest upierdliwa, ale czasem niestety ale trzeba, skoro inne dzialania nie przynosza rezultatow.

Awatar użytkownika
Archi_p
wannabe
wannabe
Posty: 191
Rejestracja: 03 sie 2007, 20:35
Lokalizacja: Swindon/UK

#36

#36 Post autor: Archi_p »

Srodowisko w labie jest takie same jak w produkcji - hadware, software, konfiguracja. Zeby bylo jeszcze bardziej realnie to pomiedzy nimi jest ten sam sprzet transmisyjny, sw ... i po obu stronach tzn za GSR i za m320 po jednym testerze wrzucajacym LSA w ilosci przekraczajacej najwyzsze obciazenie w sieci produkcyjnej + ruch w tle zeby swiatlowody nie ostygly :D

A produkcja - no coz to nie takie proste nawet dodac dodatkowe logowanie pakietow na routerze bez odpowiedzi na milion pytan jak to wplynie na wydajnosc itp, nie mowiac juz bron Boze o wprowadzeniu jakis zmian w konfiguracji - to nie ta skala. No i pacjenci pod krawatami krzyczacy ze dziesiatki milionow papierow moga sie isc ... bo klienci klienta groza zmiana ISP

Problemem jest to ze ani Cisco ani Juniper nie moga tego odtworzyc bo tylko klient ma laba na ktorym moze przeprowadzic takie testy, i czekaja na potwierdzenie ze problem jest mozliwy do odtworzenia

Awatar użytkownika
kktm
CCIE
CCIE
Posty: 2025
Rejestracja: 20 paź 2004, 14:43
Lokalizacja: Wrocław

#37

#37 Post autor: kktm »

Archi_p pisze:Tak piszac migotanie mialem na mysli flapping - rzecz w tym ze przed padem ospf'a nie widac zadnego wiekszego ruchu, wrecz mniejszy (noc z soboty na niedziele), a w tygodniu nic sie nie dzieje.
Możesz zdefiniować pojęcie "pad OSPF"? Czy to wywalenie tablicy routingu, tracenie sasiedztwa, resetowanie linków czy jeszcze cos innego?

1. Ile macie prefixów w OSPF ?

2. W jaki sposób macie stuningowanego ospf'a- mozesz podesłać konfiguracje?

3. Jakia jest historia CPU na routerach, jest skorelowana z padami łączy?

4. Używacie sumaryzacji?

Awatar użytkownika
Archi_p
wannabe
wannabe
Posty: 191
Rejestracja: 03 sie 2007, 20:35
Lokalizacja: Swindon/UK

#38

#38 Post autor: Archi_p »

Flapowanie OSPFa - w tym przypadku zmiana stanu z full do down, i z powrotem 4-5 razy w ciagu ok 2 godz; dwukrotnie w czasie okna serwisowego w odstepie tygodnia
L1/L2 - nie wykazuja zadnych bledow
Nie jest to problem konfiguracji
Utylizacja na poziomie 20 - 40 procent

W sieci spokoj od 2 weekendow, nieodtwarzalne w Labie.

Podejrzenia:
1. W czasie okna serwisowego nastepuja zmiany konfiguracji sieci, intefejsy i routery ida down i up, i COS z tego wali OSPFa
2. Atak
3. Marsjanie
4. Najbardziej prawdopodobna - SI czeka az wszyscy inzynierowie odpowiedzialni za support beda nawaleni w trupa (monitorujac aktywnosc ich kart kredytowych, komorek etc ) i wtedy bawi sie OSPFem.

Na powaznie - ok 20 ludzi inwestyguje od miesiaca, na razie bez skutku :(

Awatar użytkownika
kktm
CCIE
CCIE
Posty: 2025
Rejestracja: 20 paź 2004, 14:43
Lokalizacja: Wrocław

#39

#39 Post autor: kktm »

Archi_p pisze: Nie jest to problem konfiguracji
rozumiem ze config jest top secret, podobnie jak info o sieci :)

Awatar użytkownika
Archi_p
wannabe
wannabe
Posty: 191
Rejestracja: 03 sie 2007, 20:35
Lokalizacja: Swindon/UK

#40

#40 Post autor: Archi_p »

bardziej secret niz top, i naprawde problem jest bardzo powaznie sprawdzany, a liczba 20 osob technicznych zreszta a nie dowodczych jest raczej zanizona

wml
wannabe
wannabe
Posty: 53
Rejestracja: 04 paź 2007, 21:13
Lokalizacja: Reading, UK

#41

#41 Post autor: wml »

Archi_p pisze:bardziej secret niz top, i naprawde problem jest bardzo powaznie sprawdzany, a liczba 20 osob technicznych zreszta a nie dowodczych jest raczej zanizona
Witam.

Z ciekawosci - czy problem zostal rozwiazany?
Przypomnial mi sie podobny problem - winowajca byla zbyt niska wartosc broadcast suppression.

Pozdrawiam
WML

Awatar użytkownika
Archi_p
wannabe
wannabe
Posty: 191
Rejestracja: 03 sie 2007, 20:35
Lokalizacja: Swindon/UK

#42

#42 Post autor: Archi_p »

Jak to w zyciu bywa - po 2 tygodniach zacietego monitorowania, inwestygowania itp - bez rezultatow i bez powtorki z rozrywki w sieci produkcyjnej wszyscy sie odrobine bardziej wyluzowali - teraz po ponad 2 miesiacach problem wiecej sie nie powtorzyl. Coz, bywa i tak

ODPOWIEDZ