PIM/IGMP dla IPTV na Nexusie 3064PQ i problemy

Problemy związane ze switchingiem
Wiadomość
Autor
jankad
wannabe
wannabe
Posty: 96
Rejestracja: 26 lis 2009, 20:58
Lokalizacja: Katowice

PIM/IGMP dla IPTV na Nexusie 3064PQ i problemy

#1

#1 Post autor: jankad »

Wczoraj zmigrowaliśmy obsługę PIM dla troszkę ponad 1000 STB na Nexusa 3064PQ.
Pojawiły się problemy z czasem przełączania kanałów - w skrajnych przypadkach zmiana kanału trwa kilkanaście sekund.

Wygląda na to, że komunikaty report suppresion muszą być ponawiane przez STB nawet kilka razy, zanim uda się zapisać do grupy multicastowej.

Przeszukaliśmy konfigurację i dokumentację na prawo i lewo i wygląda, że wszystko jest ok.
Czy ktoś przerabiał może podobny problem?

Zmigrowaliśmy z Extreme X670, na którym akurat to działało bez pudła przez prawie 3 lata.
Wcześniej jako PIM pracował Catalyst 3560G i też nie było problemów.
Ostatnio zmieniony 29 lis 2015, 11:30 przez jankad, łącznie zmieniany 1 raz.
--
Z poważaniem:
Adam Wołk-Jankowski
www.systel.pl

lbromirs
CCIE
CCIE
Posty: 4101
Rejestracja: 30 lis 2006, 08:44

Re: PIM dla IPTV na Nexusie 3064PQ i problemy

#2

#2 Post autor: lbromirs »

jankad pisze:Wczoraj zmigrowaliśmy obsługę PIM dla troszkę ponad 1000 STB na Nexusa 3064PQ.
Pojawiły się problemy z czasem przełączania kanałów - w skrajnych przypadkach zmiana kanału trwa kilkanaście sekund.
Czy pracowaliście przy tym temacie z inżynierami Cisco AS lub któregoś z Autoryzowanych Partnerów Cisco? Skąd pomysł na akurat Nexusa 3064PQ w tej roli?

jankad
wannabe
wannabe
Posty: 96
Rejestracja: 26 lis 2009, 20:58
Lokalizacja: Katowice

#3

#3 Post autor: jankad »

Dobraliśmy przełącznik ze wzgl. na ilość portów... i cenę.
Funkcjonalność PIM nie była kluczowa ale skoro jest, zdecydowaliśmy się użyć.
Partner stwierdził, że skoro pasują nam funkcjonalności, które ma i których nie ma Nexus w stosunku do Catalysta 4500X, to może być i spełni swoje zadanie.
Mamy możliwość przeniesienia PIM na ASR1001-X ale teraz mamy kilkadziesiąt VLANów IPTV i boje się, że może braknąć interfejsu 10G.

Poza tym mam wrażenie, że to problem igmp snooping a nie PIM a to i tak będzie Nexus musiał robić.

W czym problemz Nexusem jako przełącznikiem agregacyjnym L3 z PIM?
--
Z poważaniem:
Adam Wołk-Jankowski
www.systel.pl

pk
member
member
Posty: 21
Rejestracja: 13 paź 2011, 09:46
Lokalizacja: Poland

#4

#4 Post autor: pk »

1. ticket w cisco
2. doczytaj o co kaman na cisco live sa na pewno dwie ciekawe prezentacje ktore moga pomoc zrozumiec jak dziala multicast w nexus

Nexus Multicast Design Best Practices http://d2zmdbbm9feqrf.cloudfront.net/20 ... M-3062.pdf
nawet jest cos apropo igmp na nexus 3k (IGMP packets are rate limited to 400pps at hardware as of 5.0(3)U1)

Troubleshooting NXOS Multicast
http://d2zmdbbm9feqrf.cloudfront.net/20 ... M-3068.pdf

jankad
wannabe
wannabe
Posty: 96
Rejestracja: 26 lis 2009, 20:58
Lokalizacja: Katowice

#5

#5 Post autor: jankad »

Dzięki za linki, sporo wiedzy.

Przetrzepałem to na prawo i lewo, sprawdziłem wszystko co się da ale nie widzę problemów... albo nie rozumiem, że są.

Dalej nie do końca rozumiem dlaczego Nexus miałby być złym wyborem.
Jedyne co znalazłem to wspomniany limit 400pps igmp w hardware ale akurat ten problem nas chyba nie dotknął:

Kod: Zaznacz cały

show policy-map interface control-plane | beg igmp
    class-map copp-s-igmp (match-any)
      match access-group name copp-system-acl-igmp
      police pps 400
        OutPackets    13350559
        DropPackets   0
więc zakładam, że to nie ten problem.

Efekt jest taki, że większość przełączeń kanału działa ok ale co któreś (powiedzmy 1-2/10) to kilkusekundowa zwłoka i czarny ekran.
Problem nasila się wieczorami, co by sugerowało jakieś problemy z wydajnością.

Na podstawie dokumentów, które podesłałeś włączyłem ip routing multicast software-replicate bo wyglądało, że to może mieć związek z problemem. Niestety nic to nie zmieniło ale też nie wpłynęło na obciążenie CPU.

Jedyne co może niepokoić to ten licznik:

Kod: Zaznacz cały

show policy-map interface control-plane | beg ipmcmi
    class-map copp-s-ipmcmiss (match-any)
      police pps 1000
        OutPackets    524395
        DropPackets   5280014
Mam też dziwne wpisy w logu, których znaczenia nie mogę nigdzie odnaleźć:

Kod: Zaznacz cały

 sh ip igmp snooping event-history igmp-snoop-internal

 igmp-snoop-internal Events for IGMP Snoop process
2015 Nov 27 09:57:40.858369 igmp [3679]: [3697]: SN: failed to get port mode for 0x90101ad rc=0x40e30005
2015 Nov 27 09:57:40.801332 igmp [3679]: [3697]: SN: failed to get port mode for 0x90100da rc=0x40e30005
2015 Nov 27 09:57:40.801236 igmp [3679]: [3697]: SN: Sending proxy leave for group 239.239.2.126 to router-ports
2015 Nov 27 09:57:40.800914 igmp [3679]: [3697]: SN: Sending proxy report for group 239.239.3.193 to router-ports
2015 Nov 27 09:57:40.800828 igmp [3679]: [3697]: SN: failed to get port mode for 0x90101b3 rc=0x40e30005
2015 Nov 27 09:57:40.457978 igmp [3679]: [3697]: SN: failed to get port mode for 0x90100d8 rc=0x40e30005
2015 Nov 27 09:57:40.457823 igmp [3679]: [3697]: SN: failed to get port mode for 0x90100f1 rc=0x40e30005
2015 Nov 27 09:57:40.457655 igmp [3679]: [3697]: SN: failed to get port mode for 0x90100da rc=0x40e30005
2015 Nov 27 09:57:40.218021 igmp [3679]: [3697]: SN: failed to get port mode for 0x90100e8 rc=0x40e30005
2015 Nov 27 09:57:40.217908 igmp [3679]: [3697]: SN: Sending proxy leave for group 239.239.2.233 to router-ports
2015 Nov 27 09:57:40.057975 igmp [3679]: [3697]: SN: failed to get port mode for 0x90101a1 rc=0x40e30005
2015 Nov 27 09:57:40.057852 igmp [3679]: [3697]: SN: Sending proxy leave for group 239.239.0.34 to router-ports
2015 Nov 27 09:57:39.847949 igmp [3679]: [3697]: SN: failed to get port mode for 0x90101ad rc=0x40e30005
2015 Nov 27 09:57:39.847830 igmp [3679]: [3697]: SN: Sending proxy leave for group 239.239.0.50 to router-ports
2015 Nov 27 09:57:39.798022 igmp [3679]: [3697]: SN: failed to get port mode for 0x90101b3 rc=0x40e30005
--
Z poważaniem:
Adam Wołk-Jankowski
www.systel.pl

lbromirs
CCIE
CCIE
Posty: 4101
Rejestracja: 30 lis 2006, 08:44

#6

#6 Post autor: lbromirs »

jankad pisze:Dzięki za linki, sporo wiedzy.

Przetrzepałem to na prawo i lewo, sprawdziłem wszystko co się da ale nie widzę problemów... albo nie rozumiem, że są.
Otwórz case'a w TACu i ew. wyślij mi na maila numer.

jankad
wannabe
wannabe
Posty: 96
Rejestracja: 26 lis 2009, 20:58
Lokalizacja: Katowice

#7

#7 Post autor: jankad »

Mam support tylko partnerski. Pracują nad tym od wczoraj.
--
Z poważaniem:
Adam Wołk-Jankowski
www.systel.pl

jankad
wannabe
wannabe
Posty: 96
Rejestracja: 26 lis 2009, 20:58
Lokalizacja: Katowice

#8

#8 Post autor: jankad »

Czy dobrze myślę, że ten problem może opisywać bug CSCur14957?

Ja mam soft 6.0(2)U6(3), więc wyżej ale z opisu wynika że problem nie został dotąd rozwiązany i nie ma wersji, która to poprawia. Czy dobrze rozumiem?

Jest też bug CSCun76740. Ale jeżeli dobrze rozumiem on został poprawiony w nowszych wersjach?
--
Z poważaniem:
Adam Wołk-Jankowski
www.systel.pl

jankad
wannabe
wannabe
Posty: 96
Rejestracja: 26 lis 2009, 20:58
Lokalizacja: Katowice

#9

#9 Post autor: jankad »

Wsparcie partnera się postarało. Po tym jak im podesłałem te dwa numery bugów zaproponowali downgrade aż do wersji 6.0(2)U3(1), czyli... najnowszej wymienionej w opisie CSCun76740 jako Known Fix Releases mimo, że moja nie występuje w Known Affected Releases.

Pewnie dzisiaj w nocy go przeprowadzę, żeby nie było że nie współpracuję...
--
Z poważaniem:
Adam Wołk-Jankowski
www.systel.pl

jankad
wannabe
wannabe
Posty: 96
Rejestracja: 26 lis 2009, 20:58
Lokalizacja: Katowice

#10

#10 Post autor: jankad »

Downgrade jak przypuszczałem nie pomógł. Dzisiaj zgłoszenie trafiło do TAC - 637307891
--
Z poważaniem:
Adam Wołk-Jankowski
www.systel.pl

lbromirs
CCIE
CCIE
Posty: 4101
Rejestracja: 30 lis 2006, 08:44

#11

#11 Post autor: lbromirs »

jankad pisze:Downgrade jak przypuszczałem nie pomógł. Dzisiaj zgłoszenie trafiło do TAC - 637307891
Dzięki - rzuce okiem wieczorem co się dzieje.

jankad
wannabe
wannabe
Posty: 96
Rejestracja: 26 lis 2009, 20:58
Lokalizacja: Katowice

#12

#12 Post autor: jankad »

Jeszcze w temacie dlaczego akurat Nexus, to tak jak napisałem troszkę przypadkowo.
Wybierałem ze wzgl. na ilości portów, pod kątem potrzebnych funkcjonalności oraz parametrów wydajnościowych typu pojemność tablic, wydajność przełączania i forwardowania.

Mimo, że wyskoczył ten problem z IGMP (jak sądzę), to mimo wszystko zakochałem się w NX-OS. To zupełnie inna liga jeżeli chodzi o CLI oraz dostępne narzędzia. Po prostu bajka.

Po dwóch tygodniach tak się przyzwyczaiłem do NX-OS, że jak przyszło mi konfigurować Catalysty 3750, co chwilę cisnęły się na usta przekleństa.
Nie wiem jak mogłem dotąd uważać, że CLI IOS to mistrzostwo świata pod wzgl. szybkości i wydajności pracy ;)

Mam nadzieję, że uda się rozwiązać problem z Nexusem. Nie chcę Catalysta w jego miejsce.
--
Z poważaniem:
Adam Wołk-Jankowski
www.systel.pl

Awatar użytkownika
weis
wannabe
wannabe
Posty: 1450
Rejestracja: 28 cze 2007, 11:15

#13

#13 Post autor: weis »

jankad pisze: ...mimo wszystko zakochałem się w NX-OS. To zupełnie inna liga jeżeli chodzi o CLI oraz dostępne narzędzia. Po prostu bajka.
Po dwóch tygodniach tak się przyzwyczaiłem do NX-OS, że jak przyszło mi konfigurować Catalysty 3750, co chwilę cisnęły się na usta przekleństa.
Nie wiem jak mogłem dotąd uważać, że CLI IOS to mistrzostwo świata pod wzgl. szybkości i wydajności pracy ;)
OFFTOP:
Proponuje teraz przyjrzeć się CLI junipera :) Będziesz miał powtórkę z tej przelotnej miłości, i będziesz się zastanawiał jak mogłeś żyć bez commitów i commit confiremd :mrgreen:
Fire, aim, ready!

jankad
wannabe
wannabe
Posty: 96
Rejestracja: 26 lis 2009, 20:58
Lokalizacja: Katowice

#14

#14 Post autor: jankad »

Bawiłem się troszkę Juniperem i jakoś do mnie "nie gada" - ale być może za krótko bo ja jednak ciscowy jestem.
--
Z poważaniem:
Adam Wołk-Jankowski
www.systel.pl

ryssiekk
newbie
newbie
Posty: 1
Rejestracja: 09 gru 2015, 14:39

#15

#15 Post autor: ryssiekk »

jankad pisze:Bawiłem się troszkę Juniperem i jakoś do mnie "nie gada" - ale być może za krótko bo ja jednak ciscowy jestem.
Najlepsze CLI combo ma Alcatel-Lucent 7750 z SAM5620, Juniper moim zdaniem czasem syntax robi sie przydlugawy, ale commity, overloady sa swietne, ale za to Juniper chyba zapomial do czego slyzy dzial quality assurance i jest tam tyle bugow az przykro sie robi.
testowalem ostatni Ex4600, Ex4300, QFX5100 i qfx5200 (1u - 32x100Gb na qsfp28) i ex8200 i wszystkie maja jakies problemy. nie pamietam zeby bylo cokolwiek ok w 100%. MXy sa najlepsze w tej kwestii.
BTW czemu nie popatrzycie na Ariste 7500, 7150, 7050? a i CLI identyczny jak w Cisco.
Sprzet wymiata ze uszy miekna i tanszy od Cisco.
Juniperow nie polecam do multicastu bo maja replikacje do bani, binarna, i kazda nastepna karta w switchu dostaje inne latency, no chyba ze 1U.

ODPOWIEDZ