ASR 1001x - Problem z pamięcią i sesjami BGP

Problemy związane z routingiem

Moderatorzy: mikrobi, aron, garfield, gangrena, Seba

Wiadomość
Autor
qbeusz
fresh
fresh
Posty: 9
Rejestracja: 03 gru 2008, 16:55

ASR 1001x - Problem z pamięcią i sesjami BGP

#1

#1 Post autor: qbeusz » 02 gru 2017, 10:58

Witam,
mam problem z moim routerem ASR-1001x (wersja z 8GB RAM). Router ma 2 sąsiedztwa. Jedno iBGP i drugie eBGP. W każdym z nich dostaje pełna tablice. Do tego momentu wszystko działa prawidłowo. Problem zaczyna się wtedy, kiedy próbuje dodać kolejnego sąsiada eBGP.

Kod: Zaznacz cały

Nov 29 2017 13:27:57.605: %SYS-2-MALLOCFAIL: Memory allocation of 65540 bytes failed from 0x559503925C00, alignment 8
Pool: Processor  Free: 6014704  Cause: Memory fragmentation
Alternate Pool: None  Free: 0  Cause: No Alternate pool
 -Process= "IP RIB Update", ipl= 0, pid= 291
-Traceback= 1#9b36d934d982e9f674a135de2ba0cfd8  :5594F911D000+A7FEA0E :5594F911D000+A7F6FE7 :5594F911D000+A808C00 :5594F911D000+70EBEB0 :5594F911D000+716F4BC :5594F911D000+716F1AC :5594F911D000+716ED29 :5594F911D000+7172DB4 :5594F911D000+7281ECA :5594F911D000+8B57846 :5594F911D000+8B3E31F :5594F911D000+8B3DE75 :5594F911D000+8B3C0B5
Nov 29 2017 13:27:57.906: %COMMON_FIB-3-NOMEM: Memory allocation failure for prefix in IPv4 CEF [0x559500208F82] (fatal) (15052 subsequent failures).
Nov 29 2017 13:27:57.906: %COMMON_FIB-4-DISABLING: IPv4 CEF is being disabled due to a fatal error.
Nov 29 2017 13:27:59.696: %COMMON_FIB-4-DISABLING: IPv4 CEF is being disabled due to a fatal error.
Nov 29 2017 13:27:59.983: %BFDFSM-6-BFD_SESS_DOWN: BFD-SYSLOG: BFD session ld:4103 handle:3,is going Down Reason: DETECT TIMER EXPIRED
Nov 29 2017 13:28:00.017: %SYS-2-CHUNKEXPANDFAIL: Could not expand chunk pool for BFD event chunk. No memory available -Process= "Chunk Manager", ipl= 2, pid= 1
-Traceback= 1#9b36d934d982e9f674a135de2ba0cfd8  :5594F911D000+A7EDD67
Nov 29 2017 13:28:00.018: %BFD-6-BFD_SESS_DESTROYED: BFD-SYSLOG: bfd_session_destroyed,  ld:4103 neigh proc:HSRP, handle:3 act
Nov 29 2017 13:28:00.019: %BGP-5-NBR_RESET: Neighbor xx.xx.xx.xx reset (BFD adjacency down)
Nov 29 2017 13:28:00.119: %BFD-6-BFD_SESS_CREATED: BFD-SYSLOG: bfd_session_created, neigh xx.xx.xx.xx proc:HSRP, idb:Port-channel1.4000 handle:3 act
Nov 29 2017 13:28:01.073: %BGP-5-ADJCHANGE: neighbor xx.xx.xx.xx Down BFD adjacency down
Nov 29 2017 13:28:01.073: %BGP_SESSION-5-ADJCHANGE: neighbor xx.xx.xx.xx IPv4 Unicast topology base removed from session  BFD adjacency down
Nov 29 2017 13:28:02.306: %BGP-5-NBR_RESET: Neighbor xx.xx.xx.xx reset (BFD adjacency down)
Nov 29 2017 13:28:04.306: %BGP-5-ADJCHANGE: neighbor xx.xx.xx.xx Down BFD adjacency down
Nov 29 2017 13:28:04.306: %BGP_SESSION-5-ADJCHANGE: neighbor xx.xx.xx.xx IPv4 Unicast topology base removed from session  BFD adjacency down
Nov 29 2017 13:28:08.205: %FIB-2-FIBDOWN: CEF has been disabled due to a low memory condition. It can be re-enabled by configuring "ip cef [distributed]"
Nov 29 2017 13:28:08.206: %BFD-6-BFD_SESS_CREATED: BFD-SYSLOG: bfd_session_created, neigh xx.xx.xx.xx proc:BGP, idb:Port-channel1.4000 handle:3 act
Nov 29 2017 13:28:08.206: %BGP-5-ADJCHANGE: neighbor xx.xx.xx.xx Up
Nov 29 2017 13:28:09.367: %BGP-5-ADJCHANGE: neighbor xx.xx.xx.xx Up
Nov 29 2017 13:29:08.177: %FIB-2-FIBDOWN: CEF has been disabled due to a low memory condition. It can be re-enabled by configuring "ip cef [distributed]"
Nov 29 2017 13:29:29.469: %BGP-3-NOTIFICATION: sent to neighbor xx.xx.xx.xx 4/0 (hold time expired) 0 bytes
Nov 29 2017 13:29:29.469: %BGP-5-NBR_RESET: Neighbor xx.xx.xx.xx reset (BGP Notification sent)
Nov 29 2017 13:29:29.470: %BGP-5-ADJCHANGE: neighbor xx.xx.xx.xx Down BGP Notification sent

Włączenie ręcznie CEF, spowodowało to.

Kod: Zaznacz cały

Exception to IOS Thread:
Frame pointer 0x7F3D0BBD3940, PC = 0x7F3DAB2BCEBD
 
UNIX-EXT-SIGNAL: Segmentation fault(11), Process = CEF: IPv6 process
-Traceback= 1#6e2b484ae31084ff5caeb6a38304625b  :7F3DA3FE7000+72D5EBD :7F3DA3FE7000+72DB45C :7F3DA3FE7000+7436B12 :7F3DA3FE7000+74204EE :7F3DA3FE7000+7420197 :7F3DA3FE7000+741FF55
 
Fastpath Thread backtrace:
-Traceback= 1#6e2b484ae31084ff5caeb6a38304625b  c:7F3D6844C000+BDF12
 
Auxiliary Thread backtrace:
-Traceback= 1#6e2b484ae31084ff5caeb6a38304625b  pthread:7F3D65288000+A7C9
 
RAX = EF4321CD80FA2330  RBX = 0000000000000007
RCX = 000000000000000C  RDX = 0000000000000000
RSP = 00007F3D0BBD3940  RBP = 00007F3D0BBD3950
RSI = 0000000000000000  RDI = EF4321CD80FA2330
R8  = 000000000000000C  R9  = 00007F3D0BBD3A30
R10 = 000000000000000C  R11 = 0000000000000000
R12 = 00007F3D0BBD3960  R13 = 8039BD0B3D7F0000
R14 = 0000000000000000  R15 = 0000000000000000
RFL = 0000000000010202  RIP = 00007F3DAB2BCEBD
CS = 0033  FS = 0000  GS = 0000
ST0 = 0000 0000000000000000  ST1 = 0000 0000000000000000
ST2 = 0000 0000000000000000  ST3 = 0000 0000000000000000
ST4 = 0000 0000000000000000  ST5 = 0000 0000000000000000
ST6 = 0000 0000000000000000  ST7 = 0000 0000000000000000
X87CW = 037F  X87SW = 0000  X87TG = 0000  X87OP = 0000
X87IP = 0000000000000000  X87DP = 0000000000000000
Konfiguracja BGP

Kod: Zaznacz cały

router bgp xxxxxx

 bgp log-neighbor-changes
 neighbor xx.xx.xx.xx remote-as 15694
 neighbor xx.xx.xx.xx fall-over bfd
 neighbor xx.xx.xx.xx remote-as 206838
 neighbor xx.xx.xx.xx fall-over bfd

  neighbor xx.xx.xx.xx activate
  neighbor xx.xx.xx.xx route-map BGP_ATMAN out
  neighbor xx.xx.xx.xx activate
  neighbor xx.xx.xx.xx next-hop-self
  neighbor xx.xx.xx.xx activate
  neighbor xx.xx.xx.xx route-map BGP_TMOBILE_IN in
  neighbor xx.xx.xx.xx route-map BGP_TMOBILE_OUT out
 exit-address-family
 !


próbowałem na 2 wersjach softu rekomendowanych przez Cisco. Miał ktoś może coś podobnego?

Awatar użytkownika
mstan
wannabe
wannabe
Posty: 89
Rejestracja: 18 lip 2013, 18:21

Re: ASR 1001x - Problem z pamięcią i sesjami BGP

#2

#2 Post autor: mstan » 02 gru 2017, 20:35

Zgodnie z dokumentacją ASR1001-X z 8GB RAMu może przyjąć w sumie 1M prefixów IPv4 / IPv6.

Tabela 8 w linku poniżej.
https://www.cisco.com/c/en/us/products/ ... 41072.html
Stay calm and call Cisco TAC !

qbeusz
fresh
fresh
Posty: 9
Rejestracja: 03 gru 2008, 16:55

Re: ASR 1001x - Problem z pamięcią i sesjami BGP

#3

#3 Post autor: qbeusz » 02 gru 2017, 22:06

Dzieki,
widziałem ten dokument, i założyłem że jest to wartość w tablicy routingu, nie ilośc prefixów jakie dostaje poprzez BGP, gdyż mam teraz 2 pełne tablice,
2x662855 i wszystko działa bez problemów.

IP routing table name is default (0x0)
IP routing table maximum-paths is 32
Route Source Networks Subnets Replicates Overhead Memory (bytes)
connected 0 6 0 576 1728
static 0 0 0 0 0
application 0 0 0 0 0
bgp 206838 186342 476518 0 63634560 190903680
External: 662849 Internal: 11 Local: 0
internal 6947 51544296
Total 193289 476524 0 63635136 242449704

lbromirs
CCIE
CCIE
Posty: 3925
Rejestracja: 30 lis 2006, 08:44

Re: ASR 1001x - Problem z pamięcią i sesjami BGP

#4

#4 Post autor: lbromirs » 02 gru 2017, 23:24

W nowszych wersjach softu nawet 8GB już nie wystarczy na dwie i więcej tablic.

Niestety, jak CEF się wywali, włączenie go wcale nie gwarantuje, że platforma będzie zachowywać się prawidłowo - sugeruje i tak wykonać reload.

Skoro brakuje miejsca, obetnij te sesje - as-path tylko do ASów sąsiadów na początek, ustabilizuj pracę. Wskaż dwoma defaultami na sesje i pewnie i tak dalej ruch będzie Ci się rozkładał w miarę OK.

Potem możesz kombinować - dodać np. sąsiadów Twoich sąsiadów, etc.

Sprawdź tylko czy nie masz włączonej redundancji - no i pokaż `show platform software status control-processor brief `.

qbeusz
fresh
fresh
Posty: 9
Rejestracja: 03 gru 2008, 16:55

Re: ASR 1001x - Problem z pamięcią i sesjami BGP

#5

#5 Post autor: qbeusz » 03 gru 2017, 11:10

Dzieki za info,

Wersja softu
asr1001x-universalk9.03.16.06b.S.155-3.S6b-ext.SPA.bin

Kod: Zaznacz cały

show platform software status control-processor brief 
Load Average
 Slot  Status  1-Min  5-Min 15-Min
  RP0 Healthy   0.08   0.20   0.09

Memory (kB)
 Slot  Status    Total     Used (Pct)     Free (Pct) Committed (Pct)
  RP0 Healthy  8086424  7572508 (94%)   513916 ( 6%)   5993240 (74%)

CPU Utilization
 Slot  CPU   User System   Nice   Idle    IRQ   SIRQ IOwait
  RP0    0   0.30   0.50   0.00  99.10   0.00   0.10   0.00
         1   0.19   0.69   0.00  99.10   0.00   0.00   0.00
         2   0.40   0.70   0.00  98.89   0.00   0.00   0.00
         3   0.30   0.60   0.00  99.10   0.00   0.00   0.00
         4   0.20   0.10   0.00  99.69   0.00   0.00   0.00
         5   1.90   0.60   0.00  97.50   0.00   0.00   0.00
         6   0.99   1.49   0.00  97.50   0.00   0.00   0.00
         7   0.80   7.80   0.00  91.39   0.00   0.00   0.00
Jutro się za to zabiorę.

lbromirs
CCIE
CCIE
Posty: 3925
Rejestracja: 30 lis 2006, 08:44

Re: ASR 1001x - Problem z pamięcią i sesjami BGP

#6

#6 Post autor: lbromirs » 03 gru 2017, 14:33

qbeusz pisze:
03 gru 2017, 11:10
Dzieki za info,

Wersja softu
asr1001x-universalk9.03.16.06b.S.155-3.S6b-ext.SPA.bin

Kod: Zaznacz cały

show platform software status control-processor brief 
Load Average
 Slot  Status  1-Min  5-Min 15-Min
  RP0 Healthy   0.08   0.20   0.09

Memory (kB)
 Slot  Status    Total     Used (Pct)     Free (Pct) Committed (Pct)
  RP0 Healthy  8086424  7572508 (94%)   513916 ( 6%)   5993240 (74%)

CPU Utilization
 Slot  CPU   User System   Nice   Idle    IRQ   SIRQ IOwait
  RP0    0   0.30   0.50   0.00  99.10   0.00   0.10   0.00
         1   0.19   0.69   0.00  99.10   0.00   0.00   0.00
         2   0.40   0.70   0.00  98.89   0.00   0.00   0.00
         3   0.30   0.60   0.00  99.10   0.00   0.00   0.00
         4   0.20   0.10   0.00  99.69   0.00   0.00   0.00
         5   1.90   0.60   0.00  97.50   0.00   0.00   0.00
         6   0.99   1.49   0.00  97.50   0.00   0.00   0.00
         7   0.80   7.80   0.00  91.39   0.00   0.00   0.00
Jutro się za to zabiorę.
Masz dużo RAMu zajętego - najprawdopodobniej masz włączoną redundancję lub trafiłeś w jakiegoś buga. Z redundancją N pełnych tablic to upgrade do 16GB RAMu chyba, że tak jak pisałem wyżej, odfiltrujesz część prefiksów. Jeśli nie masz jakiś bardzo specyficznych reguł ruchowych, pobranie nie pełnych tablic a jedynie prefiksów sąsiadów oraz ich sąsiadów per neighbor + default spokojnie da Ci to samo, a zużycie RAMu znacząco zmniejszysz.

qbeusz
fresh
fresh
Posty: 9
Rejestracja: 03 gru 2008, 16:55

Re: ASR 1001x - Problem z pamięcią i sesjami BGP

#7

#7 Post autor: qbeusz » 03 gru 2017, 21:13

Problem rozwiązany. Może się komuś przyda.

Kod: Zaznacz cały

sh platform software status control-processor brief 
Load Average
 Slot  Status  1-Min  5-Min 15-Min
  RP0 Healthy   0.04   0.27   0.40

Memory (kB)
 Slot  Status    Total     Used (Pct)     Free (Pct) Committed (Pct)
  RP0 Healthy  8086424  5594132 (69%)  2492292 (31%)   5989916 (74%)

CPU Utilization
 Slot  CPU   User System   Nice   Idle    IRQ   SIRQ IOwait
  RP0    0   0.49   0.49   0.00  98.90   0.00   0.09   0.00
         1   0.19   0.29   0.00  99.50   0.00   0.00   0.00
         2   0.60   9.00   0.00  90.40   0.00   0.00   0.00
         3   0.40   0.50   0.00  99.09   0.00   0.00   0.00
         4   0.00   0.60   0.00  99.39   0.00   0.00   0.00
         5   0.90   1.30   0.00  97.80   0.00   0.00   0.00
         6   0.00   0.00   0.00 100.00   0.00   0.00   0.00
         7   0.90   0.30   0.00  98.80   0.00   0.00   0.00
przy 3 sąsiedztwach i pełnych tablicach.
okazało sie że ustawiony był za duży bufor logowania. Było to widać, kiedy po restarcie urządzenia zajęte było 67% ramu,

Kod: Zaznacz cały

show memory allocating-process  totals 
                Head    Total(b)     Used(b)     Free(b)   Lowest(b)  Largest(b)
Processor  7F8314720010   3817607424   2560261580   1257345844   1257289360   1257291372
 lsmpi_io  7F8313F1D1A8     6295128     6294304         824         824         412


          

Allocator PC Summary for: Processor

    PC          Total   Count  Name
0x7F844B6E1423  2147483744       1  ios logger
0x7F844F54CA5E   33554528       1  Init
zmiejszenie tej wartości to poziomu 10240, i wszystko działa.

Dziękuję wszystkim za pomoc.

lbromirs
CCIE
CCIE
Posty: 3925
Rejestracja: 30 lis 2006, 08:44

Re: ASR 1001x - Problem z pamięcią i sesjami BGP

#8

#8 Post autor: lbromirs » 03 gru 2017, 21:47

qbeusz pisze:
03 gru 2017, 21:13
Problem rozwiązany. Może się komuś przyda.

Kod: Zaznacz cały

sh platform software status control-processor brief 
Load Average
 Slot  Status  1-Min  5-Min 15-Min
  RP0 Healthy   0.04   0.27   0.40

Memory (kB)
 Slot  Status    Total     Used (Pct)     Free (Pct) Committed (Pct)
  RP0 Healthy  8086424  5594132 (69%)  2492292 (31%)   5989916 (74%)

CPU Utilization
 Slot  CPU   User System   Nice   Idle    IRQ   SIRQ IOwait
  RP0    0   0.49   0.49   0.00  98.90   0.00   0.09   0.00
         1   0.19   0.29   0.00  99.50   0.00   0.00   0.00
         2   0.60   9.00   0.00  90.40   0.00   0.00   0.00
         3   0.40   0.50   0.00  99.09   0.00   0.00   0.00
         4   0.00   0.60   0.00  99.39   0.00   0.00   0.00
         5   0.90   1.30   0.00  97.80   0.00   0.00   0.00
         6   0.00   0.00   0.00 100.00   0.00   0.00   0.00
         7   0.90   0.30   0.00  98.80   0.00   0.00   0.00
przy 3 sąsiedztwach i pełnych tablicach.
okazało sie że ustawiony był za duży bufor logowania. Było to widać, kiedy po restarcie urządzenia zajęte było 67% ramu,

Kod: Zaznacz cały

show memory allocating-process  totals 
                Head    Total(b)     Used(b)     Free(b)   Lowest(b)  Largest(b)
Processor  7F8314720010   3817607424   2560261580   1257345844   1257289360   1257291372
 lsmpi_io  7F8313F1D1A8     6295128     6294304         824         824         412


          

Allocator PC Summary for: Processor

    PC          Total   Count  Name
0x7F844B6E1423  2147483744       1  ios logger
0x7F844F54CA5E   33554528       1  Init
zmiejszenie tej wartości to poziomu 10240, i wszystko działa.

Dziękuję wszystkim za pomoc.
OMG, ustawiłeś sobie bufor logowania na 2GB? :)

Fajnie, że udało się problem rozwiązać. Z ciekawości - masz włączoną redundancję programową?

qbeusz
fresh
fresh
Posty: 9
Rejestracja: 03 gru 2008, 16:55

Re: ASR 1001x - Problem z pamięcią i sesjami BGP

#9

#9 Post autor: qbeusz » 03 gru 2017, 22:12

Wiem, sam złapałem się za głowę, jak to zobaczyłem :) a na to nikt nie patrzy, może się kiedyś komuś przyda, w podobnym przypadku.

Nie, nie uruchamiałem.
PDC-ROU-FRONT-2#sh redundancy
Redundant System Information :
------------------------------
Available system uptime = 1 hour, 28 minutes
Switchovers system experienced = 0
Standby failures = 0
Last switchover reason = none

Hardware Mode = Simplex
Configured Redundancy Mode = Non-redundant
Operating Redundancy Mode = Non-redundant
Maintenance Mode = Disabled
Communications = Down Reason: Failure

Current Processor Information :
-------------------------------
Active Location = slot 6
Current Software state = ACTIVE
Uptime in current state = 1 hour, 27 minutes
Image Version = Cisco IOS Software, ASR1000 Software (X86_64_LINUX_IOSD-UNIVERSALK9-M), Version 15.5(3)S6b, RELEASE SOFTWARE (fc4)
Technical Support: http://www.cisco.com/techsupport
Copyright (c) 1986-2017 by Cisco Systems, Inc.
Compiled Thu 02-Nov-17 10:59 by mcpre
BOOT = bootflash:asr1001x-universalk9.03.16.06b.S.155-3.S6b-ext.SPA.bin,12;
Configuration register = 0x2102

ODPOWIEDZ