Page tree
Skip to end of metadata
Go to start of metadata

Gdzie szukać powiadomień o problemach?

Powiadomienia o wykrytych problemów są wysyłane drogą mailową (o ile administrator ma w swoim profilu w Katalogu Aplikacji podany adres mailowy). Dodatkowo te same powiadomienia dostępne są w Dashboardzie, w sekcji Powiadomienia, na stronie Aktualne.

Czy jak rozwiążę problem to powiadomienie automatycznie zniknie z listy?

Nie. Powiadomienia zostają. Jeżeli jakieś powiadomienie jest już nieaktualne można dokonać jego archiwizacji klikając przycisk ze strzałką po prawej stronie powiadomienia.

Gdzie można zobaczyć archiwalne powiadomienia?

Archiwalne powiadomienia dostępne są w Dashboardzie, w sekcji Powiadomienia, na stronie Archiwum.

Brak nowych testów modułów na klastrze X od 26 godzin.

Brak nowych testów aplikacji dla wielu instancji aplikacji na klastrze X od 26 godzin. Może nie działać Nagios lub CREAM na klastrze X.

Powyższe komunikaty oznaczają, że Katalog Aplikacji od niepokojąco długiego czasu nie otrzymał nowych testów modułów lub aplikacji z wymienionego klastra. Gdzie szukać dalszych szczegółów?

  • Nagios - Jeżeli Nagios nie działa poprawnie przez długi czas, Katalog Aplikacji nie otrzymuje niezbędnych testów i generuje powiadomienia o ich braku. Należy sprawdzić czy działa Nagios (https://ngi-mon.grid.cyf-kr.edu.pl/nagios/).
  • CREAM - Jeżeli Nagios ma problem ze zleceniem zadań monitorujących do CREAMA na klastrze, nie testuje aplikacji na tym klastrze, a Katalog Aplikacji nie otrzymuje stosownych informacji o testach. Należy sprawdzić testy CREAMA w Nagiosie (Podstrona Services na stronie https://ngi-mon.grid.cyf-kr.edu.pl/nagios/).
  • Przestój klastra - jeżeli klaster ma przestój, obojętnie z jakiej przyczyny, nie wpisany przez administratorów klastra do bazy GOCDB, skąd Katalog Aplikacji pobiera informacje, to Katalog Aplikacji nic nie wie o problemach z klastrem i oczekuje, że testy będą napływać bez zakłóceń. Tak się nie dzieje, więc generuje powiadomienia o niewłaściwej sytuacji. Należy dodać niezwłocznie informację o przestoju klastra do GOCDB (https://goc.egi.eu/portal/).
  • Awaria monitoringu Katalogu Aplikacji - jeżeli nie działają poprawnie mechanizmy analizujące dane z testów Nagiosa to pomimo, że wszystko jest w porządku ze strony aplikacji na klastrze Katalog Aplikacji może wygenerować powiadomienia o braku testów. Można tę sytuację wykryć dzięki monitorowaniu usługi Katalog Aplikacji przez Nagiosa. Odbywa się to co godzinę, więc nie jest praktycznie możliwe by usługa miała taką awarię przez wiele godzin. (https://ngi-mon.grid.cyf-kr.edu.pl/nagios/cgi-bin/extinfo.cgi?type=1&host=aplikacje.plgrid.pl)

Z dotychczasowej praktyki można stwierdzić, że 90% przypadków dotyczy problemów z CREAMEM na klastrze i faktem, że Nagios nie jest w stanie tam zlecić zadań monitorujących.

Brak nowych testów aplikacji dla instancji aplikacji gaussian g09.D.01 @ Reef (plgrid/apps/gaussian/g09.D.01) na klastrze Reef od 26 godzin. Ostatni test pochodzi z 10 czerwca 2015, 01:13.

(To jest oczywiście przykładowe powiadomienie)

Powyższy komunikat oznacza, że od niepokojąco długiego czasu Katalog Aplikacji nie otrzymał testów wymienionej aplikacji z wymienionego klastra. Podawana jest data ostatniego testu, który Katalog Aplikacji ma w swojej bazie. Gdzie szukać dalszych szczegółów?

  • Nagios - Jeżeli Nagios nie działa poprawnie przez długi czas, Katalog Aplikacji nie otrzymuje niezbędnych testów i generuje powiadomienia o ich braku. Należy sprawdzić czy działa Nagios (https://ngi-mon.grid.cyf-kr.edu.pl/nagios/).
  • CREAM - Jeżeli Nagios ma problem ze zleceniem zadań monitorujących do CREAMA na klastrze, nie testuje aplikacji na tym klastrze, a Katalog Aplikacji nie otrzymuje stosownych informacji o testach. Należy sprawdzić testy CREAMA w Nagiosie (Podstrona Services na stronie https://ngi-mon.grid.cyf-kr.edu.pl/nagios/).
  • Przestój klastra - jeżeli klaster ma przestój, obojętnie z jakiej przyczyny, nie wpisany przez administratorów klastra do bazy GOCDB, skąd Katalog Aplikacji pobiera informacje, to Katalog Aplikacji nic nie wie o problemach z klastrem i oczekuje, że testy będą napływać bez zakłóceń. Tak się nie dzieje, więc generuje powiadomienia o niewłaściwej sytuacji. Należy dodać niezwłocznie informację o przestoju klastra do GOCDB (https://goc.egi.eu/portal/).
  • Awaria monitoringu Katalogu Aplikacji - jeżeli nie działają poprawnie mechanizmy analizujące dane z testów Nagiosa to pomimo, że wszystko jest w porządku ze strony aplikacji na klastrze Katalog Aplikacji może wygenerować powiadomienia o braku testów. Można tę sytuację wykryć dzięki monitorowaniu usługi Katalog Aplikacji przez Nagiosa. Odbywa się to co godzinę, więc nie jest praktycznie możliwe by usługa miała taką awarię przez wiele godzin. (https://ngi-mon.grid.cyf-kr.edu.pl/nagios/cgi-bin/extinfo.cgi?type=1&host=aplikacje.plgrid.pl)
  • Jeżeli aplikacja ma na klastrze zdefiniowane vo tags to można w Nagiosie zobaczyć szczegóły monitorowania domyślnej instancji aplikacji na klastrze.
  • Jeśli aplikacja nie ma zdefiniowanych vo tags na klastrze albo problem dotyczy instancji, która nie jest domyślna to pozostaje jedynie zadanie pytania specjalistom od Nagiosa: Tadeusz Szymocha lub Paweł Wolniewicz.
  • No labels