Krótki opis usługi

Usługa jest przeznaczona dla biologów oraz bioinformatyków. 

NGS Galaxy jest implementacją popularnego środowiska zarządzania zadaniami pozwalającego na uproszczone uruchamianie analiz bioinformatycznych na zasobach obliczeniowych PLGrid. W ramach usługi szczególny nacisk położony został na udostępnienie możliwie dużej liczby narzędzi związanych z analizą danych pochodzących z eksperymentów opartych o metody wysokoprzepustowego sekwencjonowania. Wykonywanie analiz z użyciem Galaxy oparte jest o wygodny interfejs dostępny w formie serwisu internetowego, pozwalającego na intuicyjne zarządzanie danymi, narzędziami oraz wynikami. Wbudowane moduły wizualizacji pozwalają na przejrzystą i efektywną analizę wyników.

Aktywowanie usługi

Aby skorzystać z usługi NGS Galaxy, należy mieć aktywne konto w infrastrukturze PLGrid.

Do usługi NGS Galaxy może uzyskać dostęp każdy użytkownik PLGrid, który jest użytkownikiem usługi Molecular Biology Data Analysis Toolkit. W celu uzyskania dostępu do tych usług należy wejść na stronę http://portal.plgrid.pl a następnie zalogować się podając swój identyfikator plgrid (np. plgkowalski) i hasło do portalu, po czym z górnej belki zawierającej menu wybrać opcję „Moje konto”. W prawej kolumnie ukaże się Katalog usług dostępnych dla danego użytkownika.

Z katalogu usług należy wybrać kategorię: Platforma Dziedzinowa – Biologia, a następnie „rozwiń”, ukaże się lista usług w tej kategorii, wśród nich będzie usługa o nazwie Molecular Biology Data Analysis Toolkit a tuż obok link zatytułowany „aplikuj o usługę”. Akceptacja użytkownika następuje automatycznie. Gdy rejestracja się powiedzie, usługa na liście w katalogu zyska status „aktywny”.

Pierwsze kroki

Uruchomienie usługi

Uruchomienie usługi NGS Galaxy możliwe jest na każdym komputerze wyposażonym w przeglądarkę internetową. Usługa dostępna jest poprzez portal MBDAT bądź pod adresem: https://galaxy.biologia.plgrid.pl. Podczas wczytywania strony wyświetlony zostanie monit o zalogowanie z użyciem konta PLGrid.

 

Organizacja interfejsu

Po zalogowaniu wyświetlona zostanie strona startowa usługi:

Interfejs składa się z trzech paneli: po lewej stronie zlokalizowana jest lista dostępnych narzędzi pogrupowanych według kategorii funkcjonalnych, środkowy panel służy do wyświetlania formularzy poszczególnych narzędzi oraz wizualizacji wyników, natomiast w prawym panelu znajduje się historia pracy w której wyświetlane są pliki wysłane do Galaxy oraz pliki wynikowe uzyskane w ramach prowadzonych analiz. 

 

Przykładowy scenariusz użycia: analiza danych RNA-seq

  1. Załaduj z dysku pliki z folderu Sesja2:
    adrenal_1.fastq 
    adrenal_2.fastq 
    brain_1.fastq 
    brain_2.fastq 

    Aby to zrobić wybierz narzędzie Get Data -> Upload File, następnie użyj przycisku Choose local file. Można zaznaczyć wszystkie pliki jednocześnie z wciśniętym klawiszem shift. Następnie należy określić format plików. Dla plików .fastq w kolumnie Type wybierz fastqsanger (pliki fastq z kodowaniem jakości w skali Sanger). Naciśnij przycisk Start. Podczas transferu można zamknąć okno przyciskiem Close bez przerywania transferu. Aby do niego wrócić należy ponownie wybrać Get Data -> Upload File.
     

  2. Pobieranie z UCSC Genome Browser plików z adnotacją genomową w formacie GTF. Narzędzie: Get Data -> UCSC Main table browser. Aby pobrać adnotacje znanych genów o wysokiej wiarygodności dla genomu człowieka w wersji złożenia hg19 dla chromosomu 19 wybierz następujące opcje:

  3. Pobieranie plików z adnotacją genomową w formacie BED. Powtórz poprzedni punkt, tym razem w opcjach na stronie UCSC Genome Browser wybierając output format: BED – browser extensible data. Tym razem po wciśnięciu przycisku get output, pojawi się strona z dodatkowymi opcjami. Pozostaw ustawienia domyślne, i wciśnij przycisk Send query to Galaxy
     

  4. Mapowanie odczytów do genomu referencyjnego. Narzędzie: NGS: Mapping -> Bowtie2 – map reads against reference genome. Wybierz następujące parametry:

  5. Zwizualizuj uzyskany plik BAM w przeglądarce genomowej. W panelu historii klliknij na nazwę pliku i poszukaj ikonki z wykresem, która po najechaniu na nią myszką powinna być adnotowana jako Visualize in Trackster. Po jej wciśnięciu zostaniesz przekierowany do okna wizualizacji. Aby utworzyć nowa wizualizację, należy wpisać jej nazwę (dowolną) oraz wybrać genom Human Feb. 2009 (GRCh37/hg19) (hg19) oraz wcisnąć przycisk Create. Dane są dostępne dla rejonu: Chr19:3000000:3500000. Aby porównać rozłożenie odczytów z pozycjami genów, należy załadować plik GTF. Naciśnij ikonę + znajdującą się w prawym górnym rogu (Add tracks). Wybierz plik GTF pobrany wcześniej z UCSC Genome Browser. Zwróć uwagę, że po odpowiednim zawężeniu obserwowanego regionu zmienia się reprezentacja odczytów oraz sposób wyświetlania genów. Po zakończeniu, wciśnij ikonę save a następnie close. W ten sposób wizualizacja ta będzie dostępna później poprzez menu górnej belki Visualization -> Saved visualizations.
     

  6. Analiza jakości mapowania. Narzędzie: pakiet RseQC. Wszystkie narzędzia z pakietu uruchomić należy na plikach BAM uzyskanych za pomocą mapowania programem Bowtie2 (Input file) oraz pliku BED zawierającym adnotację chromosomu 19 pobranym w punkcie 3 tej sesji (reference gene model). W ramach pakietu należy wybrać następujące narzędzia i opcje:

  7. Testowanie statystyczne genów pod względem różnicowej ekspresji. Narzędzie: NGS: RNA Analysis -> DESeq2. Jako plik GFF podaj plik GTF z adnotacją chromosomu 19 pobrany w punkcie 2 tej sesji. Należy dodać po jednym replikacie dla każdej z grup. Jako pierwszy wskaż plik BAM będący wynikiem mapowania odczytów pochodzących z mózgu, a w ramach grupy drugiej wskaż plik BAM będący wynikiem mapowania odczytów z nadnerczy.
     

  8. Przeanalizuj uzyskane wyniki zawierające listę genów ulegających różnicowej ekspresji

 

Gdzie szukać dalszych informacji?

Szczegółowe informacje o użytkowaniu infrastruktury PLGrid znajdują się w Podręczniku Użytkownika.

Szczegółowa dokumentacja platformy Galaxy znajduje się na stronie: https://galaxyproject.org/

Materiały szkoleniowe opracowane przez deweloperów platformy Galaxy dostępne są na stronie: https://wiki.galaxyproject.org/Learn/Screencasts 

Informacje o usługach dziedzinowych Biologia dostępne są na stronie: http://biologia.plgrid.pl/

Uzyskanie informacji/helpdesk PLGrid: dokumentacji o pomocy