Usługa jest przeznaczona dla biologów oraz bioinformatyków.
NGS Galaxy jest implementacją popularnego środowiska zarządzania zadaniami pozwalającego na uproszczone uruchamianie analiz bioinformatycznych na zasobach obliczeniowych PLGrid. W ramach usługi szczególny nacisk położony został na udostępnienie możliwie dużej liczby narzędzi związanych z analizą danych pochodzących z eksperymentów opartych o metody wysokoprzepustowego sekwencjonowania. Wykonywanie analiz z użyciem Galaxy oparte jest o wygodny interfejs dostępny w formie serwisu internetowego, pozwalającego na intuicyjne zarządzanie danymi, narzędziami oraz wynikami. Wbudowane moduły wizualizacji pozwalają na przejrzystą i efektywną analizę wyników.
Aby skorzystać z usługi NGS Galaxy, należy mieć aktywne konto w infrastrukturze PLGrid.
Do usługi NGS Galaxy może uzyskać dostęp każdy użytkownik PLGrid, który jest użytkownikiem usługi Molecular Biology Data Analysis Toolkit. W celu uzyskania dostępu do tych usług należy wejść na stronę http://portal.plgrid.pl a następnie zalogować się podając swój identyfikator plgrid (np. plgkowalski) i hasło do portalu, po czym z górnej belki zawierającej menu wybrać opcję „Moje konto”. W prawej kolumnie ukaże się Katalog usług dostępnych dla danego użytkownika.
Z katalogu usług należy wybrać kategorię: Platforma Dziedzinowa – Biologia, a następnie „rozwiń”, ukaże się lista usług w tej kategorii, wśród nich będzie usługa o nazwie Molecular Biology Data Analysis Toolkit a tuż obok link zatytułowany „aplikuj o usługę”. Akceptacja użytkownika następuje automatycznie. Gdy rejestracja się powiedzie, usługa na liście w katalogu zyska status „aktywny”.
Uruchomienie usługi
Uruchomienie usługi NGS Galaxy możliwe jest na każdym komputerze wyposażonym w przeglądarkę internetową. Usługa dostępna jest poprzez portal MBDAT bądź pod adresem: https://galaxy.biologia.plgrid.pl. Podczas wczytywania strony wyświetlony zostanie monit o zalogowanie z użyciem konta PLGrid.
Organizacja interfejsu
Po zalogowaniu wyświetlona zostanie strona startowa usługi:
Interfejs składa się z trzech paneli: po lewej stronie zlokalizowana jest lista dostępnych narzędzi pogrupowanych według kategorii funkcjonalnych, środkowy panel służy do wyświetlania formularzy poszczególnych narzędzi oraz wizualizacji wyników, natomiast w prawym panelu znajduje się historia pracy w której wyświetlane są pliki wysłane do Galaxy oraz pliki wynikowe uzyskane w ramach prowadzonych analiz.
Przykładowy scenariusz użycia: analiza danych RNA-seq
Załaduj z dysku pliki z folderu Sesja2:
adrenal_1.fastq
adrenal_2.fastq
brain_1.fastq
brain_2.fastq
Aby to zrobić wybierz narzędzie Get Data -> Upload File, następnie użyj przycisku Choose local file. Można zaznaczyć wszystkie pliki jednocześnie z wciśniętym klawiszem shift. Następnie należy określić format plików. Dla plików .fastq w kolumnie Type wybierz fastqsanger (pliki fastq z kodowaniem jakości w skali Sanger). Naciśnij przycisk Start. Podczas transferu można zamknąć okno przyciskiem Close bez przerywania transferu. Aby do niego wrócić należy ponownie wybrać Get Data -> Upload File.
Pobieranie z UCSC Genome Browser plików z adnotacją genomową w formacie GTF. Narzędzie: Get Data -> UCSC Main table browser. Aby pobrać adnotacje znanych genów o wysokiej wiarygodności dla genomu człowieka w wersji złożenia hg19 dla chromosomu 19 wybierz następujące opcje:
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Predictions
track: UCSC Genes
table: knownGene
region: zaznacz opcję position i wpisz chr19
output format: GTF – gene transfer format, zaznacz opcję Send output to Galaxy
Wciśnij przycisk get output i następnie potwierdź przyciskiem Send query to Galaxy. Plik z adnotacją pojawi się w panelu historii Galaxy.
Pobieranie plików z adnotacją genomową w formacie BED. Powtórz poprzedni punkt, tym razem w opcjach na stronie UCSC Genome Browser wybierając output format: BED – browser extensible data. Tym razem po wciśnięciu przycisku get output, pojawi się strona z dodatkowymi opcjami. Pozostaw ustawienia domyślne, i wciśnij przycisk Send query to Galaxy
Mapowanie odczytów do genomu referencyjnego.Narzędzie: NGS: Mapping -> Bowtie2 – map reads against reference genome. Wybierz następujące parametry:
Is this single or paired library: Paired end
Pierwszy plik FASTQ: adrenal_1.fastq (plik zawierający odczyty „forward” (zazwyczaj zawiera ‘_1’ albo ‘f’ w nazwie)
Drugi plik FASTQ: adrenal_2.fastq (plik zawierający odczyty „reverse” (zazwyczaj zawiera ‘_2’ albo ‘r’ w nazwie)
Will you select a reference genome from your history or use a built-in index?: Use a buillt-in genome index
Select reference genome: Human (Homo sapiens) (b37): hg19 Canonical
Wciśnij przycisk Execute. Spróbuj powtórzyć procedurę dla plików brain_1.fastq i brain_2.fastq. Pamiętaj, że możesz wybrać tylko pliki o zgodnym formacie. Podczas importu plików, dla brain ustawiliśmy opcję Auto-detect. Klikając na nazwę pliku w historii rozwiną się informacje na temat pliku. Sprawdź, czy pliki brain mają format fastqsanger. Jeśli nie, wciśnij ikonę ołówka, a następnie w zakładce Datatype zmień typ pliku na fastqsanger.
Zwizualizuj uzyskany plik BAM w przeglądarce genomowej. W panelu historii klliknij na nazwę pliku i poszukaj ikonki z wykresem, która po najechaniu na nią myszką powinna być adnotowana jako Visualize in Trackster. Po jej wciśnięciu zostaniesz przekierowany do okna wizualizacji. Aby utworzyć nowa wizualizację, należy wpisać jej nazwę (dowolną) oraz wybrać genom Human Feb. 2009 (GRCh37/hg19) (hg19) oraz wcisnąć przycisk Create. Dane są dostępne dla rejonu: Chr19:3000000:3500000. Aby porównać rozłożenie odczytów z pozycjami genów, należy załadować plik GTF. Naciśnij ikonę + znajdującą się w prawym górnym rogu (Add tracks). Wybierz plik GTF pobrany wcześniej z UCSC Genome Browser. Zwróć uwagę, że po odpowiednim zawężeniu obserwowanego regionu zmienia się reprezentacja odczytów oraz sposób wyświetlania genów. Po zakończeniu, wciśnij ikonę save a następnie close. W ten sposób wizualizacja ta będzie dostępna później poprzez menu górnej belki Visualization -> Saved visualizations.
Analiza jakości mapowania. Narzędzie: pakiet RseQC. Wszystkie narzędzia z pakietu uruchomić należy na plikach BAM uzyskanych za pomocą mapowania programem Bowtie2 (Input file) oraz pliku BED zawierającym adnotację chromosomu 19 pobranym w punkcie 3 tej sesji (reference gene model). W ramach pakietu należy wybrać następujące narzędzia i opcje:
NGS: QC and manipulation -> Gene Body Converage (BAM)
NGS: QC and manipulation -> RPKM Saturation. Opcje: Strand-specific?: Pair-End RNA-seq z pierwszym układem odczytów.
NGS: QC and manipulation -> Read Distribution
NGS: QC and manipulation -> BAM/SAM Mapping Stats
Uruchom narzędzie dla plików BAM uzyskanych z mapowania próbek adrenal oraz brain. Porównaj wyniki.
Testowanie statystyczne genów pod względem różnicowej ekspresji. Narzędzie: NGS: RNA Analysis -> DESeq2. Jako plik GFF podaj plik GTF z adnotacją chromosomu 19 pobrany w punkcie 2 tej sesji. Należy dodać po jednym replikacie dla każdej z grup. Jako pierwszy wskaż plik BAM będący wynikiem mapowania odczytów pochodzących z mózgu, a w ramach grupy drugiej wskaż plik BAM będący wynikiem mapowania odczytów z nadnerczy.
Info |
---|
Poniższy szablon należy odpowiednio uzupełnić.
|
...
Wstawianie odnośników do innych stron podręcznika
Przy wstawianiu linków do stron wewnętrznych Podręcznika użytkownika (np. certyfikat="Aplikowanie, rejestracja i użycie certyfikatu"' założenie konta="Zakładanie konta w portalu"; Pomoc="Gdzie szukać pomocy") należy w trybie edycji strony:
Efekt powyższego opisu można zobaczyć klikając lewym klawiszem myszki (w trybie edycji strony) na dowolny link w tym oknie informacji. Pojawi się pole, w którym do wyboru będzie opcja Edit, którą klikamy. Pojawi się okno Edit link, z aktywnym polem Search i nazwą strony wewnętrznej podręcznika.
Przy wstawianiu linków do konkretnych sekcji (akapitów) na wybranej stronie, np. Certyfikaty Simple CA ="Aplikowanie, rejestracja i użycie certyfikatu#Certyfikaty Simple CA", należy nazwę strony wraz z tytułem sekcji, rozdzielone znakiem #, podać w opcji Advanced w okienku link. Przy wstawianiu nazwy stron istotne jest zachowanie znaków spacji pomiędzy wyrazami oraz braków spacji pomiędzy #.
LINKI ZEWNĘTRZNE
Linki zewnętrzne np. do strony PL-Grid wstawiamy w oknie Insert Link (Ctrl+K) w opcji Web Link.
Info |
---|
Pomoc w pisaniu stron w Confluence: https://confluence.atlassian.com/display/DOC/Using+the+Editor |
Dla kogo jest przeznaczona, jakie najważniejsze możliwości oferuje?
Co należy aktywować, aby móc skorzystać z usługi? (Założenie konta, certyfikat, grant?, aktywacja konkretnych usług w portalu). Należy pamiętać o istnieniu rozdziałów ogólnych podręcznika, do których warto się odwołać.
Tutaj wpisujemy specjalne zasady korzystania z usługi jeśli takowe są np. konieczność ustawienia grantu domyślnego, zakaz uruchamiania intensywnych zadań na UI itp. Jeśli takowych nie ma to należy tę podsekcję usunąć.
Koniecznie z przykładowymi zrzutami ekranu lub fragmentami kodu.
Ewentualnie jako osobny podrozdział.
...