Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Aktywowanie usługi

Aby skorzystać z usługi usługi NGS Galaxy, należy mieć aktywne konto w infrastrukturze Infrastrukturze PLGridoraz aktywną afiliację.

Do usługi NGS Galaxy może może uzyskać dostęp każdy użytkownik PLGrid, który jest użytkownikiem usługi Molecular Biology Data Analysis Toolkit . W celu uzyskania dostępu do tych usług należy wejść na stronę http://portal.plgrid.pl a następnie zalogować się podając swój identyfikator plgrid (np. plgkowalski) i hasło do portalu, po czym z górnej belki tej usługi należy po zalogowaniu się w Portalu PLGrid w lewym menu wybrać zakładkę Usługi. Po przejściu do tej zakładki należy kliknąć zielony przycisk Zarządzaj usługami, znajdujący się w prawym górnym rogu. Spowoduje to przejście do Katalogu Aplikacji i Usług (KAiU), gdzie należy wyszukać usługę Molecular Biology Data Analysis Toolkit, a następnie o nią aplikować.

Przyznanie usługi następuje automatycznie. Gdy usługa zostanie przyznana, pojawi się na liście usług w portalu PLGrid ze statusem „active” Status usługi będzie również widoczny w KAiU jako "Status użytkownika: Usługa aktywna — usługa dostępna dla użytkownika" zawierającej menu wybrać opcję „Moje konto”. W prawej kolumnie ukaże się Katalog usług dostępnych dla danego użytkownika.
Z katalogu usług należy wybrać kategorię: Platforma Dziedzinowa – Biologia, a następnie „rozwiń”, ukaże się lista usług w tej kategorii, wśród nich będzie usługa o nazwie Molecular Biology Data Analysis Toolkit a tuż obok link zatytułowany „aplikuj o usługę”. Akceptacja użytkownika następuje automatycznie. Gdy rejestracja się powiedzie, usługa na liście w katalogu zyska status „aktywny.

Pierwsze kroki

Uruchomienie usługi

Uruchomienie usługi NGS Galaxy możliwe jest na każdym komputerze wyposażonym w przeglądarkę internetową. Usługa dostępna jest poprzez portal MBDAT bądź pod adresem: https://galaxy.biologia.plgrid.pl. Podczas wczytywania strony wyświetlony zostanie monit o zalogowanie z użyciem konta PLGrid. 

Organizacja interfejsu

Po zalogowaniu wyświetlona zostanie strona startowa usługi:

...

Interfejs składa się z trzech paneli: po lewej stronie zlokalizowana jest lista dostępnych narzędzi pogrupowanych według kategorii funkcjonalnych, środkowy panel służy do wyświetlania formularzy poszczególnych narzędzi oraz wizualizacji wyników, natomiast w prawym panelu znajduje się historia pracy w której wyświetlane są pliki wysłane do Galaxy oraz pliki wynikowe uzyskane w ramach prowadzonych analiz.  

Przykładowy scenariusz użycia: analiza danych RNA-seq

  1. Załaduj z dysku pliki z folderu Sesja2:
    adrenal_1.fastq 
    adrenal_2.fastq 
    brain_1.fastq 
    brain_2.fastq 

    Aby to zrobić, wybierz narzędzie Get Data -> Upload File, następnie użyj przycisku Choose local file. Można zaznaczyć wszystkie pliki jednocześnie z wciśniętym klawiszem shift Shift. Następnie należy określić format plików. Dla plików .fastq w kolumnie Type wybierz fastqsanger (pliki fastq z kodowaniem jakości w skali Sanger). Naciśnij przycisk Start. Podczas transferu można zamknąć okno przyciskiem Close bez przerywania transferu. Aby do niego wrócić należy ponownie wybrać Get Data -> Upload File.
     

  2. Pobieranie z UCSC Genome Browser plików z adnotacją genomową w formacie GTF. Narzędzie: Get Data -> UCSC Main table browser. Aby pobrać adnotacje znanych genów o wysokiej wiarygodności dla genomu człowieka w wersji złożenia hg19 dla chromosomu 19 wybierz następujące opcje:

    • clade: Mammal

    • genome: Human

    • assembly: Feb. 2009 (GRCh37/hg19)

    • group: Genes and Gene Predictions

    • track: UCSC Genes

    • table: knownGene

    • region: zaznacz opcję position i wpisz chr19

    • output format: GTF – gene transfer format, zaznacz opcję Send output to Galaxy

      Wciśnij przycisk get output i następnie potwierdź przyciskiem Send query to Galaxy. Plik z adnotacją pojawi się w panelu historii Galaxy.
       

  3. Pobieranie plików z adnotacją genomową w formacie BED. Powtórz poprzedni punkt, tym razem w opcjach na stronie UCSC Genome Browser wybierając output format: BED – browser extensible data. Tym razem po wciśnięciu przycisku get output, pojawi się strona z dodatkowymi opcjami. Pozostaw ustawienia domyślne, i wciśnij przycisk Send query to Galaxy
     

  4. Mapowanie odczytów do genomu referencyjnego.Narzędzie: NGS: Mapping -> Bowtie2 – map reads against reference genome. Wybierz następujące parametry:

    • Is this single or paired library: Paired end

    • Pierwszy plik FASTQ: adrenal_1.fastq (plik zawierający odczyty „forward” (zazwyczaj zawiera ‘_1’ albo ‘f’ w nazwie)

    • Drugi plik FASTQ: adrenal_2.fastq (plik zawierający odczyty „reverse” (zazwyczaj zawiera ‘_2’ albo ‘r’ w nazwie)

    • Will you select a reference genome from your history or use a built-in index?: Use a buillt-in genome index

    • Select reference genome: Human (Homo sapiens) (b37): hg19 Canonical

      Wciśnij przycisk Execute. Spróbuj powtórzyć procedurę dla plików brain_1.fastq i brain_2.fastq. Pamiętaj, że możesz wybrać tylko pliki o zgodnym formacie. Podczas importu plików, dla brain ustawiliśmy opcję Auto-detect. Klikając na nazwę pliku w historii rozwiną się informacje na temat pliku. Sprawdź, czy pliki brain mają format fastqsanger. Jeśli nie, wciśnij ikonę ołówka, a następnie w zakładce Datatype zmień typ pliku na fastqsanger
       

  5. Zwizualizuj uzyskany plik BAM w przeglądarce genomowej. W panelu historii klliknij kliknij na nazwę pliku i poszukaj ikonki z wykresem, która po najechaniu na nią myszką powinna być adnotowana jako Visualize in Trackster. Po jej wciśnięciu zostaniesz przekierowany do okna wizualizacji. Aby utworzyć nowa wizualizację, należy wpisać jej nazwę (dowolną) oraz wybrać genom Human Feb. 2009 (GRCh37/hg19) (hg19) oraz wcisnąć przycisk Create. Dane są dostępne dla rejonu: Chr19:3000000:3500000, dlatego z rozwijanego menu na górze strony należy wybrać chr19 i powiększyć fragment chromosomu na którym widoczne są zmapowane odczyty. Aby porównać rozłożenie odczytów z pozycjami genów, należy załadować plik GTF. Naciśnij W tym celu naciśnij ikonę + znajdującą się w prawym górnym rogu (Add tracks). Wybierz plik GTF pobrany wcześniej z UCSC Genome Browser. Zwróć uwagę, że po odpowiednim zawężeniu obserwowanego regionu zmienia się reprezentacja odczytów oraz sposób wyświetlania genów. Po zakończeniu, wciśnij ikonę save a następnie close. W ten sposób wizualizacja ta będzie dostępna później poprzez menu górnej belki Visualization -> Saved visualizations.
     

  6. Analiza jakości mapowania. Narzędzie: pakiet RseQC. Wszystkie narzędzia z pakietu uruchomić należy na plikach BAM uzyskanych za pomocą mapowania programem Bowtie2 (Input file) oraz pliku BED zawierającym adnotację chromosomu 19 pobranym w punkcie 3 tej sesji (reference gene model). W ramach pakietu należy wybrać następujące narzędzia i opcje:

    • NGS: QC and manipulation -> Gene Body Converage (BAM)

    • NGS: QC and manipulation -> RPKM Saturation. Opcje: Strand-specific?: Pair-End RNA-seq z pierwszym układem odczytów.

    • NGS: QC and manipulation -> Read Distribution

    • NGS: QC and manipulation -> BAM/SAM Mapping Stats

      Uruchom narzędzie dla plików BAM uzyskanych z mapowania próbek adrenal oraz brain. Porównaj wyniki.
       

  7. Testowanie statystyczne genów pod względem różnicowej ekspresji. Narzędzie: NGS: RNA Analysis -> DESeq2. Jako plik GFF podaj plik GTF z adnotacją chromosomu 19 pobrany w punkcie 2 tej sesji. Należy dodać po jednym replikacie dla każdej z grup. Jako pierwszy wskaż plik BAM będący wynikiem mapowania odczytów pochodzących z mózgu, a w ramach grupy drugiej wskaż plik BAM będący wynikiem mapowania odczytów z nadnerczy.
     

  8. Przeanalizuj uzyskane wyniki zawierające listę genów ulegających różnicowej ekspresji

...

  1. .

Gdzie szukać dalszych informacji?

...

Uzyskanie informacji/helpdesk PLGrid: dokumentacji o pomocy