Page History

Krótki opis usługi

Usługa Moduł umożliwia korzystanie z najpopularniejszych narzędzi przetwarzania danych typu BigData uruchamianych na zasobach Infrastruktury PLGrid. Obecnie usługa moduł jest dostępna tylko na klastrze Zeus i Prometeusz, gdzie można prowadzić obliczenia wielowęzłowe z wykorzystaniem systemów Spark lub Hadoop. W celu efektywnego używania oprogramowania Spark i Hadoop zalecamy zapoznanie się z Oficjalny Spark Programming Guide.

Aktywowanie usługi

Usługa dostepna jest dla użytkowników Infrastruktury PLGrid. W celu aktywowania należy włączyć "Dostęp do klastra ZEUS". Następnie, zawnioskować o usługę "Spark" w sekcji "Moje konto" -> "Obsluga danych typu BigData" w Portalu PLGrid. Dostępne w ramach modułu plgrid/apps/spark

Pierwsze kroki

Uruchomienie zadania Spark wykorzystującego 4 rdzenie na 1 węźle w trybie klastra Spark (Spark Standalone cluster in client deploy mode):

$

...

srun -N1 --ntasks-per-node=4 --pty /bin/bash

Wykorzystanie zostanie zaliczone na konto grantu osobistego PLGrid. W przypadku potrzeby podania innego grantu należy wykorzystać opcję -A specyfikując identyfikator aktywnego grantu PLGrid:

$ module load testplgrid/apps/spark

$

...

start

...

_spark

...

_cluster

Obliczenia:

$ $SPARK_HOME/bin/spark-submit $SPARK_HOME/examples/src/main/python/wordcount.py /etc/passwd

Zatrzymywanie klastra:

$

...

stop

...

_spark

...

_cluster

...

Uwagi

Instalacja w ACK CYFRONET nie udostępnia systemu plików HDFS, z tego powodu korzystanie z komend 'hdfs' oraz 'hadoop fs/dfs' jest niemożliwe.
Na wybranym węźle może być uruchomiony tylko jeden Master program w tym samym czasie. W przypadku próby uruchomienia kolejnego klastra BigData na tym samym węźle, zostanie wyświetlony komunikat, aby spróbować na innym węźle.

...

Oficjalny Spark Programming Guide

Space shortcuts

Page tree

Versions Compared

Old Version 12

New Version Current

Key

Krótki opis usługi

Aktywowanie usługi

Pierwsze kroki

Uwagi