Usługa Moduł umożliwia korzystanie z najpopularniejszych narzędzi przetwarzania danych typu BigData uruchamianych na zasobach Infrastruktury PLGrid. Obecnie usługa moduł jest dostępna tylko na klastrze Zeus i Prometeusz, gdzie można prowadzić obliczenia wielowęzłowe z wykorzystaniem systemów Spark lub Hadoop. W celu efektywnego używania oprogramowania Spark i Hadoop zalecamy zapoznanie się z Spark Programming Guide.
Dostęp do usługi jest możliwy po jej aktywacji. Aby aktywować usługę, postępuj zgodnie z instrukcjami zawartymi w Katalogu Aplikacji i Usług po uprzednim wyszukaniu usługi.Dostępne w ramach modułu plgrid/apps/spark
Uruchomienie zadania Spark wykorzystującego 4 rdzenie na 1 węźle w trybie klastra Spark (Spark Standalone cluster in client deploy mode):
$
...
srun -N1 --ntasks-per-node=4 --pty /bin/bash
Wykorzystanie zostanie zaliczone na konto grantu osobistego PLGrid. W przypadku potrzeby podania innego grantu należy wykorzystać opcję -A specyfikując identyfikator aktywnego grantu PLGrid.:
$ module load plgrid/apps/spark
$
...
start
...
_spark
...
_cluster
Obliczenia:
$ $SPARK_HOME/bin/spark-submit $SPARK_HOME/examples/src/main/python/wordcount.py /etc/passwd
Zatrzymywanie klastra:
$
...
stop
...
_spark
...
_cluster
...
...
Oficjalny Spark Programming Guide