Page History

Krótki opis usługi

Usługa Moduł umożliwia korzystanie z najpopularniejszych narzędzi przetwarzania danych typu BigData uruchamianych na zasobach Infrastruktury PLGrid. Obecnie usługa moduł jest dostępna tylko na klastrze Zeus i Prometeusz, gdzie można prowadzić obliczenia wielowęzłowe z wykorzystaniem systemów Spark lub Hadoop. W celu efektywnego używania oprogramowania Spark i Hadoop zalecamy zapoznanie się z Spark Programming Guide.

Aktywowanie usługi

Dostęp do usługi jest możliwy po jej aktywacji. Aby aktywować usługę, postępuj zgodnie z instrukcjami zawartymi w Katalogu Aplikacji i Usług po uprzednim wyszukaniu usługi.Dostępne w ramach modułu plgrid/apps/spark

Pierwsze kroki

Uruchomienie zadania Spark wykorzystującego 4 rdzenie na 1 węźle w trybie klastra Spark (Spark Standalone cluster in client deploy mode):

$

...

srun -N1 --ntasks-per-node=4 --pty /bin/bash

Wykorzystanie zostanie zaliczone na konto grantu osobistego PLGrid. W przypadku potrzeby podania innego grantu należy wykorzystać opcję -A specyfikując identyfikator aktywnego grantu PLGrid.:

$ module load plgrid/apps/spark

$

...

start

...

_spark

...

_cluster

Obliczenia:

$ $SPARK_HOME/bin/spark-submit $SPARK_HOME/examples/src/main/python/wordcount.py /etc/passwd

Zatrzymywanie klastra:

$

...

stop

...

_spark

...

_cluster

...

Uwagi

Instalacja w ACK CYFRONET nie udostępnia systemu plików HDFS, z tego powodu korzystanie z komend 'hdfs' oraz 'hadoop fs/dfs' jest niemożliwe.
Na wybranym węźle może być uruchomiony tylko jeden Master program w tym samym czasie. W przypadku próby uruchomienia kolejnego klastra BigData na tym samym węźle, zostanie wyświetlony komunikat, aby spróbować na innym węźle.

...

Oficjalny Spark Programming Guide

Page tree

Versions Compared

Old Version 17

New Version Current

Key

Krótki opis usługi

Aktywowanie usługi

Pierwsze kroki

Uwagi