You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 13 Next »

Krótki opis usługi

Usługa umożliwia korzystanie z najpopularniejszych narzędzi przetwarzania danych typu BigData uruchamianych na zasobach Infrastruktury PLGrid. Obecnie usługa jest dostępna tylko na klastrze Zeus, gdzie można prowadzić obliczenia wielowęzłowe z wykorzystaniem systemów Spark lub Hadoop. W celu efektywnego używania oprogramowania Spark i Hadoop zalecamy zapoznanie się z Spark Programming Guide.

Aktywowanie usługi

Usługa dostepna jest dla użytkowników Infrastruktury PLGrid. W celu aktywowania należy włączyć "Dostęp do klastra ZEUS". Następnie, zawnioskować o usługę "Spark" w sekcji  "Moje konto" -> "Obsluga danych typu BigData" w Portalu PLGrid. 

Pierwsze kroki

Uruchomienie zadania Spark wykorzystującego 4 rdzenie na 1 węźle w trybie klastra Spark (Spark Standalone cluster in client deploy mode)

$ qsub -l nodes=1:ppn=4 -I
$ module load test/spark
$ start-multinode-spark-cluster.sh
$ $SPARK_HOME/bin/spark-submit $SPARK_HOME/examples/src/main/python/wordcount.py /etc/passwd
$ stop-multinode-spark-cluster.sh

Uwagi

  1. Instalacja w ACK CYFRONET nie udostępnia systemu plików HDFS, z tego powodu korzystanie z komend 'hdfs' oraz 'hadoop fs/dfs' jest niemożliwe.
  2. Na wybranym węźle może być uruchomiony tylko jeden Master program w tym samym czasie. W przypadku próby uruchomienia kolejnego klastra BigData na tym samym węźle, zostanie wyświetlony komunikat, aby spróbować na innym węźle.

Zaawansowane użycie

Dokumentacja Hadoop oraz Spark w Cyfronet

Gdzie szukać dalszych informacji?

Oficjalny Spark Programming Guide

 

 

  • No labels