Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
site:enseignement:master:bdle:tmes:spark [01/10/2018 11:05] hubert [Installation de Spark (à réaliser une seule fois)] |
site:enseignement:master:bdle:tmes:spark [22/10/2019 18:05] (Version actuelle) amine [Utilisation un notebook Zeppelin] |
||
---|---|---|---|
Ligne 16: | Ligne 16: | ||
===== Installation de Spark (à réaliser une seule fois) ===== | ===== Installation de Spark (à réaliser une seule fois) ===== | ||
- | Vérifier si Spark (version **<fc #ff0000>2</fc>**) est installé sur votre machine, en salle de TME, en tapant | + | Vérifier que spark (version **<fc #ff0000>2.4</fc>**) est installé sur votre machine, en salle de TME, en tapant |
<code bash> | <code bash> | ||
- | source /Infos/bd/spark-config | + | source /Infos/bd/spark/config.sh |
which spark-shell | which spark-shell | ||
</code> | </code> | ||
cela doit afficher | cela doit afficher | ||
- | /usr/local/spark-**<fc #ff0000>2</fc>**.3.0-bin-hadoop2.7/bin/spark-shell | + | /usr/local/spark-2.4.4-bin-hadoop2.7/bin/spark-shell |
Si c'est le cas ajouter à la fin de votre fichier ''.bashrc'' la ligne suivante : | Si c'est le cas ajouter à la fin de votre fichier ''.bashrc'' la ligne suivante : | ||
<code bash> | <code bash> | ||
- | source /Infos/bd/spark-config | + | source /Infos/bd/spark/config.sh |
</code> | </code> | ||
Puis lancer le client Spark : | Puis lancer le client Spark : | ||
- | <code bash>spark-shell --driver-memory 8G</code> | + | <code bash>spark-shell --driver-memory 8G --executor-memory 8G</code> |
puis saisir | puis saisir | ||
Ligne 38: | Ligne 38: | ||
<code scala>:q</code> | <code scala>:q</code> | ||
- | A faire **seulement** si spark n'est **pas** installé sur votre machine de TME : télécharger la dernière version de Spark depuis [[http://spark.apache.org/downloads.html]]. Décompresser l'archive obtenue | + | |
+ | A faire **seulement** si vous utilisez votre machine personelle et que spark n'est **pas** déjà installé: télécharger la dernière version de Spark depuis [[http://spark.apache.org/downloads.html]]. Décompresser l'archive obtenue | ||
et ajouter dans votre fichier .bashrc les lignes : | et ajouter dans votre fichier .bashrc les lignes : | ||
<code bash> | <code bash> | ||
Ligne 46: | Ligne 47: | ||
puis appliquer les lignes ajoutées en exécutant | puis appliquer les lignes ajoutées en exécutant | ||
<code bash>source ~/.bashrc</code> | <code bash>source ~/.bashrc</code> | ||
- | |||
- | |||
==== Utilisation en mode local (plutôt conseillé) ==== | ==== Utilisation en mode local (plutôt conseillé) ==== | ||
Pour utiliser Spark en mode local, il suffit d'exécuter la commande | Pour utiliser Spark en mode local, il suffit d'exécuter la commande | ||
- | <code bash>spark-shell --driver-memory 10G</code> | + | <code bash>spark-shell --driver-memory 8G --executor-memory 8G</code> |
Une fois que vous avez l'invite Scala, exécuter | Une fois que vous avez l'invite Scala, exécuter | ||
Ligne 61: | Ligne 60: | ||
- | ==== Utilisation d'un notebook (plutôt conseillé) ==== | + | ==== Utilisation de jupyter-notebook depuis une machine personnelle ==== |
- | Pour ceux qui le désirent, il est possible d'utiliser un environnement graphique vous facilitant la saisie des instructions Scala. | + | **Pré-requis** : disposer d'une installation locale de spark et de jupyter-notebook. |
- | Pour ce faire, suivre les instructions ci-dessous. | + | |
+ | - créer une variable d’environnement <code bash>SPARK_HOME</code> qui devra pointer vers le répertoire d'installation de Spark | ||
+ | - installer le package spylon-kernel en tapant <code bash> pip install spylon-kernel</code> | ||
+ | - rajouter le kernel en tapant <code bash>python -m spylon_kernel install</code> | ||
+ | - lancer jupyter-notebook puis sélectionner le kernel //spylon_kernel//. L'instance Spark démarrera à l'évaluation de la première instruction | ||
+ | |||
+ | |||
+ | ==== Utilisation de l'outil IDEA (plutôt conseillé) ==== | ||
+ | |||
+ | {{ :site:enseignement:master:bdle:tmes:tuto_idea.pdf |Tuto IDEA}} | ||
+ | |||
+ | Le Tuto est aussi disponible depuis la page [[projet2018]] | ||
+ | |||
+ | ==== Utilisation d'un notebook ==== | ||
+ | Pour ceux qui le désirent, il est possible d'utiliser un environnement graphique vous facilitant la saisie des instructions Scala. Voir le notebook Apache [[https://zeppelin.apache.org/|Zeppelin]] | ||
+ | |||
+ | /*Autre possibilité, utiliser le kernel spylon dans jupyter notebook | ||
+ | (seulement si le kernel n'aparait pas, faire python3 -m spylon_kernel install) | ||
+ | */ | ||
+ | |||
+ | /* ---------------- ANCIEN Noteboook | ||
<code bash> | <code bash> | ||
unzip /Infos/bd/spark/spark-notebook-master-scala-2.11.8-spark-2.2.0-hadoop-2.7.2.zip | unzip /Infos/bd/spark/spark-notebook-master-scala-2.11.8-spark-2.2.0-hadoop-2.7.2.zip | ||
</code> | </code> | ||
- | |||
Démarrer le notebook: | Démarrer le notebook: | ||
- | |||
<code bash> | <code bash> | ||
cd spark-notebook-0.9.0-SNAPSHOT-scala-2.11.8-spark-2.2.0-hadoop-2.7.2 | cd spark-notebook-0.9.0-SNAPSHOT-scala-2.11.8-spark-2.2.0-hadoop-2.7.2 | ||
bin/spark-notebook | bin/spark-notebook | ||
</code> | </code> | ||
- | |||
puis lancer dans votre navigateur : | puis lancer dans votre navigateur : | ||
http://localhost:9000 | http://localhost:9000 | ||
+ | --------------------------------------- */ | ||
Ligne 112: | Ligne 128: | ||
Pour charger les instructions à partir d'un fichier | Pour charger les instructions à partir d'un fichier | ||
<code>:load chemin_vers_fichier</code> | <code>:load chemin_vers_fichier</code> | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||