Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:spark

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
site:enseignement:master:bdle:tmes:spark [12/10/2018 10:43]
hubert [Utilisation d'un notebook (plutôt conseillé)]
site:enseignement:master:bdle:tmes:spark [22/10/2019 18:05] (Version actuelle)
amine [Utilisation un notebook Zeppelin]
Ligne 16: Ligne 16:
 ===== Installation de Spark (à réaliser une seule fois) ===== ===== Installation de Spark (à réaliser une seule fois) =====
  
-Vérifier ​si Spark (version **<fc #​ff0000>​2.3</​fc>​**) est installé sur votre machine, en salle de TME, en tapant+Vérifier ​que spark (version **<fc #​ff0000>​2.4</​fc>​**) est installé sur votre machine, en salle de TME, en tapant
 <code bash> <code bash>
-source /​Infos/​bd/​spark-config ​+source /​Infos/​bd/​spark/config.sh
 which spark-shell which spark-shell
 </​code>​ </​code>​
 cela doit afficher cela doit afficher
-/​usr/​local/​spark-2.3.2-bin-hadoop2.7/​bin/​spark-shell+/​usr/​local/​spark-2.4.4-bin-hadoop2.7/​bin/​spark-shell
  
 Si c'est le cas ajouter à la fin de votre fichier ''​.bashrc''​ la ligne suivante : Si c'est le cas ajouter à la fin de votre fichier ''​.bashrc''​ la ligne suivante :
 <code bash> <code bash>
-source /​Infos/​bd/​spark-config+source /​Infos/​bd/​spark/config.sh
 </​code>​ </​code>​
 Puis lancer le client Spark : Puis lancer le client Spark :
-<code bash>​spark-shell ​ --driver-memory 8G</​code>​+<code bash>​spark-shell ​ --driver-memory 8G --executor-memory 8G</​code>​
  
 puis saisir puis saisir
Ligne 38: Ligne 38:
 <code scala>:​q</​code>​ <code scala>:​q</​code>​
  
-A faire **seulement** si spark n'est **pas** installé ​sur votre machine de TME : télécharger la dernière version de Spark depuis [[http://​spark.apache.org/​downloads.html]]. Décompresser l'​archive obtenue+ 
 +A faire **seulement** si vous utilisez votre machine personelle et que spark n'est **pas** ​déjà ​installé: télécharger la dernière version de Spark depuis [[http://​spark.apache.org/​downloads.html]]. Décompresser l'​archive obtenue
 et ajouter dans votre fichier .bashrc les lignes : et ajouter dans votre fichier .bashrc les lignes :
 <code bash> <code bash>
Ligne 46: Ligne 47:
 puis appliquer les lignes ajoutées en exécutant ​ puis appliquer les lignes ajoutées en exécutant ​
 <code bash>​source ~/​.bashrc</​code>​ <code bash>​source ~/​.bashrc</​code>​
- 
- 
  
 ==== Utilisation en mode local (plutôt conseillé) ==== ==== Utilisation en mode local (plutôt conseillé) ====
 Pour utiliser Spark en mode local, il suffit d'​exécuter la commande Pour utiliser Spark en mode local, il suffit d'​exécuter la commande
  
-<code bash>​spark-shell ​ --driver-memory ​10G</​code>​+<code bash>​spark-shell ​ --driver-memory ​8G --executor-memory 8G</​code>​
  
 Une fois que vous avez l'​invite Scala, exécuter  ​ Une fois que vous avez l'​invite Scala, exécuter  ​
Ligne 59: Ligne 58:
  
 pour restreindre l'​affichage des logs aux erreurs seulement. pour restreindre l'​affichage des logs aux erreurs seulement.
 +
 +
 +==== Utilisation de jupyter-notebook depuis une machine personnelle ​ ====
 +**Pré-requis** : disposer d'une installation locale de spark et de jupyter-notebook.
 +
 +  - créer une variable d’environnement <code bash>​SPARK_HOME</​code>​ qui devra pointer vers le répertoire d'​installation de Spark
 +  - installer le package spylon-kernel en tapant <code bash> pip install spylon-kernel</​code>  ​
 +  - rajouter le kernel en tapant <code bash>​python -m spylon_kernel install</​code>​
 +  - lancer jupyter-notebook puis sélectionner le kernel //​spylon_kernel//​. L'​instance Spark démarrera à l'​évaluation de la première instruction
 +
  
  
 ==== Utilisation de l'​outil IDEA (plutôt conseillé) ==== ==== Utilisation de l'​outil IDEA (plutôt conseillé) ====
-Voir le document ​tuto_idea ​sur la page [[projet2018]]+ 
 +{{ :​site:​enseignement:​master:​bdle:​tmes:​tuto_idea.pdf |Tuto IDEA}} 
 + 
 +Le Tuto est aussi disponible depuis ​la page [[projet2018]]
  
 ==== Utilisation d'un notebook ​  ==== ==== Utilisation d'un notebook ​  ====
-Pour ceux qui le désirent, il est possible d'​utiliser un environnement graphique vous facilitant la saisie des instructions Scala. +Pour ceux qui le désirent, il est possible d'​utiliser un environnement graphique vous facilitant la saisie des instructions Scala. ​Voir le notebook Apache [[https://​zeppelin.apache.org/​|Zeppelin]] ​
-Pour ce faire, suivre les instructions ci-dessous.+
  
 +/*Autre possibilité,​ utiliser le kernel spylon dans jupyter notebook
 +(seulement si le kernel n'​aparait pas, faire python3 -m spylon_kernel install)
 +*/
  
 +/*     ​---------------- ​ ANCIEN Noteboook
 <code bash> <code bash>
 unzip /​Infos/​bd/​spark/​spark-notebook-master-scala-2.11.8-spark-2.2.0-hadoop-2.7.2.zip unzip /​Infos/​bd/​spark/​spark-notebook-master-scala-2.11.8-spark-2.2.0-hadoop-2.7.2.zip
 </​code>​ </​code>​
- 
 Démarrer le notebook: Démarrer le notebook:
- 
 <code bash> <code bash>
 cd spark-notebook-0.9.0-SNAPSHOT-scala-2.11.8-spark-2.2.0-hadoop-2.7.2 cd spark-notebook-0.9.0-SNAPSHOT-scala-2.11.8-spark-2.2.0-hadoop-2.7.2
 bin/​spark-notebook bin/​spark-notebook
 </​code>​ </​code>​
- 
 puis lancer dans votre navigateur :  puis lancer dans votre navigateur : 
 http://​localhost:​9000 http://​localhost:​9000
 + ​--------------------------------------- */
  
  
Ligne 115: Ligne 128:
 Pour charger les instructions à partir d'un fichier Pour charger les instructions à partir d'un fichier
 <​code>:​load chemin_vers_fichier</​code>​ <​code>:​load chemin_vers_fichier</​code>​
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
  
  
site/enseignement/master/bdle/tmes/spark.1539333829.txt.gz · Dernière modification: 12/10/2018 10:43 par hubert