{{indexmenu_n>1}}
====== Utilisation de Spark ======
Cette page contient des instructions pour vous permettre d'utiliser Spark et HDFS dans les **salles TME** de la PPTI.
==== API de Spark ====
Les API de Spark pour le langage scala décrivent les méthodes de manipulation des données
* les
ation =====
On manipule les données avec l'**API Spark en Scala**. Dans votre navigateur, ouvrir 2 onglets pour l'API des [[http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD|RDD]] et celle des [[http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.s
aller dans votre répertoire de tme
cp /Infos/bd/spark/tme-dataset-etudiant.scala .
emacs tme-dataset-et... 'environnement====
<code bash>
source /Infos/bd/spark-config
</code>
Vérifier l'alias pour le spark-shell
<code bash>
alias spark-shell
</code>
Cela doit afficher :
alias spark-shell='spark-shell --dri
spirée des systèmes d’analyse comme R. Le système Spark, fortement répandu, est étudié et utilisé tout au... ilisation de [[site:enseignement:master:bdle:tmes:spark|spark]] et les [[site:enseignement:master:bdle:tmes:dataset|jeux de données]].
* le forum [[https://c... | 4| 12-10-2018 | Introduction à MapReduce et à Spark | [[http://static.usenix.org/legacy/events/hotcl
spirée des systèmes d’analyse comme R. Le système Spark, fortement répandu, est étudié et utilisé tout au... aster:bdle:tmes:projet2020]]
* L'utilisation de Spark sous [[site:enseignement:master:bdle:tmes:databri... |
| 4| 30-10-2020 | Introduction à MapReduce - Spark et Scala | {{ :site:enseignement:master:bdle:p2_cours1_2020.pdf |Intro, MR, Spark et Scala}} | [[https://databricks-prod-cloudfront
PQ9|PUBLIC_DATASET]] ou localement dans /Infos/bd/spark/dataset
Préparation : créer un répertoire /tmp... s.dat et ratings.dat
<code bash>
cp -r /Infos/bd/spark/dataset/movielens /tmp/BDLE/dataset
cd /tmp/BDLE/... ode bash>
cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/watdiv/watdiv1M.tgz
</code>
Exemple de [... és les plus fréquentes :
<code bash>
cp /Infos/bd/spark/dataset/dbpedia/dbpediaShortName8MProperties.txt
spirée des systèmes d’analyse comme R. Le système Spark, fortement répandu, est étudié et utilisé tout au... ilisation de [[site:enseignement:master:bdle:tmes:spark|spark]] et les [[site:enseignement:master:bdle:tmes:dataset|jeux de données]].
* le forum [[https://c... ps://nuage.lip6.fr/s/F2zmDGYGHaYXnmN?path=%2FTMEs-Spark|TME 1]] | H. Naacke | B. Amann |
| 2| 27-09-
==== RDFdist : RDF distribution approaches using Spark =====
This wiki page provides information about ... iments RDF distribution approaches using [[http://spark.apache.org/|Spark]].
This information consists of i) the query workload ii) the source code for both dat... as a script which can be directly executed in the spark shell.
=====Query workload====
We picked three q
iments RDF distribution approaches using [[http://spark.apache.org/|Spark]].
This information consists of i) the query workload ii) the source code for both dat... as a script which can be directly executed in the spark shell.
=====Query workload====
We picked three q... query evaluation part.
<code>
import org.apache.spark.HashPartitioner
import scala.collection.mutable.L
{{indexmenu_n>40}}
====== [TME II-2] Algèbre Spark: Dataset ======
Ce TME aborde le traitement de requêtes Sparql dans la plateforme Spark.
* Formulation des requêtes dans le langage Scala avec les API de Spark RDD et Dataset.
* Exécution des requêtes.
====... E/dataset
cd /tmp/BDLE/dataset
tar zxvf /Infos/bd/spark/dataset/freebase/freebase_snippet_surls.tgz
tar z
dexmenu_n>30}}
====== [TME II-1] Introduction à Spark (Algèbre RDD) ======
**Remarque générale :** L... consulter la documentation en ligne de [[https://spark.apache.org/docs/2.1.1/api/scala/index.html#package|Spark]].
Pour l'aide sur l'utilisation de Spark voir [[spark|ici]]
===== Exercice 1 =====
Copier le fichier