Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:spark-execution

Ancien TME 2016 : Exécution dans Spark

Exercice 3: Plan d'exécution

Visualiser le plan d'exécution de chaque requête à l'aide de l'interface graphique dans votre navigateur: localhost:4040

  • Dans l'onglet Jobs, cliquer sur le job le plus récent. Puis cliquer sur DAG visualization pour afficher le graphe des étapes. Expliquer le découpage en plusieurs étapes (stages). Masquer le DAG et lire, dans le tableau récapitulatif des étapes, la quantité de données échangées (lire la valeur dans la colonne shuffle read).
  • Dans l'onglet SQL, cliquer sur la requete la plus récente (celle correspondant au numéro de job de votre requête). Expliquer les opérations effectuées.

Exercice 4: interpréteur de requêtes

a) Proposer une structure pour représenter un motif complexe quelconque formé de plusieurs motifs de triplets reliés entre eux par des variables de jointure. On suppose que le motif complexe est connexe (i.e., il est formé d'une seule composante).

b) Proposer une fonction pour évaluer un motif complexe quelconque.

ANCIENS ENONCES 2015 et 2016

Dataset (vu en 2016)

Voir la définition des Datasets USERS, FILMS et AVIS dans le fichier du tme

RDD (vu en 2015)

Les utilisateurs : USERSRDD (numU, (genre, age, profession, codePostal)). Le numéro d'utilisateur numU identifie un utilisateur. Les notes attribuées par les utilisateurs : RATINGSRDD (numU, (film, note, date))

Voir la définition des RDD USERSRDD, RATINGSRDD dans le fichier du tme

Les données ont été lues puis fragmentées sans critère particulier en 10 et 20 fragments respectivement. Pour vérifier le nombre de fragments d'une RDD :

USERSRDD.partitions.size
RATINGSRDD.partitions.size
site/enseignement/master/bdle/tmes/spark-execution.txt · Dernière modification: 18/12/2017 16:04 par hubert