Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
site:enseignement:master:bdle:tmes:databricks [05/10/2020 12:30] amine |
site:enseignement:master:bdle:tmes:databricks [27/09/2021 13:02] (Version actuelle) hubert [Divers] |
||
---|---|---|---|
Ligne 12: | Ligne 12: | ||
Apres création du compte, se connecter sur Databricks Community Edition. La fenetre principale est indiquée ci-dessous | Apres création du compte, se connecter sur Databricks Community Edition. La fenetre principale est indiquée ci-dessous | ||
- | {{:site:enseignement:master:bdle:tmes:principale.jpg?400|principale}} | + | {{:site:enseignement:master:bdle:tmes:db.png?400|principale}} |
La barre latérale propose plusieurs fonctionnalités: | La barre latérale propose plusieurs fonctionnalités: | ||
* "Workspace" permet de gérer les notebook et d'autres fichiers de configuration | * "Workspace" permet de gérer les notebook et d'autres fichiers de configuration | ||
* "Data" permet d'importer des données | * "Data" permet d'importer des données | ||
- | * "Clusters" permet créer, démarrer ou arrêter un cluster | + | * "Compute" permet créer, démarrer ou arrêter un cluster |
* "Jobs", réservé à la version payante, permet de visualiser des métriques sur l'exécution des programmes. | * "Jobs", réservé à la version payante, permet de visualiser des métriques sur l'exécution des programmes. | ||
+ | |||
+ | ===== Configuration ===== | ||
+ | |||
+ | Pour avoir la possibilité d'utiliser la ligne de commande et organiser vos fichier depuis l'interface graphique, il faudra activer deux paramètres en vous navigant depuis l'interface principale | ||
+ | |||
+ | **Settings -> Admin console | ||
+ | ** | ||
+ | |||
+ | Puis cliquer sur l'onglet **Workspace Settings** | ||
+ | |||
+ | Enfin, basculer **Web Terminal** et **DBFS File Browser** vers Enabled, comme indiqué dans la capture ci-dessous | ||
+ | |||
+ | {{:site:enseignement:master:bdle:tmes:enabled.jpg?400|Enabled}} | ||
+ | |||
===== Création Cluster ===== | ===== Création Cluster ===== | ||
Ligne 26: | Ligne 40: | ||
{{:site:enseignement:master:bdle:tmes:creation-cluster.jpg?400|creation cluster}} | {{:site:enseignement:master:bdle:tmes:creation-cluster.jpg?400|creation cluster}} | ||
- | Après quelques secondes, le cluster est prêt à l'usage. Il sera tué au bout de 2 heures d'inaction. | + | Après quelques secondes (ou minutes...), le cluster est prêt à l'usage. Il sera tué au bout de 2 heures d'inaction. |
s'agit d'une machine avec 15 GO de RAM, 2 coeurs et 1 Database Unit. | s'agit d'une machine avec 15 GO de RAM, 2 coeurs et 1 Database Unit. | ||
+ | Toutefois, la suppression du cluster ne supprime ni vos données ni vos notebook qui sont conservés dans votre espace databricks. | ||
===== Chargement données ===== | ===== Chargement données ===== | ||
Ligne 49: | Ligne 64: | ||
===== Création notebook ===== | ===== Création notebook ===== | ||
+ | Cliquer sur l'onglet "Workspace" pour révéler le menu latéral. Cliquer sur la flèche sous votre nom d'utilisateur pour dérouler le menu qui permet de créer, importer ou cloner un notebook, entre autres. | ||
+ | |||
+ | {{:site:enseignement:master:bdle:tmes:create-notebook.jpg?400|create nb}} | ||
+ | |||
+ | Remplir le formulaire en saisissant le nom du notebook et en choisissant le langage de programmation. Par défaut, Python est sélectionné. Il est aussi possible de choisir Scala ou R. | ||
+ | |||
+ | {{:site:enseignement:master:bdle:tmes:create-notebook-form.jpg?400|create notebook form}} | ||
+ | |||
+ | Saisir les instructions dans les cellules et executer. | ||
+ | |||
+ | Par exemple, pour charger et visualiser le contenu *test.csv* saisir les instructions suivantes | ||
+ | |||
+ | <code python> | ||
+ | path = "/FileStore/tables/BDLE/TME1/" | ||
+ | test = spark.read.format("csv").option("header", "true")\ | ||
+ | .option("inferSchema", "true")\ | ||
+ | .load(path +"test.csv") | ||
+ | test.printSchema() | ||
+ | test.show() | ||
+ | </code> | ||
+ | |||
+ | {{:site:enseignement:master:bdle:tmes:exec-notebook.jpg?400|exec-notebook}} | ||
+ | |||
+ | |||
+ | ===== Importer un notebook ===== | ||
+ | Il est aussi possible d'importer un notebook existant et d'en exporter à la fin de la séance de TME. | ||
+ | Menu déroulant sur le nom de l'utilisateur -> Import | ||
+ | |||
+ | {{:site:enseignement:master:bdle:tmes:import1.png?200|}} | ||
+ | puis saisir l'url du notebook à importer | ||
+ | {{:site:enseignement:master:bdle:tmes:import2.png?200|}} | ||
+ | ===== Plan d'exécution ===== | ||
+ | A faire | ||
+ | =====Divers===== | ||
+ | Dans une cellule de code, possibilité de faire **Run All Above** pour traiter toutes les cellules précédentes. | ||
+ | {{:site:enseignement:master:bdle:tmes:databricks_run_all_above.png?200|}} |