Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:projet2018

Mini-projet 2018

Commencer par consulter le Dossier pour le projet contenant le sujet et le document tuto_idea pour utiliser l'outil IDEA

Facultatif : Complément du mini projet : Calcul de composantes connexes

Date: janvier 2019

Utiliser GraphX pour manipuler le graphe se trouvant dans le dossier /Infos/bd/spark/dataset/arxiv/graphe_similarite

cd /Infos/bd/spark/dataset/arxiv/graphe_similarite/40_topics_par_annee
more similarite.json
more topicDetail.json

Etant donnée un seuil de similarité s, calculer le sous-graphe Gs dont les liens ont une similarité supérieure ou égale à s. Faire le calcul pour les 10 valeurs de s dans {0, 0.1, 0.2, …, 0.9}

Pour chaque Gs obtenu, calculer les composantes connexes. Quelles sont les 10 composantes les plus grandes en nombre de noeuds et contenant au moins 4 années? Proposer un critère d'importance pour une composante et calculer les 10 composantes les plus importantes.

Divers

Spark API, les fonctions pour transformer un élément d'un Dataframe.

Retour vers l'UE MU5IN852 : Bases de Données Large Echelle (2021-2022)

site/enseignement/master/bdle/tmes/projet2018.txt · Dernière modification: 31/01/2019 21:25 par hubert