Commencer par consulter le Dossier pour le projet contenant le sujet et le document tuto_idea pour utiliser l'outil IDEA
Date: janvier 2019
Utiliser GraphX pour manipuler le graphe se trouvant dans le dossier /Infos/bd/spark/dataset/arxiv/graphe_similarite
cd /Infos/bd/spark/dataset/arxiv/graphe_similarite/40_topics_par_annee more similarite.json more topicDetail.json
Etant donnée un seuil de similarité s, calculer le sous-graphe Gs dont les liens ont une similarité supérieure ou égale à s. Faire le calcul pour les 10 valeurs de s dans {0, 0.1, 0.2, …, 0.9}
Pour chaque Gs obtenu, calculer les composantes connexes. Quelles sont les 10 composantes les plus grandes en nombre de noeuds et contenant au moins 4 années? Proposer un critère d'importance pour une composante et calculer les 10 composantes les plus importantes.
Spark API, les fonctions pour transformer un élément d'un Dataframe.
Retour vers l'UE MU5IN852 : Bases de Données Large Echelle (2021-2022)