Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:enseignement:master:bdle:tmes:algebrespark-dfds

Ceci est une ancienne révision du document !


[TME II-4] Miniprojet

Modalités

Date de remise : jeudi 09-11-2017, 14h00, par envoi de mail à baazizi@ia-lip6.fr, mettre en sujet [BDLE-MINIPROJ]

Documents à remettre : fichier texte (word, pdf, etc) contenant les résultats de chaque question + annexe contenant le code Scala utilisé dans chaque question.

Partie principale

Datasets à utiliser : Yago

Statistiques de base

  1. Retourner la liste des 10 propriétés les plus fréquentes. La sortie doit être une liste de couples (prop, freq) triée de manière décroissante.
  2. Retourner la liste des 10 noeuds ayant le plus grand degré sortant. Rappel Le degré sortant d'un noeud n est le nombre de triplets où n est le sujet. La sortie doit être une liste de couples (sujet, degré) triée de manière décroissante.
  3. Pour chaque propriété, retourner le nombre de sujets distincts d'où elle démarre ainsi que le nombre d'objets distincts où elle arrive. La sortie doit être une liste de tuples (pro, nb-sujets, nb-objets). Attention Un objet (sujet) peut avoir plusieurs fois la même propriété.
  4. Encoder la fonction noeudDegre(d:entier) qui retourne les noeuds de degrée d. Le degré d'un noeud = degré sortant + degré entrant.

Statistiques sur les chemins et co-occurences

  1. Pour chaque pattern de 2 propriétés qui se suivent, calculer sa fréquence dans les données. Exemple Si le triple pattern (?x,influences,?y) (?y, livesIn, ?z) retourne 1000 résultats alor la fréquence du pattern (influences, livesIn) vaut 1000.
  2. Encoder la fonction cheminNoeudLongueur(noeud: string, lon:entier) qui retourne, pour le sujet noeud, tous les chemins démarrant de noeud et ayant la longueur lon. La longueur d'un chemin est le nombre de propriétés traversées.
  3. Pour chaque paire de propriétés, donner le nombre de sujets qu'elles partagent. Exemple Soit le triplet pattern (x, livesIn, y) (x, citizenOf, z) qui retourne 10 résultat. Les propriétés de la paire (livesIn, citizenOf) partagent 10 sujets.

Bonus

Dataset à utiliser : DBpedia.

  1. Dans un premier temps, compléter les triplets de dbpediaShortName8M avec leur type qui se trouvent dans dbpediaShortNameTypeFor8M.txt.
  2. Pour chaque type, retourner son domaine, i.e le nombre de sujets distinct ayant ce type.
  3. Pour chaque type, retourner son co-domaine, i.e le nombre d'objets distinct ayant ce type.

Initialement prévu mais non posée en 2017.

vérification de l'existence de cycle et extraire éventuellement des cycles de longueur n qui varie 2 → 4

site/enseignement/master/bdle/tmes/algebrespark-dfds.1509026822.txt.gz · Dernière modification: 26/10/2017 16:07 par amine