Table des matières

[TME II-4] Miniprojet 2017

Dépôt projets

Dossier Projets 2018

Année 2017

Modalités

Date de remise : jeudi 09-11-2017, 14h00, par envoi de mail à baazizi@ia.lip6.fr et à Hubert.Naacke@lip6.fr, mettre en sujet [BDLE-MINIPROJ]

Documents à remettre : fichier texte (word, pdf, etc) contenant les résultats de chaque question + annexe contenant le code Scala utilisé dans chaque question.

Partie principale

Datasets à utiliser : Yago

Statistiques de base

  1. Retourner la liste des 10 propriétés les plus fréquentes. La sortie doit être une liste de couples (prop, freq) triée de manière décroissante.
  2. Retourner la liste des 10 noeuds ayant le plus grand degré sortant. Rappel Le degré sortant d'un noeud n est le nombre de triplets où n est le sujet. La sortie doit être une liste de couples (sujet, degré) triée de manière décroissante.
  3. Pour chaque propriété, retourner le nombre de sujets distincts d'où elle démarre ainsi que le nombre d'objets distincts où elle arrive. La sortie doit être une liste de tuples (pro, nb-sujets, nb-objets). Attention Un objet (sujet) peut avoir plusieurs fois la même propriété.
  4. Encoder la fonction noeudDegre(d:entier) qui retourne les noeuds de degrée d. Le degré d'un noeud = degré sortant + degré entrant.

Statistiques sur les chemins et co-occurences

  1. Pour chaque pattern de 2 propriétés qui se suivent, calculer sa fréquence dans les données. Exemple Si le triple pattern (?x,influences,?y) (?y, livesIn, ?z) retourne 1000 résultats alors la fréquence du pattern (influences, livesIn) vaut 1000.
  2. Encoder la fonction cheminNoeudLongueur(noeud: string, len:entier) qui retourne, pour le sujet noeud, tous les chemins démarrant de noeud et ayant la longueur len. La longueur d'un chemin est le nombre de propriétés traversées.
  3. Pour chaque paire de propriétés, donner le nombre de sujets qu'elles partagent. Exemple. Si le triple pattern (x, livesIn, y) (x, citizenOf, z) retourne 10 résultat alors les propriétés de la paire (livesIn, citizenOf) partagent 10 sujets.

Bonus

Dataset à utiliser : DBpedia.

  1. Dans un premier temps, compléter les triplets de dbpediaShortName8M avec le type de leurs noeuds qui se trouvent dans dbpediaShortNameTypeFor8M.txt.
  2. Combien de sujets ont aucun type, exactement un type, au moins 2 types ? 3 nombres à calculer.
  3. Pour chaque type, retourner le nombre de sujets distincts ayant ce type, et le nombre d'objets distincts ayant ce type.

Initialement prévu mais non posée en 2017.

  1. Pour chaque propriété, retourner son domaine (la liste des types utilisés pour un sujet) et son co-domaine (la liste des type utilisés pour un objet).

Vérification de l'existence de cycle et extraire éventuellement des cycles de longueur n qui varie 2 → 4