Bases de Données Databases

Site Web de l'équipe BD du LIP6

Outils pour utilisateurs

Outils du site


site:offres:2018:stages:epique2018

Big Data et analyse de textes scientifiques

Exploration interactive des domaines scientifiques les plus fréquents

Encadrants : B. Amann, H. Naacke Contact : bernd.amann@lip6.fr

Contexte

Ce stage est proposé et financé dans le cadre du projet ANR EPIQUE. Il s’agit d’analyser des documents (scientifiques, techniques) pour déterminer des thématiques de recherche (caractérisées par des ensembles de mots-clés) et leur évolution sur une période de temps. Par exemple, une analyse des documents publiés entre 2000 et 2005 met en évidence un domaine fréquent décrit par les mots-clés « masses de données, calcul sur grille, analyse textuelle». Puis entre 2010 et 2015 le domaine évolue vers « masses de données, big data, mapreduce, analyse textuelle interactive ».

Problèmes et objectifs

Ce cas d’analyse de texte soulève plusieurs problèmes qui limitent leur utilisation sur des données à large échelle. Les données traitées peuvent être très volumineuses (des millions de documents) et leur traitement doit être distribué et parallèle. Plusieurs méthodes pour extraire efficacement les thématiques fréquents dans une collection de documents ont été proposées. Bien que le calcul soit exécuté en parallèle pour être scalable, ces méthodes sont inadaptées à une exploration interactive sur des très grandes collections. Or l’utilisateur ne souhaite pas forcément produire la réponse exhaustive à un niveau de précision élevé mais plutôt explorer l’espace thématique d’une manière interactive. Beaucoup de méthodes sont paramétrables et sont composées de plusieurs étapes qui utilisent les mêmes données intermédiaires. L’objectif est d’identifier et d’adapter ces méthodes pour les intégrer dans un workflow plus interactif qui produit rapidement des premiers résultats partiels / approximatifs qui peuvent être complétés / précisés d’une manière incrémentale. Ces adaptations sont fondées sur la réutilisation de résultats et la reconfiguration dynamique des méthodes pour produire des résultats partiels et à différents niveaux de précision.

Travail à effectuer

Ce stage a pour objectif principal de définir et de réaliser un workflow interactif pour extraire des domaines scientifiques à partir d’une collection de documents. Le travail à effectuer est le suivant:

  • état de l’art sur les modèles d’extraction de topics et analyse de leurs propriétés (parallélisation, incrémentalité)
  • définition d’un workflow incrémental pour l’extraction et l’alignement de topics
  • implémentation du workflow
  • validation expérimentale

Pour la réalisation et la validation expérimentale, le stagiaire aura à sa disposition la plateforme de calcul Apache Spark du LIP6 (déployée sur 16 machines totalisant plus de 300 cœurs et 800GB de RAM) et l’ensemble des publications scientifiques de MedLine (médecine), HAL (informatique) et RePEc (économie).

Prérequis : java, scala, spark

Références :

[1] FPGrowth Frequent Pattern Mining - RDD-based API

https://spark.apache.org/docs/latest/mllib-frequent-pattern-mining.html

[2] Medline dataset https://mbr.nlm.nih.gov/Download/

[3] EPIQUE Projet ANR http://www-bd.lip6.fr/wiki/site/recherche/projets/epique/start

site/offres/2018/stages/epique2018.txt · Dernière modification: 14/12/2017 18:05 par hubert

Outils de la page