Encadrants : B. Amann, H. Naacke Contact : bernd.amann@lip6.fr
Ce stage est proposé et financé dans le cadre du projet ANR EPIQUE. Il s’agit d’analyser des documents (scientifiques, techniques) pour déterminer des thématiques de recherche (caractérisées par des ensembles de mots-clés) et leur évolution sur une période de temps. Par exemple, une analyse des documents publiés entre 2000 et 2005 met en évidence un domaine fréquent décrit par les mots-clés « masses de données, calcul sur grille, analyse textuelle». Puis entre 2010 et 2015 le domaine évolue vers « masses de données, big data, mapreduce, analyse textuelle interactive ».
Ce cas d’analyse de texte soulève plusieurs problèmes qui limitent leur utilisation sur des données à large échelle. Les données traitées peuvent être très volumineuses (des millions de documents) et leur traitement doit être distribué et parallèle. Plusieurs méthodes pour extraire efficacement les thématiques fréquents dans une collection de documents ont été proposées. Bien que le calcul soit exécuté en parallèle pour être scalable, ces méthodes sont inadaptées à une exploration interactive sur des très grandes collections. Or l’utilisateur ne souhaite pas forcément produire la réponse exhaustive à un niveau de précision élevé mais plutôt explorer l’espace thématique d’une manière interactive. Beaucoup de méthodes sont paramétrables et sont composées de plusieurs étapes qui utilisent les mêmes données intermédiaires. L’objectif est d’identifier et d’adapter ces méthodes pour les intégrer dans un workflow plus interactif qui produit rapidement des premiers résultats partiels / approximatifs qui peuvent être complétés / précisés d’une manière incrémentale. Ces adaptations sont fondées sur la réutilisation de résultats et la reconfiguration dynamique des méthodes pour produire des résultats partiels et à différents niveaux de précision.
Ce stage a pour objectif principal de définir et de réaliser un workflow interactif pour extraire des domaines scientifiques à partir d’une collection de documents. Le travail à effectuer est le suivant:
Pour la réalisation et la validation expérimentale, le stagiaire aura à sa disposition la plateforme de calcul Apache Spark du LIP6 (déployée sur 16 machines totalisant plus de 300 cœurs et 800GB de RAM) et l’ensemble des publications scientifiques de MedLine (médecine), HAL (informatique) et RePEc (économie).
Prérequis : java, scala, spark
Références :
[1] FPGrowth Frequent Pattern Mining - RDD-based API
https://spark.apache.org/docs/latest/mllib-frequent-pattern-mining.html
[2] Medline dataset https://mbr.nlm.nih.gov/Download/
[3] EPIQUE Projet ANR http://www-bd.lip6.fr/wiki/site/recherche/projets/epique/start