Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


site:offres:2019:stages:epique2019

Evolution temporelle des domaines scientifiques

Stage M2

Contacts

  • Bernd AMANN bernd.amann@lip6.fr
  • Hubert NAACKE hubert.naacke@lip6.fr

Contexte

L’analyse thématique de corpus scientifiques permet de mieux comprendre les avancées effectuées dans les différents domaines de la science [1]. Au fil des années et des découvertes, les domaines scientifiques évoluent progressivement. Certains sujets prennent de l’ampleur dans un domaine jusqu’à devenir un domaine à part entière. Inversement d’autres sujets peuvent être délaissés dans certains domaines. Analyser la façon dont les domaines scientifiques se forment et évoluent dans un corpus qui rassemble des articles scientifiques sur plusieurs années ou décennies (comme par exemple HAL, arXiv ou Web of Science) permet aux historiens et philosophes de valider leurs modèles d’évolution de la science, aux scientifiques de mieux positionner leurs contributions dans le contexte historique, aux financeur de mieux prédire des évolutions technologiques etc… Par exemple, on peut se poser les questions suivantes pour mieux comprendre l’engouement autour de l’IA : Est-ce que l’IA est la même aujourd’hui que dans les années 2000 ? En quoi est-elle différente ou similaire ? Quels sont les domaines se rapportant à l’IA ? Est-ce que l’IA est une thématique transversale à plusieurs domaines ou plutôt au cœur de certains domaines ?

Objectifs

Ce stage s’appuie sur le workflow EPIQUE [2] d’analyse de grands corpus de documents scientifiques en cours de réalisation au laboratoire LIP6. Le workflow EPIQUE est implanté en Scala avec la plate-forme SPARK et utilise la méthode LDA pour représenter un domaine scientifique (topic) sous forme d’un ensemble de termes pondérées. Les 3 étapes du workflow permettant d’extraire l’évolution des domaines sont :

  1. découper le corpus entier en plusieurs tranches en déplaçant une fenêtre temporelle,
  2. appliquer la méthode LDA pour extraire les domaines scientifiques dans chaque tranche de temps. Les domaines ainsi produits sont appelés une époque scientifique,
  3. comparer les époques pour déterminer dans quelle mesure elles évoluent dans le temps.

Seules les étapes (1) et (2) étant déjà réalisées, le stage a pour objectif de concevoir et réaliser l’étape (3). Cela soulève plusieurs questions : comment représenter l’évolution des époques ? Comment mesurer la qualité des résultats ? Comment augmenter les performances ?

Travail à réaliser :

  • Etat de l’art sur les modèles d’analyse sémantique et temporelle de contenus documentaires,
  • définition d’un modèle d’appariement des époques. L’appariement peut s’appuyer sur une analyse des similarités entre les domaines.
  • définition d’un algorithme pour extraire des appariements et d’une mesure pour noter la qualité des appariements obtenus.
  • implantation et intégration du modèle dans le workflow EPIQUE,
  • évaluation expérimentale sur plusieurs corpus,
  • optimisation du workflow EPIQUE.

Résultats attendus :

  • Le workflow EPIQUE complété
  • un article scientifique (en collaboration avec un doctorant en 2ème année de thèse).

Autres informations :

  • Rémunération : autour de 590€ / mois
  • Lieu de travail : équipe BD du LIP6

Références bibliographiques:

[1] D. Chavalarias, P. Cointet. Phylomemetic Patterns in Science Evolution—The Rise and Fall of Scientific Fields, Plos One 2013, https://doi.org/10.1371/journal.pone.0054847

[2] EPIQUE Projet ANR http://www-bd.lip6.fr/wiki/site/recherche/projets/epique/start

site/offres/2019/stages/epique2019.txt · Dernière modification: 02/12/2019 11:25 par amann