Table des matières

Evolution temporelle des domaines scientifiques

Stage M2

Contacts

Contexte

L’analyse thématique de corpus scientifiques permet de mieux comprendre les avancées effectuées dans les différents domaines de la science [1]. Au fil des années et des découvertes, les domaines scientifiques évoluent progressivement. Certains sujets prennent de l’ampleur dans un domaine jusqu’à devenir un domaine à part entière. Inversement d’autres sujets peuvent être délaissés dans certains domaines. Analyser la façon dont les domaines scientifiques se forment et évoluent dans un corpus qui rassemble des articles scientifiques sur plusieurs années ou décennies (comme par exemple HAL, arXiv ou Web of Science) permet aux historiens et philosophes de valider leurs modèles d’évolution de la science, aux scientifiques de mieux positionner leurs contributions dans le contexte historique, aux financeur de mieux prédire des évolutions technologiques etc… Par exemple, on peut se poser les questions suivantes pour mieux comprendre l’engouement autour de l’IA : Est-ce que l’IA est la même aujourd’hui que dans les années 2000 ? En quoi est-elle différente ou similaire ? Quels sont les domaines se rapportant à l’IA ? Est-ce que l’IA est une thématique transversale à plusieurs domaines ou plutôt au cœur de certains domaines ?

Objectifs

Ce stage s’appuie sur le workflow EPIQUE [2] d’analyse de grands corpus de documents scientifiques en cours de réalisation au laboratoire LIP6. Le workflow EPIQUE est implanté en Scala avec la plate-forme SPARK et utilise la méthode LDA pour représenter un domaine scientifique (topic) sous forme d’un ensemble de termes pondérées. Les 3 étapes du workflow permettant d’extraire l’évolution des domaines sont :

  1. découper le corpus entier en plusieurs tranches en déplaçant une fenêtre temporelle,
  2. appliquer la méthode LDA pour extraire les domaines scientifiques dans chaque tranche de temps. Les domaines ainsi produits sont appelés une époque scientifique,
  3. comparer les époques pour déterminer dans quelle mesure elles évoluent dans le temps.

Seules les étapes (1) et (2) étant déjà réalisées, le stage a pour objectif de concevoir et réaliser l’étape (3). Cela soulève plusieurs questions : comment représenter l’évolution des époques ? Comment mesurer la qualité des résultats ? Comment augmenter les performances ?

Travail à réaliser :

Résultats attendus :

Autres informations :

Références bibliographiques:

[1] D. Chavalarias, P. Cointet. Phylomemetic Patterns in Science Evolution—The Rise and Fall of Scientific Fields, Plos One 2013, https://doi.org/10.1371/journal.pone.0054847

[2] EPIQUE Projet ANR http://www-bd.lip6.fr/wiki/site/recherche/projets/epique/start