<WRAP column box left 100%>
Doctorant en informatique à l'Uniersité Pierre et Marie Curie (UPMC - Paris 6),
membre de l'équipe Base de Données du Laboratoire d'Informatique de Paris 6 (LIP6).
Directeur de thèse : Bernd AMANN
Co-encadrement : NAACKE Hubert
Mél / email : ndiouma.bame@lip6.fr
</WRAP>
<WRAP column box left 100%>
</WRAP>
Ma thèse porte sur l'optimisation de l'accès, l'interrogation et l'analyse de données massives dans un environnement réparti à large échelle avec une application aux données de biodiversité partagées à travers le réseau du GBIF.gbif international
Le phénomène du « Big Data » est de plus en plus perçu comme l’un des grands défis informatique de la décennie en cours. De nombreux domaines font face à un ‘déluge’ de données sans précédent. La quantité des données produites augmente constamment et rend leur traitement de plus en plus difficile à gérer avec les outils actuels.
L’accès, l’interrogation et l’analyse de ces nouvelles masses de données sont essentiels pour élargir les connaissances du domaine y afférent et font parties des défis majeurs du Big Data. Ceci est particulièrement crucial dans les domaines tels que les média sociaux, la génomique, la climatologie, les réseaux énergétiques complexes, l’astronomie, l’écologie et la biodiversité.
La gestion de ces masses de données nécessite l’utilisation de nouveaux systèmes de gestion de données disposant de méthodes d’accès performantes et permettant d’exprimer des requêtes avec des langages de haut niveau, typiquement un langage déclaratif. (cf. les SGBD offrant un accès avec un langage de requêtes textuel standard tel que sql, xquery, sparql).
Un aspect particulièrement difficile à prendre en compte qui est le comportement très versatile des utilisateurs. Cela génère des demandes très fluctuantes : la charge est variable en nombre de requêtes, certaines données sont plus populaires (fréquemment demandées) que d’autres, la popularité est elle-même fluctuante (une données n’est populaire que pendant une durée limitée). Or les solutions actuelles n’ont pas été conçues pour s’adapter dynamiquement à ce type de situation.
Cette thèse se déroule dans le contexte du GBIF, initiative visant à fédérer et partager les données de biodiversité produites par de nombreux fournisseurs à l’échelle mondiale. Le GBIF propose actuellement des services pour interroger les données et les visualiser Exemple. Toutefois, avec un nombre croissant de fournisseurs qui ajoutent de nouvelles données et d’utilisateurs qui expriment de nouveaux besoins d’interrogation, l’accès aux données du GBIF pose un double problème d’expressivité et d’efficacité difficile à résoudre. L’objectif principal de cette thèse, est de concevoir une solution qui offre un accès expressif et efficace à une très grande base de données, lorsque le nombre d’utilisateurs devient très grand.
Face à ce problème, nous considérons l’opportunité de mutualiser les ressources des utilisateurs pour concevoir une solution de gestion de données globale qui serait adaptée à une infrastructure de type cloud. Pour autant, cela n’est pas trivial et nécessite une coordination fine entre les utilisateurs :
Lire le résumé complet et les résultats de la thèseresume_these_bame.pdf <WRAP column box left 100%>
</WRAP>
Exemples de requêtes supportées par le portail du GBIF
Seules les requêtes de sélection d'occurences sont supportées.
Exemple de requêtes non-supportées par le portail du GBIF