Ndiouma Bame

<WRAP column box left 100%> Doctorant en informatique à l'Uniersité Pierre et Marie Curie (UPMC - Paris 6),
membre de l'équipe Base de Données du Laboratoire d'Informatique de Paris 6 (LIP6).
Directeur de thèse : Bernd AMANN
Co-encadrement : NAACKE Hubert
Mél / email : ndiouma.bame@lip6.fr </WRAP> <WRAP column box left 100%>

A propos de ma thèse

</WRAP>

Titre : Gestion de données complexes pour la modélisation de niche écologique

Ma thèse porte sur l'optimisation de l'accès, l'interrogation et l'analyse de données massives dans un environnement réparti à large échelle avec une application aux données de biodiversité partagées à travers le réseau du GBIF.gbif international

Résumé de la thèse

Le phénomène du « Big Data » est de plus en plus perçu comme l’un des grands déﬁs informatique de la décennie en cours. De nombreux domaines font face à un ‘déluge’ de données sans précédent. La quantité des données produites augmente constamment et rend leur traitement de plus en plus difficile à gérer avec les outils actuels.

L’accès, l’interrogation et l’analyse de ces nouvelles masses de données sont essentiels pour élargir les connaissances du domaine y afférent et font parties des défis majeurs du Big Data. Ceci est particulièrement crucial dans les domaines tels que les média sociaux, la génomique, la climatologie, les réseaux énergétiques complexes, l’astronomie, l’écologie et la biodiversité.

La gestion de ces masses de données nécessite l’utilisation de nouveaux systèmes de gestion de données disposant de méthodes d’accès performantes et permettant d’exprimer des requêtes avec des langages de haut niveau, typiquement un langage déclaratif. (cf. les SGBD offrant un accès avec un langage de requêtes textuel standard tel que sql, xquery, sparql).

Un aspect particulièrement difficile à prendre en compte qui est le comportement très versatile des utilisateurs. Cela génère des demandes très fluctuantes : la charge est variable en nombre de requêtes, certaines données sont plus populaires (fréquemment demandées) que d’autres, la popularité est elle-même fluctuante (une données n’est populaire que pendant une durée limitée). Or les solutions actuelles n’ont pas été conçues pour s’adapter dynamiquement à ce type de situation.

Cette thèse se déroule dans le contexte du GBIF, initiative visant à fédérer et partager les données de biodiversité produites par de nombreux fournisseurs à l’échelle mondiale. Le GBIF propose actuellement des services pour interroger les données et les visualiser Exemple. Toutefois, avec un nombre croissant de fournisseurs qui ajoutent de nouvelles données et d’utilisateurs qui expriment de nouveaux besoins d’interrogation, l’accès aux données du GBIF pose un double problème d’expressivité et d’efficacité difficile à résoudre. L’objectif principal de cette thèse, est de concevoir une solution qui offre un accès expressif et efficace à une très grande base de données, lorsque le nombre d’utilisateurs devient très grand.

Face à ce problème, nous considérons l’opportunité de mutualiser les ressources des utilisateurs pour concevoir une solution de gestion de données globale qui serait adaptée à une infrastructure de type cloud. Pour autant, cela n’est pas trivial et nécessite une coordination fine entre les utilisateurs :

Partager les ressources (pour le stockage des données et le traitement des requêtes) entre les utilisateurs.
Tenir compte des disparités entre les utilisateurs (hétérogénéité des capacités des ressources de calcul, de stockage et de communication).
Tenir compte de l’éventuelle spécificité des accès (type de requêtes, localisation des demandes, données fréquemment accédés) pour optimiser l’utilisation des ressources.
Tenir compte des exigences de réactivité du système pour les utilisateurs (temps de réponse bornés).
Garantir la disponibilité et la cohérence des données interrogées.

Lire le résumé complet et les résultats de la thèseresume_these_bame.pdf <WRAP column box left 100%>

Publications

</WRAP>

2014

Ndiouma Bame, Hubert Naacke, Idrissa Sarr, and Samba Ndiaye. “Algorithmes de traitement de requêtes de biodiversité dans un environnement distribué”. In Revue africaine de la recherche en informatique et mathématiques appliquées (ARIMA Journal), volume 18, pp 1–18, 2014. [pdf]

Ndiouma Bame, Hubert Naacke, Idrissa Sarr, and Samba Ndiaye. “Bigbio : Utiliser les techniques de gestion du big data pour les données de la biodiversité”. In 12th African Conf. on Research In Computer Science and Applied Mathematics (CARI' 14), Saint-Louis, Sénégal, pp 273–284, 2014. [pdf]

Idrissa Sarr, HubertNaacke, Ndiouma Bame, Ibrahima Gueye, and Samba Ndiaye. Green and distributed architecture for managing big data of biodiversity (Book Chapter)“. In Computing in Research and Development in Africa : Benets, Trends, Challenges and Solutions, pp 21–39. Springer International Publishing Switzerland, 2014.

2013

Ndiouma Bame, Hubert Naacke, Idrissa Sarr, and Samba Ndiaye. ”Traitement décentralisé de requêtes de biodiversité“. In 5ème édition du Colloque National sur la Recherche en Informatique et ses Applications (CNRIA), Ziguinchor, Sénégal, pp 8, 2013. [pdf]

2012

Ndiouma Bame, Hubert Naacke, Idrissa Sarr, and Samba Ndiaye. ”Architecture répartie à large échelle pour le traitement parallèle de requête de biodiversité“. In 11th African Conf. on Research in Computer Science and Applied Mathematics (CARI'12), Algiers, Algeria, pp 143–150, 2012.[pdf]

Quelques exemples de requêtes

Exemples de requêtes supportées par le portail du GBIF

Seules les requêtes de sélection d'occurences sont supportées.

Requête 1. sélectionner les occurrences de plantes de la france. Le prédicat de sélection est : Country='France' and ScientificName='Plantae'

Requête 2. sélectionner les occurrences d'abeilles de la france

Exemple de requêtes non-supportées par le portail du GBIF

Requête 1. Calculer la densité des plantes par maille de pas de 1km en france

Requête 2. Calculer la densité des abeilles par maille de pas de 1km en france

Requête 3. Calculer la cooccurrence des plantes et des abeilles par maille de pas de 1km en france

Ma page au LIP6

Bases de Données / Databases

Panneau latéral

Ndiouma Bame

A propos de ma thèse

Titre : Gestion de données complexes pour la modélisation de niche écologique

Résumé de la thèse

Publications

2014

2013

2012

Quelques exemples de requêtes

Bases de Données / Databases

Outils pour utilisateurs

Outils du site

Panneau latéral

Ndiouma Bame

A propos de ma thèse

Titre : Gestion de données complexes pour la modélisation de niche écologique

Résumé de la thèse

Publications

2014

2013

2012

Quelques exemples de requêtes

Outils de la page