Différences

Ci-dessous, les différences entre deux révisions de la page.

--- site:recherche:axes_de_recherche [30/05/2016 19:24]
amann
+++ site:recherche:axes_de_recherche [15/12/2017 22:09] (Version actuelle)
amann
@@ Ligne 1: / Ligne 1: @@
-{{indexmenu_n>3}}
+{{indexmenu_n>1}}
-====== Thèmes de recherche ======
-<tabs>
+====== Axes de recherche ======
-  * [[#tab-theme1|Positionnement]]
-  * [[#tab-theme1|Flux]]
-  * [[#tab-theme2|Archivage]]
-  * [[#tab-theme3|Distribution]]
-  * [[#tab-theme4|Qualité]]
-  * [[#tab-collaborations|Collaborations]]
-<pane id="tab-positionnement">
-====== Positionnement scientifique  ======
-Les problèmes actuels de gestion de données se caractérisent par un accroissement constant et considérable
-des données à traiter et par l’émergence de nouveaux usages de ces données, principalement induits par le
-développement du web social et du web sémantique. Les systèmes et les technologies classiques de la gestion de
-données ne sont plus à même de gérer, de traiter, et d’analyser efficacement ces gigantesques masses de données.
-Les recherches menées dans l’équipe Bases de Données visent à offrir des solutions efficaces et originales pour
-la gestion de données à large échelle et ses nouveaux usages. Elles se concentrent plus précisément sur l’accès
-aux données, la qualité et la cohérence des données et la gestion de transactions à large échelle.
-</pane>
-<pane id="tab-theme1">
-===== Filtrage et Agrégation de Flux d’Informations =====
-==== Positionnement scientifique ====
+===== Data streams and continuous queries =====
- Les utilisateurs du Web 2.0 sont de plus en plus confrontés à une surcharge
+The web produces continuous streams of text items published as RSS news, tweets, blog messages etc. Users can subscribe to these streams be defining queries which continuously filter and rank the most recent information items. A major challenge is then to efficiently process millions of such subscription queries over high rate input streams. In the context of the ROSES ANR project ROSES (2008-2012) on RSS feed aggregation and filtering we worked in on multi-query optimisation (PhD J. Creus), on efficient refresh strategies for dynamic RSS feeds (PhD of R. Horincar in collaboration with the MLIA team), and on continuous top-k query processing (PhD of N. Vouzoukidou in collaboration with ICS-Forth, Crete).
-d’information provoquée par l’apparition de ressources d’informations de plus en plus dynamiques comme
-les sites d’actualités et les médias sociaux. L’enjeu du thème “Agrégation de flux RSS” est de fournir à ces
-utilisateurs des outils de personnalisation de flux d’informations sur le Web. L’approche choisie consiste à
-combiner le standard RSS largement utilisé par les applicationsWeb 2.0 avec des techniques d’interrogation de
-flux de données. Nous avons en particulier étudié des problèmes posés par le passage à l’échelle en terme de
-nombre de flux et de requêtes à traiter.
-==== Principaux résultats ====
+===== Web archive indexing and maintenance =====
-Le projet ANR RoSeS (2008-2011) se trouve au coeur de ce thème de recherche.
+ The Web is continuously changing and building representative archives for the future generates many challenging data processing problems including efficient harvesting, storage and indexing of Web resources. Our work on these
-L’objectif de ce projet (coordonné par Bernd Amann) était de réaliser un agrégateur de flux d’informations qui
+challenges has started within the ANR Cartec project (before 2012) and pursued in the context of the European
-intègre un crawler RSS et un moteur de requêtes continues pour l’interrogation de flux RSS.
+research project SCAPE (2011-2014) and an ongoing collaboration with the Central University of Venezuela
-Le moteur de requêtes RSS développé par Jordi Creus dans le cadre de sa thèse intègre une nouvelle technique
+(UCV), Caracas. The originality of our contributions is based on a Web page segmentation and ranking model
-d’optimisation multi-requêtes pour des grandes collections de requêtes continues RSS. Cette technique
+which identifies and ranks semantically coherent blocks within a web page. Based on this model, highly-ranked
-est fondée sur une algèbre d’opérateurs continues (filtrage, union, jointure, transformation) et des règles de
+blocks can be considered as more important by a page refresh strategy or more relevant within an information
-normalisation et de factorisation de prédicats. Une contribution importante est la définition d’un algorithme de
+retrieval task. Three PhD thesis took place in this context on (1) semantic web page refresh strategies for web
-recherche approximative d’un arbre de Steiner minimal dans un treillis d’inclusion de prédicats logiques exploitant
+archives, (2) Web archive querying and text indexing (pruning), and (3) Web page segmentation and migration
-les propriétés particuliers de la distribution des coûts dans le graphe. Ces travaux ont été publiés dans
+to HTML5 format (collaboration with UCV). A collaboration with the MLIA team (PhD thesis of M. Law)
-deux conférences internationales[26, 15] et un journal national [39].
+allowed us to explore advanced machine learning and image analysis techniques to improve the accuracy of our
-La thèse de Roxana Horincar présente une nouvelle stratégie de rafraîchissement de documents RSS qui
+page change estimation model.
-prend en compte le problème de perte d’information [16] et intègre un modèle d’estimation de divergence
-dynamique adapté aux flux RSS [23]. Ce travail a adapté des travaux existants sur les stratégies “best-effort”
-pour le crawling de pages web et inclut des nouvelles techniques d’estimation en-ligne des fréquences de
-publication de flux RSS.
-Par ailleurs, nous avons étudié des algorithmes d’estimation de scores dans les réseaux d’annotation collaboratifs
-(social tagging systems). Nous nous sommes particulièrement intéressés à des problèmes d’optimisation
-des calculs de scores sociaux en partant des travaux de thèse de Camelia Constantin et des travaux d’Hubert
-naacke sur la cohérence de données répliquées.
-</pane>
+===== Workload-aware data replication =====
-<pane id="tab-theme2">
+Distributed transactions in large data clusters
-===== Archivage du Web =====
+generate a high control and synchronization overhead which is a major obstacle for achieving scalability. To
+reduce this overhead, we focus on user-centric applications where (1) the data fragment attached to each user
+defines the basic access unit, (2) transactions mostly access the data of two users (message exchange) and (3) the
+access frequency (popularity) is biased and fluctuates over time. To achieve optimal performance, we propose
+to move user data to a single node where the transaction can be executed locally. Then, under the assumption
+that users interact within social circles, we detect data groups (or bundles) and adapt data placement and cluster
+resources gradually according to their interactions. We have studied a related problem in the context of the
+GBIF (Global Biodiversity Information Facility) community and designed advanced querying facilities for
+world-wide federations of autonomous databases storing descriptions of observed natural species. To overcome
+the limited query capacities of GBIF database interfaces, we proposed a distributed middle-ware providing
+a higher-level structured access to the GBIF data. Our main contributions are a decentralized algorithm for
+parallel query processing and a cost-based placement and replication strategy keeping node usage (storage and
+query processing) below a given upper bound. This work is part of two PhD thesis (I. Gueye and N. Bame) in
+collaboration with the University Cheikh Anta Diop (UCAD) in Senegal.
-==== Positionnement scientifique ====
+===== SPARQL query optimization =====
- L’archivage duWeb est en pleine expansion depuis une dizaine d’années, dans
+RDF has become a standard format
-un nombre grandissant de pays. L’un des enjeux du thème est d’améliorer la qualité (complétude et cohérence
+for publishing and integrating data and knowledge on the web. The resulting Linked-Open-Data cloud is conti-
-temporelles) des archives Web malgré la limitation des ressources (bande passante, politesse, stockage. . .). La
+nuously growing and implementing efficient SPARQL query processors is a challenging problem. To achieve
-complétude reflète la quantité de versions de pages importantes archivées par rapport aux versions générées
+scalability, we propose to exploit MapReduce data parallelism implemented in the Apache Spark platform. For
-sur les sites. La cohérence reflète le fait que les versions archivées sont apparues en même temps sur le Web.
+this, we defined a cost-model which allows to choose among two standard distributed join operators (partitioned
-Pour cela, il faut estimer le comportement des sites pour crawler au bon moment. Une fois l’archive constituée,
+and broadcast join) implemented on top of the different Spark data layers. Our experimental results show that
-il est nécessaire de disposer d’outils de recherche d’information (RI) adaptés aux caractéristiques des archives
+hybrid join plans combining these two operators allow to improve the performance significantly.
-(incomplétude et dimension temporelle)
-==== Principaux résultats ====
+===== Social Recommendation Models and Algorithms =====
- Notre approche, développée dans le cadre du projet ANR Cartec (2008-2011) consiste
+Recommendation methods aim to predict, for a given user, the rating or preference she would give to an “item” which can
-à fournir un outil très précis de comparaison entre versions successives, afin de mieux quantifier les changements
+be an action, a document, a product or even another user etc. These predictions can be derived from different
-intervenus. Afin de tenir compte de l’aspect visuel des pages (primordial dans le contexte du dépôt légal),
+kinds of input data like the past activities, social links and preferences of the user and of other “similar” users
-nous procédons au préalable à une segmentation de la page en blocs, puis affectons des poids d’importance aux
+(collaborative filtering) and/or the explicit description of the items and the preferences of the users (content-
-blocs, ce qui permet de quantifier un changement intervenu dans un bloc. Ceci permet, dans une phase d’apprentissage,
+based filtering).
-de définir un pattern de changement quotidien pour chaque page. Ces patterns permettent de mettre
+==== User similarity and recommendation in social networks ====
-en oeuvre des algorithmes optimisant la complétude temporelle, la cohérence temporelle, ou bien les deux à la
+We consider the problem of discovering valuable
-fois (Thèse de Myriam Ben Saad). Les résultats obtenus sont d’une part un prototype qui inclus la segmentation
+content publishers in micro-blogging systems by providing efficient, topological and contextual user recom-
-de versions de page, leur comparaison et le calcul de l’ordonnancement ou de la fréquence optimale, et d’autre
+mendations. Building on the idea that topology-based measures are good indicators for estimating user simi-
-part un grand nombre de publications [32, 29, 30, 12, 13, 4]. Il est à noter que l’originalité de notre approche,
+larity, we propose personalized user recommendation scores which capture both the topological proximity and
-par rapport aux approches précédentes, a été unanimement reconnue. Elle a valu deux récompenses best student
+connectivity of publishers along with their topic authorities. The size of the underlying social graphs strongly
-paper à Myriam Ben Saad [29, 12].
+influences score computation costs especially with graph exploration operators. In order to speed up the re-
-Par ailleurs, dans le cadre de la thèse de Zeynep Pehlivan, nous developpons des outils de RI pour les
+commendation process we propose approximate algorithms based on landmarks that are selected according to
-archives. Les travaux portent sur la définition d’un modèle de données [27], d’algorithmes de ranking temporel
+several strategies. Within this context, we also develop a novel block-based, workload-aware edge partitioning
-incluant les blocs des pages segmentés et leur importance, ainsi que, plus récemment, des techniques de
+strategy for distributed user similarity computation. Our method relies on a block approach for capturing local
-compression d’index par élagage (pruning).
+communities and takes advantage of the topological real-world large graph properties to provide a balanced
-Enfin, les techniques développées dans le cadre du projet Cartec sont reprises et étendues dans le cadre du
+edge distribution and reduce the communication costs for random walk-based computations. This work was
-projet européen Scape (collaboration avec M. Cord, équipe Malire). La contribution de l’équipe BD est principalement
+done in collaboration with the Cédric-CNAM laboratory (PhD of R. Dahimene, Q. Grossetti and Y. Li) and was
-de développer un nouvel outil de segmentation plus précis que les outils actuels [24, 10]. Cet outil
+partially supported by the PEPS INS2I/INSMI 2015 FaSciDo “FAIT” (Finding Account of Interest on Twitter).
-se base sur une approche hybride (structurelle et par traitement d’image) développée dans le cadre notamment
-des thèses de Marc Law et Andrès Sanoja.
-</pane>
+==== Online matrix factorization and tag recommendation ====
-<pane id="tab-theme3">
+In this work, we consider matrix factorization algorithms in highly dynamic contexts with continuous rating streams where it is difficult to have an up-to-date
-===== Gestion des données et des transactions à large échelle =====
+recommendation model even with powerful parallelization techniques. Our solution reduces the lag-based re-
+commendation quality loss by introducing biases tracking the user behavior deviation. These biases are conti-
+nuously updated with the new ratings, in order to maintain the quality of recommendations at a high level for a
+longer time. We also propose an algorithm that takes into account the popularity of the tags and the opinions of
+the user’s neighborhood. Unlike the common Nearest-Neighbors approaches, which relies on a fixed number
+of neighbors, we propose a heuristic network traversal bound that enables on-the-fly recommendation com-
+putation with limited computation cost. We also propose a new method for improving the accuracy of top-k
+recommendation algorithms which dynamically estimates and adjusts candidate item lists to optimize the glo-
+bal recommendation accuracy. Finally, we propose a new Geographical POI (Point of Interest) recommendation
+method which takes into account the delay and distance between POIs to better capture the set of POIs which
+might be worth to be visited together than other existing methods based on matrix factorization. This work is
+done in collaboration with the LTCI-Télécom ParisTech (PhD M. Gueye, PhD J.-B. Griesner).
-==== Positionnement scientifique ====
+===== Large-Scale text mining workflows =====
- Nous étudions les problèmes de gestion de données dans les applications web
+In the context of the ARESOS CNRS Mastodons project, we have started to explore the usage of MapReduce based algo-
-transactionnelles. Une caractéristique principale de ce type d’application est le nombre important d’utilisateurs
+rithms and platforms (Hadoop and Spark) for complex text and graph mining workflows. In collaboration with
-qui accèdent concurremment à des données pour les modifier, ce qui génère des lectures/écritures intensives.
+the Institut des Systèmes Complexes and IRISA (Université de Rennes), the goal is to design and implement
-En présence de millions d’utilisateurs, il s’avère complexe de maintenir la cohérence des données lues ou
+scalable algorithms for building phylomemetic networks describing the evolution of science in form of tempo-
-modifiées simultanément (e.g., enchères en ligne). D’une part, les données doivent être répliquées afin de traiter
+ral topic graphs. Scalability is achieved by combining data parallelism and incremental computation for topic
-en parallèle les nombreuses demandes de lecture. D’autre part, la modification d’une donnée répliquée nécessite
+extraction and topic alignment. After some preliminary results, this work is perpetuated in the ANR project
-de synchroniser les répliques pour garantir leur cohérence, ce qui ralentit l’accès aux données. Les travaux
+EPIQUE which started in January 2017 under our coordination.
-effectués par l’équipe BD visent à offrir un compromis cohérence/performance le mieux adapté à la gestion des
-transactions en fonction du contexte applicatif.
-==== Principaux résultats ====
+===== Representation learning and information access =====
- Dans le cas où les transactions sont courtes, mais trop nombreuses pour être traitées
+The topic machine learning and information access is mainly represented by B. Piwowarski who enriched the team competencies for better understanding data science related problems and applications, and fosters the collaboration with the MLIA team
-de manière centralisée, nous avons proposé une solution intergicielle décentralisée pour acheminer (ou router)
+around the theme of learning to project complex objects (e.g. text or graphs) into a continuous latent space for
-chaque transaction vers une réplique optimale, de telle sorte que la réplique choisie soit suffisamment cohérente
+information access tasks : node classification, information retrieval, or word evolution. The quantum probability
-et que le temps de réponse des transactions reste inférieur au plafond toléré par les utilisateurs finaux [35, 50,
+formalism,whichisawaytorepresentobjectsinacontinuousspace,hasbeenalsoexploitedforsummarization.
-]. La solution repose sur une infrastructure pair-à-pair qui découple les serveurs de données, et les tiers
-chargés de maintenir la cohérence des répliques et d’équilibrer la charge. Un prototype (TransPeer [17]) a
-été expérimenté à grande échelle. De plus, une stratégie de routage optimiste permet de paralléliser encore
-plus largement les transactions. Pour cela, l’indépendance entre les transactions est déterminée dynamiquement
-pendant leur exécution [31, 40]. Ces travaux se sont déroulés dans le cadre du projet ANR Respire porté par S.
-Gançarski.
-Lorsque la charge transactionnelle présente des pics importants (augmentation brusque du nombre d’utilisateurs
-simultanés voulant modifier la même donnée), nous avons proposé, au sein du projet SyncDB (projet
-interne au LIP6, en collaboration avec l’équipe Regal), une solution répartie, basée sur un anneau à jeton. La
-solution est robuste aux pics de transactions, et de plus, tolère les pannes de plusieurs membres consécutifs de
-l’anneau [25].
-Lorsque l’infrastructure sous-jacente doit être louée en fonction de l’usage (modèle dit pay per use), nous
-avons proposé une solution pour ajuster le nombre de machines qui forment l’intergiciel, au plus près des
-besoins provenant de la charge applicative qui peut croitre et décroitre [21].
-Nous nous sommes également intéressées à des transactions portant sur des données semi-structurées
-(XML). Sur chaque serveur, nous avons proposé un algorithme de gestion de concurrence optimiste qui autorise
-les transactions à s’effectuer en parallèle lorsque les données touchées ne sont pas conflictuelles a priori [37, 34].
-</pane>
+===== Semantic IoT data integration =====
-<pane id="tab-theme4">
-===== Qualité de Workflows de Données =====
-==== Positionnement scientifique ====
- Des nombreuses applications modernes sont définies par des compositions
-de services web spécialisées pour traiter et pour produire des données complexes. Dans certains domaines
-comme les chaînes de traitement de données scientifiques ou de données du web, le choix des services (et des
-paramètres utilisés) peuvent fortement influencer la qualité des resultats obtenus. Dans cette thématique nous
-nous adressons au problème de l’estimation et l’amélioration de workflows en prenant en compte la provenance
-et la qualité des données produits par les appels de service. Nous étudions à la fois l’interaction entre les modèles
-de qualité de services et de qualité de données, leurs mise-en-oeuvre et leur application dans le contexte de la
-génération d’entrepôts de données web.
-</pane>
-<pane id="tab-collaborations">
-===== Collaborations =====
-L’équipe Bases de Données a développé une expertise reconnue dans le domaine de la gestion de données
-à large échelle en général et plus spécifiquement dans le domaine de l’archivage du Web et des applications
-du Web 2.0. Nous collaborons avec les principales équipes françaises dans ce domaine (ATLAS et GEMO à
-l’INRIA, LSIS, CNAM, PRISM, LTCI, LAMSADE), à travers le PPF WISDOM et les projets ANR SEMWEB,
-RESPIRE, WEBCONTENT, CARTEC, RoSeS.
-Au niveau international, nous participons au projet européen SCAPE sur l’archivage du Web. Nous avons
-établi des échanges réguliers avec l’Université centrale du Vénézuela, avec l’Université Cheik Anta Diop de
-Dakar et avec l’Université de Crête, qui se concrétisent par l’encadrement de doctorants et par l’invitation
-de chercheurs étrangers. Nous avons accueilli un post-doctorant brésilien en 2007, et plus récemment avons
-participé à la création et à la mise en place du GDRI sur les sciences du Web avec le Brésil.
-</pane>
-</tabs>
+In January 2014, we have started a new activity on Smart IoT applications as part of the two year exploratory project EBITA. The goal of EBITA was to
+explore business and research opportunities between Fraunhofer (Germany) and UPMC concerning semantic
+data technologies developed in the DAPA department and the IOSB Fraunhofer Institute in Karlsruhe. During
+the project (01/2015- 12/2016), the team temporarily hosted the project leader (V. Tippmann) and two research
+engineers. EBITA also allowed us to finance an ongoing PhD on semantic IoT data enrichment and integration
+(F. Hannou). Taking the data generated by thousands of sensors at the Jussieu Campus as starting point, the
+goal is to develop new data preparation and integration methods for combining raw sensor data with contex-
+tual information (room occupation, energy consuming devices, outside temperature, ...) to enable higher-level
+semantic data exploration and analysis.
+===== Schema inference for NoSQL applications =====
+Data formats like XML or JSON are more and
+more adopted because of their flexibility to encode semi-structured documents data. Compared to the relational
+model where data must strictly conform to a predefined prescriptive schema, JSON imposes no a priori schema
+simply because the structure of the data is unknown in advance or might change later. However, the absence
+of a schemas also complicates the interaction with the data. First, formulating sound queries without a concise
+description of the underlying data is more difficult. The lack of a schema prevents query processors from perfor-
+ming a static analysis to check, for example, if a query uses nonexistent attributes. Finally, the lack of schema
+prevents from accelerating query processing by using well-known optimization techniques like wildcard ex-
+pansion and data projection. We introduce an MapReduce based inference algorithm for extracting descriptive
+schemas from large JSON data-sets. The extracted schemas concisely and precisely capture the structure of the
+input data set. This work is done in collaboration with researchers from Paris-Dauphine University, University
+of Pisa and University della Basilicata, Italy.

Bases de Données / Databases

Outils pour utilisateurs

Outils du site

Différences

Outils de la page