Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


Panneau latéral

roses:resume_summary

Description du projet

Internet est aujourd’hui reconnu et utilisé comme un support très économique pour la diffusion d’informations à large échelle. Les différentes techniques de diffusion d'informations sur Internet peuvent être distinguées par leur degré de contrôle sur l’origine et la qualité de l’information, leur précision de diffusion (la fraction d’utilisateurs intéressés par l’information diffusée) et le décalage de diffusion (le temps nécessaire pour la découverte d'une nouvelle information par les utilisateurs intéressés). Par exemple, les messages “spam” sont non contrôlés, peu sélectives et sans décalage. Les forums de “news” améliorent la précision de diffusion mais nécessitent souvent la modération par un humain pour assurer la qualité de l’information diffusée. Les pages web permettent de garantir l’origine (le site) et la qualité de l’information, mais souffrent d’un décalage de publication important dû au temps de rafraîchissement des moteurs de recherche.

De nombreux sites web appliquent le principe de la « Syndication Web » pour diffuser des informations nouvelles. Ce principe désigne un ensemble de technologies fondées sur des formats XML (RSS, Atom) et l'approche « publication/souscription » (publish/subscribe) pour la diffusion contrôlée et efficace d'informations sur le web. Les fournisseurs d'information diffusent l'apparition de nouvelles informations (par exemple un article dans un journal électronique) à travers des flux (feeds) RSS ou ATOM auxquels les clients intéressés peuvent s’abonner grâce à des portails web ou des logiciels (lecteurs RSS/ATOM) spécialisés. Ce processus permet au final à chaque utilisateur de créer son espace d’information personnalisé qui surveille « en temps réel » et d'une manière ciblée l'évolution d'informations professionnelles, commerciales, associatives et personnelles publiées sur le Web.

Le projet ROSES (Really Open Simple Efficient Syndication) veut généraliser le principe de la syndication web aux bases de données pour réaliser et étendre les services proposés par les portails ou logiciels de syndication actuels. Il envisage d'explorer deux directions de recherche en particulier :

  • Les services de syndication actuels sont encore très limités et permettent essentiellement le filtrage par mots clés, la concaténation et le tri temporel de flux. Un premier objectif du projet est de définir et de réaliser des services d’agrégation, de personnalisation et d'enrichissement pour faciliter l'exploitation et la génération de flux RSS. La réalisation de ces services sera fondée sur des techniques d’intégration de données XML et le langage XQuery.
  • Le nombre de flux RSS et d'utilisateurs accroît tous les jours et les portails d'agrégation spécialisés comme Blastfeed.com, Plazoo.com et Technorati.com sont de plus en plus confrontés à des problèmes de passage à l'échelle. Ainsi, le nombre de flux indexés par http://technorati.com/ double approximativement tous les six mois et a atteint 36 millions de flux en avril 2006 ce qui correspond 50 000 publications par heure. Le projet ROSES envisage d’appliquer et d’étendre des techniques d’évaluation et d’optimisation de requêtes sur des données distribuées dans le contexte de la syndication web. En particulier, il étudiera le déploiement de services de syndication dans une infrastructure distribuée P2P.

Au niveau industriel, l’objectif est d’étudier différentes applications fondées sur les flux RSS et de définir les infrastructures et les services adaptés à ces applications.

roses/resume_summary.txt · Dernière modification: 30/03/2015 15:31 (modification externe)