Bases de Données / Databases

Site Web de l'équipe BD du LIP6 / LIP6 DB Web Site

Outils pour utilisateurs

Outils du site


Command unknown: plugin_bookcreator_addtobook
site:offres:2019:stages:dnasystems2019

Algorithmes d’encodage de données binaires en séquences ADN

Proposition de stage de Master 2

  • Equipe d’accueil : Base de Données, LIP6
  • Encadrants :
    • Bernd Amann bernd.amann@lip6.fr
    • Stéphane Gançarski stephane.gancarski@lip6.fr
  • Début de stage : 1er Mars 2020
  • Durée : 6 mois
  • Rémunération : environ 460 euros/mois

Contexte

Le stockage d’information sur ADN est une technologie émergente qui constitue une solution durable (quelques dizaines de milliers d’années), à faible impact énergétique et extrêmement compacte [Church12]. Le stockage d’informations numériques sur ADN a été pour l’instant effectué sur des pools d’oligonucléotides synthétisés, stockés et lus in vitro. Alors que cette méthodologie s’est révélée utile pour démontrer la faisabilité du stockage numérique sur ADN, elle présente de nombreuses limitations. Afin de lever ces limitations et de développer des systèmes de stockage sur ADN plus performants, nous développons des solutions d’archivage originale in vivo, en rupture avec les technologies existantes.

Ce stage est financé par Sorbonne Université dans le cadre du projet émergence DNA SYSTEM et s’effectuera en collaboration avec deux équipes de recherche en informatique (BD et DELYS) et deux équipes en biologie (Z. Xu et S. Lemaire) qui développent de nouvelles techniques pour le stockage et la manipulation de l’information numérique sur ADN. Ce stage implique également des interactions fortes entre ces différentes équipes.

Objectifs du stage

Ce stage de master visera à poursuivre ces travaux en étudiant le problème d’encodage et de décodage de séquences binaires 0/1 en séquences DNA ACGT avec des propriétés particulières, intégrées dans le support physique. Cet encodage doit être biocompatible et biosécurisé et permettre la manipulation (copie, édition, lecture, écriture) de longs fragments d’ADN in vivo et in vitro.

Il existe déjà un algorithme de biocompatibilité qui utilise un encodage flexible Church-Gao-Kosuri (0=A=C ; 1=T=G) et permet de moduler des séquences afin qu’elles satisfassent des contraintes spécifiques comme par exemple :

  1. Taux de présence de nucléotides spécifiques, par exemple %GC du génome de l’organisme hôte, pour améliorer les performances en lecture et écriture ;
  2. Interdiction des répétitions de plus de trois nucléotides (ACGT) identiques pour réduire notamment les erreurs de lecture et d’écriture ;
  3. Suppression et ajouts de séquences spécifiques pour obtenir un assemblage de fragments biocompatible pour l’organisme vivant ;

Travail à effectuer

  • Formaliser les contraintes de biocompatibilité et biosécurité ;
  • Etudier et analyser l’algorithme d’encodage existant (convergence, complexité/coût) ;
  • Etudier l’état de l’art sur les algorithmes d’encodage existants [Tulpan06] ;
  • Proposer des solutions nouvelles en utilisant par exemple des index et des techniques de machine learning;
  • Implémenter et évaluer une ou plusieurs solutions proposées avec un simulateur ;

Compétences souhaitées

  • Bonnes compétences en algorithmique (recherche stochastique, algorithmes génétiques) et programmation (Java, Python)
  • Des connaissances en biologie/génétique sont bienvenues

Références

[Church12] Church, G. M., Gao, Y., & Kosuri, S. (2012). Next-generation digital information storage in DNA. Science, 337(6102), 1628-1628.

[Tulpan06]Tulpan, D. C. (2006). Effective heuristic methods for DNA strand design (Doctoral dissertation, University of British Columbia).

site/offres/2019/stages/dnasystems2019.txt · Dernière modification: 24/12/2019 10:17 par amann