IV. Séquençage

C. Séquençage de nouvelle génération

1) Amplification par PCR

Création d’une banque de fragments (library) : L’ADN est fragmenté et des adaptateurs sont ligaturés aux extrémités des fragments à séquencer.

 

Mélange réactionnel : l’ADN matrice, un couple d’amorces spécifiques (selon l’adaptateur) de 17 à 25 pb (paires de bases), une Taq polymérase, les 4 désoxyribonucléotides (dNTP).

 

a) Dénaturation de l’ADN double brins en ADN simple brin : à 94-95°C, les liaisons hydrogènes se brisent et les deux brins se séparent.

b) Hybridation des amorces (température d’hybridation : Tm) : Une amorce 5’ (en amont) et une amorce 3’ (en aval) délimitent la séquence d’ADN à amplifier. L’amorce 5’ se fixe sur l’extrémité 3’ de la séquence à amplifier, sur le brin matrice ; l’amorce 3’ se fixe sur l’extrémité 5’ de la séquence à amplifier, sur le brin complémentaire.

c) Élongation/Polymérisation : à 72°C, température de polymérisation de la Taq polymérase, celle-ci effectue la polymérisation à partir de l’extrémité 3’ d’une amorce, dans le sens de synthèse, de 5’ vers 3’.

 

Ces 3 étapes constituent un cycle. Après le troisième cycle, deux des huit fragments d’ADN double brins obtenus pour une molécule d’ADN de départ sont de bonne taille. Au cours des cycles suivants, la proportion de fragments de bonne taille augmente de façon exponentielle. On peut visualiser les résultats par électrophorèse afin de vérifier la longueur des fragments.

On parle de PCR en pont (bPCR) quand les brins d’ADN matrice sont étalés sur une plaque recouverte d’amorces 3’ et 5’ auxquelles elles s’hybrident, adoptant la forme d’un pont. Des grappes (clusters) de produits PCR identiques se forment.


Dans une PCR en émulsion (emPCR), chaque molécule complémentaire à l’ADN matrice est fixée sur un microbille sur laquelle se fait l’amplification.

Figure 5. Fonctionnement de la PCR en émulsion.

http://slideplayer.fr/1148693/3/images/6/Technologie+454.jpg



2) Plateformes de séquençage

Illumina (SBS : sequence by synthesis)

 

On utilise des reads de 100-150 bp. Après une amplification par PCR en pont, les fragments sont dénaturés pour être séquencés. Ils sont mis en présence d’ADN polymérase et de nucléotides possédant un terminateur réversible et marqués par fluorescence, une couleur correspondant à une base. Après l’ajout de chaque base, une caméra CCD (Charge Coupled Device) enregistre les signaux fluorescents des différentes grappes, toutes les molécules d’une grappe émettant le même signal. Les terminateurs et les marqueurs fluorescents sont ensuite retirés afin de permettre au nucléotide suivant d’être ajouté.

 

À l’aide d’un ordinateur, on peut alors construire la séquence en détectant la base ajoutée à chaque grappe et à chaque cycle. Les reads ont tous la même la longueur, qui dépend du nombre de cycles exécutés.

 

Figure 6. Image numérique du signal émis par les grappes d’une cellule lors d’un cycle.

 

 

 

 

Roche 454 (SBS : sequence by synthesis / Pyroséquençage)

 

Après une amplification par PCR en émulsion, la lame de séquençage est inondée d’un type de dNTP. Ceux-ci sont ajoutés jusqu’à ce qu’il faille un autre dNTP. On détecte alors les signaux émis par les nucléotides ajoutées et l’intensité du signal donne le nombre de nucléotides ajoutées. Le mélange de dNTP est retiré est remplacé par un autre type de dNTP. Les quatre dNTP s’enchaînent en boucle. Les reads ne sont pas tous de même longueur car le nombre de bases ajoutées à chaque cycle diffère.

 

 

 

Ion Torrent (Séquençage par semi-conducteur)

 

Les reads utilisés ont une longueur d’environ 200 bp. On utilise l’amplification par PCR en émulsion. On procède de même que pour le séquençage roche 454 mais au lieu que de détecter des signaux fluorescents, on détecte le changement de pH dû à la libération d’un ion H+ qui accompagne l’ajout d’un nucléotide à l’ADN polymérase.

 

Comme dans le cas du séquençage roche 454, les reads sont de longueurs différentes.

 

Le graphique ci-dessous (Figure 7) permet de déterminer la séquence : TTCACTCGAACT.

 

Figure 7. Graphique du taux de pH à chaque cycle.

 

 

 

SOLiD (SBL : sequencing by ligation)

 

Le mélange réactionnel contient l’ADN matrice amplifiée par PCR en émulsion, une amorce, des sondes de 8 bases marquées en fluorescences et une ligase. Les sondes sont composées de 2 bases A, C, G ou T suivies de 3 bases universelles puis de 3 bases universelles marquées en fluorescence.

 

Il y a 16 permutations de dinucléotides possibles et seulement quatre couleurs de fluorescence utilisées car une couleur peut correspondre à quatre dinucléotides différentes (voir Figure 8 : Colour-space coding). Le séquençage commence par l’hybridation de l’amorce avec l’adaptateur de l’extrémité 5’, appelé P1. Ensuite a lieu l’hybridation et la ligation de la sonde dont les 2 premières bases sont complémentaires aux deux bases qui suivent l’adaptateur. La couleur de la fluorescence de la sonde est détectée et les 3 bases marquées en fluorescence retirées, prolongeant le brin de 5 nucléotides seulement par sonde.

 

De nombreuses sondes sont ainsi ajoutées les unes après les autres. On procède ensuite de même en retirant une nucléotide à l’amorce qui devient l’amorce n-1. On continue ainsi jusqu’à l’amorce n-4. Connaissant la dernière nucléotide de l’amorce n, la suite de couleurs que l’on obtient peut être traduite en suite de nucléotides grâce au tableau ci-dessous.

 

Figure 8. Fonctionnement du séquençage par ligation.

3) Comparaison des plateformes

Figure 9. Tableau de comparaison des plateformes de 2ème génération.

Dans le tableau ci-dessus, différents séquenceurs de nouvelle génération sont comparés selon plusieurs critères : la durée de séquençage (seulement 2 heures par run pour Life Ion Torrent), la capacité de séquençage (jusqu’à 200 000 Mb par run pour Illumina HiSeq 2000), la taille moyenne des reads (jusqu’à 700 nucléotides par read pour Roche 454 FLX+), le coût (seulement 500 $ par run pour Life Ion Torrent Chip 314 ; 50+20 K$ pour la machine + annexes Life Ion Torrent) et l’exactitude du séquençage (jusqu’à 99,99 % pour Life SOLiD 5500xl).

4) Traitement des données par analyse bio-informatique

Les données brutes sont sous formes de fichiers fastQ avec 4 lignes : l’identifiant (@...), la séquence brute, un identifiant optionnel (+...) et la qualité. Les données de mauvaise qualité sont éliminées. Les résultats de l’alignement des reads sur un génome de référence sont stockés au format SAM (Sequence Alignment/Map) ou BAM (format compressé : Binary Alignment/Map).

 

Celui-ci comporte une ligne par alignement délimitée par tabulations, composée de 11 champs obligatoires et d’autres facultatifs (voir Figure 10).

 

Figure 10. Champs d’une ligne délimitée par tabulations décrivant un alignement.

 

 

 

 

On utilise ensuite des formats de localisation, annotation et visualisation de séquences précises.

 

Les SNP, polymorphismes d’un seul nucléotide, sont les positions auxquelles la séquence se différencie du génome de référence par un nucléotide unique. Leur détection constitue un des buts majeurs du séquençage. On les enregistre à des formats dits “Variant Calling”.