BIO6: Bioinformatique appliquée Correction du TD3 Exercice 1: alignement local, alignement global, lequel choisir ?Alignement global entre P19525 (E2AK2_HUMAN) et Q9Z1J2 (NEK4_MOUSE) (algorithme Needleman & Wunsch) • 8.7 % d'identité • 13.8% de similarité • 75.8% de gaps • longueur alignement: 1084 • score: 385 Alignement local (algorithme de Smith & Waterman) • 30.3% identité • 48 % similarité • 16.4 % gaps • longueur alignement: 304 • score: 390 Le dotplot montre clairement que les 2 séquences ont une similarité locale (domaine protéine kinase), mais qu'elles ne se ressemblent pas sur toute leur longueur. Forcer l'alignement à aligner les 2 séquences sur toute la longueur (alignement global) donne un mauvais alignement global: faible identité/similarité, énormément de gaps. L'alignement local donne de bien meilleurs résultats, mais sur une longueur plus limitée (304 au lieu de 1084). Pourquoi le score global (385.5) n'est -il que très faiblement inférieur à celui de l'alignement local (390) ? Parce que Needle fait en fait un alignement semi-global, càd qu'il ne pénalise pas les gaps aux extrémités des séquences (qui sont la majorité des gaps). Alignement local: NEK4_MOUSE 9 MRVVGRGSYGEVTLVKHRRDGKQYVIKKLNLRNASSRERRAAEQEAQLLS 58 :.::|.|.:|:|...|||.|||.||||::...| ..||:|.:.|: E2AK2_HUMAN 270 IELIGSGGFGQVFKAKHRIDGKTYVIKRVKYNN------EKAEREVKALA NEK4_MOUSE E2AK2_HUMAN NEK4_MOUSE E2AK2_HUMAN NEK4_MOUSE E2AK2_HUMAN NEK4_MOUSE E2AK2_HUMAN NEK4_MOUSE E2AK2_HUMAN NEK4_MOUSE E2AK2_HUMAN 59 QLKHPNIVTYKESWEGGD----------------------------GLLY :|.|.|||.|...|:|.| ..|: 314 KLDHVNIVHYNGCWDGFDYDPETSDDSLESSDYDPENSKNSSRSKTKCLF 81 IVMGFCEGGDLYRKLKEQKGQLLPESQVVEWFVQIAMALQYLHEKHILHR |.|.||:.|.|.:.:::::|:.|.:...:|.|.||...:.|:|.|.::|| 364 IQMEFCDKGTLEQWIEKRRGEKLDKVLALELFEQITKGVDYIHSKKLIHR 131 DLKTQNVFLTRTNIIKVGDLGIARVLENHGDMASTLIGTPYYMSPELFSN |||..|:||..|..:|:||.|:...|:|.|....:. ||..|||||..|: 414 DLKPSNIFLVDTKQVKIGDFGLVTSLKNDGKRTRSK-GTLRYMSPEQISS 181 KPYNYKSDVWALGCCVYEMATLKHAFNAKDMNSLVYRIIEGKLPPMPKVY :.|..:.|::|||.. :|.|.|..:.....|..:..:...: :..:: 463 QDYGKEVDLYALGLI---LAELLHVCDTAFETSKFFTDLRDGI--ISDIF 231 STELAELIRTMLSRRPEERPSVRSILRQPYIKHHISLFLEATKAKTSKNN ..:...|::.:||::||:||:...|||. |...|....||. 508 DKKEKTLLQKLLSKKPEDRPNTSEILRT----------LTVWKKSPEKNE 281 VKNC ...| 548 RHTC 284 551 313 80 363 130 413 180 462 230 507 280 547 Exercice 3: premiers pas avec BLASTp Blast de la séquence de P36914 (issue de UniProt) contre la banque nr: • première séquence trouvée dans nr: la séquence P36914 elle-même (100% identité) Attention! : cette séquence est présente 4 fois dans la banque nr ◦ XP_001827696 ◦ P36914 ◦ ABA62323 ◦ BAE66563 C'est à chaque fois la même séquence. Point commun entre les 2 séquences: domaine CBM20 (en regardant les fiches UniProt) Exercice 2: comparaison d'ADN ou de protéines ? Moyenne d'identité de séquence entre 2 séquences d'ADN aléatoires de longueur 200: 43% identité. 62.6% • score: 138 • longueur: 1027 Alignement local de P36914 et gi|89285001: • identité: 32.9% de gaps (moyenne sur 4 paires aléatoires) Entre 2 séquences protéiques aléatoires (longueur 200): 11.6% • score: 142 • longueur: 110 Même commentaire: similarité locale (dotplot). une identité de 50% entre 2 séquences d'ADN n'est pas très significatif d'une vraie homologie (cela pourrait être dû au hasard).7% • similarité: 49. et grande insertion dans la séquence souris.1| . 28. et BLAST les a regroupé dans la liste des résultats! • premier vrai homologue trouvé: ref|XP_002384946. et grande délétion dans la séquence humaine (ou petite délétion dans la séquence souris. mauvais alignement global.3% • gaps: 90.On repère les 2 premiers évènements d'insertion délétion sur l'alignement et le dotplot: petite insertion dans la séquence humaine.7% gaps Moralité: il est plus facile d'avoir un fort pourcentage d'identité/similarité entre 2 séquences d'ADN qu'entre 2 séquences protéiques aléatoires. alors que ce serait très significatif entre 2 protéines.5% • similarité: 5.1% • gaps: 13. bon alignement local.6% identité. on ne peut pas trancher entre ces 2 scénarios ici).4% similarité. 17. Alignement global de P36914 et gi|89285001: • identité: 3. • ◦ 99% identité.. en cliquant sur le lien Algorithm parameters: BLASTP de la même protéine contre SwissProt: Moins de résultats avec de hauts scores (moins de barres rouges): normal. et une courte partie plutôt en C terminal Extrait de la fiche Pfam de cette protéine de départ: La protéine P36914 contient 2 domaines protéiques: Glyco_hydro_15 et CBM_20..) Par contre: les E-value sont différentes: • 10-70 pour l'alignement contre SwissProt • 2x10-69 pour l'alignement contre nr Il y a un facteur 20 entre ces 2 Evalue. On peut modifier le nombre d'alignements sur la page d'accueil de BLAST. . BLAST trouve dans SwissProt des séquences qui possèdent soit l'un. Les alignements locaux concernent ces 2 domaines protéiques. qui reflète le fait que nr est 20 fois plus grand que SwissProt.. cela ne signifie pas qu'il n'y a pas d'autres homologues si on allonge la liste. même score brut et renormalisé. score normalisé: 1243 bits ◦ E-value: 0. soit les 2 ensemble (premières HSP représentées comme barres rouges). Alignement avec P07683: contre nr ou SwissProt.0 . Les HSP ont l'air d'être localisées dans 2 régions de notre protéine de départ : une longue partie plutôt en N terminal. soit l'autre domaine. 0% gaps ◦ score brut: 3217. 100% positifs (=similarité). dernier homologue de la liste: Attention! par défaut. les alignements sont identiques (même alignement. etc. BLAST ne vous donne que les 100 premiers HSP trouvées. SwissProt est 20 fois plus petite que nr (rappel: nr contient SwissProt).. il faut comparer la protéine à l'ARNm: c'est ce que permet BLASTX BLASTX traduit naïvement l'ARNm en protéine (dans les 6 cadres de lectures possibles). Même si le risque reste astronomiquement petit. le transcrit le plus long est SLC39A7-003 (flèche bleue). mais certains transcrits commencent après (flèche rouge par exemple) Le dotlet ne permet pas de répondre à la question de la présence ou non d'UTR: rien ne distingue les UTR des parties traduites dans la séquence d'ARNm. le domaine CBM20 est représenté dans certaines séquences mammifères. l'homologie est certaine (on est bien en dessous des 10-10)! Si on restreint nr aux seules séquences de mammifères: Les alignements locaux se font au niveau du domaine CBM20. Il est probable que . Par contre. Ce domaine est responsable d'un processus métabolique des glucides qui n'est pas présent chez les mammifères. mais pas qu niveau du premier domaine Glyco_hydro_15 Conclusion: il ne semble pas exister de séquences protéiques mammifères possédant le domaine GH15 (sinon ces séquences auraient donné de bons alignements qui seraient apparus dans le graphique). et compare le résultat à une banque de données protéique (ici nr) Le diagramme indique que les parties 5' et 3' de l'ARN messager. Exercice 4: utilisation de BLASTx ARNm en horizontal ADN génomique en vertical Chaque ligne blanche représente un exon (commun entre les 2 séquences). on voit aussi (cercle rouge) que la séquence d'ARN messager contient une partie que l'on trouve pas dans l'ADN génomique: c'est la queue poly-A (la ligne blanche ne va pas jusqu'au bord droit) Le navigateur de génome d'Ensembl montre les différents transcrits alternatifs du gène en question. Par contre. qui a un site d'initiation de la transcription décalé par rapport au site standard. Ces exons sont interrompus par des introns (que l'on trouve uniquement dans la séquence d'ADN génomique) Aux extrémités 5' et 3'. et que dans les 2 cas. notamment la protéine codée par le gène SLC39A7 humain (99% identité). Par contre. traduite dans les 6 cadres de lecture possibles. l'ADN génomique est plus long que l'ARN messager: l'ARN messager représente un transcrit particulier. mais uniquement chez les champignons. ne ressemblent à aucune protéine connue (pas d'alignement). Pour repérer les UTR. la partie centrale (entre les positions 345 et 1751 de l'ARNm) a une très forte similarité avec des protéines.Moralité: on a un risque de faux-positif (= conclure à l'homologie alors que les séquences ne sont pas homologues) 20 fois plus élevé contre nr que contre SwissProt. mais uniquement pour la partie N terminale. simplement parce qu'on est arrivé au début du fragment d'ADN position 4. la protéine homologue fait 361 AA. Le fragment semble donc contenir un gène sur le brin reverse complémentaire entre les positions 0 et ~ 600. Recherche de régions codantes: Blastx d'un fragment d'ADN inconnu contre nr: la traduction de ce fragment dans le cadre de lecture -1 ressemble à des protéines connues.l'ARNm corresponde à ce gène. alors que l'alignement s'arrête au bout de 192 AA. . Le gène est incomplet: en effet.