Informe Final Bioinformatica Alineación de secuencias

Estudio de ADN, ARN y proteínas con Matlab yherramientas WEB de base de datos sobre dos especies de aves F. Nicolas Diaz S, Estudiante (20131273034), Sebastian Vargas V, Estudiante (20131273012). Universidad Distrital Francisco José de Caldas (Facultad Tecnológica); Ingeniería en Telecomunicaciones – Bioinformática Bogotá, Colombia; Diciembre de 2014 Abstract-In this paper the study of DNA and RNA sequences with MATLAB of the two species of birds, Accipitridae or common eagle and Sitta carolinensis or climbing pechiblanco done. Additionally the alignment of DNA sequences in FASTA format is done using the Needleman-Wunsch algorithm and web EMBOST tool. Query protein sequence of each species were also performed and compared to determine which subfamily and if they belong to the same family knew. Are obtained as a conclusion that the similarity of the DNA and RNA sequences, and the nucleotide codons; the dominant proteins of each species The similarity between subfamilies And finally concludes that the two species belong to the same superfamily 3.90.1100.10 3.90.1110.10 direct DNA and RNA Polymerase like domain lineal. Los ácidos nucleicos portan la información genética que determina la estructura primaria de las proteínas y los fenotipos especie-específicos. Cada nucleótido se compone de una base nitrógenada (purina o pirimidina), un azúcar (D-ribosa o 2-deoxi-Ribosa) y un ácido Fosfórico. (Figura 1). Key-DNA, RNA, nucleotides, codons, amino acids. Words Protein subfamilies, super family. Resumen—En este documento se hace el estudio de secuencias de ADN y ARN con MATLAB de las dos especies de aves, Accipitridae o aguila común y el Sitta carolinensis o trepador pechiblanco. Adicionalmente se hace la alineación de secuencias de ADN en formato FASTA utilizando los algoritmo Needleman-Wunsch y la herramienta web EMBOST. También se realiza la consulta de la secuencia de proteínas de cada una de las especies y se compara para determinar a qué subfamilia pertenecen y si son de la misma supe familia. Se obtienen como conclusión que la similitud de las secuencias de AND y ARN, los nucleótidos y codones; las proteinas dominante de cada especie La similitud entre subfamilias Y finalmente se concluye que las dos especies pertenecen a la misma super familia 3.90.1100.10 y 3.90.1110.10 con ADN directo de ARN con Polimerasa como dominio Palabras clave—ADN, ARN, nucleótidos, codones, aminoácidos. Proteínas, subfamilias, super familia. I. INTRODUCCIÓN Se trabaja con dos aves, la paloma y el águila; cuyos códigos genéticos ADN han sido descargados por del software Matlab por medio de la NCBI (National Center for Biotechnology Information), en forma de base de datos, esta información viene en forma de secuencia de caracteres A,T,C,G la cual es procesada en Matlab para determinar la densidad de nucleótidos, observar la composición del genoma mitocondrial, hacer la traducción a ARN, ver los codones y comparar los resultados entre las dos especies. II. MARCO TEÓRICO LOS ÁCIDOS NUCLEICOS Los ácidos nucleicos (ADN y ARN), son macromoléculas con un número predeterminado de varios monómeros diferentes en un arreglo ordenado en forma Figura 1. Base nitrogenada, un azúcar y un ácido fosfórico. Cada ácido nucleico contiene un sólo tipo de azúcar, no ambos. El ADN representa el material genético de las células y es constituido por nucleótidos conocidos como deoxiribótidos que contienen 2-deoxi-D-Ribosa. Los nucleótidos del ADN son Citosina (C), Timina (T), Guanina (G) y Adenina (A); y los del ARN son Citosina (C), Uracilo (U), Guanina (G) y Adenina (A). MARCO ABIERTO DE LECTURA Es una secuencia de información genética que contiene datos que pueden ser utilizados para codificar aminoácidos; Los marcos de lectura se encuentran en el ADN y ARN. En el caso de ADN, el ADN contiene conjuntos de nucleótidos conocida como tripletes o codones. Cada codón puede ser transcrito por el ARN en otro triplete. El marco de lectura es la sección de ADN o ARN que contiene instrucciones para hacer una proteína completa. En el ADN, hay seis marcos de lectura posibles, ya que el inicio de un marco de lectura depende de donde uno empieza a leer, y el ADN es de doble cadena. Con el ARN, existen tres posibles marcos de lectura. Una sección de lectura comienza con un codón de inicio (AUG) y uno de parada (UAA, UAG o UGA). si se empieza desde la 2da. esto significa que. si es necesario. +2. Para complementar se puede concluir que el Marco abierto de lectura es una porción de una molécula de ADN que cuando se traduce a los aminoácidos.Un marco abierto de lectura puede contener un gen completo. Para la secuencia complementaria. -1. y los del ARN son Citosina (C). Cuando más similares sean dos secuencias más similares tenderán a ser las funciones de las proteínas codificadas por ellas. entonces el marco de lectura es -1. un ejemplo de ello está representada. o no lo son. que podrían indicar relaciones funcionales o evolutivas entre los genes o proteínas consultados. entonces el marco de lectura es +1. Un marco abierto de lectura larga es probable que sea parte de un gen. A diferencia de la similitud. se insertan espacios para que las zonas con idéntica o similar estructura se alineen. ALINEACION DE SECUENCIAS. Las secuencias alineadas se escriben con las letras (representando aminoácidos o nucleótidos) en filas de Figura 1. Marco de Lectura. (Figura 1) Figura 2. Y si se comienza desde la 3era. y puede utilizarse para otras funciones. o estructuras primarias proteicas para resaltar sus zonas de similitud. que el ADN no parece cumplir una función en términos de la expresión génica. Comparar un gen y su producto. si se empieza a leer desde el 1er carácter. -2. Uracilo (U). derivan del mismo ancestro. Normalmente dos secuencias tienen una alta similitud porque son homólogas. Cuanto más tiempo pase desde el último antecesor común más diferente serán las secuencias. Los alineamientos sirven. entre otras cosas para:     Asegurarse de que dos secuencias son similares y cuantificar su similitud. La acumulación de mutaciones en el ADN a lo largo del tiempo es la causa de que las secuencias de un mismo gen en dos especies distintas no sean idénticas. entonces el marco de lectura es -3. Las secuencias de ADN y proteína marcan la función de las proteínas en los seres vivos. Los nucleótidos del ADN son Citosina (C). Encontrar dominios funcionales. A partir de la similitud de las secuencias inferimos la homología. el código genético contiene mucho de lo que se conoce como el ADN no codificante. entonces el marco de lectura es -2. Si una secuencia se empieza a leer desde el 1er carácter. entonces el marco de lectura es +2. ARN. El código genético lee secuencias de ADN en grupos de tres pares de bases. Y si se comienza desde la 3era. el código genético no siempre es tan ordenada como uno podría imaginar. entonces el marco de lectura es +3. dos secuencias o son homólogas. es decir comparten un ancestro común. No codificante del ADN puede contener información interesante acerca de la herencia genética de una especie. Existen 6 sentidos en los que se puede aparecer un marco de lectura: +1. Un alineamiento de secuencias en bioinformática es una forma de representar y comparar dos o más secuencias o cadenas de ADN. Buscar posiciones homólogas en las secuencias. una matriz en las que. no contiene codones de terminación. +3. es decir. hay 6 posibles sentidos en los que pueden abrirse marcos de lectura --tres en dirección hacia adelante y tres en reverso. -3. . Las secuencias de un mismo gen en un conjunto de especies serán más distintas cuando más alejadas filogenéticamente estén las especies comparadas. en una molécula de ADN de doble hebra. o los genes que se solapan.. De hecho. la homología no es un término cuantitativo. si se empieza desde la 2da. Timina (T). Guanina (G) y Adenina (A). Guanina (G) y Adenina (A). Figura 3.'chart'. Trepador pechiblanco.true) %Leer Secuencia ntdensity(Aguila) %La densidad de Nucleotidos dentro de la secuencia de ADN basecount(Aguila) %Informacion de los nucleotidos en la secuencia basecount(seqrcomplement(Aguila)) %inverso de la funcion anterior Figura 5. se puede . se traduce la secuencia ADN a ARN para lograr la secuencia de aminoácidos de la proteína correspondiente. se convierte de ADN a ARN. Imagen de un Águila. Pero al observar la densidad de AT y CG se observa una simetría similar en las dos aves. Codigo en MATLAB utilizado para obtención de densidad de nucleótidos de cada especie: %ADN AGUILA clc clear Aguila = getgenbank('NC_024087'. Se resalta que la densidad de los nucleótidos varía bastante entre las dos especies. se muestra la distribución de las bases y los aminoacidos presentes. figure dimercount(Aguila. Figura 4. ver el número de nucleótidos en la secuencia. se genera la gráfica de densidad de nucleotidos. Se inicia el proceso con el Aguila utilizando Matlab para bajar y acceder a la base de datos del ADN. ESTUDIO DE SECUENCIA DE AND Y ARN Se carga la base de datos de las especies en la página de la NCBI. Figura 3.'SequenceOnly'.'bar')%Nucleotidos Adyacentes %Se convierte de ADN-ARN ARN_Aguila = dna2rna(Aguila) %Convierte el valor de ADN-ARN amino = nt2aa(Aguila) %Toma la secuencia y lo convierte a aminoacidos aminoacidos = aacount(amino) %Cuenta la cantidad de aminoacidos de la secuencia figure basecount(Aguila.III. Densidad de nucleótidos del águila. Densidad de nucleótidos del trepador pechiblanco.'pie') %Distribucion de las Bases codoncount(Aguila) Las secuencias de ADN obtenida a través de Matlab son demasiado extensas y se muestra en el Anexo 1 para el águila y en el Anexo 2 para el trepador pechiblanco. se hallan las gráficas de densidad de nucleótidos a lo largo de la secuencia.'chart'. H: 342. esto significa que.deducir que tienen de codificaciones de ADN similares. estos se deben interpretar con la tabla 1. H: 262. R: 282. E: 117. T: 510. Se obtiene la secuencia de ADN en formato FASTA. Q: 239. D: 107. N: 330. Figura 8. G: 169. ver figura 6. Y: 238. C: 78. AMINOACIDOS Se hace la traducción de ADN a ARN y se obtienen los aminoácidos. Se abre el “ORF Finder” o busca marcos abiertos de lectura (ORF) en la secuencia de ADN que se introduzca. Q: 275. Secuencia de AND en formato FASTA. Figura 7. G: 141. F: 125. T: 460. El código genético lee secuencias de ADN en grupos de tres pares de bases. V: 173 IV. Resultado encontrado del formato FASTA insertado para el águila. junto con la traducción de la proteína correspondiente. L: 611. S: 581. W: 30. P: 591. Cada espécimen se pega en el cuadro “or sequence in FASTA format” y se da click en “OrfFind”. en una molécula de ADN de doble hebra. C: 91. del águila y del trepador pechiblanco. El programa devuelve el rango de cada ORF. F: 189. Figura 6. hay 6 posibles sentidos en los que pueden abrirse marcos de lectura: tres en dirección hacia adelante y tres en reverso. P: 701. . W: 42. K: 244. Para el águila: AGUILA A: 208. D: 117. A demás hace el conteo de esos aminoácidos. En este caso se utiliza la secuencia de ADN en formato FASTA obtenida en la base de datos de NCBI. R: 293. I: 312. M: 68. I: 282. MARCO ABIERTO DE LECTURA Marco abierto de lectura es una porción de una molécula de ADN que cuando se traduce a los aminoácidos. L: 601. Primer se consulta en la página de la secuencia de ADN del Accipitridae (Aguila) y del Sitta carolinensis (trepador pechiblanco). K: 244. seleccionando la base de datos “Gene”. V: 114 TREPADOR PECHIBLANCO A: 267. y entonces pueden pertenecer a la misma familia. Para obtener el Marco Abierto de Lectura o ORF de las dos especies de estudio. BLAST para el trepador pechiblanco. N: 250. E: 122. M: 57. Un marco abierto de lectura larga es probable que sea parte de un gen. Y: 224. S: 676. no contiene codones de terminación. Primero se obtienen las secuencias de proteínas de cada una de las especies en formato FASTA.Recuperación de la solución (Backtracking): Consiste en tomar la última coincidencia del alineamiento y comenzar a buscar el camino que maximice la función. (La secuencia A se ubica en las filas y la secuencia B en las columnas). en donde se debe colocar la descripción de proteínas obtenida en la NCBI de la especie deseada. con una puntuación de 41612 con lo cual también se confirma la familiaridad entre las dos especies. Figura 9. Utilizando la herramienta EMBOST: Se va a obtener un alineamiento entre dos secuencias entonces se guarda cada una de sus secuencias de ADN en formato txt.8%. 1.  Se construye una matriz H de i+1 filas y j+1 columnas.3 y NC_024870.B) entre los elementos A y B de las secuencias a alinear. Luego se hace el alineamiento de secuencias de nucleótidos en la plataforma BLAST que tiene la NCBI VI. el vecino en la diagonal y el vecino de arriba. j-1) 3.V. El valor de Hij depende únicamente del los valores H(i-1.  Los in/dels (inserciones o deleciones) se penalizan con un peso W.j-1) . para que sean adjuntadas y se procede a hacer el análisis. y se selecciona el vecino que presente el valor más alto. Es de notar que en el caso que se presente un empate en posible obtener diferentes alineamientos para las mismas secuencias.j+1 de la matriz. El algoritmo recorre los vecinos de la celda actual para identificar sus predecesores.Inicialización: Se inicializa con ceros la primera fila y la primera columna del ma matriz H. H(i-1.Llenado de Matriz (scoring): La posición Hij es la máxima similitud de dos segmentos que terminan en A y B respectivamente. Ingresando secuencias para el alineamiento BLAST. Se obtiene un porcentaje de similitud del 78. como se muestra en la siguiente figura 11. j) y H(i. donde se introduce la secuencia de proteína en formato FASTA y arroja como resultado las regiones. Utilizando la herramienta NCBI: Se hace el estudio con el Accipitridae (Aguila) y el Sitta carolinensis (trepador pechiblanco) obteniendo su información genética desde la página de la NCBI. el cual se coloca como anexo al final del documento. es en ésta posición donde se presenta el máximo puntaje del alineamiento. ALINEACION DE SECUENCIAS. Dadas dos secuencias A y B (Águila y pechiblanco. Figura 10. El retroceso comienza en la posición i+1. lo cual indica que son especies muy cercanas. . en este caso: MT. es decir observa el vecino a la izquierda. donde se obtiene su referencia para secuencia cromosoma. Resultados de comparación BLAST Se observa que la similitud entre las dos especies es del 88% con una puntuación de 10835. COMPARACION DE FAMILIAS PROTEINAS A NIVEL DE Se utiliza el buscador de proteínas. en donde se clasifican las estructuras de proteínas descargadas del banco de datos. en este caso “NADH dehydrogenase” Luego se utiliza la herramienta WEB Gene3D. Finalmente se obtiene un archivo o texto de salida. 2. NC_003128. superfamilias y función de familia.1 respectivamente. respectivamente) Se define:  Una función de similitud (coincidencias) S(A. Una vez obtenidas las secuencias en formato FASTA se introducen en el CATCH o clasificador de familias. ver anexo 1. 1110. http://www.10 con ADN directo de ARN con Polimerasa como dominio. 21. Release 14 Service Pack 3.10 605-668 2. 1070-1084 2.gov/ [7] Gene3D v12. 457604. [3] MATLAB 7.90.8E-20 3. The MathWorks Inc.150 DNA-directed RNA polymerase -like domain DNA-directed RNA polymerase -like domain DNA-directed RNA polymerase subunit beta like domain DNA-directed RNA polymerase -like domain ½ DNA-directed RNA polymerase -like domain DNA-directed RNA polymerase -like domain Evaluación 2.D.ncbi. 20894 USA http://www. Lewis.unal.30.9E-23 1. Universidad Nacional de Colombia Sede Bogota.4E-78 2.biochem.1. V.. D.150. Sillitoe.com/STUFF/UDISTRITAL/Bio informatica/Actividades/Resumenes%20Clases/Openread ingframes.ucl. y es suficiente para hacer la comparación dado que el algpritmo BLAST simplemente compara con la base de datos.Universidad Distrital Francisco José de Caldas .1.2E-42 Tabla de resultados CATCH. 8600 Rockville Pike.1.gov/GlossaryS/index.90. National Human Genome Research Institute.1110.10 y 3. Se puede hacer el estudio de ADN y ARN para determinar los aminoácidos que caracterizan a un ser vivo.50. las similitudes van REFERENCIAS [1] ROBERTO P. Bioinformatics Toolbox 2. J. The MathWorks Inc. Se llegó a la conclusión que los dos métodos para calcular alineamientos entre secuencias genéticas entre especies es bastante acertado en generar un porcentaje de similitud alto ya que como se ha visto en informes anteriores.cathdb.html [2] Matlab aplicado a la bioinformática Toolbox de bioinformática: entorno de software integrado para el genoma y análisis proteómico .10 2.10 con ADN directo de ARN con Polimerasa como dominio CONCLUSIONES    desde la cadena general de ADN y ARN hasta las secuencias de aminoácidos y algunas proteínas.1100.90. Se observó que ambas especies pertencen a la superfamilia 3. pero no es tan preciso ya que la diferencia entre los dos métodos. http://www. al igual que los aminoácidos presentes en cada uno. Bioinformatics Toolbox For Use with MATLAB.com/ Bioinformática . 1085-1266 839-950. Nov.50. cuya base de datos de ADN sea analizada se observara que el número de nucleótidos es muy similar.1E-124 1. Lees. Protein Structure Classification Database by I.1110. Lee.270. http://www. User Guide.10 3. BLAST y EMBOSS fue de aproximadamente un 10%.info/ .Copyright © 2011 “Open Reading Frames (ORF)” Consulta Octubre de 2014.virtual.90.Jairo Pertuz Camp.uk/ [8] CATCH / Gene3D.genome. Orengo is licensed under a Creative Commons Attribution 4. genome.2E-57 5. [4] Marcoregalia.nih.0 International License. 2014. Query de secuencias.40. 2014.90.10 y 3. 359-456 Secuencia: QUERY Superfamilia Funcional 3. Se concluye que ambas especies pertencen a la superfamilia 3.html [5] Christopher P.90.100 803-833. y posteriormente será útil para para determinar las proteínas que constituyen a dicho ser vivo.40.edu. Se puede hacer el estudio de ADN y ARN únicamente consultando el número de secuencia de cromosomas el cual se cuentra disponible en el banco de información de la NCBI para todas las especies disponibles hasta ahora. 2005. http://gene3d. Austin.1100.cfm?id= 146 [6] National Center for Biotechnology Information NCBI. The MathWorks Inc. Bethesda MD. T.gov Conuslta Octubre de 2014 http://www.nlm.co/cursos/ingenieria/2001832 /docs_curso/contenido.marcoregalia. familias y superfamilias. Mientras que con EMBOSS es necesario obtener la secuencia completa y cargarla. Figura 11. Para seres vivos de la misma especie.0 2014.1100. DIAZ Curso virtual “Biologia Computacional”.ac. C. 672725 162-240.40.  Los resultados son los mismos para las dos secuencias por lo cual se concluye que pertenecen a las mismas regiones. M.1.10 727-802 2. la cuales son: Región 21-161. por lo cual es más engorroso.

Informe Final Bioinformatica Alineación de secuencias

Comments

Description