Conclusiones

Calidad de la secuenciación

Cuando se comienza la secuenciación el primer paso son los sequence reads. Estas son lecturas masivas, es importante que tengamos muchas lecturas por cada una de las bases para asegurarnos de que son lo que son, ya que posteriormente las mismas son ensambladas dando lugar a los contigs.

En nuestro caso obtuvimos la secuencia de DNA con una 2x es decir que el máximo número de veces que se ha leído cada base es 2, esto quiere decir que un posterior ensamblaje de esta secuencia tiene una fiabilidad poco sólida ya que como es lógico a menor número de lecturas realizadas por base, menor fiabilidad.

Todo esto nos puede llevar a plantear la hipótesis de que aquellos SNPs (Single Nucleotide Polimorfisms) localizados en algunos de los contig  que no han sido de igual manera localizados en las distintas bases de datos pueda deberse a un simple error dada la baja precisión con la que los mismos pueden ser determinados.

La solución a este problema sería realizar una secuenciación 5x, esto es, haber realizado cinco lecturas por cada base, aumentando la fiabilidad de los resultados obtenidos y reduciendo considerablemente la tasa de error.

 

Porcentaje de GC

Cabe destacar también la variación que se puede observar en la tabla 1 en el porcentaje de bases guanina y citosina de cada contig respecto al mismo en los exones correspondientes de los distintos genes localizados en cada uno de ellos.

CONTIG %GC EXONES %GC
1 49,86 AGAP007028-RA 60,12
2 39,73 HBB 55,78

3
43.01 DDX53 41,19
DUSP21 51,66
4 52,12 GPR-146 64,51
5 39,98 SRY 50,24

Tabla 1. Contenido de GC de cada contig y de cada exón.

Como se puede ver se da claramente un aumento en el porcentaje de bases guanina y citosina en los exones pertenecientes a los distintos genes que se han localizado en el estudio, lo cual está relacionado con las conocidas como Islas CpG que son regiones de DNA y conforman aproximandamente un 40% de promotores de los genes de mamíferos. Son regiones donde existe una gran concentración de pares de citosina y guanina enlazados por fosfatos. La "p" en CpG representa que están enlazados por un fosfato. Al contrario de sitios de CpG ubicados en la región codificante de un gen, en la mayoría de los casos, la citosina en las islas CpG están desmetilados si los genes están expresándose. Esta observación conlleva a la especulación de que la metilación de los sitios CpG en los promotores de los genes puede inhibir la expresión de un gen.

La definición formal de una isla CpG es una región de tamaño igual o superior a 500 pb y con un porcentaje de GC mayor de 50 y con un promedio de CpG observado/esperado mayor de 0,6.

Gracias a estas regiones podemos identificar dos tipos de genes: genes constitutivos o "housekeeping" (70% de los genes del genoma), cuyo promotor tiene un promedio de CpG en torno al 0,61; y genes que se expresan en tejidos específicos (30% de los genes) que tienen un promedio de CpG en torno al 0,23.

 

Transposones

Con toda la información obtenida en los distintos contigs se puede llegar a la conclusión de que los transposones representan un porcentaje significativo de todos los contigs y por ende, en extensión, ocurre lo mismo en el genoma.

 

  Número de Núcleotidos Porcentaje total
Contig 1 456 9,68%
Contig 2 ---- ----
Contig 3 2923 18,70%
Contig 4 ---- ----
Contig 5 1055 12,14%

Tabla 2. Porcentaje que suponen los transposones del total de la secuencia de nucleótidos de cada contig.

 

Tal y como se ha indicado previamente y se observa en los resultados agrupados en la tabla 2, los transposones representan un porcentaje alto de los distintos contigs en los que, en base a los criterios explicados en el procedimiento, se ha considerado su presencia. En esta tabla se puede observar que el contig 1, que se trata del contig que contiene genes del mosquito (Anopheles gambiae), presenta un porcentaje de nucleótidos que forman parte de transposones inferior al del contig 3 y 5, que contienen secuencias de humano. Este hecho podría dar lugar a pensar que la cantidad de transposones en el genoma de Anopheles gambiae es  inferior al presente en Homo sapiens. Aun así, no se dispone de información suficiente para poder afirmar tal cosa y estudios más profundos serían necesarios.

Por otro lado, si bien puede parecer que el porcentaje de transposones correspondiente a los contigs 3 y 5 es alto no lo es puesto que se conoce que en humanos este podría llegar a ser una gran parte de esa polémico y cuestionable “DNA basura”. Además si se compara dicho resultado con el de otros organismos como el maíz resulta insignificante puesto que en estos puede llegar a un porcentaje del  90%. Por tanto se puede concluir que, aun sin estar del todo seguros ya que no existe un criterio claro para definir qué es y qué no es un transposón en una secuencia, puede que se esté infravalorando la cantidad de transposones presentes en los contigs. Aun así, cabe destacar que en los contigs 3 y 5 se han encontrado secuencias Alu, como era de esperar, ya que estas se sabe que representan aproximadamente el 16% del genoma humano.

Siendo más específicos sobre el transposón encontrado en el contig 1 se debe resaltar lo siguiente. El principal vector en la transmisión de la enfermedad de la malaria en humanos en África es el mosquito Anopheles gambiae. Dado que se ha encontrado un transposón perteneciente a esta enfermedad en el contig, se asume que esta secuencia de DNA se ha movido desde el protozoo (Plasmodium) causante de la enfermedad a nuestra secuencia.  Además se sabe que el mosquito posee genes efectores para la transmisión de esta enfermedad. Si nos centrásemos en la investigación de este gen y de la proteína sintetizada por el mismo, podríamos desarrollar nuevas técnicas  para impedir la transmisión del paludismo.

 

Estructura de los genes

Como ya se sabe los genes se pueden definir, de forma general, como las unidades de información dentro del genoma que contienen todos los elementos necesarios para su expresión regulada. Ahora bien, no todos los genes presentan las mismas estructuras, situación que se ha visto de forma muy clara en este trabajo al observar sus secuencias:

-Los genes DDX53, SRY y DUSP21 están formados por un único exón, carecen de intrones y están flanqueados en el extremo 5’ y 3’ por las regiones UTR. Podría parecer, al tener tres genes con esta estructura similar, que esta es la estructura más común en el genoma pero se debe indicar que no es cierto pues la mayoría de los genes del genoma humano no contienen un único exón. Cabe destacar que ni Vervet-AGM ni la vaca presentan regiones UTR flanqueando el exón de estos genes, son los genes humanos los únicos que las presentan, por lo que se podría establecer que tenemos un mayor control sobre la expresión génica que las dos especies indicadas. Además, esto sugiere que el genoma humano ha evolucionado para incrementar el uso de mecanismos de control post-transcripcional en la expresión de genes.

Ahora bien, otra de las opciones posibles es que el conocimiento que se tiene sobre estos genes en Vervet-AGM y en vaca no sea el suficiente para determinar sus regiones UTR.

 

-El gen HBB está formado por tres exones y dos intrones. Además, al comienzo del primer exón presenta una región UTR, la región 5’, mientras que al final del tercer exón presenta la región UTR 3’. Esta estructura, típicamente, podría pensarse como la más común en el genoma, aquella en la que la información de los genes se encuentra en los distintos exones, con intrones entre ellos y las UTR flanqueando todo el gen en los extremos 5’ y 3’.

 

-El gen GPR146 presenta en las bases de datos una estructura interesante pues se encuentran varios tipos de transcritos debido a los distintos tipos de splicing alternativo. Ahora bien, si se hace referencia a la secuencia más larga que se encuentra en la base de datos (1969bp), se puede observar que presenta dos exones, un intrón, y las secuencias UTR en ambos extremos. Entre estas secuencias, la 5’ UTR resulta destacable debido a que ocupa el primer exón por completo y una pequeña parte del segundo. Aun así, como se ha indicado, existen distintos tipos de splicing alternativo para este gen y se sabe que en otros transcritos la secuencia es completamente idéntica variando únicamente la existencia o no del primer exón, es decir, de una gran parte de la 5’ UTR. Por tanto, se puede indicar que en base al conocimiento que se tiene sobre la función de las UTR, que están relacionadas con la expresión genética, los distintos transcritos de este gen presentarán distintos niveles de expresión o verán su expresión afectada a nivel temporal y/o espacial.

 

Finalmente, se puede concluir que las estructuras de los genes son muy variables, tal y como se ha ido explicando. Además, la estructura que estos presenten, teniendo en cuenta el posterior splicing alternativo que se da en eucariotas, queda un tanto relegada a un segundo plano debido a que en este proceso se “corta y pega” la información del gen en base a la expresión que “pretenda” hacer la célula.

 

Explicar especies elegidas para ortólogos

Las especies elegidas para comprar los genes ortólogos han sido Chlorocebus sabaeus (vervet-AGM) y Bos taurus (vaca). De esta manera se han podido estudiar las semejanzas y diferencias que presentan los genes por pertenecer a un antepasado común. El vervet se ha elegido por esperarse un alto grado de identidad tanto a nivel de DNA genómico como a nivel de proteína, mientras que la vaca se ha elegido por lo contrario. Así, al comparar las secuencias de DNA y proteína de humano con la de vaca se podrán definir las regiones más y menos conservadas a lo largo de la evolución.

 

Grado de conservación de las secuencias

Los resultados finales se muestran en las figura 1 y figura 2. Debido a que en los contigs no está presente la totalidad de las secuencias de los genes, se han alineado las secuencias de las bases de referencia de los genes con los ortólogos y luego las presentes en cada contig, para así tener un conocimiento mayor de las variaciones.

En lo referente al DNA genómico, se claramente la diferencia en el grado de conservación entre vervet y la vaca. El humano tiene una mayor identidad en estos genes con el vervet que con la vaca, como era de esperar por un antepasado común. La secuencia de DNA con mayor conservación es la del HBB, por la importancia en su función la secuencia de este gen se ha conservado más en la evolución en comparación que la de los otros genes.

En la figura 1, también se aprecian que el grado de identidad en las secuencias presentes en el contig es menor con respecto a las de las bases de datos. De modo que es preciso realizar un alineamiento con las secuencias de proteínas.  Dado que el código genético esta degenerado, existen 64 tripletes distintos y 20 aminoácidos diferentes, de manera que un aminoácido puede venir codificado por más de un codón. Hay que ver si estas sustituciones de bases se traducen en variaciones de aminoácidos, y ver si estas variaciones alejan o acercan a la proteína de sus ortólogos.

Figura 1. Comparación de el grado de conservación de la secuencia de DNA genómico de los genes contenidos en los contig, y de las secuencias presentes en las bases de datos.

Los resultados de los alineamientos de las proteínas se muestran en la figura 2. Nuevamente la proteína mas conservada es la HBB. El grado de conservación en el resto de las proteínas es similar. De modo que cuanto más importante es la función de la proteína, más se conservará esta a lo largo de la evolución. Sin embargo, la identidad de la proteína HBB que dará lugar el contig 2 es muy baja tanto en el vervet como en la vaca. Esto se debe a que en el contig solamente está presente un fragmento del gen que codifica para esta proteína, es decir, no está en su totalidad. Esto puede deberse a la dificultad de estudio de genes con más de un exón y sus respectivos intrones.

Debido a que el código genético esta degenerado independientemente de la presencia de SNP, en el caso de la vaca la identidad aumenta a pesar de su presencia.

Figura 2. Comparación del grado de conservación proteínas que se obtendrían a partir de los genes contenidos en los contig, y de las proteínas presentes en las bases de datos.

 

Estudio de los SNP

Con la realización de los alineamientos con los ortólogos también podemos deducir si las proteínas que se codificarían en nuestros contigs son funcionales, para ello se verán las diferencias que se producen en las zonas más conservadas.

En cuanto al gen DDX53, éste presenta dos inserciones y varios SNP en la región 3'UTR, tal y como se ha estudiado en su apartado correspondiente. Las regiones 3' UTR pueden influir poliadenilación, la eficiencia de traducción, localización, y la estabilidad del mRNA y sobre todo gobiernan la expresión de los genes. Además, estas mutaciones pueden dar lugar a un fenotipo tumoral en las células. Serian necesarios posteriores estudios para conocer con exactitud sobre cuál de todos afectaría exactamente.

En lo referente al estudio del contig 4, en la secuencia de bases se sufren una serie de sustituciones que provocan SNP. En la realización del alineamiento con los ortólogos se estudia mejor estas variaciones y se ve que con la ganancia de un codón STOP, se pierde más de la mitad de la estructura de la proteína, correspondiendo esta a zonas conservadas y como se vio en la base de datos uniprot la parte que no se codificaría provocaría la pérdida de 6 dominios. Asimismo alineando la proteína con variaciones con otro transcripto de la proteína el cual tiene 39 aminoácidos, no se produce la cobertura de toda la secuencia. Pudiendo suponer de este modo que la proteína que se codificaría no tendría funcionalidad.

Además nuestra proteína sufre otras 5 mutaciones que provocan sustituciones de aminoácidos en los dominios de la proteína, entendiendo así que la proteína no sería funcional. Por estas variaciones producidas en nuestra proteína podríamos entender que en el contig tenemos un pseudogen, el cual es reciente ya que no presenta numerosos SNP, pero si los suficientes como para no codificar una proteína funcional.