Ensamblaje

El primer paso del estudio de los fragmentos obtenidos a partir de la secuenciación del genoma del mosquito encontrado en ámbar, consiste en un proceso de ensamblaje. Mediante este proceso de ensamblaje de dichos fragmentos, realizado con la herramienta bioinformática Cap3, se concluyó que se disponía de cinco contigs. Además, con los datos obtenidos mediante la herramienta bioinformática Cap3, se pudo comprobar que en el contig que se ha denominado como 5, se encontraban una serie de fragmentos que no se ensamblaban como el resto de secuencias analizadas. Ante esta situación el equipo investigador decidió utilizar otra herramienta bioinformática para el ensamblaje de modo que los resultados obtenidos pudiesen compararse. Así pues, la herramienta bioinformática utilizada con tal fin fue DNA Baser.

Utilizando la última herramienta citada, y puesto que se debían tratar todos los contigs con el mismo criterio, se estudiaron el resto de contigs otra vez y de nuevo, volvía a presentar una cierta peculiaridad únicamente el contig 5. Por tanto, se tenía la certeza ante estos resultados de que algún factor no estaba siendo considerado por parte del equipo.

Analizando los resultados obtenidos y centrando la explicación en los datos, al utilizar CAP3 se obtuvo la siguiente información:

                                         

Figura 5.2- Resultado de la superposición de los fragmentos obtenidos a partir de la secuenciación

 

El ensamblaje de estos fragmentos tuvo como resultado una secuencia de nucleótidos de 7900 bases. Ahora bien, tal y como se ha indicado previamente, el resultado obtenido resultaba extraño al grupo investigador pues el fragmento 35, en reverse, se indicaba que formaba parte del fragmento 13, similar a lo que ocurría con los fragmentos 32, 33 y 34.

Ante esta situación, y como se ha esbozado previamente, los investigadores utilizaron otra herramienta bioinformática para el ensamblaje, DNA Baser. Con la utilización de esta herramienta los resultados obtenidos fueron los siguientes:

                   

Figura 5.3 - Resultado de esamblaje de los fragmentos con el DNA Baser. Se observan las secuencias en reverse provenientes de los fragmentos 34 y 35.

En esta imagen se puede observar el resultado del ensamblamiento realizado por el DNA Baser, que al igual que Cap 3 indica que dos fragmentos, 34 y 35 en este caso, son secuencias reverse de otros fragmentos obtenidos en la secuenciación. Esta herramienta, obtuvo como resultado un contig de 8400 bases. 

Como cabía esperar los resultados obtenidos por las diferentes herramientas bioinformáticas eran distintos y en ambos casos se indicaba que algún fragmento se trataba de la misma secuencia en reverse que otro fragmento. Estos resultados eran claramente posibles, pues se pueden obtener resultados de este tipo en secuenciación, pero el hecho de que en el resto de contigs no ocurriese y que la diferencia de bases, 7900 con Cap3 y 8400 con DNA baser, fuese tan grande hizo pensar al equipo que seguía habiendo un tipo de factor que no se estaba considerando. Ante las sospechas creadas al observar por separado los resultados de Cap3 y DNA Baser, el equipo decidió profundizar en la información que esta última herramienta indicaba sobre la secuencia. De este modo se pudo comprobar un hecho curioso y es que se encontraron dos bases en las supuestas secuencias reverse que no coincidían con las secuencias forward:

                                 

                                 

Figura 5.4 - Variaciones de un solo nucleotido encontradas en las secuencias de los fragmentos supuestamente reverse y forward

Este factor resultó curioso pues en ambos casos los supuestos fragmentos en reverse indicaban la misma base entre ellos pero distinta de la que los fragmentos en forward indicaban y que a su vez, era la misma entre ellos. Puesto que con esta información poco podían hacer los investigadores se consideró que se debería obtener una mayor información del contig y de las secuencias que contenía para posteriormente, realizar una mejora del resultado del ensamblaje, es decir, llevar a cabo un proceso interativo. Por lo tanto, para atajar este problema se continuó trabajando con el contig obtenido a partir del DNA Baser pues su resultado era mucho más claro que el obtenido en el Cap3. Las razones por las cuales se consideró el resultado obtenido por DNA Baser más claro y adecuado son las siguientes:

  • Cap3 reconocía los fragmentos 32 y 33 obtenidos en la secuenciación como secuencias reverse de los fragmentos 13, 14, 15 y 16, que se consideraban secuencias en forward. Aun así, dicho reconocimiento que se basaba en un alto porcentaje de identidad entre las secuencias en cuestión, no alcanzaba una identidad total. Situación que podría achacarse a fallos en la secuenciación o en la amplificación de secuencias, ahora bien, resultaba extraño el hecho ya indicado previamente en el que dicha falta de identidad se daba entre los reverse y los forward coincidiendo los reverse en una misma base y los forward en otra.
  • Tanto Cap 3 como DNA Baser reconocían los fragmentos 34 y 35 como secuencias reverse de los fragmentos 12, 13 y 14 ocurriendo la misma situación explicada para el caso anterior.

En conclusión, observando que el Cap3 presentaba mayores pegas que el DNA Baser, el equipo de investigación se decantó por el resultado obtenido por esta última herramienta bioinformática. Aun así, esta última tampoco infundía una fiabilidad máxima pero se esperaba que, con los posteriores estudios y análisis de la secuencia, como se ha indicado, se pudiese mejorar el resultado obtenido.

Así fue como, con el análisis para realizar las anotaciones estructurales del contig se descubrió la presencia del gen SRY, un gen que se sitúa en el cromosoma Y humano el cual se caracteriza por presentar largas porciones especulares o también llamadas palindrómicas. De hecho, justo las secuencias "en discordia", daban a entender en el contig obtenido mediante DNA Baser que existía además de un gen SRY completo, un pequeño fragmento del gen SRY en reverse. Así pues, todas estas evidencias llevaron al equipo de investigación a retomar el ensamblaje de los fragmentos realizando una revisión manual de los mismos y obteniendo como resultado la siguiente secuencia: 

 

Ensamblaje contig 5.pdf (124934)

 

Esta secuencia, revisada manualmente, contempla que si bien los fragmentos 34 y 35 parecen ser las secuencias reverse de otros fragmentos, no lo son en realidad pues presentan algunas bases diferentes que, en una situación común podrían suponerse errores de la secuenciación o de la amplificación de las secuencias pero al conocer que el contig se trata de un fragmento del cromosoma Y, que contiene las características ya indicadas en lo relativo a secuencias palindrómicas y el resultado obtenido con el gen SRY se consideró que no eran fragmentos en reverse si no una continuación en la secuencia del cromosoma pero que presentaba una de esas regiones palindrómicas.