Procedimiento

Con objeto de analizar los fragmentos de DNA secuenciados el equipo de investigación ha seguido el siguiente protocolo. A continuación, se explica el procedimiento paso a paso, así como las herramientas bioinformáticas que han hecho posible el estudio.

Para ver una presentación resumen sobre este procedimiento, puede pichar sobre la siguiente imagen.

 

Ensamblaje

 

CAP3: Un programa de ensamblaje de secuencias de DNA

CAP3 es la tercera generación del programa de ensamblaje de secuencias CAP. Es un programa de acceso gratuito para uso académico y se puede usar en el programa GAP4 de Staden Package. Incluso se puede encontrar online desde la página web de PRABI-Doua (Pôle Rhône-Alpes de Bioinformatique Site Doua).

Este programa permite la utilización de inputs en formato FASTA y dos formatos opcionales: un documento con los valores de calidad en FASTA y un documento de los forward-reverse. Presenta una limitación a la hora de valorar estos documentos y es que solo se pueden estudiar, utilizando este programa, 50kb. Aun así, sigue siendo un programa de gran utilidad pues se reconoce que la dificultad de la secuenciación masiva se basa en el ensamblaje y por tanto suele ser útil o interesante la utilización de distintos programas de ensamblaje.

 

Método de ensamblaje

El algoritmo de ensamblaje consiste en tres grandes fases. En la primera fase:

-          Las regiones pobres de los extremos 5’ y 3’ son reconocidos y eliminados.

-          Las superposiciones son calculadas.

-          Las falsas superposiciones son identificadas y eliminadas.

En una segunda fase:

-          Las secuencias leídas son unidas para formar contigs.

-          Los forward-reverse constraints son utilizados para realizar correcciones a los contigs.

En la tercera fase:

-          Se construye un alineamiento de múltiples secuencias

-          Se genera un secuencia consenso para cada contig

A continuación se explicarán con mayor profundidad los apartados más relevantes de las distintas fases.

                                                                                                             

Figura 1: Se muestra el diagrama de flujo llevado a cabo por la herramienta CAP3

 

Explicación de cada apartado

Reconocimiento y eliminación de las regiones de baja calidad

Las regiones de baja calidad de los extremos de las secuencias se localizan y eliminan del siguiente modo. Es necesario conocer previamente que la estrategia se basa en la siguiente definición: Toda región lo suficientemente larga y con valores de alta calidad que es altamente similar a una región de otra secuencia leída se define como correcta. El clipping o recorte que se realiza en el extremo 3’ es el extremo 3’ máximo  de las regiones consideradas correctas. El clipping que se realiza en el extremo 5’ es el extremo 5’ mínimo de las regiones consideradas correctas. La siguiente figura lo ilustra:

 

                   Figura 1- Un par de líneas discontinuas demuestran el inicio y el final de las posiciones de similitud. Una línea gruesa indica las regiones de alta calidad de las secuencias.

Figura 2- Un par de líneas discontinuas demuestran el inicio y el final de las posiciones de similitud. Una línea gruesa indica las regiones de alta calidad de las secuencias.

 

El algoritmo de alineamiento local de Smith and Waterman (1981) es generalizado para el uso de valores de calidad de las bases. El valor de calidad de una base se define como q y se calcula del siguiente modo q= - 10 x log10 (p) donde p es la probabilidad de error estimada para la base. De este modo, las puntaciones (scores) por coincidencia (match scores), por no-coincidencia (mismatch) y por los gap son ponderadas mediante el valor de calidad de las bases involucradas. La intención de utilizar valores de calidad de las bases consiste en que las coincidencias entre las bases de alta calidad aporten unos scores altamente positivos,  diferencias entre las bases de alta calidad aporten scores altamente negativos pero las coincidencias y las diferencias entre bases de baja calidad aporten scores positivos o negativos pequeños respectivamente. Por ejemplo, se supone un número entero positivo m como el factor de puntuación de coincidencia, el numero entero positivo n como el factor de puntuación de no-coincidencia y el número entero positivo g como el factor para los gap. De este modo una coincidencia en las bases de alta calidad q1 y q2 resulta en un score de m*min(q1,q2). Una no-coincidencia en dichas bases resulta en n*min(q1,q2).  Finalmente, la presencia de la base de calidad q1 en un gap resulta en una puntuación de -g*min(q1,q2).

Así pues, la puntuación de similitud de un alineamiento es la suma de los scores o puntuaciones de cada match, mismatch y gap obtenido.

 

Cálculo y evaluación de las superposiciones

Una superposición entre dos secuencias leídas se define como un alineamiento global de las dos secuencias con un máximo de puntuación de similitud. Para cada par de secuencias leídas con un potencial de superposición se crea una banda de diagonales, centrada en la posición de comienzo del alineamiento. Las puntuaciones de los match y las diferencias son tenidas en cuenta mediante los valores de calidad. El alineamiento global es la superposición entre las dos secuencias. La longitud, la puntuación de similitud y el porcentaje de identidad de la superposición se calculan para considerarse como las del alineamiento.

 

                                       

Figura 3: Cálculo del alineamiento global de las secuencias f y g con la máxima puntuación representada sobre una banda. El rectángulo representa la matriz dinámica de programación. Las filas corresponden a las bases de la secuencia leída f y las columnas a las bases de la secuencia leída g. La banda se indica mediante un área sombreada y el comienzo del alineamiento entre las secuencias f y g por un punto.

 

Cada superposición se evalúa mediante cinco medidas. Si la superposición no consigue pasar alguna de esas medidas no se tendrá en cuenta en la construcción del contig:

Las primeras tres medidas determinan si la superposición satisface el mínimo requerimiento en longitud, porcentaje de identidad y puntuación de similitud.

La cuarta medida examina las diferencias de la superposición en bases de alta calidad. Si la superposición contiene un número considerable de diferencias en las base de alta calidad se puede suponer que la superposición es falsa. Si se explica esta afirmación matemáticamente: se supone un número entero b como un valor de corte de alta calidad y un número entero d como una puntuación de corte para diferencias de calidad.  De este modo, para una diferencia en la superposición en las bases cuyo valor de calidad es q1 y q2 respectivamente, la puntuación es  max[0,min(q1,q2)–b]. Así pues, la puntuación de diferencia para la superposición es la suma de las puntuaciones en cada diferencia. Si esta puntuación supera el valor d, entonces la superposición es eliminada. (Los valores de los parámetros b y d se pueden fijar por parte del usuario.)

La quinta medida, que se complementa con la cuarta, se basa en examinar la tasa de diferencia de la superposición con respecto a errores que se puedan dar en la secuenciación de las dos regiones involucradas en la superposición. La tasa de error en cualquier región de las secuencias leídas es estimada usando el método del vector error (Huang 1996a). Así pues, para una superposición la tasa de diferencia de la misma está cerca de la suma de las tasas de error de las dos regiones involucradas en la superposición. Matemáticamente se explicaría así: Sea e el mayor espacio entre las tasas de diferencia. Sea r1 el error estimado para una región de la superposición y r2 para la otra región. Si la tasa de diferencia de la superposición es mayor que la suma de r1 + r2 + e, entonces la superposición es eliminada. (El valor de e se puede fijar por parte del usuario.)

 

Uso de los constraints en la construcción de los contigs

El procedimiento para el uso de los constraints en la construcción de los contigs consiste en cuatro grandes pasos:

-          En el primer paso, se ordenan las secuencias leídas mediante un método que las sitúa en orden decreciente de puntuación de superposición.

-          En el segundo paso, se comprueba la calidad de dicha ordenación utilizando los constraints.

-          En el tercer paso, una región de la actual ordenación con el mayor número de constraints insatisfechos es corregida para satisfacer dichos constraints.              Es decir, los constraints sirven como método para corregir los contigs.

-          En el cuarto paso, los contigs se juntan con los constraints para finalmente, informar al usuario de la lista de los contigs formados.

 

Construcción de los alineamientos y las secuencias consenso

La construcción se lleva a cabo mediante el alineamiento repetido de la secuencia leída siguiente con el actual alineamiento. Las secuencias se consideran en orden creciente de posición en el contig. Para producir un alineamiento preciso, los valores de calidad de las bases de las secuencias leídas son utilizados en la construcción. Después de que el alineamiento es realizado, se lleva a cabo la formación de una secuencia consenso en base a los valores de calidad de las bases. Para cada columna del alineamiento, se tiene en cuenta la suma de los valores de calidad de cada base tipo (es decir, de cada base que se haya alineado) y la base tipo con el mayor número de valor de calidad es considerada como la base consenso. De este modo, el valor de calidad para la base consenso es la suma de los valores de calidad para la base tipo consenso menos la suma de los valores de calidad del resto de bases tipo. Aun así, si la columna contiene dos bases tipos, cada una con un valor de calidad alto, se le asigna un valor de baja calidad a la base consenso al no tener certeza de cuál es la base consenso. Esta asignación indica un problema potencial causado generalmente por polimorfismos.

 

DNA Baser

DNA Baser Assembler es una herramienta bioinformática para el ensamblaje de secuencias de DNA de forma manual y automática, el análisis de secuencias de DNA, procesamiento automático de muestras, edición de contigs, integración de metadata, conversión del formato de documentos y la detección de mutaciones.

 

Automatización

El algoritmo que utiliza el programa está optimizado para lograr una mayor precisión, no una mayor velocidad. Esto es necesario para permitir al programa automatizar el proceso de ensamblaje. En este proceso el propio programa elimina automáticamente los extremos de baja calidad, ensambla las muestras dadas, genera contig/consensus y posteriormente corrige las ambigüedades. La información para la realización de dicha corrección se obtiene a partir del valor de calidad asignado a cada base en los documentos dados al programa. Al final, los vectores definidos por el usuario son automáticamente eliminados del contig y la metadata es añadida al documento. Además, el contig se guarda automáticamente en el disco duro como FASTA.

Todas estas razones permiten al DNA Baser llevar el ensamblaje de secuencia a un siguiente nivel gracias en su mayor parte al módulo de ensamblaje en masa (Batch assembly) en el cual se pueden obtener miles de contigs en minutos en vez de en días. Para ello el usuario debe definir la carpeta donde se encuentran los documentos a analizar y el patrón que quiere utilizar. Establecido el patrón, el programa automáticamente detecta secuencias que pertenecen al mismo set/contig y las ensambla juntas. De este modo los contigs formados se van almacenando en el disco, tal y como se ha indicado previamente. La velocidad que alcanza el programa, si bien antes se ha dicho que es menor en pro de la precisión, sigue siendo considerable pues logra un contig por segundo aproximadamente. Además, los resultados obtenidos son escritos en un detallado informe y, en caso de que un ensamblaje necesite input del usuario el propio programa lo resalta en rojo.

Así pues, conociendo todo lo indicado hasta ahora se podría resumir en dos esquemas el algoritmo utilizado por el DNA baser para realizar el proceso de ensamblaje. Un primer esquema para el ensamblaje de un único contig, y un segundo esquema para el ensamblaje en batch:

                                       

Figura 4: Diagrama de flujo de la herramienta bioinformática DNA Baser.

Contenido de GC

Para calcular el contenido de GC en las secuencias de DNA de cada contig y exón se utiliza el programa DNA Stats. DNA Stats proporciona el número de veces que aparece cada nucleótido en la secuencia que introducimos. También informa sobre el porcentaje que supone ese nucleótido o diferentes agrupaciones de nucleótidos de toda la secuencia. Así, permite comparar rápidamente los resultados obtenidos para diferentes secuencias.

 

Búsqueda de ORF

Con objeto de localizar los genes en la secuencia de cada contig se realiza una búsqueda de ORF (Open Reading Frame) con el programa ORF Finder, el cual nos proporciona las seis posibles pautas de lectura de una secuencia de DNA. Los ORF son la secuencia de RNA comprendida entre un codón de inicio de la traducción y un codón de terminación, sin tener en cuenta las secuencias de intrones. De esta manera, se pueden deducir los genes que están expresados en cada ORF del contig, por lo que se trata de una herramienta de predicción de genes ab initio. Como criterio, este programa identifica los ORF que constan de más de 100 nucleótidos.

Como resultado presenta las seis posibles pautas de lectura. El orden de arriba abajo es el siguiente: +1, +2, +3, -1, -2 y -3. Todos los ORF mayores de 100 nucleótidos encontrados por el programa están en color verde. Si pinchamos sobre cualquiera de los ORF, se indica la secuencia de nucleótidos y de aminoácidos de dicho marco de lectura.

 

Transposones

Los transposones son secuencias de DNA que pueden cambiar su posición dentro del genoma, de forma que puede dar lugar a nuevas mutaciones o revertirlas, alterando así el genoma. Generalmente, son secuencias no codificantes, aunque se ha visto que son importantes en la evolución. Los transposones y las secuencias repetidas se buscan para poderlas enmascarar porque generalmente no van a ser de interés. De este modo se consigue que otros programas bioinformáticos que posteriormente se utilicen, no busque genes en estas secuencias. 

Los  transposones conocidos como retrotransposones se copian en dos etapas: primero se transcriben a partir de DNA a RNA y luego el RNA producido se transcribe inversamente a DNA. Este DNA copiado se inserta en una nueva posición del genoma. El paso de transcripción inversa es catalizada por una transcriptasa inversa, que a menudo está codificada por el propio transposón.

Los retrotransposones se clasifican en dos subtipos: long terminal repeat (LTR) y non-LTR. Los Los LTRs son secuencias idénticas de DNA que se repiten cientos o miles de veces y se encuentran en cada extremo de los retrotransposones o de un elemento retroviral que ha sido integrado en el genoma hospedador. 

  • Los retrotransposones non-LTR se clasifican en dos clases: elementos largos intercalados (LINEs) y elementos cortos intercalados (SINEs).

  • LINEs poseen dos ORFs, que codifican la transcriptasa inversa, endonucleasa y son transcritos por la RNA polimersa II, por lo que contienen todas las funciones necesarias para la retrotransposición.

  • Por otro lado, SINEs (Short Interspersed nuclear elements) no codifican la transcriptasa inversa y se transcriben por la RNA polimerasa III, entonces funcionan como retrotransposones no autómatas. Son fragmentos pequeños de 200-300 bases.Uno de los ejemplos son los elementos Alu, que son muy comunes en el genoma humano. Alu son elementos que no contienen ninguna secuencia codificante y pueden ser reconocidos por la enzima de restricción Alu (de ahí el nombre).

Si bien históricamente visto como "DNA basura", la investigación reciente sugiere que, en algunos casos raros, LINEs y SINEs se incorporaron nuevos genes evolucionando hacia una nueva funcionalidad.

  • Los LTR codifican la transcriptasa inversa de manera similar a los retrovirus. Los retrovirus endógenos (ERV) son elementos virales endógenos que se asemejan y pueden derivar de retrovirus. Por ejemplo, después de entrar en una célula huésped y la conversión del RNA retroviral en DNA, el DNA retroviral recién producido se integra en el genoma de la célula huésped. Estos ADN integrados representan un provirus del retrovirus. El provirus es una forma especializada de retrotransposon eucariota, que puede producir intermediarios de RNA que pueden dejar la célula huésped e infectar otras células. 

La herramienta con la que se han encontrado los transposones es CENSOR, que es un programa creado por Giri (Genetic Information Research Institute). El programa muestra los resultados en una página compuesta por varias secciones:

  • Representación gráfica y tabla de transposones. En la tabla aparecen todos los posibles transposones y está compuesta por una serie de columnas que informan sobre:
  1. La posición de la secuencia en la que se localiza el transposón.
  2. El nombre los transposones.
  3. La clase.
  4. La orientación, es decir, si se encuentra en la cadena directa, pondrá "d", mientras que si es en la complementaria pondrá "c".
  5. La similitud entre los dos fragmentos alineados (el que está en nuestra secuencia y el de la base de datos).
  6. El ratio de positivos en el alineamiento.
  7. La puntuación o score del alineamiento obtenida según Blast.
  • Las secuencias repetidas, que son enmascaradas con una "X".

  • Los resultados de la alineación local.

  • Los fragmentos que fueron censurados, es decir, fragmentos homólogos a una de las repeticiones de la base de datos de referencia.

  • Resumen de todas las repeticiones detectadas.

Como criterio, se han tomado como válidos los transposones con una similitud superior a 0,80 y un score superior a 1900.

 

Alineamientos de secuencias

Para analizar tanto las mutaciones como los genes ortólogos de distintas especies se ha utilizado BLAST. Los programas BLAST son un conjunto de algoritmos de comparación de secuencias que se utilizan para buscar en bases de datos de secuencias con objeto de encontrar alineamientos locales óptimos con nuestra secuencia. La secuencia que nosotros introducimos es la que se llama query.

BLAST significa Basic Local Alignment Search Tool. Es un algoritmo que se encarga de la búsqueda de secuencias similares a la que estamos estudiando. La secuencias se interpretan por métodos comparativos con otras que ya son conocidas y están un bases de datos.

Hay distintos tipos de BLAST:

  • BLASTP, de proteína. Realiza una alineación de proteínas con una base de datos de secuencias de aminoácidos.

  • Si es de nucleótidos es BLASTN. Compara nuestra secuencia de nucleótidos con unas bases de datos de nucleótidos.

  • BLASTX. Se encarga de traducir los nucleótidos que introducimos en aminoácidos y comparar.

  • TBLASTN. Del mismo modo podemos hacer lo contrario, partiendo de una secuencia de proteína estimar cuales serían los codones, y comparar. Esto es lo que hace TBLASTN.

  • TBLASTX lee las 6 pautas de lecturas de nucleótidos y compara las secuencias de estos  nucleótidos con las bases de datos. 

No hay una estrategia única, todas son complementarias, por eso en la mayoría de casos el equipo de investigación realiza un BLASTN y un BLASTP.

Además, BLAST  va a tener dos tipos de situaciones:

  • Megablast. Permite estudiar contiguous, que son secuencias idénticas a las bases de datos. Y si son muy distintas, discontiguous. Sirve solo para nucleótidos.

  • Posición específica. Hay distintas aproximaciones y parámetros que se pueden asignar al programa para que busque mejor en unas condiciones u otras. Es mejor para ser más exactos y exigentes. Es sólo para proteínas.

¿Cómo hace BLAST los alineamientos? Genera una matriz de alineamientos. Si las dos secuencias son iguales en un nucleótido pone +1, si son dos iguales, pone +2. Si son diferentes en un nucleótido, pone -1 y si son dos distintos, pone -2. Si son iguales suma y si son diferentes resta. Y si hay un espacio  (gap), también se penaliza. Así, se crea una matriz con estos valores.

En las secuencias de proteína va a ser algo diferente porque los aminoácidos tienen características fisiológicas muy distintas y la matriz es más compleja.

Hay tres tipos de matrices:

  • BLOSUM 45, PAM 250: se usan cuando las secuencias son muy parecidas.

  • BLOSUM 90, PAM 100: se usan cuando las secuencias son muy diferentes entres sí.

  • BLOSUM 62, PAM 160: si no sé si son muy parecidas o no empiezo con esta matriz.

Es una herramienta muy utilizada para encontrar alineamientos locales, de fragmentos pequeños.  Nos va a dar una estadística, unos valores numéricos para ver si se parecen mucho o poco, que es relativo. Básicamente, vamos a obtener dos valores:

  • El valor de score (S) indica la suma de los valores del alineamiento. Cuanto más grande sea el fragmento, mayor será este número. Si una secuencia de 200 bases da un score de 200 quiere decir que todos los nucleótidos son iguales, pero si una de 1000 bases da 200 quiere decir que de los 1000 son iguales 200.

  • La probabilidad (E): es la probabilidad de que las secuencias sean similares por casualidad. Es el más importante.

En cuanto a los resultados de los alineamientos de dos secuencias, los proporciona de cuatro maneras distintas:

  1. En primer lugar aparece nuestra secuencia (query) en forma de esquema lineal y los números que aparecen debajo nos dan una idea de la posición de las bases o aminoácidos en la que se ha producido el alineamiento. También hay una leyenda de colores, donde cada uno representa un valor distinto de score.

  2. En segundo lugar aparece un gráfico en el que el eje de abscisas se representa nuestra secuencia y en el eje de ordenadas, la secuencia con la que hemos enfrentado la nuestra.

  3. En tercer lugar, se muestra la descripción de una serie de parámetros, que son: el máximo valor de score posible, el score total, la query cover (es la cobertura que representa la región alineada respecto a la secuencia entera), la probabilidad (E), la identidad de las secuencias.

  4.  En cuarto lugar se puede ver el alineamiento base por base en caso de ser BLASTN o aminoácido por aminoácido en caso de ser BLASTP.

Para realizar este estudio se ha utilizado la herramienta Blast en varias ocasiones:

  1. Conocer si en la secuencia del contig había algún gen. Para ello se compara la secuencia entera del contig frente a la base de datos para ver si presenta similitud con algún gen ya descrito.

  2. Análisis de mutaciones. Se alinea la secuencia del gen que tenemos en el contig frente  a la secuencia consenso para identificar las posibles variaciones. De esta manera se pueden conocer inserciones, delecciones, SNP, etc. Un polimorfismo de un sólo nucleótido o SNP (Single Nucleotide Polymorphism) es una variación en la secuencia de DNA que afecta a una sola base del genoma. 

  3. Comparar los genes ortólogos de dos especies distintas. Así, se pueden localizar las regiones más o menos conservadas entre las especies a lo largo de la evolución.

Información del gen

Para encontrar la información del gen necesitaremos un navegador de genomas.  El que mejor se ajusta a la presentación de la información requerida y al tipo de información presentada es el Ensembl genome browser. En el cual se analizan las secuencias de genes de distintas especies animales. En el caso de que tengamos un gen no animal se puede utilizar Ensembl Metazoa.

La información del gen de interés se presenta en diferentes pestañas:

  1. En la primera pestaña aparece el genoma
  2. La segunda es Location, que da información sobre donde está localizado nuestro gen,  en qué cromosoma y en qué región
  3. Si vamos a la tercera pestaña nos da la información del gen, nombres, sinónimos  porque se pueden llamar de manera distinta, la localización y en qué hebra está (directa). Obtenemos información sobre el número de transcriptos que tiene el gen. En transcript table informa sobre el nivel de RNA se han visto esas tres formas. A cada RNA le da un nombre, un tamaño (bp) y el número de aminoácidos de la proteína. Tambien puede ocurrir que los transcritos, aunque se ven a nivel de RNA, no codifican una proteína, no codifica para nada. Esta información te la pone en Biotype.

¿Por qué se producen diferentes transcriptos de un mismo gen?

Es debido al Splicing alternativo, el splicing alternativo es un proceso de edición post-transcripcional que se produce tras la obtención del ARN mensajero primario. El ARN mensajero primario es la transcripción `literal` de ADN a ARN. En los genes de eucariotas no todo el ADN que se transcribe en el mensajero primario va a ser traducido. En los eucariotas existen regiones de ADN que no codifican aminoácidos conocidas como intrones que están flanqueadas por señales de inicio y de parada de la transcripción. Los fragmentos que sí van a codificar la secuencia de aminoácidos de la futura proteína son los exones. Distintas combinaciones de exones darán lugar a distintas isoformas de la proteína madura. La generación de las isoformas se lleva a cabo mediante el splicing alternativo. El splicing alternativo permite que en un mismo gen pueda estar codificada la información necesaria para sintetizar distintas proteínas ya que mediante este proceso a partir de un mismo mensajero primario pueden obtenerse varias secuencias de ARN mensajero maduro dependiendo de cuáles sean los exones que se combinen. El mecanismo de splicing alternativo es una de las maneras de originar distintas isoformas funcionales de una misma proteína en diferentes tejidos o compartimentos celulares.

En esta pestaña también encontramos información de las CCDS es el consensus cDNA, es decir, es la secuencia de referencia, consenso, con la que vamos a tener que comparar nuestra secuencia para saber si la nuestra tiene variaciones respecto a esa. Esa secuencia consenso en otras bases de datos se llama RefSeq. Más abajo tenemos la información de la tabla pero de una manera gráfica, se muestran las diferentes regiones en distintos colores. Por ejemplo: En amarillo está la región que codifica para proteína, mientras intrones. La caja vacía significa que es una región UTR, que se transcribe y procesa, pero no se traduce. Con lo cual vamos a tener en nuestro gen 5'UTR, exones, intrones y finalmente 3'UTR. Esto sirve para saber la estructura de los genes que tenemos en el contig realizando BLAST.

 

Estudio de los SNP

Con el objetivo de estudiar los SNP se realizara una PCR. Para hacer la PCR es necesario diseñar los dos primers, forward y reverse, que flanqueen el fragmento que nos interesa amplificar. El diseño de primers se realiza utilizando una herramienta de Biotools, que además permite añadir dentro de los mismos cebadores lugares para corte por enzimas de restricción o sitios de corte proteolíticos. Otra de las opciones que permite la herramienta es seleccionar el tipo de PCR que se quiere realizar, en nuestro caso una PCR con el objetivo de clonar nuestra secuencia.

La realización de una PCR consiste en la reacción en cadena de la polimerasa, conocida como PCR por sus siglas en inglés (polymerase chain reaction), es una técnica de biología molecular desarrollada en 1987 por Kary Mullis,1 cuyo objetivo es obtener un gran número de copias de un fragmento de ADN particular, partiendo de un mínimo. Es decir, la PCR funciona como unafotocopiadora, que nos permite amplificar una región concreta de una secuencia nucleotídica particular

Los materiales para amplificar una región concreta:

1.       Los 4 desoxirribonucleótidos-trifosfato (dNTP), sustratos para polimerizar nuevo ADN.

2.       Dos cebadores o iniciadores (primers) oligonucleótidos que son, cada uno, complementarios a una de las dos hebras del ADN. Son secuencias cortas, de entre seis y cuarenta nucleótidos, normalmente de dieciocho a veintidós (óptimo de 20), que permiten que la polimerasa inicie la reacción. Deben estar enfrentados y a no mucha distancia. Delimitan la zona de ADN a amplificar, es decir, corresponden a los nucleótidos que definen los extremos de la secuencia que se desea replicar.

3.       Iones divalentes. Se suele usar magnesio (Mg2+), agregado comúnmente como cloruro de magnesio (MgCl2), o algún otro catión divalente. También se puede emplear manganeso (Mn2+), para mutagénesis de ADN mediante PCR, ya que altas concentraciones de Mn2+ incrementan la tasa de error durante la síntesis de ADN. Actúan como cofactores de la polimerasa.

4.       Iones monovalentes, como el potasio.

5.       Una solución tampón o buffer que mantiene el pH adecuado para el funcionamiento de la ADN polimerasa.

6.       ADN polimerasa con temperatura óptima alrededor de 70 °C (la más común es la polimerasa Taq).

7.       ADN molde, que contiene la región de ADN que se va a amplificar.

8.       Termociclador, el aparato que mantiene la temperatura necesaria en cada una de las etapas que conforman un ciclo

Como ya se ha comentado el diseño de los primers se realizara con el programa Biotools. El programa empleara la secuencia de interés a amplificar, esta secuencia no deberá superar las 1.000 bases. Porque por encima de este numero la probabilidad de producir un error se incrementa. El programa diseña 3 forward primer y 3 forward reverse y los ordena en función:

·         %GC

·         Tm

·         Longitud

De modo que se podrá elegir los Primer forward y reverse más convenientes, siendo estos los que tengan un porcentaje de GC superior al 50%, una tm similar y una longitud superior a 18 nucleótidos.  Puesto que cumpliendo estas condiciones los primers serán más estables.

 

Información de la proteína

Para la búsqueda de información sobre cada proteína se empleara  la base de datos Uniprot. UniProt (de universal protein) es el recurso de proteínas universal, un repositorio central de datos sobre proteínas creado por la combinación de Swiss-Prot, TrEMBL y PIR. Esto lo ha convertido en el recurso líder mundial almacenando información sobre proteínas.

UniProt Knowledgebase (UniProtKB) recoge información funcional sobre las proteínas, con anotaciones precisas, consistentes y abundantes. Además de recoger una serie de datos obligatorios para todos los registros de UniProtKB (la secuencia de aminoácidos, el nombre y la descripción de la proteína, datos taxonómicos y citas bibliográficas), se añaden todas las anotaciones posibles, que pueden incluir las ontologías biológicas aceptadas, clasificaciones, referencia cruzadas con otras BD, así como indicaciones claras sobre la calidad de las anotaciones.

Los registros de Uniprot constan diferentes apartados, dependiendo de la información recopilada de la proteína se tendrá más información o menos de los diferentes apartados. Pudiendo ocurrir que algunos apartados no contengan ninguna información.