Información

Distribución de tamaños de exón e intrón

Distribución de tamaños de exón e intrón


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Objetivo

Estoy tratando de conseguir un Distribución de exones y tamaños de intrones en el espinoso de tres espinas (Gasterosteus aculeatus).

Datos descargados

Descargué algunos datos de Ensembl. Más precisamente, fui allí, seleccioné "estructura" en los "atributos" y seleccioné

- ID de gen Ensembl - Exon Chr Start (bp) - Exon Chr End (bp)

Hay dos problemas en estos datos:

  1. Algunos exones terminan antes de comenzar
  2. Algunos exones se superponen

El primer punto es que asumí debido a la reversión, por lo que simplemente invirtí la posición inicial y final cuando hubo tal inversión. El segundo punto es más problemático, ya que no sé qué podría significar tal superposición de manera realista.

¿Puede ayudarme a encontrar la distribución de los tamaños de exón e intrón en espinosos de tres espinas?


Que hice con los datos anteriores

Preparación

# leer datos d = read.table (file.choose (), header = TRUE) names (d) = c ("ID", "start", "end") # Exones inversos cuando sea necesario paraReverse = which (d $ start > d $ fin) s = d $ inicio [toReverse] d $ start [toReverse] = d $ end [toReverse] d $ end [toReverse] = s

Tamaños de exón -> Se ve bien

# Tamaños de exón ExonSizes = d $ end - d $ start hist (ExonSizes) # ¡Genial, se ve bien!

Tamaños de intrones -> Se ve mal

# Tamaños de intrones # Esto es un poco lento. Es mejor cambiar a C ++. # La idea es observar la distancia entre el final de un exón y el comienzo del siguiente exón dentro de cada gen. d $ ID = pegar (d $ ID) IntronSizes = c () uniquegenes = unique (d $ ID) nbgenes = length (uniquegenes) i = 0 exón = 0 para (gen en uniquegenes) {i = i + 1 gato (paste0 (i, "/", nbgenes, " n")) while (TRUE) {exon = exon + 1 if (d $ ID [exon] == gene) {IntronSizes = append (IntronSizes, d [exon + 1, ] $ start - d [exon,] $ end)} else {break}}} hist (IntronSizes) # Hay valores negativos. No sé cómo interpretarlos. hist (log (abs (IntronSizes))) # ¡Eso se ve bien, pero dudo que tenga mucho sentido!

En la línea de comando:

wget ftp://ftp.ensembl.org/pub/release-84/gtf/gasterosteus_aculeatus/Gasterosteus_aculeatus.BROADS1.84.gtf.gz gunzip Gasterosteus_aculeatus.BROADS1.84.gtf.gz

Luego en R:

library (GenomicFeatures) txdb = makeTxDbFromGFF ("Gasterosteus_aculeatus.BROADS1.84.gtf") hist (log10 (width (unique (exons (txdb))))) # exons hist (log10 (width (unique (unlist (intronsByTranscript (txdb)) ))))) # intrones

Tenga en cuenta que es increíblemente poco probable que algunos de los exones anotados (y los intrones entre ellos) sean correctos. Por ejemplo, hay exones e intrones de 1 base de largo. No creo que nadie realmente crea que eso sea correcto, pero la distribución probablemente sea aproximadamente correcta.

Editar: Por lo que vale, no hay exones de tamaño negativo en el archivo GTF. Supongo que los exones superpuestos provienen de diferentes transcripciones (o genes en hebras opuestas).

Editar2: Si desea obtener sus intrones de un "modelo genético de unión", utilice algo comoreducir (exonsBy (txdb, by = "gene"))y luegolapearbrechas()a ese. Los resultados serán correctos y el proceso probablemente llevará menos tiempo del que ha estado intentando.


Sesgo de distribución de la coincidencia de secuencias entre exones e intrones en la articulación del exón y la región de unión de EJC en C. elegans

Ofrecemos una teoría de que la relación de coincidencia de secuencias entre las secuencias de ARNm y los intrones post-empalmados correspondientes desempeña un papel importante en el proceso de expresión y regulación génica.

La longitud y la tasa de coincidencia de los segmentos emparejados óptimos son consistentes con las características de la secuencia de ARNip y miARN.

Nuestros parámetros pueden revelar la región de unión de EJC y la articulación del exón.

EJC e intrones tienen relaciones competitivas y cooperativas en el proceso de combinación en secuencias codificantes de proteínas.

Las secuencias de intrones y las secuencias de codificación de proteínas tienen relaciones de evolución concertadas.


Sandwalk

Ha habido bastantes estudios sobre el tamaño medio de los intrones en varias especies. Seleccioné un número para el tamaño medio de intrones de Hong et al. (2006). El tamaño medio del intrón, según ellos, es de 3.479 pb en las regiones codificantes. Este valor es un poco engañoso ya que hay una pequeña cantidad de intrones enormes que hacen que el promedio sea bastante grande. El valor mediano es 1334 pb o menos de la mitad del valor promedio.

Sugerí que muchas de las secuencias de intrones eran basura. La pregunta de Martinc es bastante razonable, pero para obtener una respuesta debemos observar más de cerca la distribución de intrones.

La figura muestra la distribución de los tamaños de intrones en cuatro especies: la planta con flores Arabidopsis thaliana la mosca de la fruta Drosophila melanogaster humano y ratón. Los datos son de Hong et al. (2006, figura 1).

Tenga en cuenta que la distribución en Arabidopsis y Drosophila es muy apretado. Ambas especies tienen genomas relativamente compactos en comparación con los mamíferos. Los datos sugieren fuertemente que el tamaño mínimo del intrón es de aproximadamente 80 pb.

Las distribuciones en los genomas humano y de ratón son muy diferentes. Hay un pico fuerte a 100 pb y mdash esto es similar a los picos de otras especies. Pero a diferencia de otras especies, los intrones de mamíferos pueden ser extremadamente grandes, dando lugar a una cola larga de la distribución que se extiende hasta 10.000 pb o más. La pregunta clave es si esta distribución de intrones largos es ruido o un artefacto de los algoritmos de predicción de genes, o si representa un fenómeno real.

Volviendo a la pregunta de martinc. Si observamos genes bien conservados en diferentes especies, lo que encontramos es alguna variación en la longitud del intrón, pero solo alrededor de una media de aproximadamente 100-400 pb. En otras palabras, en genes que se han examinado de cerca, donde se conoce el producto proteico, la distribución de los tamaños de los intrones se parece mucho más a la distribución en Arabidopsis y Drosophila.

Echemos un vistazo al hsp90 genes. Estos son los genes que codifican Hsp90, la proteína sobre la que SciPhu estaba blogueando [Hsp90 y Evolution].

Elegí el gen del pez cebra y cuatro genes de mamíferos para ilustrar la variación en la longitud del intrón. (Los exones azules son UTR 5 & prime y 3 & prime.) La mayoría de los intrones tienen un tamaño de entre 80 y 400 pb, pero hay algunas excepciones. En este caso, el gen humano es la excepción, tiene dos intrones enormes en el extremo 5 & principal del gen.

Lo que vemos es una distribución estrecha de las longitudes de los intrones en la mayoría de los casos y unos pocos intrones enormes. No es sorprendente que la longitud de los intrones en diferentes especies sea bastante similar.

Veamos mi gen favorito. HSPA8 es la versión citoplásmica de la familia multigénica chaperona HSP70.

Vemos un patrón similar. La mayoría de las longitudes de los intrones son muy similares en diferentes especies, lo que sugiere una selección de intrones en el rango de 100 a 400 pb. Hay excepciones, como vemos en los genes del chimpancé, el mono y el perro. Los tres tienen intrones grandes en los extremos 5 & prime o 3 & prime. Los inrons grandes del mono son 10,253 bp y 1007 bp. El intrón del chimpancé grande tiene una longitud de 13.257 pb. Esto es típico. Creo que es muy probable que los intrones grandes en los exones no codificadores sean artefactos.

Así que aquí está la respuesta completa a la pregunta planteada en la parte superior de la página. Creo que existe una selección para mantener los tamaños de los intrones en un rango bastante estrecho de entre 100 y 400 pb. Debido a esto, esperamos ver tamaños de intrones similares en diferentes especies. En ocasiones descubrimos un intrón enorme que es peculiar de una especie. Este intrón podría ser una expansión transitoria que aún no se ha reducido, o podría ser un artefacto.

Por cierto, mientras recuperaba estas secuencias de Entrez Gene, noté que los anotadores han eliminado todas las variantes de especias para los genes HSP90 y HSPA8 con algunas excepciones.

Todas las secuencias de perro tienen muchas variantes de empalme para cada gen y algunas de las variantes se han retenido en la entrada del gen Entrez para el perro HSPA8. Mire cuidadosamente las dos variantes predichas en la segunda y tercera línea. Se supone que estas variantes de corte y empalme alternativas producen proteínas Hsc70 a las que les faltan varias regiones altamente conservadas codificadas por los exones 7 y 8. Recuerde que esta es la proteína más altamente conservada en biología.

Estas no pueden ser variantes de proteínas biológicamente relevantes que solo se producen en perros. Los anotadores tienen razón al eliminar artefactos similares de los otros genomas y también deberían eliminarlos. Las variantes de empalme alternativas son en su mayoría artefactos, en mi opinión, pero eso es una pelea para otro día.


Distribución de tamaños de exón e intrón: biología

Medicina Yangtze Vol.01 No.01 (2017), ID del artículo: 75017,15 páginas
10.4236 / año. 2017.11006

Análisis comparativo de la estructura exón-intrón en genomas eucariotas

Yongfa Li 1,2, Yanhua Xu 1,3, Zhaowu Ma 1,2

1 La segunda Facultad de Medicina Clínica, Universidad de Yangtze, Jingzhou, China

2 Laboratorio de Oncología, Centro de Medicina Molecular, Facultad de Medicina, Universidad de Yangtze, Jingzhou, China

3 Departamento de Oncología, Hospital Central de Jingzhou, Jingzhou, China

Copyright y copia 2017 por autores y Scientific Research Publishing Inc.

Este trabajo tiene la licencia Creative Commons Attribution International License (CC BY 4.0).

/>

Recibido: 27 de febrero de 2017 Aceptado: 27 de marzo de 2017 Publicado: 30 de marzo de 2017

El número y la longitud de los exones varían en diferentes especies eucariotas. Con el aumento de las secuencias genómicas completas, es indispensable volver a analizar la organización de genes en diversos genomas eucariotas. Realizamos un análisis comparativo a gran escala de la estructura exón-intrón en 72 organismos eucariotas, incluidas plantas, hongos y animales. Confirmamos que la estructura exón-intrón varía enormemente entre los genomas eucariotas y revelamos algunas características específicas de linaje de los genes eucariotas. Estos incluyen un patrón de estructura exón-intrón específico de teleósteos, intrones relativamente pequeños y exones grandes en hongos y algas, y una expansión gradual de intrones en vertebrados. Además, el análisis de conservación de los límites exón-intrón indica que varias bases cerca de las uniones del sitio de empalme son diferentes en intrones con longitud variable entre diferentes especies. Después de la comparación, identificamos una tendencia que muestra aumentos en las densidades y longitudes de intrones en diversas especies, desde hongos, plantas, invertebrados hasta vertebrados, mientras que fue lo contrario en relación con las longitudes de los exones. Las propiedades estadísticas de la organización genómica eucariota sugieren que las características específicas del genoma se conservan mediante diversos procesos evolutivos, lo que allana el camino para futuras investigaciones sobre la diversificación de la evolución eucariota.

Estructura exón-intrón, genoma eucariota, evolución

Un gen eucariota típico consta de múltiples exones interrumpidos por intrones y su número varía enormemente entre las especies eucariotas [1]. Los intrones se eliminan mediante empalme de ARN mientras se genera el producto de la transcripción madura final. El empalme alternativo (AS) es un proceso postranscripcional en organismos eucariotas mediante el cual se producen múltiples transcripciones distintas a partir de un solo gen [2]. Estudios previos que utilizan tecnología de secuenciación de alto rendimiento han informado que hasta el 92% - 94% de los genes de múltiples exones humanos se someten a EA [3] [4], a menudo de una manera específica de tejido / etapa de desarrollo [3] [5]. Los sitios de empalme se reconocen a través de una región altamente conservada de nucleótidos (nt) y la longitud del intrón influye significativamente en la eficiencia del empalme de pre-ARNm y en la elección del sitio de empalme alternativo [6].

En los vertebrados, hay intrones relativamente largos y exones cortos, mientras que es inverso en eucariotas inferiores [7]. La genómica comparativa de eucariotas ha sugerido que la evolución de intrones es un proceso dinámico en eucariotas, y los intrones se han ganado y perdido en diferentes genomas en respuesta a fuertes presiones selectivas [8]. Aunque se conserva la capacidad básica de los eucariotas para empalmar intrones, las señales de empalme evolucionan y se adaptan a diferentes mecanismos de empalme en diversas especiaciones [9] [10]. Un análisis comparativo de las señales de corte y empalme básicas indicó que el reconocimiento de intrones cortos era bastante susceptible a cambios evolutivos en eucariotas, pero el patrón general de reconocimiento de intrones estaba bien conservado en mamíferos [11]. Se sugiere que existe una asociación específica de especie entre la variación de la longitud del exón y del intrón en los genomas. Roy y col. encontraron que los exones recién originados eran más comunes dentro de los intrones más largos (& gt1000 nt) en comparación con los intrones cortos (& lt400 nt) en los genomas de vertebrados [12]. Los intrones grandes podrían ser un reservorio de diversidad genética, y pueden promover la EA a través de la omisión de exones y el recambio de exones durante la evolución [13]. La disponibilidad de secuencias y anotaciones genómicas hace que sea factible examinar muchas cuestiones evolutivas fundamentales en la escala del genoma. La diversidad de estructuras exón-intrón entre los genomas eucariotas los hace extremadamente atractivos para explorar cuestiones de evolución de la estructura exón-intrón.

En este estudio, realizamos un estudio exhaustivo de la estructura exón-intrón en 72 organismos eucariotas, incluidas 17 plantas, 11 hongos, 12 invertebrados y 32 vertebrados. Nuestros resultados confirman que las longitudes y el número de intrones varían entre los diferentes genomas eucariotas. En genes eucariotas se encontraron características tanto generales como específicas del genoma de la organización exón-intrón. Este análisis estadístico de la estructura exón-intrón reveló algunas características diversas en los genomas eucariotas. Estos resultados pueden proporcionar pistas para dilucidar los mecanismos implicados en la organización de los genomas eucariotas y también en la evolución de la estructura genética.

2.1. Fuentes de datos y análisis estadístico

Los datos completos de anotación del genoma de animales y hongos se descargaron de la base de datos Ensembl (versión 67) (http://www.ensembl.org/). Los datos genómicos de las plantas se descargaron de JGI (http://www.jgi.doe.gov/). Por conveniencia, clasificamos las 72 especies en cuatro grupos: hongos, plantas, invertebrados y vertebrados. Los análisis estadísticos se realizaron utilizando el paquete Perl. La información de la estructura genética, incluidos los números y longitudes de exón / intrón y sus secuencias, se extrajo de los datos del genoma correspondiente. Para obtener solo datos confiables, aplicamos los siguientes criterios relativamente estrictos para la calidad de la alineación. 1) El intrón debe tener una longitud superior a 5 nt, ya que el corte y empalme del intrón requiere un "mínimo" de cinco nucleótidos (GU-AG más una A para el punto de ramificación) [14]. 2) Para genes con muchas isoformas de corte y empalme alternativas, retenemos la isoforma que produce el ARNm más largo para análisis estadístico.

2.2. Comparación de límites exón-intrón

Además de los datos generales de exón / intrón y longitudes creados a partir de las secuencias disponibles, también obtuvimos datos de límites de exón / intrón para 6 organismos Homo sapiens, Danio rerio, Drosophila melanogaster, Caenorhabditis elegans, Saccharomyces cerevisiae y Arabidopsis thaliana. Construimos los perfiles de motivos en estas 6 especies representativas, utilizando las secuencias de intrones extraídas. Los motivos de secuencia para el sitio de empalme de 5 '(5' s) y el sitio de empalme de 3 '(3' s) se representan como logotipos de secuencia en el WebLogo http://weblogo.berkeley.edu/. También extrajimos los 10 nucleótidos adyacentes (nt) de aguas arriba y aguas abajo de cada sitio de empalme, y analizamos la conservación de las señales de los sitios de empalme 5 y 3.

3.1. Análisis comparativo de genes eucariotas con exones

Una encuesta exhaustiva de los 72 organismos eucariotas muestra que la mayoría de los genes eucariotas contienen menos de 5 exones en diferentes grupos. Básicamente, la proporción de números de genes disminuye a medida que aumenta el número de exones (Tabla 1). En resumen, la proporción de genes que contienen un exón varía del 28% al 9% en cuatro grupos. En los hongos, el porcentaje de genes con 1 a 5 exones es del 91,21%, lo que indica que los genes de los hongos son más simples que los otros grupos. Los porcentajes de genes con 1 a 5 exones en plantas e invertebrados representan aproximadamente dos tercios. Por el contrario, de aquellos genes que contienen más de cinco exones, sus proporciones son incrementales de hongos a vertebrados. Un caso extremo es que casi todos los genes de S. cerevisiae contienen de 1 a 5 exones (99,97%), en comparación con solo el 33,85% de meleagris (meleagris gallopavo, vertebrado)

Tabla 1 . Análisis comparativo de genes eucariotas con exones.

(Tabla S2). En conjunto, estos resultados indican que los genes tienen más exones en vertebrados que en no vertebrados.

3.2. Análisis de la distribución de la longitud del exón

La Tabla 2 muestra las distribuciones variadas de la longitud del exón en los cuatro grupos. Está claro que los exones cortos (& lt250 nt) están muy extendidos en varios eucariotas. En los hongos, el porcentaje de exones cortos es solo del 42,740% y la longitud media de los exones fúngicos es mayor (589 nt) que en los otros tres grupos (188 nt, 257 nt y 386 nt, respectivamente). En los vertebrados, la mayoría de los exones (87,737%) tienen menos de 250 nt de longitud (Tabla 2 y Tabla S1). El porcentaje de exones largos (& gt500 nt) es 36,575% en hongos, mientras que las proporciones correspondientes disminuyen de 21,685%, 9,977% a 5,582% en plantas, invertebrados y vertebrados respectivamente. Estos resultados indican que las longitudes de los exones varían en todo el reino eucariota con exones más cortos en los vertebrados.

3.3. Análisis de las características del intrón

Según los datos que utilizamos (versión 67 de Ensembl), el genoma humano contiene 20 687 genes codificadores de proteínas con intrones y 1713 (7%) genes codificadores de proteínas libres de intrones. En total, hay 200.220 intrones en los genes codificadores de proteínas humanas, por lo que el número medio de intrones por gen es de 8,94 en el genoma humano. El número de intrones por gen varía drásticamente entre diversos eucariotas, incluidos hongos (0,05 - 3,43 intrones por gen), plantas (0,33 - 7,30 intrones por gen), invertebrados (2,92 - 7,42 intrones por gen) y vertebrados (7,35 - 10,09 intrones por gen). gen) (Tabla S1). Este análisis estadístico mostró que existe una amplia variedad de densidades de intrones en los genomas eucariotas. Las organizaciones genómicas complejas son mucho más comunes en los eucariotas superiores que en los eucariotas inferiores.

De acuerdo con otros estudios [15] [16], nuestros resultados muestran que abundantes intrones largos están presentes en vertebrados. Aproximadamente el 48,512% de los intrones en vertebrados tienen & gt1000 nt de longitud (Tabla 3). En general, los intrones de los hongos son relativamente cortos, el 93,627% de los intrones de los hongos son más cortos de 250 nt. En invertebrados y plantas, los porcentajes promedio de intrones cortos (& lt250 nt) son 48,320% y 59,847% respectivamente.Excepcionalmente, existe una distribución específica de intrones cortos en teleósteos. La longitud media de los intrones en los peces teleósteos fue significativamente menor que la de otros vertebrados. Además, el porcentaje de intrones cortos (& lt250 nt) está en el rango de 32,17% - 67,06% (con un promedio de 52,89%) en los cinco peces teleósteos, pero solo

18% en todos los demás vertebrados (Figura 1 y Tabla S1).

Tabla 2 . Comparación de la longitud del exón entre diferentes especies.

Tabla 3 . Comparación de la longitud de los intrones entre diferentes especies.

Figura 1 . La distribución de intrones cortos en teleósteos y algunos vertebrados representativos. El porcentaje de intrones cortos (& lt250 nt) en los cinco peces teleósteos es aproximadamente el doble que en otros vertebrados. H. sapiens: Humano G. gorilla: Gorila M. musculus: Ratón O. anatinus: Ornitorrinco M. gallopavo: Turquía A. carolinensis: Lagarto anol X. tropicalis: Xenopus D. rerio: Pez cebra G. aculeatus: Espinoso O. latipes: Medaka T. rubripes: Fugu T. nigroviridis: Tetraodon P. marinus: Lamprea.

En todas las especies observadas, como ejemplo extremo, el porcentaje más pequeño de intrones cortos es solo del 5% en invertebrados (Strongylocentrotus purpuratus, erizo de mar). Sin embargo, el número de intrones (157,214) en el erizo de mar es excesivamente grande, que es aproximadamente el doble de otros invertebrados (82,398). En el grupo de plantas, la longitud de los intrones fue pequeña (183 nt) en tres algas de Ostreococcus, con un valor significativamente menor que el promedio de otras plantas (329 nt), mientras que los exones fueron mucho más grandes (912 nt) que otras plantas (386 nt). ) (Tabla S1).

Aunque el número total de intrones es similar entre los teleósteos, la longitud media del intrón difiere significativamente en los cinco peces teleósteos (Cuadro 4 y Cuadro S1). La mayoría de los intrones en los teleósteos son pequeños y de longitud similar, sin embargo, los intrones del pez cebra son mucho más largos (2820 nt) que los otros teleósteos (480-1180 nt) y el 49,911% de los intrones en el pez cebra son más de 1000 nt. Además, nuestros resultados indicaron que el pico de la distribución de la longitud del intrón está en el rango de 50 - 110 nt en teleósteos (Figura S1) y la mayoría de eucariotas. Los picos son consistentes con informes anteriores, que muestran una distribución bimodal típica en muchos eucariotas [17] [18] [19].

Cuadro 4. Comparación de la longitud del intrón entre los peces teleósteos.

1 No .: Número de intrones 2 (%): El porcentaje de intrones.

3.4. Análisis comparativo de los límites exón-intrón en eucariotas

Analizamos los motivos de la señal de empalme clásico para cada organismo. Los resultados de seis especies representativas de cuatro grupos (H. sapiens, D. rerio, D. melanogaster, C. elegans, S. cerevisiae y A. thaliana) revelan perfiles de motivos muy conocidos y altamente conservados para intrones dentro del rango 51-70. nt (Figura 2) y más. Aunque se parecen entre sí, los perfiles de motivos exhiben algunas diferencias y especificidades entre diferentes especies. Los nucleótidos adyacentes alrededor de cada sitio de empalme están lejos de ser aleatorios. Comprenden dos secuencias de consenso distinguidas del sitio de empalme 5 '(5' s) y el sitio de empalme 3 '(3' s) en los límites exón-intrón [20]. La conservación de los 5 y los 3 es menor en el pez cebra y en el ser humano que en las otras especies (Figura 2). Para los intrones con una longitud de 6 a 50 nt, los sitios de empalme no se conservan en levadura, pez cebra y humanos (Figura S2). Muchas arquitecturas genómicas eucariotas se caracterizan por pequeños exones e intrones flanqueantes de longitud variable. El reconocimiento del sitio de empalme es más eficiente cuando los intrones o exones son pequeños, lo que parece favorecer diversos factores de empalme para empalmes alternativos [21].

Este trabajo implica el análisis estadístico de la estructura exón-intrón en un gran número de eucariotas. Realizamos comparaciones detalladas de las estructuras exón-intrón y revelamos algunas características complejas de los genomas eucariotas. Las estructuras exón-intrón de los genes eucariotas varían a lo largo del reino eucariota, y la evolución de tales estructuras aumenta en complejidad desde eucariotas inferiores a eucariotas superiores. Nuestras observaciones son en gran medida coherentes y refuerzan las informadas anteriormente con respecto a los intrones y exones [9] [17] [22].

4.1. Una complejidad creciente de las estructuras exón-intrón en la evolución eucariota

Una comparación de las estructuras exón-intrón podría dilucidar la complejidad de la diversidad genética entre eucariotas. Existe una tendencia que muestra un aumento general en

Figura 2 . Comparación de motivos de señal de empalme en seis especies para intrones de 51 a 70 nt. Los motivos de secuencia para 5 y 3 se representan como logotipos de secuencia.

densidades y longitudes de intrones en especies desde hongos, plantas, invertebrados hasta vertebrados. La tendencia es inversa en relación con la longitud de los exones (Figura 3).

Los tamaños de los intrones varían ampliamente dentro de cada grupo (hongos, plantas, invertebrados y vertebrados). En contraste con la longitud de los intrones, las longitudes promedio de los exones son más similares en cada grupo. Un creciente cuerpo de evidencia indica que los intrones desempeñan una serie de funciones funcionales. Muchos intrones contienen ARN funcionales no codificantes, que desempeñan funciones vitales en el ajuste fino de la expresión génica [23]. La longitud del intrón parece tener una correlación positiva con la expresión en eucariotas unicelulares y una correlación negativa con la expresión en eucariotas multicelulares [24]. Además, existe una correlación negativa entre el tamaño del intrón y el nivel de expresión de genes en nematodos y humanos, lo que sugiere que la selección natural favorece los intrones cortos en genes altamente expresados ​​para minimizar el costo de transcripción [25]. A diferencia del tamaño de los intrones, la densidad de los intrones en un gen no depende en gran medida del nivel de expresión del gen [25]. Jeffares y col. encontraron que la densidad de intrones se correlaciona con el logaritmo del tiempo de generación. Los organismos que se reproducen rápidamente tienden a tener menos intrones que los organismos que tienen una vida más larga.

Figura 3 . Tendencias de la longitud y densidad de exón / intrón en eucariotas.

ciclos [8]. Esto podría ser el resultado de la selección para una rápida división celular o expresión génica.

También se ha demostrado que la arquitectura exón-intrón influye en el reconocimiento del sitio de empalme. El reconocimiento del sitio de empalme es más eficiente cuando los intrones o exones son pequeños [21] [26]. Los eucariotas inferiores tienen una arquitectura genómica que se caracteriza por pequeños intrones y exones flanqueantes con longitudes variables, lo que sugiere que el reconocimiento del sitio de empalme se produce a través del intrón [27]. Nuestro análisis mostró algunos pequeños intrones y grandes exones en la mayoría de los hongos y algunas algas, lo que es consistente con un informe anterior [21]. Jeffares y col. propuso que algunos genes están aparentemente bajo presión selectiva para minimizar los intrones [8]. Por ejemplo, el tamaño medio del intrón es de sólo 124 pb en Ostreococcus tauri, que es el eucariota de vida libre más pequeño del mundo conocido hasta la fecha [28]. Es una estrategia plausible que el alga verde pueda seleccionar pequeños intrones para economizar el costo energético de la disminución de la longitud de la transcripción, adaptando el entorno marino cambiante para evitar las limitaciones impuestas por la luz o la limitación de nutrientes [29].

4.2. Una estructura de intrón-exón específico de linaje en teleósteos

El número y la longitud de los intrones varía mucho entre diferentes organismos. Las secuencias de intrones constituyen el 24% de los genomas de mamíferos y más del 95% de las secuencias de genes humanos [30] [31]. Nuestro estudio muestra que los teleósteos tienen más intrones y más pequeños (& lt250 nt) que los otros vertebrados (Figura 1 y Tabla S1). Esta estructura exón-intrón específica puede estar relacionada con el evento de duplicación de genes específicos en los teleósteos, ya que se asumió que la complejidad genómica de los teleósteos estaba causada por el evento de duplicación del genoma completo específico de peces (FSGD) [32]. Sorprendentemente, los intrones del pez cebra son mucho más grandes en comparación con otros teleósteos. Los intrones grandes pueden presentar varios problemas para los organismos, incluido el gasto de transcripción y la dificultad de empalmar intrones grandes [33]. El análisis comparativo de las secuencias del genoma de los teleósteos ha revelado una antigua expansión del tamaño del intrón en el linaje del pez cebra [14]. Una posible explicación para el pequeño tamaño del intrón en otros teleósteos podría ser la presión para mantener un tamaño del genoma restringido en estos organismos de rápida replicación. También podría estar asociado con el evento FSGD que desencadenó la asombrosa diversidad observada en los peces teleósteos (

29.000 especies, casi la mitad de todos los vertebrados) [32].

4.3. La abundancia de intrones es el reservorio de patrones AS en eucariotas

Nuestro análisis mostró que los intrones están dispuestos de forma no aleatoria en diversos eucariotas. Los genes de los vertebrados se dividen típicamente en numerosos exones pequeños interrumpidos por intrones mucho más grandes. En nuestro análisis estadístico, hay intrones relativamente largos y exones cortos en 32 especies de vertebrados. Es una tendencia que la longitud de los intrones se haya expandido gradualmente en peces, anfibios, reptiles, aves y mamíferos (Tabla S1). Nuestro análisis sugiere que los intrones de vertebrados aumentaron de longitud durante la evolución de los vertebrados. Estudios anteriores indicaron que la longitud de los intrones se ha expandido gradualmente entre los mamíferos, mientras que la longitud de los exones se ha mantenido relativamente constante [34]. Algunos hallazgos han llevado a especulaciones de que el espliceosoma en los mamíferos reconoce principalmente los exones en un proceso denominado definición de exón, en contraposición al de los hongos donde los intrones se mantienen cortos y se cree que son la unidad reconocida en un proceso denominado definición de intrones [34]. [35].

Las longitudes de intrón y exón pueden reflejar las limitaciones impuestas por el reconocimiento de empalme, en función de si el exón se identifica a través del mecanismo de definición del intrón o del exón. Un gran número de intrones largos podría ser un reservorio de diversidad genética en vertebrados y pueden facilitar la selección de diferentes factores de empalme para AS durante la evolución. Diferentes longitudes de intrones se asocian con diferentes tipos de EA [36]. Los intrones largos podrían obstaculizar la actividad del empalme al interferir con el posicionamiento adecuado del empalme en las uniones exón-intrón [36]. Los intrones cortos tienden a flanquear los sitios de empalme débiles y los intrones largos tienden a flanquear los exones con sitios de empalme fuertes [16] [37]. AS es más abundante en eucariotas superiores que en eucariotas inferiores, y el porcentaje de genes que experimentan AS es mayor en vertebrados que en invertebrados [7]. Recientemente, una investigación de todo el genoma de los perfiles de AS a través de órganos y especies en especies de vertebrados, sugirió que los cambios de AS pueden ser una fuerza impulsora hacia un aumento de la complejidad celular durante la especiación de vertebrados [38]. Sin embargo, una última investigación corroboró que los cambios de límites y el deslizamiento completo de intrones son solo accidentales en la evolución del genoma eucariota [39]. El número de intrones en los vertebrados es mayor que en los otros linajes, por lo que es razonable suponer que la prevalencia de AS en los vertebrados es fundamental para su mayor complejidad fenotípica [40].

En general, nuestros resultados muestran características generales y específicas del genoma de las estructuras exón-intrón de genes eucariotas. La evolución de las estructuras exón-intrón aumenta en complejidad desde eucariotas inferiores a eucariotas superiores. Se encontraron algunas características específicas de especie de los genomas en muchos teleósteos y eucariotas inferiores. Este nuevo análisis de la organización genómica eucariota reveló algunas características específicas de linaje de exones e intrones, lo que allana el camino para futuras investigaciones sobre la conservación y diversificación de la evolución eucariota.

Nos gustaría agradecer al Dr. Yang Wang y Jun Yan por sus consejos sobre este estudio. Este trabajo fue apoyado por el siguiente fondo: Fundación Científica de Salud y Comisión de Planificación Familiar de la provincia de Hubei (WJ2016-Y-02).

Li, Y.F., Xu, Y.H. y Ma, Z.W. (2017) Análisis comparativo de la estructura exón-intrón en genomas eucariotas. Medicina Yangtze, 1, 50-64. https://doi.org/10.4236/ym.2017.11006

    Roy, S.W. y Gilbert, W. (2006) La evolución de los intrones spliceosomales: patrones, rompecabezas y progreso. Nature Reviews Genetics, 7, 211-221.
    https://doi.org/10.1038/nrg1807
    Graveley, B.R. (2001) Empalme alternativo: aumento de la diversidad en el mundo proteómico. Trends in Genetics, 17, 100-107.
    https://doi.org/10.1016/S0168-9525(00)02176-4
    Wang, E.T., Sandberg, R., Luo, S., Khrebtukova, I., Zhang, L., Mayr, C., Kingsmore, S.F., Schroth, G.P. y Burge, C.B. (2008) Regulación alternativa de isoformas en transcriptomas de tejidos humanos. Nature, 456, 470-476.
    https://doi.org/10.1038/nature07509
    Pan, Q., Shai, O., Lee, L.J., Frey, B.J. y Blencowe, B.J. (2008) Deep Surveying of Alternative Splicing Complexity in the Human Transcriptome by High-Throughput Sequencing. Nature Genetics, 40, 1413-1415.
    https://doi.org/10.1038/ng.259
    Stamm, S., Ben-Ari, S., Rafalska, I., Tang, Y., Zhang, Z., Toiber, D., Thanaraj, T.A. y Soreq, H. (2005) Función de empalme alternativo. Gene, 344, 1-20.
    Hertel, K.J. (2008) Control combinatorio del reconocimiento de exones. The Journal of Biological Chemistry, 283, 1211-1215.
    https://doi.org/10.1074/jbc.R700035200
    Keren, H., Lev-Maor, G. y Ast, G. (2010) Empalme alternativo y evolución: diversificación, definición y función de exón. Nature Reviews Genetics, 11, 345-355.
    https://doi.org/10.1038/nrg2776
    Jeffares, D.C., Mourier, T. y Penny, D. (2006) La biología de la ganancia y la pérdida de intrones. Tendencias en genética, 22, 16-22.
    https://doi.org/10.1016/j.tig.2005.10.006
    Schwartz, S.H., Silva, J., Burstein, D., Pupko, T., Eyras, E. y Ast, G. (2008) Análisis comparativo a gran escala de señales de empalme y sus correspondientes factores de empalme en eucariotas. Investigación del genoma, 18, 88-103.
    https://doi.org/10.1101/gr.6818908
    Sheth, N., Roca, X., Hastings, M.L., Roeder, T., Krainer, A.R. y Sachidanandam, R. (2006) Análisis completo del sitio de empalme usando genómica comparativa. Investigación de ácidos nucleicos, 34, 3955-3967.
    Iwata, H. y Gotoh, O. (2011) Análisis comparativo del contenido de información relevante para el reconocimiento de intrones en muchas especies. BMC Genomics, 12, 45.
    https://doi.org/10.1186/1471-2164-12-45
    Roy, M., Kim, N., Xing, Y. y Lee, C. (2008) El efecto de la longitud del intrón en las proporciones de creación de exones durante la evolución de los genomas de mamíferos. ARN, 14, 2261-2273.
    https://doi.org/10.1261/rna.1024908
    Kandul, N.P. y Noor, MA (2009) Grandes intrones en relación con el empalme alternativo y la evolución genética: un estudio de caso de Drosophila Bruno-3. BMC Genetics, 10, 67.
    https://doi.org/10.1186/1471-2156-10-67
    Moss, S.P., Joyce, D.A., Humphries, S., Tindall, K.J. y Lunt, D.H. (2011) El análisis comparativo de las secuencias del genoma de los teleósteos revela una expansión del tamaño de los intrones antiguos en el linaje del pez cebra. Biología y evolución del genoma, 3, 1187-1196.
    https://doi.org/10.1093/gbe/evr090
    Gelfman, S., Burstein, D., Penn, O., Savchenko, A., Amit, M., Schwartz, S., Pupko, T. y Ast, G. (2012) Cambios en la estructura de exón-intrón durante vertebrados La evolución afecta el patrón de empalme de exones. Investigación del genoma, 22, 35-50.
    https://doi.org/10.1101/gr.119834.110
    Dewey, C.N., Rogozin, I.B. y Koonin, E.V. (2006) Relación compensatoria entre los sitios de empalme y las señales de empalme exónico según la longitud de los intrones de vertebrados. BMC Genomics, 7, 311.
    https://doi.org/10.1186/1471-2164-7-311
    Deutsch, M. y Long, M. (1999) Estructuras intrón-exón de organismos modelo eucariotas. Investigación de ácidos nucleicos, 27, 3219-3228.
    https://doi.org/10.1093/nar/27.15.3219
    Bon, E., Casaregola, S., Blandin, G., Llorente, B., Neuveglise, C., Munsterkotter, M., Guldener, U., Mewes, HW, Van Helden, J., Dujon, B. y Gaillardin, C. (2003) Evolución molecular de los genomas eucariotas: intrones spliceosomales de levadura hemiascomicetosos. Investigación de ácidos nucleicos, 31, 1121-1135.
    https://doi.org/10.1093/nar/gkg213
    Rodríguez-Medina, J.R. y Rymond, B.C. (1994) Prevalencia y distribución de intrones en genes de proteínas no ribosomales de levadura. Genética molecular y general MGG, 243, 532-539.
    https://doi.org/10.1007/BF00284201
    Patel, A.A. y Steitz, J.A. (2003) Splicing Double: Insights from the Second Spliceosome. Nature Reviews Molecular Cell Biology, 4, 960-970.
    https://doi.org/10.1038/nrm1259
    Sterner, D.A., Carlo, T. y Berget, S.M. (1996) Límites arquitectónicos de los genes divididos. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 93, 15081-15085.
    https://doi.org/10.1073/pnas.93.26.15081
    Lim, L.P. y Burge, C.B. (2001) Un análisis computacional de las características de secuencia involucradas en el reconocimiento de intrones cortos. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 98, 11193-11198.
    https://doi.org/10.1073/pnas.201407298
    Rearick, D., Prakash, A., McSweeny, A., Shepard, S.S., Fedorova, L. y Fedorov, A. (2011) Asociación crítica de ncRNA con intrones. Investigación de ácidos nucleicos, 39, 2357-2366.
    https://doi.org/10.1093/nar/gkq1080
    Vinogradov, A.E. (2001) Longitud de intrón y uso de codón. Revista de evolución molecular, 52, 2-5. https://doi.org/10.1007/s002390010128
    Castillo-Davis, C.I., Mekhedov, S.L., Hartl, D.L., Koonin, E.V. y Kondrashov, F.A. (2002) Selección de intrones cortos en genes altamente expresados. Nature Genetics, 31, 415-418.
    https://doi.org/10.1038/ng940
    Berget, S.M. (1995) Reconocimiento de exones en el empalme de vertebrados. The Journal of Biological Chemistry, 270, 2411-2414.
    https://doi.org/10.1074/jbc.270.6.2411
    Ruby, S.W. y Abelson, J. (1991) Pre-mRNA Splicing in Yeast. Trends in Genetics, 7, 79-85.
    Derelle, E., Ferraz, C., Rombauts, S., Rouze, P., Worden, AZ, Robbens, S., Partensky, F., Degroeve, S., Echeynie, S., Cooke, R., Saeys , Y., Wuyts, J., Jabbari, K., Bowler, C., Panaud, O., Piegu, B., et al. (2006) El análisis del genoma del eucariota Ostreococcus tauri más pequeño de vida libre revela muchas características únicas. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 103, 11647-11652.
    https://doi.org/10.1073/pnas.0604795103
    Cardol, P., Bailleul, B., Rappaport, F., Derelle, E., Beal, D., Breyton, C., Bailey, S., Wollman, FA, Grossman, A., Moreau, H. y Finazzi , G. (2008) Una adaptación original de la fotosíntesis en el alga verde marina Ostreococcus. Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, 105, 7881-7886.
    https://doi.org/10.1073/pnas.0802762105
    Lander, ES, Linton, LM, Birren, B., Nusbaum, C., Zody, MC, Baldwin, J., Devon, K., Dewar, K., Doyle, M., FitzHugh, W., Funke, R ., Gage, D., Harris, K., Heaford, A., Howland, J., Kann, L. y col.(2001) Secuenciación inicial y análisis del genoma humano. Nature, 409, 860-921.
    https://doi.org/10.1038/35057062
    Venter, JC, Adams, MD, Myers, EW, Li, PW, Mural, RJ, Sutton, GG, Smith, HO, Yandell, M., Evans, CA, Holt, RA, Gocayne, JD, Amanatides, P., Ballew, RM, Huson, DH, Wortman, JR, Zhang, Q., et al. (2001) La secuencia del genoma humano. Science, 291, 1304-1351.
    https://doi.org/10.1126/science.1058040
    Meyer, A. y Van de Peer, Y. (2005) From 2R to 3R: Evidence for a Fish-Specific Genome Duplication (FSGD). BioEssays, 27, 937-945.
    https://doi.org/10.1002/bies.20293
    Shepard, S., McCreary, M. y Fedorov, A. (2009) Las peculiaridades del empalme de intrones grandes en animales. PLoS ONE, 4, e7853.
    https://doi.org/10.1371/journal.pone.0007853
    Schwartz, S. y Ast, G. (2010) Densidad de cromatina y destino de empalme: sobre la conversación cruzada entre la estructura de cromatina y el empalme. The EMBO Journal, 29, 1629-1636.
    https://doi.org/10.1038/emboj.2010.71
    Ast, G. (2004) ¿Cómo evolucionó el empalme alternativo? Nature Reviews Genetics, 5, 773-782.
    https://doi.org/10.1038/nrg1451
    Kim, E., Magen, A. y Ast, G. (2007) Diferentes niveles de empalme alternativo entre eucariotas. Investigación de ácidos nucleicos, 35, 125-131.
    https://doi.org/10.1093/nar/gkl924
    Weir, M. y Rice, M. (2004) La partición ordenada revela información de consenso extendido sobre el sitio de empalme. Investigación del genoma, 14, 67-78.
    https://doi.org/10.1101/gr.1715204
    Barbosa-Morais, NL, Irimia, M., Pan, Q., Xiong, HY, Gueroussov, S., Lee, LJ, Slobodeniuc, V., Kutter, C., Watt, S., Colak, R., Kim , T., Misquitta-Ali, CM, Wilson, MD, Kim, PM, Odom, DT, Frey, BJ, et al. (2012) El panorama evolutivo del empalme alternativo en especies de vertebrados. Science, 338, 1587-1593.
    https://doi.org/10.1126/science.1230612
    Bocco, S.S. y Cs & uumlr & oumls, M. (2016) Sitios de empalme rara vez Slide: Intron Evolution in Oomycetes. Biología y evolución del genoma, 8, 2340-2350.
    https://doi.org/10.1093/gbe/evw157
    Kornblihtt, A.R., Schor, I.E., Allo, M., Dujardin, G., Petrillo, E. y Munoz, M.J. (2013) Empalme alternativo: un paso fundamental entre la transcripción y la traducción eucariotas. Nature Reviews Molecular Cell Biology, 14, 153-165.
    https://doi.org/10.1038/nrm3525

Figura S1. La distribución de la longitud del intrón en las cinco especies de teleósteos.

Figura S2. Una comparación de los motivos de la señal de corte y empalme en seis especies dentro de intrones de 6 a 50 nt.


Los primeros pasos de la hipótesis de la intronización

Sugerimos que la capacidad de la célula para filtrar las transcripciones aberrantes, junto con el reconocimiento imperfecto del sitio de empalme [34, 35], puede proporcionar un poderoso mecanismo para generar intrones espliceosomales. Específicamente, si una región exónica que contiene PTC se empalma accidentalmente durante la maduración del ARNm y se conserva el marco de lectura abierto (ORF) de la transcripción, esa transcripción no provocará la vía de NMD, lo que proporciona el primer paso clave en el establecimiento de un nuevo intrón.

En este modelo, proponemos que las secuencias codificantes de proteínas que contienen fortuitamente la información de secuencia mínima requerida para el reconocimiento mediado por espliceosomas (ver señales de empalme en la Figura 1) tienen un potencial latente para experimentar empalme y para intronizar después de adquirir mutaciones PTC que interrumpen el ORF del mensaje. Aunque el empalme para eliminar un PTC puede ser inicialmente ineficaz, la degradación del conjunto de transcripciones que contienen PTC sin empalmar por NMD producirá un conjunto relativamente puro de ARNm maduros libres de PTC [21], manteniendo así el alelo empalmado en un estado posiblemente todavía activo . A continuación, dicho alelo puede someterse a una selección positiva para mutaciones posteriores que mejoren el corte y empalme de la región modificada.

Es más probable que los alelos mutantes con empalme compensador de PTC se establezcan si generan proteínas que retienen al menos algo de actividad. Por lo tanto, esperamos que los intrones que surgen de este proceso compartan ciertas características: (1) una longitud corta, minimizando así el número de codones perdidos y (2) una longitud de secuencia que es un múltiplo de tres, para preservar el ORF. Además, como la aparición de intrones en exones pequeños llevaría a la creación de dos exones flanqueantes aún más pequeños, cuyo empalme correcto podría verse comprometido [36], esperamos que los intrones nunca (o rara vez) emerjan en exones cortos o que la intronización incluya todo el exón. En el último caso, en particular, si el exón pequeño no es terminal, el proceso de intronización conduciría a la fusión de dos intrones y el exón abarcado y, por lo tanto, a la pérdida, en lugar de una ganancia, de un intrón. A menos que la escisión de la secuencia codificante recién intronizada tenga consecuencias deletéreas suficientemente importantes, la fijación del intrón nuevo puede ser selectivamente neutral o promovida por selección natural.


Distribución de tamaños de exón e intrón: biología

Predicción genética en eucariotas

La expresión genética es el proceso biológico mediante el cual una secuencia de ADN genera su producto, la proteína. Consta de dos pasos: transcripción y traducción. La ARN polimerasa utiliza una hebra de ADN como molde y produce ARNm (ARN mensajero). La secuencia de ARNm producida es complementaria a la hebra de ADN que se utilizó como molde. El proceso posterior, la traducción, sintetiza la proteína de acuerdo con la información codificada en el ARNm. Este proceso se realiza en los elementos subcelulares llamados ribosomas.

En el ARNm maduro, un triplete de bases, llamados codones, representan un aminoácido. Tres codones (UAA, UAG y UGA) indican el final de la traducción. Un código, AUG, indica el inicio de la traducción, así como el código de un aminoácido (Met). Cualquier secuencia de nucleótidos dada (cadena simple de ADN o ARNm) se puede interpretar de tres formas posibles. Estas tres formas se denominan marcos de lectura. Un marco de lectura abierto (ORF) es una secuencia de codones sin codón de parada. Las regiones codificantes son las características clave para explorar la secuencia de ADN tan distinguida. La secuencia de la señal (es decir, la frecuencia de los codones) es la característica importante para que podamos identificar el gen funcional. En la última clase, también discutimos los métodos del modelo de Markov, matrices de peso y frecuencia de codones, etc. para encontrar las regiones de codones en los procariotas.

Estructura del gen eucariota:

Hoy, continuamos nuestra discusión sobre el hallazgo de genes en eucariotas. Intentaremos integrar múltiples tipos de información de señales para predecir estructuras genéticas completas en secuencias genómicas. Nos centraremos en el artículo de Burge & amp Karlin. Como caso de estudio, analizamos un programa informático llamado GENSCAN que utiliza un modelo probabilístico general para la identificación de genes.

La estructura génica y el mecanismo de expresión génica en eucariotas son mucho más complicados que en procariotas. Al igual que en los procariotas, los eucariotas también tienen secuencias de señales como Promotores, iniciar / detener la transcripción e iniciar / detener la traducción, pero la secuencia puede ser más variable. La expresión génica en eucariotas tiene nuevas características. La transcripción de ADN a pre-ARNm por la ARN polimerasa II se procesa en el núcleo celular. Después de las moléculas de ARN nacientes producidas por la ARN polimerasa II, se agrega la 5 & # 8242-Cap (7-metilguanosina). La transcripción por la ARN polimerasa II termina en cualquiera de los múltiples sitios de terminación aguas abajo del sitio poli (A), que se encuentra en el extremo 3 & # 8242 del exón final. Después de que la transcripción primaria se escinde en el sitio poli (A), se agrega una cadena de residuos de adenina (A). Durante el paso final en la formación de un ARNm funcional maduro, se eliminan los intrones y se empalman los exones. Los ARNm maduros deben transportarse al citoplasma para procesar la traducción.

En eucariotas típicos, la región del ADN que codifica una proteína no suele ser continua. Esta región está compuesta por tramos alternados de exones e intrones. Durante la transcripción, tanto los exones como los intrones se transcriben en el ARN, en su orden lineal. A partir de entonces, tiene lugar un proceso llamado empalme, en el que las secuencias de intrones se eliminan y descartan de la secuencia de ARN. El método de la célula para identificar intrones es la presencia de señales de empalme de GT y AG que siempre ocurren como el primer y último dinucleótido de un intrón. Los segmentos de ARN restantes, los correspondientes a los exones, se ligan para formar la hebra de ARN madura. Un gen típico de múltiples exones tiene la siguiente estructura. Comienza con la región promotora, seguida de una región transcrita pero no codificante denominada región 5 'no traducida (5' UTR). Luego sigue el exón inicial que contiene el codón de inicio. Después del exón inicial, hay una serie alterna de intrones y exones internos, seguidos del exón de terminación, que contiene el codón de terminación. Le sigue otra región no codificante llamada 3 'UTR. Finalizando el gen eucariota, hay una señal de poliadenilación (poliA): el nucleótido adenina se repite varias veces. El proceso importante es que la región que comienza con 10-30 nucleótidos después de una señal de poliadenilación, generalmente AATAAA, se corta y se reemplaza por una cadena de varios cientos de A, llamada cola poli-A. Los límites exón-intrón (es decir, los sitios de corte y empalme) están señalados por secuencias cortas específicas (2 pb de longitud). El extremo 5 '(3') de un intrón (exón) se denomina sitio donante (señal de empalme: GT), y el extremo 3 '(5') de un intrón (exón) se denomina aceptor (señal de empalme: AG ). El punto de ramificación es un punto de anclaje que aparece con frecuencia en el intrón. Otra característica estadística es un área rica en pirimidina (bases C, T) que aparece entre el punto de ramificación y el sitio aceptor. Probablemente hay un 35% de genes empalmados alternativamente, lo que significa que, en diferentes circunstancias, se seleccionan diferentes combinaciones de exones.

Alguna característica estadística:

El ejemplo de los genes vertebrados:

En promedio, alrededor de 6 exones abarcan un gen de vertebrado de 30 Kb de longitud. La región de codificación promedio tiene solo aproximadamente 1 Kb de longitud. Cada exón tiene una longitud aproximada de 150 pb. El promotor tiene una longitud de aproximadamente 6 pb y aparece aproximadamente 30 pb cadena arriba del sitio de inicio de la transcripción (TSS).

Hay grandes desviaciones de la estructura genética promedio de los eucariotas. Por ejemplo, el gen de la distrofina tiene aproximadamente 2,4 MB de longitud. El tamaño de 26 exones en el factor de coagulación sanguíneo varía de 69 pb a 3106 pb. La región de codificación total tiene una longitud de aproximadamente 186 Kb. Los intrones son de hasta 32,4 kb. El intrón número 22 produce 2 transcripciones no relacionadas con este gen, una para cada hebra.

Una UTR de 5 promedio tiene una longitud de 750 pb, pero puede ser más larga y abarcar varios exones (por ejemplo, en la familia MAGE). En promedio, la 3 UTR tiene aproximadamente 450 pb de largo, pero existen ejemplos donde su longitud excede los 4 Kb (por ejemplo, el gen del síndrome de Kallman).

Variación en el tamaño total del gen y el tamaño del intrón:

Existe una variación considerable en el tamaño total del gen y el tamaño del intrón. Muchos genes tienen más de 100 kb de longitud. El ejemplo máximo conocido es el gen de la distrofina (DMD) (2,4 Mb). La variación en la distribución del tamaño de las secuencias codificantes y los exones es menos extrema, aunque hay algunos valores atípicos notables. El gen de la titina tiene la secuencia codificante más larga conocida actualmente con 80.780 pb, también tiene el mayor número de exones (178) y el exón único más largo (17.106 pb).

Comparación de genes humanos, gusanos y moscas:

Longitud similar de secuencias de codificación.

La mayoría de los exones internos se encuentran dentro de un pico común entre 50 y 200 pb

Las distribuciones de tamaño de intrones difieren sustancialmente

o gusano y mosca cada uno tiene un razonablemente apretado

o los humanos tienen una distribución mucho más amplia

La variación en el tamaño del intrón da como resultado una gran variación en el tamaño de los genes

GENSCAN, un programa informático para la identificación de genes. El programa utiliza un conjunto de entrenamiento de genes completamente secuenciados de GenBank como conjunto de prueba.

Los datos de transición de GeneScan incluyen:

Las características importantes de GENSCAN incluyen:

GENSCAN identifica estructuras completas de exón / intrón de genes en el ADN genómico.

Puede predecir múltiples genes en una secuencia, para tratar tanto genes parciales como completos.

Capacidad para predecir conjuntos consistentes de genes que ocurren en una o ambas cadenas de ADN.

Capacidad para predecir tanto la anotación óptima como los exones subóptimos.

Se ha demostrado que GENSCAN tiene una precisión sustancialmente mayor que los métodos existentes cuando se prueba en conjuntos estandarizados de genes humanos y de vertebrados. El programa también es capaz de indicar con bastante precisión la fiabilidad de cada exón predicho.

GENSCAN utiliza diferentes modelos de señales para modelar diferentes unidades funcionales. Uno de los modelos es el modelo de matriz de peso (WMM) en el que cada puesto tiene su propia distribución independiente específica. Se utiliza para modelar señales de poliadenilación, señal de inicio de traducción, señal de terminación de traducción y promotores.

Modelos de matriz de peso (WMMS)

Las señales de poliadenilación se modelan como un WMM de 6 pb (consenso: AATAAA).

Se utiliza un modelo WMM® de 12 pb, que comienza 6 pb antes del codón de iniciación, para la señal de iniciación de la traducción.

Para la señal de terminación de la traducción, se genera uno de los tres codones de terminación de acuerdo con su frecuencia observada en el conjunto de aprendizaje y los siguientes tres nucleótidos se generan de acuerdo con un WMM.

Promotor: dado que aproximadamente el 30% de los promotores eucariotas carecen de una señal TATA aparente, GENSCAN utiliza un modelo dividido en el que se genera un promotor que contiene TATA con una probabilidad de 0,7 y un promotor sin TATA con una probabilidad de 0,3. El promotor que contiene TATA se modela utilizando un WMM de caja TATA de 15 pb y una señal de tapa de 8 pb WMM. La longitud entre los WMM se genera uniformemente desde el rango de 14 a 20 nucleótidos, correspondiente a una distancia del sitio de la tapa TATA de 30 a 36 pb, desde la primera T de la matriz de la caja TATA hasta el sitio de la tapa (inicio de la transcripción) . Los promotores sin TATA se modelan simplemente como regiones nulas intergénicas de 40 pb de longitud.

Descomposición de dependencia máxima (MDD).

Los sitios de empalme de donantes se modelan mediante la descomposición de dependencia máxima. Una observación muy común es que existen fuertes dependencias entre las posiciones adyacentes y no adyacentes en la señal de empalme del donante. La descomposición de la dependencia máxima está diseñada para capturar exactamente este tipo de dependencias. (continuará )

1. Predicción de estructuras genéticas completas en el ADN genómico humano , ChrisBurge, Samuel Karlin. Revista de Biología Molecular, vol. 268, núm. 1, abril de 1997, págs. 78-94

2. Secuenciación inicial y análisis del genoma humano. Lander ES y col. Nature 2001 Feb 15409 (6822): 860-921


Tamaño del intrón y evolución del exón en Drosophila

Hemos encontrado una correlación negativa entre la tasa de evolución a nivel de proteínas (medida por Dnorte) y el tamaño del intrón en Drosophila. Aunque se espera tal relación si los intrones reducen la interferencia de Hill-Robertson dentro de los genes, parece más probable que se explique por la mayor abundancia de cis-Elementos reguladores en intrones (especialmente primeros intrones) en genes sometidos a fuertes restricciones selectivas.

El ADN NO CODIFICANTE es un componente importante de los genomas eucariotas, pero sabemos poco acerca de las fuerzas que afectan su evolución. En particular, el tamaño del intrón varía dentro del genoma y entre los genomas, pero las razones de esto no están claras. El tamaño del intrón está influenciado por varios factores (C omeron 2001 D uret 2001): la inserción de elementos transponibles (B artolom é et al. 2002 G. M arais, datos no publicados), la presencia de elementos reguladores que controlan la expresión génica (B ergman y K reitman 2001), la presencia de genes de ARN (M axwell y F ournier 1995) o ARN implicados en la regulación de genes (p.ej., miARN) (M attick 2001), la frecuencia y el tamaño de los eventos de deleción (P etrov et al. 2000 P etrov 2002), selección para reducir el costo energético de la transcripción (C arvalho y C lark 1999 C astillo -D avis et al. 2002), selección para mantener dominios cromosómicos activos relativamente pequeños (P. rachumwat et al. 2004) y reducción de la interferencia de Hill-Robertson entre exones (C omeron y K reitman 2000).

La interferencia de Hill-Robertson ocurre cuando varios sitios genéticamente ligados están siendo seleccionados al mismo tiempo (H ill y R obertson 1966 G ordo y C harlesworth 2001). Cuando surgen inicialmente alelos ventajosos en la población, generalmente no se asociarán entre sí, porque las mutaciones aparecen al azar en individuos separados. En ausencia de recombinación, una mutación ventajosa tenderá a desplazar a todas las demás (F isher 1930 M uller 1932). En presencia de recombinación, los alelos ventajosos se pueden combinar juntos para generar el genotipo óptimo. Se puede hacer un argumento similar para los efectos de las mutaciones deletéreas recurrentes sobre la propagación de alelos ventajosos (F isher 1930 C harlesworth 1994 P eck 1994 O rr 2000). Por tanto, se espera que la selección sea más eficaz en presencia de recombinación que en su ausencia. Por lo tanto, los eventos selectivos que ocurren en una región del genoma se facilitarían si hubiera un potenciador de la recombinación cerca. Los intrones podrían actuar como tales potenciadores, porque aumentan la posibilidad de que se produzca un cruce entre sitios en dos exones diferentes al espaciarlos, lo que permite una selección más eficiente de variantes en diferentes regiones codificantes del mismo gen (C omeron y K reitman 2000). .

Si tal interferencia es importante, esperaríamos que la eficacia de la selección fuera mayor en genes con intrones más grandes, en igualdad de condiciones. Comeron y Kreitman diseñaron una prueba basada en el efecto del tamaño del intrón en la selección sobre el uso de codones en Drosophila melanogaster (C omeron y K reitman 2002). Se cree que este tipo de selección es muy débil (nortemis ∼ 1, donde nortemi es el tamaño efectivo de la población y s el coeficiente de selección contra una mutación en un codón no óptimo), y por lo tanto es particularmente propenso a generar efectos de interferencia, porque la probabilidad de que varios sitios sinónimos se segreguen en el mismo gen al mismo tiempo es alta (G ordo y C harlesworth 2001). Descubrieron que el nivel medio de sesgo de codones entre genes extraídos del D. melanogaster La secuencia del genoma no se vio afectada por la presencia / ausencia de intrones. Luego examinaron los codones ubicados en el medio del gen (llamados codones "centrales"), que están más sujetos a interferencias porque tienen más codones vecinos.C omeron y K. reitman (2002) encontraron que el nivel de sesgo de codones para estos codones centrales aumentó leve pero significativamente en genes con intrones centrales, en comparación con genes que carecen de dichos intrones, de acuerdo con la hipótesis de interferencia.

Los intrones también podrían reducir la interferencia entre mutaciones débilmente seleccionadas en sitios de aminoácidos dentro del mismo gen. Esto implica que la tasa de sustituciones no sinónimas por sitio (Dnorte) estaría influenciado por el tamaño del intrón. Sin embargo, la medida en que Dnorte está influenciado por la selección purificadora vs. la selección positiva no está clara (Akashi 1999 H urst 2002). Si la evolución de la secuencia de proteínas se debe principalmente a la fijación de mutaciones ventajosas débilmente seleccionadas (selección positiva), la correlación entre Dnorte y el tamaño del intrón debe ser positivo. Por el contrario, si es impulsada por la fijación por deriva de mutaciones deletéreas débilmente seleccionadas (selección purificadora), la correlación debe ser negativa (H urst 2002). Para distinguir entre estas dos alternativas y probar el efecto del tamaño del intrón en Dnorte, utilizamos 630 pares de genes ortólogos de D. melanogaster y D. yakuba (de D omazet -L oso y T autz 2003) para estimar Dnorte utilizando PAML con parámetros predeterminados (G oldman e Y ang 1994). Se dan más detalles en M arais. et al. (2004) (el conjunto de datos se puede descargar en http://biomserv.univ-lyon1.fr/

marais / dataIntronSize /). Examinamos la correlación entre Dnorte valores y tamaño del intrón en D. melanogaster. Usamos solo los 570 genes que probablemente estén ubicados en regiones de alta recombinación en esta especie (M arais et al. 2004), ya que se sabe que los genes en regiones de baja recombinación (cerca de los centrómeros o telómeros y en el cromosoma 4) acumulan elementos transponibles en sus regiones no codificantes, y sus tamaños de intrones pueden tener una dinámica evolutiva inusual (B artolom é et al. 2002 R izzon et al. 2002). Los resultados no difirieron significativamente cuando se incluyeron pares de genes de regiones de baja recombinación (datos no mostrados).

Encontramos eso Dnorte es (1) casi dos veces menor en genes con intrones que en genes sin intrones (una prueba no paramétrica de Kolmogorov fue significativa con PAG = 0.02, ver Figura 1A) y (2) correlacionados negativamente con el tamaño total del intrón (coeficiente de correlación no paramétrico de Spearman Rs = −0.19, PAG & lt 10 −4, consulte la Figura 1B). La figura 1C muestra que existen claras diferencias en la media Dnorte valores entre las categorías de tamaño de intrón y que la correlación observada no se debe a los efectos de valores atípicos. Se encontró una relación similar entre Dnorte/DS y el tamaño del intrón (Rs = −0.10, PAG & lt 10 −4), donde DS es la tasa de sustitución de sinónimos por sitio. Esto elimina la posibilidad de que una correlación entre las tasas de mutación puntual (reflejada en DS) y las tasas de deleción (que potencialmente afectan el tamaño del intrón) explican los resultados. El tamaño total del intrón está influenciado tanto por el tamaño del intrón individual como por el número de intrones. También hemos definido un nuevo índice (distancia relativa entre sitios, RDS), que da una mejor medida del efecto de los intrones sobre la distancia entre codones dentro de un gen. Es la suma de las distancias por pares (en bases) para todos los codones dentro de un gen, dividida por la suma de las distancias por pares para todos los codones dentro de la secuencia de codificación con los intrones empalmados. Un gen sin intrones tendría RDS = 1 y un gen con intrones tendría RDS & gt 1, con un valor que depende del número, la posición y el tamaño de estos intrones. Encontramos una correlación ligeramente más fuerte de Dnorte con RDS que con el tamaño del intrón (Rs = −0.24, PAG & lt 10 −4).

La relación entre el tamaño del intrón y la tasa de sustituciones no sinónimas por sitio (Dnorte) en D. melanogaster. (A) Dnorte es 1,6 veces menor en genes con intrones que en genes sin intrones (un Kolmogorov no paramétrico, PAG = 0,02). Como en el resto del artículo, utilizamos estadísticas no paramétricas porque la mayoría de las variables con las que estamos tratando no siguen la distribución normal. Las barras de error son intervalos de confianza del 95%. (B) Dnorte está correlacionado negativamente con el tamaño total del intrón (coeficiente de correlación no paramétrico de Spearman Rs = −0.19, PAG & lt 10 −4). (C) Dnorte para diferentes categorías de tamaño de intrón (cada categoría contiene aproximadamente el 20% de los genes). Las barras de error son intervalos de confianza del 95%.

Todos los resultados anteriores son consistentes con la hipótesis de interferencia. A primera vista, sugieren que (1) la selección purificadora es el principal determinante de Dnorte y (2) la selección de purificación es más fuerte en presencia de intrones. En otras palabras, las mutaciones débilmente deletéreas en los sitios de aminoácidos del mismo gen parecen eliminarse más eficazmente cuando el gen posee intrones. Pero debemos considerar hipótesis alternativas. Las hipótesis de selección frente al costo energético de los intrones (C arvalho y C lark 1999 C astillo -D avis et al. 2002) y de selección contra grandes intrones en dominios cromosómicos activos (P. rachumwat et al. 2004) ambos predicen una correlación negativa en todo el genoma entre el tamaño del intrón y el nivel de expresión, que de hecho se ha observado en Caenorhabditis elegans y humanos (C astillo -D avis et al. 2002). Utilizando un conjunto de datos previamente publicado sobre el tamaño del intrón y el nivel de expresión génica [estimado a partir de los datos de etiqueta de secuencia expresada (EST)], compilado para el genoma completo de D. melanogaster (M arais y P iganeau 2002), encontramos que el tamaño del intrón también se correlaciona negativamente con el nivel de expresión en esta especie, aunque esta correlación es muy débil (Rs = −0.01, PAG = 0,01). Por otro lado, es bien sabido que la evolución de las proteínas está relacionada con la expresión génica: los genes altamente expresados ​​tienden a evolucionar más lentamente en los mamíferos (Duret y M ouchiroud 2000) y Drosophila (M arais et al. 2004). Sin embargo, si la correlación entre Dnorte y el tamaño del intrón que hemos detectado es un subproducto de la expresión génica, deberíamos observar una correlación positiva entre Dnorte y tamaño del intrón, dadas las correlaciones entre estos parámetros y el nivel de expresión. La selección para un tamaño de intrón reducido (debido a los costos energéticos o al tamaño del dominio cromosómico), por lo tanto, no parece explicar nuestros resultados.

Una explicación alternativa implica la presencia en intrones de elementos reguladores que controlan la expresión génica. En particular, si los genes más conservados tienen más elementos de este tipo (ya que los niveles de expresión de dichos genes pueden necesitar un control más preciso), esperaríamos una relación negativa entre Dnorte y tamaño del intrón. Los elementos reguladores son más frecuentes en los primeros intrones que en otros intrones en mamíferos (M ajewski y O tt 2002 K eightley y G affney 2003 C hamary y H urst 2004) y posiblemente también en Drosophila (Duret 2001). De acuerdo con esto, los primeros intrones son casi dos veces más grandes que otros intrones en vertebrados y Drosophila (Duret 2001), lo que también es cierto para nuestro conjunto de datos (primeros intrones, media de 518 pb otros, media de 294 pb PAG & lt 10 −4 en una prueba de Kolmogorov). En segundo lugar, encontramos que su tamaño está significativamente correlacionado positivamente con el nivel de expresión (Rs = 0.22, PAG & lt 10 −4), mientras que otros intrones no muestran una correlación significativa (Rs = 0,10, NS). Esto se confirma mediante un análisis de todo el genoma (Figura 2). En tercer lugar, analizando una alineación previamente publicada de 163 intrones de D. melanogaster y D. simulanos (H alligan et al. 2004), encontramos que la divergencia de intrones está significativamente correlacionada negativamente con el tamaño de los primeros intrones (Rs = −0.29, PAG = 0.03) aunque existe una correlación negativa para los otros intrones, no es significativa (Rs = −0,14, NS).

La relación entre el tamaño del intrón y el nivel de expresión (estimado mediante el recuento de EST) para el genoma completo de D. melanogaster (conjunto de datos de M arais y P iganeau 2002). Para los primeros intrones, Rs = 0.06, PAG & lt 10 −4. Para otros intrones, Rs = −0,03, NS. Solo se incluyeron intrones ubicados en regiones de alta recombinación (se muestra el número total de estos intrones). Las barras de error son intervalos de confianza del 95%.

Para probar más esta hipótesis, examinamos la relación entre la evolución de la proteína y el tamaño del intrón para el primer y otros intrones por separado. Para los primeros intrones, observamos una correlación similar a la de todos los intrones (Rs = −0.20, PAG & lt 10 −4, norte = 450), pero no existe una correlación significativa para los otros intrones (Rs = −0,06, NS, norte = 302). Además, la tendencia sigue siendo visible cuando solo se incluyen genes con más de un intrón (para los primeros intrones Rs = −0.15, PAG & lt 10 −4, norte = 302). Este resultado es sorprendente, porque sugiere que la presencia de elementos reguladores dentro de los intrones es la explicación más probable de la asociación entre la evolución de las proteínas y el tamaño del intrón en Drosophila, ya que no esperamos tal resultado con las hipótesis alternativas, incluida la de Hill. -Interferencia de Robertson. Sin embargo, los primeros intrones pueden tener el efecto secundario de aumentar la recombinación dentro de un gen. De hecho, contribuyen con el 54% de la variabilidad en la longitud total del intrón, por lo que la mayor parte de la variación en el tamaño del intrón se debe a los primeros intrones. Para probar esto, comparamos Dnorte y el tamaño del intrón después de eliminar los efectos de la expresión génica, pero no encontró una correlación significativa (Rs = −0,08, NS), lo que sugiere que la presencia de elementos reguladores dentro de los intrones puede ser suficiente para explicar nuestros resultados.

Nuestras observaciones no parecen apoyar la hipótesis de la interferencia, pero no nos permiten descartarla. El alcance de la interferencia de Hill-Robertson entre los sitios de aminoácidos bajo selección no se comprende muy bien, ni teórica ni empíricamente. Algunos trabajos recientes sugieren que tal interferencia puede explicar una aparente relación entre la tasa de recombinación y Dnorte en una comparación de D. melanogaster y D. simulanos (Betancourt y P resgraves 2002), pero el significado de esta relación ha sido cuestionado recientemente (M arais y C harlesworth 2003 M arais et al. 2004). Si hay poca o ninguna interferencia entre los sitios de aminoácidos dentro del mismo gen, los intrones tendrían un efecto solo sobre la eficacia de la selección en sitios sinónimos dentro de un gen. Sin embargo, este efecto es muy débil. El trabajo anterior muestra que los intrones están asociados con un cambio en la frecuencia media de los codones óptimos del 64 al 68% y solo para un subconjunto de codones (los centrales, ver más arriba). Esto está de acuerdo con la correlación muy débil entre el tamaño del intrón y las tasas de recombinación informadas anteriormente (C arvalho y C lark 1999 C omeron y K reitman 2000) y sugiere que la interferencia explica solo una fracción muy pequeña de la variabilidad en el tamaño del intrón en los genomas eucariotas.

Hemos encontrado que el tamaño del intrón se correlaciona globalmente negativamente con el nivel de expresión en Drosophila, como se informó para otros eucariotas (C astillo -D avis et al. 2002). Sin embargo, cuando dividimos los intrones en los primeros intrones vs. en los demás, encontramos que el tamaño del primer intrón se correlaciona significativamente de forma positiva con el nivel de expresión. Esto no contradice las hipótesis de selección para reducir el costo de transcripción de intrones (C arvalho y C lark 1999 C astillo -D avis et al. 2002) y selección contra grandes intrones en dominios cromosómicos activos (P. rachumwat et al. 2004), que se propusieron para explicar la relación negativa entre el tamaño del intrón y el nivel de expresión. Significa simplemente que los primeros intrones de Drosophila no siguen la tendencia general, probablemente porque estos intrones están enriquecidos en elementos reguladores, que parecen ser más frecuentes en genes altamente expresados. Sin embargo, este no parece ser el caso en humanos, donde los primeros intrones son más pequeños en genes expresados ​​de manera ubicua que en genes expresados ​​de manera estrecha, aunque la diferencia es mucho menor que la de otros intrones (C omeron 2004). Se necesita más investigación para comprender esta diferencia entre Drosophila y los humanos.

Nuestros resultados sugieren que los genes con una secuencia de aminoácidos de evolución más lenta (bajo Dnorte) también pueden tener más elementos reguladores, particularmente en sus primeros intrones, y que esto genera la relación observada entre Dnorte y tamaño del intrón. Ya se ha demostrado que los genes altamente conservados tienen patrones de expresión especiales. Duret y M ouchiroud (2000) demostraron que estos genes se expresan mucho más ampliamente que otros en los mamíferos. Sugirieron que esto se debe a que las mutaciones en los genes domésticos afectan a más tejidos que las mutaciones en genes específicos de tejido y, por lo tanto, tendrán efectos más importantes en la aptitud. Esto los haría mucho más limitados, aunque son posibles otras explicaciones (A kashi 2001, 2003). Más recientemente, C astillo -D avis et al. (2004) han demostrado que la divergencia de la secuencia de proteínas se correlaciona con la de cis-Elementos regulatorios. Para medir esto último, definieron un nuevo índice, DSM (la fracción de ambas secuencias no codificantes que no contiene una región de alineación significativa), y la calculó para un conjunto de secuencias genómicas alineadas de C. elegans y C. briggsae. Demostraron que (1) se correlaciona positivamente con las diferencias de expresión entre nematodos, (2) las secuencias compartidas corresponden a motivos conocidos experimentalmente para la expresión génica y (3) DSM es grande en regiones intergénicas no promotoras. Luego observaron que DSM y Dnorte se correlacionan positivamente en los nematodos, lo que sugiere que las presiones selectivas sobre la expresión génica y la evolución de la secuencia de proteínas están acopladas (C astillo -D avis et al. 2004). Se ha llegado a una conclusión similar por diferentes motivos para Drosophila (N uzhdin et al. 2004). Esto es totalmente coherente con nuestras observaciones y con la idea de que la selección de la presencia de elementos reguladores puede afectar la evolución del tamaño del intrón.


La comparación de genomas mitocondriales proporciona información sobre la dinámica intrónica y la evolución en Botryosphaeria dothidea y B. kuwatsukai

Por correspondencia. Correo electrónico [email protected] Tel. 86-29-87092075.

Laboratorio Estatal Clave de Biología del Estrés de Cultivos en Áreas Áridas y Facultad de Protección Vegetal, Universidad Northwest A&F, Yangling, Shaanxi, 712100 China

Laboratorio clave del MOE para redes inteligentes y seguridad de redes, Facultad de Ingeniería Electrónica y de la Información, Universidad Xi'an Jiaotong, Xi'an, 710049 China

Laboratorio Estatal Clave de Biología del Estrés de Cultivos en Áreas Áridas y Facultad de Protección Vegetal, Universidad Northwest A&F, Yangling, Shaanxi, 712100 China

Laboratorio Estatal Clave de Biología del Estrés de Cultivos en Áreas Áridas y Facultad de Protección Vegetal, Universidad Northwest A&F, Yangling, Shaanxi, 712100 China

Laboratorio Estatal Clave de Biología del Estrés de Cultivos en Áreas Áridas y Facultad de Protección Vegetal, Universidad Northwest A&F, Yangling, Shaanxi, 712100 China

Facultad de Ciencias Ambientales, Universidad de Guelph, Guelph, ON, N1G 2W1 Canadá

Departamento de Fitopatología y Microbiología, Universidad Estatal de Iowa, Ames, IA, 50011 EE. UU.

Laboratorio Estatal Clave de Biología del Estrés de Cultivos en Áreas Áridas y Facultad de Protección Vegetal, Universidad Northwest A&F, Yangling, Shaanxi, 712100 China

Laboratorio Estatal Clave de Biología del Estrés de Cultivos en Áreas Áridas y Facultad de Protección Vegetal, Universidad Northwest A&F, Yangling, Shaanxi, 712100 China

Por correspondencia. Correo electrónico [email protected] Tel. 86-29-87092075.

Resumen

Botryosphaeria dothidea es uno de los hongos patógenos más comunes en un gran número de huéspedes en todo el mundo. Botryosphaeria dothidea y B. kuwatsukai son también los principales agentes causales de la pudrición del anillo de la manzana. En este estudio, secuenciamos, ensamblamos y anotamos los mitogenomas circulares de 12 diferentes B. dothidea aislados (105,7-114,8 kb) que infectan varias plantas, incluida la manzana, y cinco B. kuwatsukai aislamientos (118,0-124,6 kb) de manzana. B. dothidea los mitogenomas albergaban un conjunto de 29 a 31 intrones y 48 a 52 ORF. A diferencia de, B. kuwatsukai los mitogenomas albergaban más intrones (32-34) y ORF (51-54). La variación en el tamaño del mitogenoma se asoció principalmente con diferentes números de intrones e inserciones de elementos genéticos móviles. Curiosamente, B. dothidea y B. kuwatsukai mostró distintos patrones de distribución de intrones, con tres loci de intrones que muestran la dinámica de presencia / ausencia en cada especie. Un gran número de intrones (57% en B. dothidea y 49% en B. kuwatsukai) probablemente se obtuvieron mediante transferencia horizontal de no Dothideomycetes. La filogenia del gen mitocondrial apoyó la diferenciación de las dos especies. En general, este estudio arroja luz sobre la evolución mitocondrial de los patógenos vegetales. B. dothidea y B. kuwatsukai, y los patrones de distribución de intrones podrían ser marcadores útiles para estudios sobre diversidad de poblaciones.

Figura S1. El árbol filogenético ML del género Botryosphaeria (Tabla S1) construido usando dos fabricantes genómicos combinados ITS y EF-1α. Los porcentajes de arranque derivados de 1000 réplicas se indican en los nodos. Bar = 0,01 sustituciones por posición de nucleótido. Los diferentes colores y tamaños de línea utilizados fueron para distinguir áreas superpuestas (ubicación de bootstrap 87). Neofusicoccum luteum se utilizó como un grupo externo.

Figura S2. Comparación de tamaños de mitogenoma entre B. dothidea y B. kuwatsukai aislamientos. La diferencia de significancia se calculó mediante la prueba t.

Figura S3. Relación de sustituciones de nucleótidos no sinónimos / sinónimos (Ka / Ks). Las proporciones se calcularon entre los 12 genes codificadores de proteínas del genoma mitocondrial entre B. dothidea y B. kuwatsukai.

Figura S4. Árbol filogenético ML basado en 12 proteínas del núcleo mitocondrial concatenadas (cob-cox1-cox2-nad4L-nad5-atp6-nad1-nad4-nad6-cox3-nad2-nad3). El árbol que se muestra aquí fue la mejor topología recuperada de ML mediante el software RAxML. Los valores de soporte de los análisis de ML se proporcionaron para los nodos que recibieron fuertes soportes. Bar = 0,02 sustituciones por posición de nucleótido. Zymoseptoria tritici se utilizó como un grupo externo.

Cuadro S1. Accesiones de GenBank de cuatro marcadores de ADN nuclear de 17 aislamientos.

Cuadro S2. Tamaños y contenido del genoma mitocondrial entre especies seleccionadas de la clase Dothideomycetes (Órdenes Botryosphaeriales, Capnodiales y Pleosporales).

Cuadro S3. Comparación de variaciones de nucleótidos en regiones exónicas e intrónicas entre diferentes B. dothidea aislamientos.

Cuadro S4. Co-conversión de secuencias de exones debido a inserciones de intrones.

Cuadro S5. Comparación de variaciones de nucleótidos en regiones exónicas e intrónicas entre diferentes B. kuwatsukai aislamientos.

Cuadro S6. Resultados de autoalineación de secuencias de nucleótidos intrones de B. dothidea TCPTT1 usando BLASTN.

Cuadro S7. Resultados de la alineación de las secuencias de nucleótidos intrones de B. kuwatsukai PGYT19 usando BLASTN.

Cuadro S8. Resultados de BLAST en línea de intrones identificados en B. dothidea Mitogenoma TCPTT1.

Cuadro S9. Resultados de BLAST en línea de intrones identificados en B. kuwatsukai Mitogenoma PGYT19.

Cuadro S10. Patrones intrones de presencia / ausencia de los doce B. dothidea aislamientos y cinco B. kuwatsukai aislamientos.

Tenga en cuenta: El editor no es responsable del contenido o la funcionalidad de la información de apoyo proporcionada por los autores. Cualquier consulta (que no sea contenido faltante) debe dirigirse al autor correspondiente del artículo.


Resultados

CE4 modula la omisión del exón 7B in vivo

Anteriormente, informamos sobre la identificación de un elemento de 150 nucleótidos (CE1) que promueve la utilización del sitio de empalme 5 'distal in vitro y omisión del exón 7B en vivo (Chabot et al., 1997). CE1 se encuentra en el intrón corriente arriba del exón alternativo 7B (Figura 1), y una porción mínima de CE1 (CE1a 17 nucleótidos) puede activar la selección del sitio de empalme 5 'distal in vitro (Chabot et al., 1997). Es probable que la actividad de CE1a esté mediada por una interacción con la proteína hnRNP A1, ya que una mutación que compromete la unión de A1 a CE1a evita la activación del sitio de empalme 5 'distal in vitro (Chabot et al., 1997). La inspección visual de la secuencia de ratón corriente abajo del exón 7B reveló un sitio de unión putativo de A1 idéntico al encontrado en CE1a (UAGAGU). Esta secuencia es parte de una región conservada de 24 nucleótidos que denominamos CE4 (Figura 1). HnRNP A1 se une a CE4 in vitro (ARN S13 en Chabot et al., 1997). Para verificar si CE4 también modula el empalme del pre-ARNm de A1 en vivo, expresamos transitoriamente en células HeLa una porción genómica de la unidad de corte y empalme alternativa hnRNP A1 de ratón bajo el control del promotor del citomegalovirus (CMV) (Figura 2A). El análisis de RT-PCR del ARN total indicó que la expresión del minigén A1 de tipo salvaje produjo preferentemente transcripciones que carecen del exón 7B (Figura 2B, carriles 4 y 12). Este perfil de corte y empalme reproduce los niveles de ARNm endógenos de A1 y A1 B (datos no mostrados). Como se mostró anteriormente (Chabot et al., 1997), la deleción de CE1 mejoró la frecuencia relativa de inclusión del exón 7B (Figura 2B, carril 5). La reinserción del elemento CE1a mínimo de 17 nucleótidos casi restauró el perfil de tipo salvaje de omisión de exón (carril 8). Asimismo, la deleción de una región de 113 nucleótidos que contiene CE4 promovió la inclusión del exón 7B (A1 Delta CE4 Figura 2B, carriles 6 y 13). Si bien la reinserción de una secuencia no relacionada no tuvo ningún efecto (datos no mostrados), la inserción de CE4 (24 nucleótidos) restauró la omisión eficiente del exón 7B (A1RCE4 carril 14). En particular, la deleción de CE4 fue tan eficaz como la deleción de CE1 y CE4 (Figura 2B, A1ΔΔ carril 7, ver Figura 2C para la cuantificación). Estos resultados indican que CE4 contiene secuencias que promueven la omisión del exón 7B.

CE4 promueve la selección del sitio de empalme distal 5 'in vitro

La actividad de CE4 en la selección del sitio de empalme 5 ' in vitro se investigó utilizando transcripciones modelo que contienen los sitios de corte y empalme 5 'del exón 7 y 7B en competencia por el sitio de corte y empalme 3' del exón L2 del adenovirus (Figura 3A). El pre-ARNm del modelo básico carece de CE1a y CE4 y se empalma casi exclusivamente en el sitio de empalme proximal 5 '(C5' - / - Figura 3B, carril 1). La inserción de CE1a y CE4 en la posición aguas arriba y aguas abajo, respectivamente, estimuló el empalme en el sitio de empalme 5 'distal (C5' 1a / 4 carril 6). Las transcripciones que contenían CE4 o CE1a en ambas posiciones se empalmaron en el sitio de empalme 5 'distal con una eficiencia similar a C5' 1a / 4 (C5 '1a / 1a y C5' 4/4 carriles 7 y 8, respectivamente). Los sustratos que transportan CE1a o CE4 en la posición aguas arriba o aguas abajo solo se empalmaron al sitio de empalme distal 5 ′ en un nivel intermedio pero comparable (Figura 3B, C5 ′ 1a / -, C5 ′ 4 / -, C5 ′ - / 4 y C5 ′ - / 1a carriles 2–5 (véase la figura 3A para la cuantificación). Por lo tanto, CE1a y CE4 son intercambiables y muestran una capacidad similar para promover la utilización del sitio de empalme 5 'distal in vitro. Estos resultados sugieren que CE1a y CE4 modulan la elección del sitio de empalme 5 'a través de un mecanismo común.

El efecto de CE4 en la selección del sitio de empalme 5 'está mediado por hnRNP A1

Hemos demostrado que una mutación en la secuencia UAGAGU de CE1a reduce la unión de A1 y previene la activación del sitio de empalme 5 'distal (Chabot et al., 1997). Si la unión de A1 también es responsable del efecto de CE4 en la selección del sitio de empalme 5 ', las moléculas de pre-mRNA que llevan CE4 deberían ser más sensibles a los aumentos en la concentración de A1 que un pre-mRNA que carece de sitios de unión a A1 de alta afinidad. . Cuando se agregaron cantidades crecientes de proteína GST-A1 recombinante (rA1) a una mezcla de empalme que contenía ARN C5 ′ 4/4, la selección del sitio de empalme 5 ′ proximal disminuyó gradualmente hasta que el sitio de empalme 5 ′ distal se convirtió en la elección exclusiva (Figura 4A , carriles 5-8). Por el contrario, la mayor cantidad de rA1 solo promovió una reducción modesta en la utilización del sitio de empalme 5 'proximal en un pre-ARNm que carece de sitios de unión a A1 fuertes (carriles 1-4). Se observó un efecto intermedio con pre-ARNm que contenían solo una copia de CE1a o CE4 (datos no mostrados). Por lo tanto, los pre-ARNm que llevan sitios de unión a A1 de alta afinidad son más sensibles a un aumento en la concentración de A1 in vitro.

Para probar el efecto de una reducción en la concentración de A1 en la selección del sitio de empalme 5 ′ in vitro, agregamos cantidades crecientes de un oligonucleótido que lleva la versión de ADN de tres sitios de unión de A1 contiguos. A1 se une a este oligonucleótido directamente y con especificidad (F. Dallaire y B. Chabot, resultados no publicados). La preincubación de mezclas de empalme con el oligonucleótido desplazó la selección hacia el sitio de empalme proximal 5 ′ del ARN C5 ′ 4/4 (Figura 4B, carriles 8-11). Complementar la mezcla que contiene la concentración más alta de oligonucleótidos con rA1 restauró la utilización preferencial del sitio de empalme 5 'distal (carriles 12-14). Como se esperaba para un pre-mRNA que carece de sitios de unión A1 de alta afinidad (C5 '- / - RNA), el empalme ya eficiente al sitio de empalme 5' proximal no mejoró más mediante la adición de cantidades crecientes de oligonucleótido, y el la adición de rA1 no estimuló la selección del sitio de empalme 5 'distal (carriles 1-7). El oligonucleótido también aumentó la selección del sitio de empalme 5 'proximal en mezclas que contenían ARN C5' 4 / - (datos no mostrados). Sin embargo, se requirieron concentraciones más bajas de oligonucleótidos para obtener un desplazamiento similar al obtenido con el ARN C5 '4/4. Por tanto, un pre-mRNA que lleva dos sitios de unión a A1 de alta afinidad es más resistente a una reducción en la concentración eficaz de A1 que un pre-mRNA que contiene sólo un sitio óptimo de unión a A1. En general, estos resultados demuestran que el efecto de CE4 sobre la selección del sitio de corte y empalme 5 'está mediado por una interacción con la proteína hnRNP A1.

Importancia del dominio rico en glicina

La porción N-terminal de A1 (denominada UP1) contiene dos dominios de unión al ARN pero carece del dominio C-terminal rico en glicina (Figura 5). UP1 se une de manera ineficiente a un pre-ARNm de β-globina humana y, a diferencia de A1, no afecta la selección del sitio de empalme 5 'cuando se agrega a un extracto S100 suplementado con ASF / SF2 (Mayeda et al., 1994). Para determinar si UP1 mostró un comportamiento similar en las transcripciones que llevan sitios de unión a A1 de alta afinidad, primero monitoreamos la unión de las proteínas recombinantes A1 y UP1 a CE4. rUP1 se unió al ARN de CE4 desnudo al menos tan eficientemente como rA1, y ambas proteínas se unieron de manera ineficaz a la secuencia complementaria de CE4 (Figura 5A). Por tanto, la ausencia del dominio rico en glicina de A1 no anula su capacidad para interactuar con CE4. Cuando se añadieron cantidades crecientes de rUP1 en extractos nucleares incubados con el pre-ARNm C5 '4/4, la selección del sitio de empalme 5' cambió de predominantemente distal a principalmente proximal (Figura 5B). La presencia de sitios de unión a A1 de alta afinidad y proteínas A1 endógenas, por lo tanto, permitió que UP1 mostrara un efecto negativo dominante en la selección del sitio de corte y empalme 5 '. Por tanto, aunque no es esencial para la unión a CE4, el dominio rico en glicina juega un papel crucial en la promoción de la selección del sitio de corte y empalme 5 'distal.

Actividad puente de las proteínas A1

Hemos demostrado anteriormente que el efecto de CE1 en la selección del sitio de empalme 5 'no está asociado con diferencias en la unión de snRNP de U1 a los sitios de empalme 5' competidores (Chabot et al., 1997). Se obtuvieron resultados idénticos con CE4 (datos no mostrados). Además, los cambios importantes en la selección del sitio de empalme 5 'obtenidos por la adición de rA1 o preincubando mezclas de empalme con el oligonucleótido de ADN que lleva los sitios de unión A1 no afectaron la unión de U1 snRNP a los sitios de empalme 5' competidores (datos no mostrados) . Para explicar el efecto de CE1a y CE4 en la selección del sitio de empalme 5 ', proponemos que la unión de A1 a CE1a y CE4 sea seguida por contactos de proteína entre moléculas A1 unidas a estos elementos (Figura 6A). Esta interacción acercaría el par de sitios de empalme más distantes, mejorando así su tasa de compromiso. Este modelo implica que A1 afecta la selección del sitio de empalme 5 'no alterando el reconocimiento del sitio de empalme 5' sino más bien cambiando la conformación del pre-ARNm.

Para abordar si las moléculas de A1 pueden interactuar simultáneamente con dos elementos de unión de ARN, primero incubamos rA1 o rUP1 con ARN CE1a marcado con 32 P y un ARN K + de control. Después, la mezcla se incubó con ARN de CE1a frío acoplado covalentemente a una columna de hidrazida de ácido adípico. Cada columna se lavó a una concentración de sal creciente para eluir los complejos unidos. Como se muestra en la Figura 6B, el complejo rA1- [32 P] CE1a fue retenido específicamente por la columna, etiquetado como ARN CE1a coeluyendo con rA1 (Figura 6B, paneles centrales). En contraste, el complejo rUP1- [32 P] CE1a no fue retenido por la columna y solo el UP1 libre eluyó a una concentración de sal más alta (Figura 6B, paneles de la derecha). La especificidad del ensayo se demuestra por el hecho de que el RNA de K + de control no coeluyó con rA1, y que la columna de RNA no retuvo RNA de [32 P] CE1a en ausencia de rA1 (panel izquierdo). Estos resultados indican que las moléculas de A1 unidas a un sitio pueden interactuar específicamente con otro sitio de unión de alta afinidad, y que el dominio rico en glicina de A1 es esencial para la unión simultánea. Debido a que el dominio rico en glicina no es necesario para una unión eficiente y específica al ARN (Figura 6A), nuestros resultados sugieren que el dominio rico en glicina media una interacción entre moléculas A1 unidas de forma independiente a sitios de alta afinidad.

CE4 también afecta la selección del sitio de empalme 3 '

Si bien los efectos de CE4 y CE1a en la selección del sitio de empalme 5 'fueron comparables in vitro, la eliminación de CE4 tuvo más impacto en la inclusión del exón 7B en vivo que la supresión de CE1 (Figura 2). Este resultado sugiere que CE4 modula un evento adicional en la selección del sitio de empalme. Para probar si CE4 podría influir en la selección del sitio de empalme 3 ', utilizamos un pre-ARNm modelo que contiene el sitio de empalme 5' del exón 7 y dos sitios de empalme 3 'competidores (C3' - / - Figura 7A). Mientras que el ARN C3 '- / - se empalmó predominantemente en el sitio de empalme 3' distal, también se utilizó el sitio de empalme 3 'proximal (Figura 7A, carril 1 y ver Figura 8). En particular, la inserción de CE4 entre los dos sitios de empalme 3 'eliminó la selección del sitio de empalme 3' proximal y aumentó el empalme distal (C3 '- / 4 Figura 7A, carril 3). Por el contrario, la inserción de CE1a en la misma posición, o la inserción de CE4 aguas arriba del sitio de empalme proximal 3 ', no tuvo ningún efecto (C3 ′ - / 1a y C3 ′ 4 / - carriles 4 y 2, respectivamente). Para abordar si CE4 reprimió el sitio de empalme 3 'proximal, probamos un derivado de C3' - / 4 que carecía del sitio de empalme 3 'distal (S774 Figura 7B). En comparación con un pre-ARNm de control que lleva la secuencia complementaria de CE4 en la misma posición (S774α), la presencia de CE4 se asoció con una fuerte inhibición del empalme (Figura 7B, carriles 1-8). La presencia de CE4 en el intrón no inhibió el empalme (S747 Figura 7B, carriles 9-12). Debido a que el empalme de S747 no se alteró cuando se incluyó ARN de S774 en la mezcla de empalme (carriles 13-16), un inhibidor general en la preparación de ARN de S774 no provocó el empalme ineficaz de ARN de S774. Por tanto, mientras tanto CE4 como CE1a modulan la selección del sitio de empalme 5 ', solo CE4 puede reprimir el sitio de empalme 3' del exón 7B de una manera dependiente de la posición. La capacidad de CE4 para influir en la selección del sitio de empalme tanto en 5 'como en 3' probablemente explica por qué la deleción de CE4 promovió una inclusión del exón 7B más eficiente que la deleción de CE1 (Figura 2).

El efecto de CE4 en la elección del sitio de empalme 3 ′ está mediado por un factor de acción trans distinto de A1

Debido a que CE1a no afecta la selección del sitio de empalme 3 ', la unión de A1 a CE4 no puede explicar por sí misma el efecto de CE4 en el uso del sitio de empalme 3'. No obstante, A1 podría desempeñar un papel en la represión del sitio de empalme 3 'aguas arriba. Para abordar este problema, probamos un derivado de CE4 que carece del sitio de unión A1 (CE4m) (Figura 8A). Mientras que CE4m se unió considerablemente menos eficientemente que CE4 por A1 (Figura 8B), CE4m fue tan eficiente como CE4 para mejorar la selección del sitio de empalme 3 ′ distal (C3 ′ - / 4 y C3 ′ - / 4m Figura 8A, carriles 3 y 4, respectivamente). La inserción de la secuencia complementaria de CE4m no tuvo ningún efecto (C3 '- / 4mα, carril 2). A concentraciones que influyen en la selección del sitio de empalme 5 ', la adición de rA1 no afectó el empalme de C3' - / - o C3 '- / 4 (datos no mostrados). Estos resultados indican que la unión de A1 es prescindible para el efecto de CE4 en la elección del sitio de corte y empalme 3 '. Para determinar si la actividad de CE4m en la selección del sitio de empalme 3 'requiere una transfactor de acción, realizamos ensayos de empalme en presencia de excesos molares de ARN competidores. La concentración más alta de ARN de CE4m desplazó la selección del sitio de empalme 3 'en el pre-ARNm C3' - / 4m de exclusivamente distal a predominantemente proximal (Figura 8C, carriles 13-16). La reducción en la eficiencia del empalme sugiere que el exceso de ARN de CE4m valora un factor de empalme constitutivo. Si bien una concentración similar de ARN de CE4m también mejoró la frecuencia de selección del sitio de empalme 3 ′ proximal en C3 ′ - / - pre-ARNm (Figura 8B, carriles 5-8), la amplitud del cambio fue menos importante que en C3 ′ - / 4m ARN. Un fragmento de ARN que contiene secuencias de plásmido (K + ARN), aunque mejora la selección del sitio de empalme 3 'distal en concentraciones bajas, no afectó significativamente la proporción de utilización del sitio de empalme 3' en la concentración más alta (Figura 8C, carriles 1-4 y 9– 12). Nuestros resultados indican que el efecto de CE4 en la selección del sitio de empalme 3 'está mediado por un factor distinto de hnRNP A1 y que la unión cercana de A1 no es necesaria para esta actividad.


Material complementario electrónico

Cuadro S2.

Archivo adicional 1: Tabla S1: Datos de estructura genética de ortólogos de Picea glauca y Pinus taeda. Cuadro S2. Lista de genes asociados con la formación de la pared celular secundaria o con el metabolismo del nitrógeno en P. glauca dirigido a aislamientos de BAC. Cuadro S3. Información y secuencias del cebador utilizadas para el cribado de BAC y la validación de la secuenciación. Cuadro S4. Números de acceso de P. taeda ortólogos y similitud de secuencia con P. glauca. Cuadro S5. Números de acceso para las secuencias homólogas más cercanas entre P. glauca, Arabidopsis thaliana, Populus trichocarpa y Zea mays. Cuadro S6. Resumen de los resultados de secuenciación de P. glauca Los clones BAC aislados contienen cada uno un gen de copia única diferente asociado con la formación de la pared celular secundaria o con el metabolismo del nitrógeno.. Cuadro S7. Accesiones de GenBank de ADNc completo utilizadas para la definición de la estructura genética cuando el ADNc en Picea glauca el catálogo de genes estaba incompleto. Cuadro S8. Elementos repetitivos detectados dentro de la estructura genética de los 35 P. glauca genes. (PDF 296 KB)

12870_2013_1527_MOESM2_ESM.pdf

Archivo adicional 2: Figura S2: Análisis comparativo de la longitud del intrón individual en P. glauca, A. thaliana, P. trichocarpa y Z. mays. A. Longitud media y mediana de intrones individuales en todos los genes. B Longitud promedio y mediana de intrones individuales en genes altamente expresados ​​y genes asociados con la formación de la pared celular secundaria y el metabolismo del nitrógeno en cuatro especies. Las longitudes de intrones se compararon entre las cuatro especies mediante la prueba de Kruskal-Wallis con análisis posterior a la prueba mediante comparaciones múltiples de Dunn: NS, no significativo (P & gt 0,06) * P & lt 0,06 ** P & lt 0,01 *** P & lt 0,001. (PDF 103 KB)

Archivo adicional 3: Figura S3: Diagrama de caja de los 35 genes homólogos en P. glauca, A. thaliana, P. tricocarpa y Z. mays.(PDF 165 KB)

12870_2013_1527_MOESM4_ESM.pdf

Archivo adicional 4: Figura S1: Contenido de elementos repetitivos en 21 clones BAC diferentes. El análisis utilizó el software RepeatMasker y un P. glauca biblioteca de secuencias repetitivas (ver Métodos). Los elementos repetitivos se clasificaron como LTR (repetición terminal larga) y sin clasificar (sin éxito en RepBase). (PDF de 61 KB)

12870_2013_1527_MOESM5_ESM.pdf

Archivo adicional 5: archivo complementario. Procedimientos experimentales adicionales para el aislamiento de BAC y la captura de secuencias. (PDF 153 KB)


Ver el vídeo: Partes del gen eucariota (Diciembre 2022).