Información

¿Se unen los factores de transcripción a ambas cadenas de ADN?

¿Se unen los factores de transcripción a ambas cadenas de ADN?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Se unen los factores de transcripción (o en general las proteínas) a una sola hebra de ADN o a ambas hebras? Dado que puede tener enlaces no covalentes a ambas hebras en teoría. Me gustaría conocer el mecanismo. Todos los libros de referencia, artículos o enlaces serán útiles.


El breve resumen es que los TF típicos se unen y leen ambos hebras juntas, como una secuencia de pares de bases. En cambio, algunas proteínas reconocen un sitio en la hélice por su forma y flexibilidad. Las proteínas de unión a ssDNA obviamente se unen a una hebra, pero lo hacen en una inespecífico conducta. ¡Las proteínas de unión al ARN reconocen la secuencia en una sola hebra insertando residuos planos intercalados entre las bases! Todo este enlace es no covalente.

Los factores de transcripción reconocen sitios en dsDNA, con Dominios de unión al ADN. El resto de la proteína podría rodear (parcialmente, en grado variable) la superficie exterior negativa de la doble hélice de dsDNA con superficie cargada positivamente, para retenerla en el ADN mientras escanea (quizás) a lo largo de su longitud.

Dominios de unión al ADN: surco principal

Los siguientes dominios se encuentran en muchos factores de transcripción y todos reconocen ambos hebras. Más correctamente, reconocen pares de bases y su orientación. Las primeras 5 páginas de esta presentación de diapositivas de la conferencia demuestran que los grupos químicos en el lado de los pares de bases, accesibles en el surco principal, permiten que las proteínas distingan A: T, T: A, C: G y G: C por el orden de donantes, aceptores y un grupo metilo de enlaces de hidrógeno.

Por lo tanto, los TF reconocen una secuencia de pares de bases: orientado tal que una hebra es (por ejemplo) pTpagCpagApagGRAMO, y la hebra complementaria es pCpagTpagGRAMOpagA; y la mayor parte de la proteína puede 'asentarse' en una hebra u otra, o un gen cercano puede definir localmente una hebra u otra como la hebra codificante pero esto no significa que se lea este capítulo.

  • Los dedos de zinc sondean el surco principal con hélices de lectura.
  • Los motivos de hélice-vuelta-hélice hacen lo mismo.
  • Las cremalleras de leucina también hacen lo mismo.

Estos son dominios comunes que todos reconocen pares de bases en el surco principal por interacciones con residuos en una aplha-hélice de sondeo.

Proteína de unión a TATA: surco menor

La proteína de unión a TATA (TBP) es un caso diferente e interesante. Se une a la 'caja TATA' a través del surco menor, donde los grupos químicos expuestos solo distinguen [A / T] de [C / G], pero no su orientación. Esto significa que las secuencias de cada hebra no se pueden leer fácilmente desde el surco menor. TBP, en cambio, reconoce la forma y flexibilidad de la doble hélice en la caja TATA, la 'agarra' por el surco menor y dobla el ADN, lo que ayuda a fundir las hebras en la 'burbuja' de transcripción.

La secuencia de la caja TATA suele ser pTpagApagTpagApagApagA en la cadena codificante aguas arriba del inicio de la transcripción. Este es el convención al dar la secuencia de un sitio de unión a TF, pero no se puede decir que TBP realmente lee TATAAA, ¡no es así!

Aquí hay otro conjunto similar de diapositivas de conferencias.

Aún mejor, aquí está el mismo material cubierto en un libro de texto popular.


Además de la respuesta proporcionada por Teige.

Los factores de transcripción se unen a ambas cadenas, sin embargo, su pregunta también incluía proteínas en general.

El ADN permanece bicatenario y retorcido como una hélice la mayoría de las veces; la mayoría de las proteínas se unen a ambas cadenas como se mencionó en la respuesta anterior. Sin embargo, algunas proteínas como SSB (proteína de unión de una sola hebra) y Rad52 se unen al ssDNA durante la replicación y recombinación respectivamente (hay más ejemplos). Sin embargo, estos no son factores de transcripción.


Tenerlo en ambos sentidos: factores de transcripción que se unen al ADN y al ARN

Las proteínas multifuncionales desafían el paradigma convencional de "una proteína-una función". Aquí notamos proteínas multifuncionales aparentes con socios de ácido nucleico, tabulando ocho ejemplos. Luego nos enfocamos en ocho casos adicionales de factores de transcripción que se unen al ADN de doble hebra con especificidad de secuencia, pero que también parecen llevar vidas alternativas como proteínas de unión al ARN. Ejemplificada por la proteína Xenopus TFIIIA prototípica, y más recientemente por la p53 de mamífero, esta lista de factores de transcripción incluye WT-1, TRA-1, bicoide, la subunidad bacteriana sigma (70), STAT1 y TLS / FUS. La existencia de factores de transcripción que se unen tanto al ADN como al ARN proporciona un acertijo interesante. Se sabe poco acerca de las funciones biológicas de estas interacciones alternativas proteína-ácido nucleico, y aún menos se sabe acerca de la base estructural de la especificidad de ácido nucleico dual. Discutimos cómo estos ejemplos naturales nos han motivado a identificar secuencias de ARN artificiales que inhiben competitivamente un factor de transcripción de unión al ADN del que no se sabe que tenga una pareja de ARN natural. La identificación de tales ARN plantea la posibilidad de que la unión del ARN por las proteínas de unión al ADN sea más común de lo que se cree actualmente.

Cifras

Representación esquemática del ARNr 5S ...

Representación esquemática de la autorregulación del ARNr 5S que es formalmente posible debido a ...

Estructura molecular de una porción ...

Estructura molecular de una porción de TFIIIA unida a dsDNA. Las seis N-terminales ...

Modelo esquemático para genética y ...

Modelo esquemático para la regulación genética y bioquímica de C.elegans tra-1 y tra-2 .…

Bioquímica de proteínas y regulación putativa ...

Bioquímica de proteínas e interacciones reguladoras putativas de p53. ( A ) proteína p53 ...

Ácido nucleico natural y artificial ...

Ligandos de ácido nucleico naturales y artificiales para NF-κB humano. ( A ) Fuerte…


Resultados

Proteínas ApiAP2 de arquitectura de dominio diferente.

Seleccionamos dos arquitecturas diferentes de P. falciparum Dominios AP2 que se asemejan a las arquitecturas de planta de dominio único y tándem. El primer gen pf14_0633, codifica una proteína de 813 aa, se expresa al máximo durante la etapa de desarrollo del anillo (2) y contiene un único dominio AP2 de 60 aa y un dominio de unión a ADN de gancho AT adyacente (16). PF14_0633 no solo tiene ortólogos en todas las demás secuencias Plasmodium genomas sino también en todos los demás genomas de Apicomplexan secuenciados (Fig. 1). Aunque el gancho AT se conserva solo en Plasmodium spp., los residuos dentro del dominio AP2 están bien conservados en todos Apicomplexa.

Alineación del dominio AP2 de PF14_0633 (aminoácidos 63-123) a ortólogos en cinco Plasmodium spp. y seis especies de Apicomplexan. El dominio AP2 (encuadrado) está altamente conservado en todas las especies. La conservación de residuos es más significativa en las tres cadenas β (sombreadas en amarillo) del dominio AP2 y es menos significativa en la hélice α (sombreada en azul). El dominio AT-hook (sombreado en verde) se encuentra aguas arriba del dominio AP2 en Plasmodium spp. (línea negra vertical). Los residuos absolutamente conservados que probablemente estén implicados en la unión al ADN se resaltan en rojo. Las predicciones de la estructura secundaria se realizaron utilizando Jnet (39). PF, P. falciparum PVX, Plasmodium vivax PKH, Plasmodium knowlesi PB, Plasmodium berghei PY, Plasmodium yoelii ORDENADOR PERSONAL, Plasmodium chabaudi 583, T. gondii TP, Theileria parvum EJÉRCITO DE RESERVA, Theileria annulata BBOV, Babesia bovis Chro, Cryptosporidium hominis cgd2, Cryptosporidium parvum.

El segundo gen ApiAP2 examinado, pff0200c, muestra la máxima expresión en los parásitos en etapa tardía y codifica una proteína de 1.979 aa que posee dos dominios AP2 en tándem, unidos por una secuencia de 17 aa conservada. En Plasmodium spp., la identidad de la secuencia de aminoácidos a través de los dominios AP2 en tándem ortólogos de PFF0200c se acerca al 95% [información de apoyo (SI) Fig. S1]. Por el contrario, los dominios AP2 individuales de PFF0200c comparten solo el 35% de identidad entre sí. En plantas, se ha demostrado que los dos dominios AP2 en tándem de AINTEGUMENTA en A. thaliana, que comparten un 43% de identidad, se unen a dos motivos de ADN diferentes (22). La relevancia funcional de esta divergencia de secuencia entre dominios en tándem en P. falciparum permanece desconocido.

P. falciparum Los dominios AP2 se unen a motivos de ADN específicos.

Para dilucidar si los dominios AP2 aislados de P. falciparum se unen al ADN y, de ser así, para determinar la especificidad de la unión, analizamos los dominios AP2 purificados utilizando PBM. Los PBM son una metodología que se utiliza para determinar la especificidad de las interacciones proteína-ADN y se han utilizado ampliamente para caracterizar los factores de transcripción de la levadura al ser humano (20). La matriz no es específica de un organismo, pero contiene todas las posibles secuencias de ADN de 10 meros repartidas en 44.000 ADN de doble hebra de 60 meros, lo que proporciona amplios controles de especificidad negativos y positivos en toda la matriz (20). Como prueba de principio, primero medimos la unión de un 63-aa A. thaliana ERF1 AP2 dominio (residuos 144-206) y recuperó el motivo de caja GCC esperado informado en la literatura (datos no mostrados) (23).

Usando PBM, obtuvimos motivos de secuencia de ADN distintos y altamente específicos para el dominio AP2 único de PF14_0633 y para el dominio AP2 doble de PFF0200c. Como es común para los sitios de unión al factor de transcripción, estos motivos son palindrómicos, con PF14_0633 que se une a la secuencia consenso TGCATGCA y GTGCAC que se une a PFF0200c (Fig. 2, Conjunto de datos S1). Los motivos del P. falciparum Los dominios AP2 eran notablemente más ricos en AT que los motivos canónicos de caja GCC que están unidos por dominios AP2 de plantas. Esto es consistente con las predicciones de que los motivos reguladores serían más ricos en AT que otros eucariotas. cis-motivos que actúan, dado que el contenido de AT en la región intergénica de P. falciparum se acerca al 90% (16, 19).

Motivos de ADN unidos específicamente por dominios AP2 predichos usando PBM y análisis computacional (algoritmo FIRE). (A) Los nucleótidos centrales (encuadrados) en el motivo unido específicamente por el P. falciparum El dominio AP2 de PF14_0633 son muy similares a los vinculados por su C. parvum ortólogo cgd2_3490 (Cima y Medio). Los motivos determinados a partir del PBM son muy similares a los motivos predichos mediante el algoritmo FIRE (Fondo, Pronosticado) (24). (B) El motivo derivado de PBM unido por los dominios AP2 en tándem de PFF0200c (Cima) es muy similar al motivo vinculado por el primer dominio solo (Medio). El dominio 2 de PFF0200c no se unió a un motivo de ADN específico (datos no mostrados). Ambos motivos derivados de PBM para PFF0200c coinciden con el motivo predicho computacionalmente (Fondo).

De las 26 proteínas ApiAP2 en P. falciparum, todos se conservan en el otro secuenciado Plasmodium spp., mientras que solo un pequeño subconjunto abarca todos los genomas de Apicomplexan. El dominio AP2 del C. parvum gene cgd2_3490 tiene un 47% de identidad (68% de similitud) con el plasmodial PF14_0633 (Fig. 1). Para determinar si los residuos conservados entre ortólogos evolutivamente distantes eran suficientes para conferir una especificidad de unión al ADN similar, probamos el dominio AP2 cgd2_3490 mediante PBM. Sorprendentemente, nuestros resultados muestran que el C. parvum Dominio AP2 y su PF14_0633 Plasmodium los ortólogos tienen especificidades de unión al ADN muy similares (Fig. 2). Este resultado inesperado demuestra que los parásitos Apicomplexan han conservado no solo la arquitectura del dominio de unión al ADN de AP2, sino también la especificidad de la secuencia.

Aunque la región AP2 para PF14_0633 se conserva entre Apicomplexa, el motivo de unión al ADN del gancho AT se encuentra solo en el Plasmodium spp. (Figura 1). Probamos la posible contribución de este dominio adicional a la unión al ADN utilizando una proteína de fusión GST que contiene tanto el gancho AT como el dominio AP2 de PF14_0633 y no encontramos ningún cambio en el motivo de unión al ADN reconocido (datos no mostrados). Esto sugiere que la unión del ADN por el dominio AP2 es suficiente para la unión específica, aunque es posible que la región del gancho AT pueda aumentar la afinidad a través de interacciones no específicas con el ADN.

En plantas, se ha demostrado que las proteínas con arquitecturas de dominio AP2 en tándem requieren absolutamente ambos dominios para la unión específica del ADN (22). Para explorar la contribución relativa de cada dominio AP2 en la arquitectura AP2 en tándem PFF0200c, diseccionamos la proteína y probamos cada dominio por separado utilizando PBM. Sorprendentemente, el dominio 1 de PFF0200c fue suficiente para la unión de ADN específica y se unió al motivo GTGCAC idéntico al dominio doble en tándem de longitud completa de PFF0200c (Fig. 2). El dominio 2 de PFF0200c aislado no demostró ninguna interacción proteína-ADN específica. Estos resultados sugieren que, a diferencia de las plantas, el segundo dominio AP2 en PFF0200c puede no contribuir a la especificidad de unión al ADN de la proteína.

Predicción y validación de genes objetivo AP2.

En última instancia, estamos interesados ​​en los genes que pueden estar regulados por las proteínas ApiAP2 en Plasmodium. Los dos sitios de unión identificados bioquímicamente en este estudio son muy similares a dos motivos predichos de forma independiente por Elemento et al. (24) utilizando el algoritmo Finding Informative Regulatory Elements (FIRE) (Fig.2). El algoritmo FIRE compila una lista de genes diana candidatos asociados con cada motivo predicho (Dataset S2). Estos genes diana comparten dos características: (I) al menos una instancia del motivo considerado en sus regiones promotoras y (ii) niveles máximos de abundancia de ARNm dentro de una fase particular del transcriptoma IDC que está significativamente enriquecido en genes cuyos promotores contienen el motivo (2). Comparamos el perfil de expresión de PFF0200c con el perfil medio de su conjunto de diana de mayor confianza (66 genes diana predichos, Dataset S2) que contiene el motivo GTGCA (Fig. 3). La correlación de Pearson altamente positiva (0,97) entre PFF0200c y sus supuestos objetivos sugiere que funciona para activar este conjunto de genes (Fig. 3). También observamos que la inducción de la expresión génica (20 a 35 h después de la invasión) para PFF0200c precede al perfil de expresión promedio de los genes diana putativos en 1 a 2 h. Sin embargo, el perfil medio del grupo superior (34 genes) que contiene el motivo de consenso PF14_0633 no está fuertemente correlacionado con el perfil de expresión PF14_0633 (correlación de Pearson = 0,25) (Fig. S2, conjunto de datos S2) y puede sugerir que otros factores reguladores auxiliares están involucrados para el tiempo de expresión. La convergencia sorprendente e independiente de estas predicciones de motivos computacionales con nuestros resultados de especificidad de unión al ADN bioquímico sugiere fuertemente que estos motivos son de importancia biológica significativa.

Perfil de expresión génica en estadio sanguíneo de la proteína ApiAP2 PFF0200c en comparación con los perfiles de expresión promediados de genes diana supuestos predichos por FIRE. Los perfiles de expresión génica de 48 horas se correlacionan positivamente con un coeficiente de correlación de Pearson de 0,97.

De los conjuntos de genes predichos por FIRE, seleccionamos genes candidatos para ser evaluados por la EMSA en busca de interacciones específicas entre el ADN y la proteína. Una secuencia de 40 pb radiomarcada (Tabla S1), que se encuentra cadena arriba del gen diana putativo pfi0540w y que contiene el motivo TGCATGCA, podría cambiarse específicamente usando el dominio AP2 purificado de PF14_0633 (Fig. 4). Esta interacción podría competir con un oligonucleótido no marcado de secuencia idéntica, pero un exceso de 50 veces de un oligonucleótido mutante relacionado (cambio de AT a GC en el motivo) no interrumpió la unión. También confirmamos la interacción de unión a PFF0200c utilizando una secuencia de oligonucleótidos de la región aguas arriba de un gen objetivo candidato. mal7p1.119 que contiene el motivo de ADN GTGCAC (Fig. 4). Estos resultados validan nuestros datos de PBM y amplían este análisis al demostrar que los dominios ApiAP2 pueden unirse específicamente a secuencias presentes en sentido ascendente de genes diana putativos en el Plasmodium genoma.

EMSA de dominios AP2. El dominio AP2 de PF14_0633 (Superior) y los dominios en tándem AP2 de PFF0200c (Más bajo) se utilizaron para desplazar 40 pb de una sonda de ADN marcada radiactivamente derivada de la región aguas arriba de genes diana predichos computacionalmente (PFI0540w y MAL7P1.119, respectivamente) (carril 2). Los experimentos de competencia muestran que un competidor específico (SC) no etiquetado puede agotar la banda desplazada etiquetada (carriles 3-6). Un competidor mutante no etiquetado (MC, carriles 7 y 8) o un competidor aleatorio (RC, carril 9) no puede agotar el turno.

Análisis de regulones putativos.

El algoritmo FIRE predice un total de 194 objetivos putativos (Conjunto de datos S2) que contienen el motivo GTGCAC asociado con PFF0200c, de los cuales 115 (59,3%) están anotados como hipotéticos. El análisis de Gene Ontology (GO) revela un enriquecimiento significativo de los genes implicados en la modificación de proteínas (PAG valor = 9,85e-5), particularmente la fosforilación de proteínas (PAG = 3.83e-4) y actividad cisteína peptidasa (PAG = 1,30e-3), y en genes asociados con el organelo rhoptry (PAG = 4.12e-5) y complejo apical (PAG = 6.81e-6) o involucrado en la maquinaria de invasión (PAG = 1,30e-3). Estos objetivos incluyen las proteínas asociadas a roptrías RAP1, RAP2 y RAP3, las proteínas de superficie de merozoitos MSP1, MSP7 y MSP9 y las proteínas asexuales ligadas a citoadherencia CLAG2, CLAG3.1, CLAG3.2 y CLAG9. Esto sugiere que PFF0200c regula los genes de etapa tardía involucrados en el proceso crítico de preparación del parásito para la ruptura y reinvasión de la célula huésped.

La conservación extremadamente alta entre los sitios de unión PF14_0633- y cgd2_3490 nos llevó a comparar sus supuestos regulones para determinar si estas proteínas regulan conjuntos de genes similares. De los 5.460 P. falciparum genes, 31,5% (1.722) tienen homólogos en C. parvum. Sorprendentemente, solo 26 de los 127 objetivos previstos por FIRE del motivo PF14_0633 (20,4%, PAG = 3.43e-3) se conservan entre estos organismos, lo que sugiere que, mientras que la especificidad de secuencia de estos dos dominios AP2 está absolutamente conservada, se ha producido un recableado significativo de la red transcripcional desde que estas especies divergieron. Por el contrario, no hay una desviación significativa de la homología de frecuencia de fondo para los 194 objetivos predichos de FUEGO de PFF0200c (37,6%, PAG = 0,972), como se esperaba debido a la falta de un homólogo de PFF0200c en C. parvum.

Usamos ScanACE para examinar las regiones 5 'aguas arriba de 2.0 kbp de cada gen en el P. falciparum y C. parvum genomas para la aparición del motivo de ADN AP2 PF14_0633 y cgd2_3490, respectivamente. El 1.003 C. parvum Los genes que contienen al menos una instancia del motivo de unión al ADN cgd2_3490 están enriquecidos de manera más significativa para proteínas transmembrana (PAG = 5.40e-9), mientras que las 775 dianas putativas de PF14_0633 están más enriquecidas para la citoadherencia a la microvasculatura (PAG = 2,51e-12). No hay anotaciones enriquecidas comunes entre los dos conjuntos, lo que indica además que se dirigen a regulones muy diferentes. Curiosamente, encontramos miembros de upsB y upsC var subfamilias de genes en el conjunto objetivo PF14_0633. los var genes en P. falciparum codifican PfEMP1 (proteína de la membrana de eritrocitos), uno de los principales antígenos de superficie implicados en la citoadherencia y la evasión inmunitaria del huésped (25). Los alineamientos de secuencia de las regiones aguas arriba de upsB revelaron una instancia casi perfectamente conservada del motivo CATGCA de consenso PF14_0633 entre 1478 y 1352 pb del ATG y otra instancia entre 1218 y 1093 pb aguas arriba, que corresponde al sitio SPE1 identificado por Voss et al. (15). Estos datos sugieren que PF14_0633 puede desempeñar un papel en var regulación genética. Además, el conjunto de objetivos potenciales también incluye PFF0200c, que contiene una coincidencia exacta con la secuencia TGCATGCA 1.746 pb en sentido ascendente desde el inicio de ATG. Esto plantea la intrigante posibilidad de que el propio PFF0200c esté regulado por PF14_0633, en lo que puede ser un enlace en una cascada reguladora de ApiAP2 (Fig. S3).


Impacto de la metilación del ADN en la unión de TF

La metilación del ADN reprime la unión de TF

Se comenzó a investigar la sensibilidad del TF a la metilación del ADN in vitro a finales de los 80 y ya diferentes TF parecían tener diferentes sensibilidades [24]. Varios TF fueron identificados como sensibles a la metilación del ADN por EMSA (Figura 2A). La metilación de un CpG (mCpG) central al motivo MLTF (también llamado USF) evitó la unión de los TF e inhibió la expresión del promotor tardío principal del adenovirus, mientras que la metilación de un CpG a 6 pares de bases no tuvo ningún efecto [25]. La metilación de los sitios de unión de CREB también resultó en una pérdida de la unión de TF y de la actividad transcripcional [26]. Otros TF, como AP-2, MYC, E2F, NF-kB y ETS fueron reprimidos de la unión por mCpG dentro de sus sitios de unión [24, 27].

Posibles escenarios en los que la metilación del ADN podría afectar la unión de TF

(A) Los TF sensibles a la metilación del ADN no se unen mediante mCpG dentro de sus motivos, lo que provoca un impedimento estérico o una alteración de la forma del ADN. (B) Las proteínas del dominio de unión a metilo (MBD) reconocen las mCpG de manera independiente de la secuencia. Los TF se unen a motivos de secuencia que contienen mCpG a través de afinidad directa. (C) Los TF insensibles a la metilación del ADN se unen a sus motivos independientemente del estado de metilación del ADN de la región circundante.

(A) Los TF sensibles a la metilación del ADN no se unen mediante mCpG dentro de sus motivos, lo que provoca un impedimento estérico o una alteración de la forma del ADN. (B) Las proteínas del dominio de unión a metilo (MBD) reconocen las mCpG de manera independiente de la secuencia. Los TF se unen a motivos de secuencia que contienen mCpG a través de afinidad directa. (C) Los TF insensibles a la metilación del ADN se unen a sus motivos independientemente del estado de metilación del ADN de la región circundante.

Más tarde, en 2000, se demostró que CTCF era sensible a la metilación del ADN en la región de control impresa de los genes Igf2-H19 de ratón tanto in vitro y después en vivo [28], estableciendo así el CTCF como un paradigma de la sensibilidad del TF a la metilación del ADN (Cuadro 2).

El CTCF con dedos de zinc es uno de los TF más estudiados. Se identificó por primera vez en pollos [29] y poco después en humanos, como un regulador negativo de la c-myc gen [30] y un activador del precursor de la proteína β amiloide (AmBP) [31]. Se demostró que actúa como aislante en el locus de la β-globina de pollo, bloqueando a los potenciadores de la activación de genes distales [28]. Al dimerizar y enlazar la formación de bucles, actúa sobre la arquitectura del genoma y regula la expresión génica [32,33].

Al investigar los genes impresos, se descubrió que el CTCF es sensible a la metilación del ADN en el locus Igf2-H19 en el ratón. Cuando se une al alelo materno no metilado, CTCF actúa como un aislante, restringiendo la acción del potenciador aguas abajo al H19 gene. Considerando que, en el alelo paterno metilado, CTCF no puede unirse y el potenciador activa el gen Igf2 [28]. Posteriormente se demostró mediante mutaciones puntuales de los cuatro sitios CTCF. en vivo que la alteración de la unión de CTCF condujo a un aumento de la metilación del ADN local en ratones recién nacidos, aunque la unión de CTCF no fue necesaria para establecer un estado no metilado durante la ovogénesis [34]. Además, también se demostró que la metilación de dos motivos CTCF en el locus de distrofia miotónica tipo 1 (DM1) suprime la unión de CTCF, alterando así la expresión de la DMPK y SEIS5 genes [35].

Diez años más tarde, el desarrollo de enfoques de secuenciación de alto rendimiento para sondear patrones de metilación del ADN (secuenciación de bisulfito de genoma completo) y unión de TF (ChIP-seq), permitió estudiar mejor la unión de CTCF en todo el genoma y desafió los puntos de vista tradicionales. En las células madre embrionarias de ratón (ES), se encontró que los sitios de unión de CTCF se ubicaban principalmente en regiones con niveles bajos o nulos de metilación del ADN [20]. Sin embargo, CTCF no se unió a sitios adicionales en ausencia de metilación del ADN (triple knockout de DNMT), excepto en los loci impresos conocidos, lo que sugiere que la unión de CTCF no fue reprimida por la metilación del ADN en todo el genoma. en vivo. Las validaciones que utilizan inserciones estables de una construcción informadora que contiene el motivo CTCF mostraron que CTCF podría unirse al ADN metilado y condujo a la desmetilación local, mientras que los motivos CTCF mutados no se unieron y permanecieron metilados [20]. Por lo tanto, al contrario de lo que se esperaba, el CTCF parecía ser insensible a la metilación del ADN en todo el genoma. en vivo [20], que se confirmó además en células HCT116 [36]. El perfil de CTCF en 19 tipos de células diferentes mostró que mientras que CTCF se une a distintos sitios en diferentes tipos de células, el 41% de sus sitios de unión variables están vinculados a la metilación del ADN [37]. Al observar las ocurrencias del motivo CTCF dentro del genoma, el 25% contiene CpG [38], mientras que el 45% de los que se encuentran dentro de los sitios de unión de CTCF ChIP-seq sí lo hacen. Esto destaca el hecho de que solo una fracción de los sitios de unión de CTCF putativos se ven potencialmente afectados por la metilación del ADN. Informes recientes investigaron la contribución de CpG específicos a la unión de ADN metilado utilizando información estructural y un ensayo de afinidad de unión (Methyl-Spec-seq) y pudieron identificar que es la citosina metilada en la posición 5 en el motivo JASPAR la que inhibe específicamente la unión de CTCF [39 , 40].

En resumen, aunque el CTCF se describió originalmente como un factor sensible a la metilación en el locus Igf2-H19 impreso, solo un conjunto limitado de en vivo Los sitios de unión de CTCF, que presumiblemente albergan CpG en sus motivos, serán sensibles a la metilación del ADN. Sus sitios de unión flexibles podrían ayudar a regular complejos procesos celulares y de desarrollo. Por tanto, CTCF ilustra perfectamente el hecho de que la sensibilidad de TF a la metilación del ADN, a pesar de su descubrimiento temprano, sigue siendo una cuestión abierta. Motivo CTCF ID JASPAR: MA0139.1.

El desarrollo de tecnologías de alto rendimiento permitió luego probar la sensibilidad de muchos más TF in vitro. Un enfoque cuantitativo de espectrometría de masas identificó ZBTB2, JUND, CREB1, ATF7 como preferencialmente unidas a citosinas no metiladas sobre las metiladas [41]. Un enfoque que utiliza microarrays de unión metilados encontró que la metilación del ADN inhibía la unión de la cremallera de leucina básica (BZIP) TFs CREB, ATF4, JUN, JUND, CEBPD y CEBPG [42]. Los TF identificados como reprimidos de la unión por metilación del ADN estaban de acuerdo tanto en los estudios como en los anteriores.

NRF1 fue el primer TF que demostró ser sensible a la metilación del ADN en todo el genoma en vivo [43]. Los TF sensibles se identificaron en células madre embrionarias de ratón (ES) mediante el perfil de regiones de cromatina abiertas en presencia y ausencia de metilación del ADN (utilizando células DNMT triple knockout (TKO)), ya que se esperaba que se unieran a nuevos sitios accesibles en ausencia de metilación del ADN. Un análisis de motivos identificó a NRF1, así como a MYC / USF / CREB y GABPA / ETS como candidatos a TF sensibles a la metilación. Luego se validó NRF1 en vivo por ChIP-seq, donde podría unirse a muchos sitios nuevos en ausencia de metilación del ADN. Además, las validaciones que utilizan inserciones estables de un constructo informador que contiene el motivo NRF1 mostraron que solo podía unir su motivo no metilado y no podía hacerlo cuando estaba metilado [43].

Más reciente in vitro Los enfoques que utilizan SELEX sensible a la metilación expandieron el catálogo de TF que se sabe que son reprimidos de la unión por metilación del ADN. El primer estudio investigó 519 TF utilizando metil-SELEX y bisulfito-SELEX y encontró que el 23% (117 de 519) fueron inhibidos por mCpG (llamado metil-menos) [44]. Su análisis global podría identificar familias de TF que tienden a ser inhibidas por mCpG, como las TF de hélice-bucle-hélice básica (BHLH), BZIP y ETS. La mayoría (96 TF, 82%) tenían CpG en su motivo original y TF sensibles conocidos validados como MYC, USF, CREB, ATF, AP (JUN, FOS), E2F, ETS aunque NRF1 no se mencionó en su estudio. Sin embargo, la elaboración de perfiles de encuadernación MYC en vivo en células que carecen de metilación del ADN (ChIP-seq en DNMTs TKO) mostró que la metilación del ADN sólo tenía un efecto mínimo en sus sitios de unión [44].

Otro estudio examinó la sensibilidad de ATF4 utilizando metil-SELEX [45]. Dado que el motivo no tiene un CpG prominente, encontraron que los motivos sin CpG no mostraban unión preferencial para el ADN metilado o no metilado, los motivos con CpG en el centro no estaban unidos cuando estaban metilados y los motivos con CpG en el flanco estaban unidos cuando estaban metilados [ 45]. Esto confirma que no solo una mCpG sino también su posición dentro del motivo es crítica para inhibir la unión de TF.

Paralelamente, un in vitro El estudio en plantas identificó 234 TF (72% de 327 analizados) que inhiben la unión por mCpG [46], aunque las plantas tienen un repertorio diferente de TF.

La mayoría de los estudios coinciden en que la inhibición por una mCpG podría deberse a un impedimento estérico de la unión de TF [26,44]. Más recientemente, la forma del ADN se ha descrito como una característica adicional de la unión de TF [7] y se ha descubierto que las formas de ADN de giro y torsión de la hélice se ven fuertemente afectadas por las mCpG [47]. Además, el posicionamiento de los nucleosomas y las modificaciones de las histonas están vinculados a la metilación del ADN y también podrían afectar la unión de TF [48,49].

Estos diferentes estudios identificaron varios TF a los que inhiben la unión de mCpG y, por lo tanto, son sensibles a la metilación del ADN, lo que sugiere un mecanismo generalizado (Figura 2A). Es de destacar que la mayoría de estas observaciones provienen de in vitro estudios, y pocos en vivo los estudios confirman su sensibilidad. Por lo tanto, el impacto funcional de esta sensibilidad en una escala de todo el genoma queda por investigar más a fondo.

La metilación del ADN promueve la unión de TF

Paralelamente al descubrimiento de TF que son inhibidos por mCpG, se identificaron proteínas que reconocen mCpG específicamente a través de un dominio de unión a metilo (MBD): MeCp2, MBD1, MBD2 y MBD4 [50-52]. Sin embargo, este reconocimiento puede considerarse independiente de la secuencia de ADN subyacente, a diferencia de los TF que reconocen motivos específicos de la secuencia de ADN [51].

Posteriormente, tanto individual como de alto rendimiento in vitro Los estudios han identificado TF específicos de secuencia que se unen a mCpG (Figura 2B). También se describen como sensibles a la metilación del ADN, ya que requieren un mCpG para unirse en contraposición a los TF sensibles que son inhibidos por mCpG. Un enfoque de espectrometría de masas cuantitativa identificó 19 proteínas que se unen preferentemente a mCpG sobre las no metiladas (MeCP2, MBD1, MBD4, UHRF1, RFX1 / 5, ZFHX3, KLF2 / 4/5) aunque no tiene en cuenta la especificidad de secuencia [41]. Un ensayo de competición en micromatrices de proteínas metiladas identificó 41 TF y 6 cofactores (3% de 1321 TF y 210 cofactores probados) para unir preferentemente motivos con mCpG, aunque en presencia de un exceso de diez veces de secuencias no metiladas [53]. Sin embargo, la mayoría reconoció varios motivos distintos y solo 22 reconocieron menos de tres motivos diferentes. Ocho de los once fueron validados por la EMSA (incluidos los TF ARNT2, DIDO1, MEF2A y HOXA9), lo que implica una tasa de falsos positivos del 27% [53]. Se encontró que NRF1 se une a ambos estados, pero más fuertemente a motivos metilados que no metilados [53], aunque más tarde se demostró que mCpG inhibía la unión. en vivo [43]. Un estudio en plantas identificó 14 TF (4,3% de 327 analizados), que se unen preferentemente a motivos metilados [46]. Más recientemente, un enfoque que utiliza metil-SELEX y bisulfito-SELEX encontró que el 34% (175 de 519) de los TF probados podrían unirse a mCpG (llamados metil-plus) como KAISO / ZBTB33, CEBPB / E / G, KLF, OCT4, HOX, PAX o SP1 [44]. Sin embargo, sólo el 49% de estos (85 de 175) tenían un CpG en su motivo canónico, mientras que los otros reconocieron un sitio metilado más débil [44]. Otro enfoque llamado Methyl-Spec-seq, que mide el efecto de mCpG en la afinidad de unión de TF en cada posición dentro de un sitio de unión, podría cuantificar las posiciones específicas que afectaron la unión de ZFP57, CTCF, BATF1, GLI1 y HOXB13, incluida la hemimetilación de uno de los dos hebras [40].

El TF KAISO (también llamado ZBTB33) similar a Cys2His2 con dedos de zinc (C2H2) fue descrito por primera vez por EMSA para unir mCpG in vitro [54] así como por un informe estructural que mostró la base molecular para el reconocimiento bimodal KAISO de CpG tanto metilados como no metilados [55]. Reanálisis de los sitios de unión de KAISO y los patrones de metilación del ADN en vivo sugiere que KAISO no se une al ADN metilado, sino a promotores muy activos marcados con altos niveles de histonas acetiladas [56], aunque esta interpretación no tiene en cuenta la dinámica de metilación del ADN.

Otras proteínas con dedos de zinc se identificaron como lectores de ADN metilado [57], como ZBTB4 y ZBTB38 similares a KAISO en transfecciones transitorias en ratones [58]. ZFP57 es un ejemplo bien conocido de TF que se une al ADN metilado en regiones impresas en el genoma del ratón. en vivo [59-61] y su preferencia de unión mCpG demostró ser asimétrica [40].

Otra proteína de la familia de dedos de zinc, KLF4, se identificó como de unión a mCpG en un enfoque basado en la proteómica y mediante extracción de ADN [41]. Reanálisis de los sitios de unión de KLF4 en células madre embrionarias de ratón en vivo identificó el 18,5% como metilado [41]. It was also found by a methylated microarray approach although it could bind both methylated and unmethylated sites, but displaying different sequence preferences [53]. Re-analysis of KLF4 binding sites in human ES cells en vivo identified that of the KLF4 binding sites having a CpG, 48% were methylated [53], but represented only 3% of all binding sites [62]. Probing the methylation levels of KLF4 binding sites at four different loci en vivo by ChIP bisulfite sequencing found that it could bind two unmethylated sites (TACpGCC) and two methylated sites (CCmCpGCC) [53].

Several members of the BZIP CEBP TF family were found to bind mCpGs. CEBPA was shown to bind mCpG within the CRE motif by EMSA in vitro [63]. An approach using methylated binding microarrays found that mCpGs promoted binding of CEBPA and CEBPB although CEBPD and CEBPG, which bind similar motifs, were inhibited [42]. Profiling of CEBPB by ChIP-seq en vivo identified only 11% of its methylated motifs as bound, in contrast with 54% of its unmethylated motifs, located in open-chromatin regions [42]. However, TFs are known not to bind all their motif occurrences in a certain context. Further, a similar re-analysis identified 25% of the CEBPB binding sites as methylated [62], which is surprisingly high since most TF binding sites are located in unmethylated open chromatin regions. More recently, a methyl-SELEX approach identified CEBPB only as weakly binding to mCpGs (called methyl-plus) as well as CEBPE and CEBPG [44]. A different methyl-SELEX approach found that CEBPB could bind both methylated and unmethylated sequences suggesting that CEBPB could tolerate DNA methylation [45]. The methyl-SELEX approach identified several other TFs that could bind to mCpGs [44]. OCT4 (also called POU5F1) was classified as a methyl-plus TFs although it does not have a CpG in its canonical motif. They further tested its sensitivity en vivo by profiling OCT4 binding by ChIP-seq in WT and DNMTs TKO mouse ES cells and could identify a few sites that lost OCT4 binding in absence of DNA methylation, suggesting that OCT4 requires DNA methylation at these sites en vivo [44].

Additionally, several HOX TFs were also classified as methyl-plus TFs, with some containing CpGs in their motifs. They showed that HOXC11 could specifically drive luciferase activity of an exogenously inserted construct containing its motif only when methylated [44]. HOXA9 was also previously found to bind mCpGs by EMSA [53]. Structural reports further showed the recognition of HOX TFs to mCpGs, such as HOXB13 [44] and the PBX-HOXA9 complex [45]. However, in the case of HOXB13, only the mCpG on the top strand contributes to binding whereas the other strand does not [40].

Structural reports proposed mechanisms for TF binding to mCpGs. Studies on the HOX TFs suggest that a mCpG in their motif could mimic a thymidine base, which could explain different sensitivities among HOX paralogs, and could be generalized to other TFs [44,45]. Other structural reports suggest that the binding of several TFs to mCpGs such as KAISO, ZFP57 and KLF4 depends on an arginine preceding the first zinc-binding histidine (called the arginine-histidine (RH) motif) [64], although the presence of an RH motif in zinc-finger proteins may not be a good predictor of mCpG binding [65,66].

These different studies identified many TFs as able to bind mCpGs and therefore were sensitive to DNA methylation (Figure 2B), suggesting a widespread mechanism. However, most results report in vitro affinities and some are contradictory. Recent studies have compiled the methylation status of TF binding sites from en vivo datasets [67,68] although those analyses are static and only correlative. Therefore, the functionality of TFs binding to mCpGs remains to be further investigated experimentally.

DNA methylation does not affect TF binding

Alongside the discovery of TFs sensitive to DNA methylation, others appeared not to be affected and are therefore called insensitive to DNA methylation (Figure 2C). In 1988, SP1 was the first TF to be described as insensitive to mCpGs located both at the center and at the periphery of the SP1 motif by EMSA in vitro [69,70]. However, a later study found that an mCpG affected SP1 binding in vitro and that the aberrant methylation of the retinoblastoma gene promoter in cancer was suggested to prevent SP1 binding en vivo [71]. The YY1 TF was then identified as insensitive to DNA methylation at the Surf genes promoter whereas ETS TFs were blocked by mCpGs [27].

More recently high-throughput in vitro approaches identified more TFs as insensitive to DNA methylation. A study in plants identified 79 insensitive TFs (24% out of 327 tested) [46]. An approach using methyl-SELEX and bisulfite-SELEX found that 40% (202 out of 519) of the tested TFs were not affected and the majority (84%, 169 out of 202) did not have CpGs in their motifs [44].

The first evidence for TF insensitivity en vivo came in 2011, when upon removal of DNA methylation (using DNMTs TKO cells), CTCF binding sites were globally unaltered, suggesting that DNA methylation was not preventing CTCF binding in WT mouse ES cells [20]. This was surprising knowing that CTCF was a well-known example of TF sensitivity to DNA methylation (Box 2) and that a similar approach identified NRF1 as sensitive [43]. CTCF as well as REST were then validated using stable insertions of methylated reporters containing their motifs where they could bind methylated regions and lead to local demethylation [20]. In fact, relatively few new regions of open chromatin bound by TFs were identified in absence of DNA methylation in mouse ES cells suggesting that most TFs did not seem to be affected by DNA methylation en vivo in this cell type [43].


Abstracto

Epigenetic DNA modification impacts gene expression, but the underlying molecular mechanisms are only partly understood. Adding a methyl group to a cytosine base locally modifies the structural features of DNA in multiple ways, which may change the interaction with DNA-binding transcription factors (TFs) and trigger a cascade of downstream molecular events. Cells can be probed using various functional genomics assays, but it is difficult to disentangle the confounded effects of DNA modification on TF binding, chromatin accessibility, intranuclear variation in local TF concentration, and rate of transcription. Here we discuss how high-throughput in vitro profiling of protein–DNA interactions has enabled comprehensive characterization and quantification of the methylation sensitivity of TFs. Despite the limited structural data for DNA containing methylated cytosine, automated analysis of structural information in the Protein Data Bank (PDB) shows how 5-methylcytosine (5mC) can be recognized in various ways by amino acid side chains. We discuss how a context-dependent effect of methylation on DNA groove geometry can affect DNA binding by homeodomain proteins and how principled modeling of ChIP-seq data can overcome the confounding that makes the interpretation of en vivo data challenging. The emerging picture is that epigenetic modifications affect TF binding in a highly context-specific manner, with a direction and effect size that depend critically on their position within the TF binding site and the amino acid sequence of the TF. With this improved mechanistic knowledge, we have come closer to understanding how cells use DNA modification to acquire, retain, and change their identity.


Transcripción de ADN | Definición, etapas y diagrama n. ° 038

En la transcripción de ADN, la secuencia de ADN de un gen se copia (transcribe) para formar una molécula de ARN. Es el primer paso en la expresión del gen. El proceso de transcripción del ADN lo realizan las enzimas conocidas como ARN polimerasas. En otras palabras, la transcripción de ADN es un proceso mediante el cual se reescribe la información. Usamos el proceso de transcripción en nuestra vida diaria y nuestras células también lo hacen de manera especializada. En la forma genética, la transcripción es el proceso de copia de la secuencia de ADN del gen e para producir una molécula de ARN.

Definición de transcripción:

La transcripción es la primera etapa de la expresión génica mediante la cual se utiliza la información genética para construir un producto funcional como una proteína. El propósito del proceso de transcripción es crear ARN, una copia de la secuencia de ADN de un gen. La copia o transcripción del ARN lleva a cabo la información necesaria para crear un polipéptido para un gen codificado por una proteína. La transcripción de ADN en eucariotas requiere pasar por algunos pasos de procesamiento antes de la traducción a proteínas.

Etapas de la transcripción:

La transcripción se define como una copia de la secuencia de ADN de un gen para crear una molécula de ARN. La transcripción del ADN de un gen procesó su tarea mediante el uso de tres etapas de iniciación, alargamiento y terminación.

Iniciación:

La iniciación es la primera etapa de la transcripción, en la que la ARN polimerasa se une a la secuencia de moléculas de ADN conocida como Promotor. Se encontró cerca del comienzo del gen. Cada uno de los genes tiene su propio promotor. Después de unirse, la ARN polimerasa se separa en las cadenas de ADN, dando la plantilla monocatenaria que se requiere para la transcripción.

Inicio de la transcripción: La iniciación es el paso inicial o la transcripción. It lies when the RNA polymerase named enzyme binds to an area or region of a gene, known as promoter . The signals to the DNA for unwinding, so the enzymes can be read as the bases in one of the DNA strands. Then, the enzymes ready to create a strand of mRNA by a complementary sequence of bases.

2. Alargamiento:

Elongation is the second stage, in which one strand of DNA or the template strand works as a template for RNA polymerase. This template one base at a time, the polymerase creates an RNA molecule out of complementary nucleotides, by making a chain, which grows from 5 to 3 . The RNA transcription has the same information as a non-template strand of DNA by copying the information, but it consists of the base uracil (U) instead of the thymine (T).

RNA Polymerase: The RNA polymerase is the main enzyme involved in the transcription that uses a single strand DNA template in order to synthesize a complementary strand for RNA molecule. In simple words, RNA polymerase creates an RNA strand in the 5 to 3 direction, by adding each new nucleotide to the 3 end of the strand.

3.Termination:

Termination is the last stage of DNA Transcription. The RNA transcription is completed by the sequence called terminator signals . After they are transcribed, or copy out, they cause the transcript to release from the RNA polymerase.

Transcription Termination: Various processes of regulator transcription termination had discovered in eukaryotes and bacteria. RNA polymerase works for the two principal mechanisms of the termination of transcription occurs in E. coli. In the additional protein, the transcription termination factor known as Rho, which is a need in one mechanism but not in another mechanism. These two mechanisms are referred to as Rho-independent and Rho-dependent termination. The process of the ending of transcription is known as transcription termination and occurs once the polymerase transcribes in a DNA sequence called terminator .

Termination in Bacteria:

The two main mechanisms are found in bacteria Rho-dependent and Rho-independent.

Rho-dependent termination: In the mechanism of Rho-dependent termination, the RNA consists of a binding site for a protein known as the Rho factor . The Rho factor binds the sequence and begins climbing up the transcription toward the RNA polymerase.

Rho-independent termination: In the mechanism of Rho-independent termination, it depends on the particular sequence in the DNA template strand. RNA polymerase approach at the end of the gene being transcribed, it hits an area or region rich in C and G nucleotides. The transcription of RNA begins from this region folds back and complementary C and G nucleotides bind with each other. As a result, a stable hairpin occurs that causes the RNA polymerase to the stall.

Transcription happens for Individual Genes:

All genes cannot be transcribed all the time. In fact, transcription controlled for each gene individually. Cells carefully and accurately regulate the process of DNA Transcription and transcribing just for those genes whose products are required at a specific moment.

Transcription Regulators

Promoters in Bacteria:

Promoter in bacteria is the common feature of DNA transcription regulators in their ability to recognizes the particular DNA pattern to modulate gene expression. The upstream regulation of the region of bacterial coding consists of a promoter, which is the DNA sequence that determines the particular recognition by the RNAP holoenzyme.

In bacteria, the RNAP holoenzyme contains five subunits and an additional sigma subunit factor. The collection of different subunits works as key regulation in bacterial gene expression.

Promoters in Humans:

A member of the PPAR subfamily is PPARgamma in nuclear receptors. In humans, the structure of human PPARgamma cDNA and the genome was defined, and its promoter and particular tissue expression were characterized functionally. The two PPAR isoforms detected in humans such as PPARgamma 1 and PPARgamma 2. In all analysis tissues, PPARgamma 2 was less abundant than the PPARgamma 1.

What happens to the RNA Transcription?

In the process of RNA transcription, in which a DNA sequence of the gene is copied out or transcribed to create an RNA molecule. The main enzyme involved in RNA transcription is known as RNA polymerase. The process of transcription starts when RNA polymerase binds a promoter sequence near the start location of the gene. The process of RNA transcription ends in the process known as termination . The termination depends on the sequence in RNA that gives the signal that transcription is finished.

Eukaryotic RNA Modifications:

RNA transcription works as messenger RNAs (mRNAs) in bacteria. While in eukaryotes, protein-coding gene transcription is known as pre-mRNA , and it has must go through extra processing before it can direct translated. Eukaryotic pre-mRNAs have must be modified ends by the addition of a 5 cap (from the beginning) and 3 poly-A tail (at the end). Many of eukaryotic pre-mRNAs can undergo splicing. Parts of the pre-mRNA are known as introns . During this process, introns are chopped out and the remaining pieces, known as exons , are stuck back together. The modification ends to raise the stability of the mRNA on the other hand, splicing provides the correct sequence of mRNA.


Sandwalk

This post is about a paper recently published in Ciencias (Dec. 13, 2013) by John Stamatoyannopoulos and his collaborators at the University of Washington in Seattle, Washington, USA.

Stergachis, A.B., Haugen, E., Shafer, A., Fu, W., Vernot, B., Reynolds, A., Raubitschek, A., Ziegler, S., LeProust, E.M., Akey, J.M. and Stamatoyannopoulos, J.A. (2013) Exonic Transcription Factor Binding Directs Codon Choice and Affects Protein Evolution. Science 342:1367-1372. [doi: 10.1126/science.1243490] [Abstract] [PDF]

Stamatoyannopoulos is one of the ENCODE workers. He recently gave a talk at the University of Toronto where he defended the idea that pervasive transcription and pervasive transcription factor binding are evidence of widespread function in the human genome. This paper looks at transcription factor binding sites in exon sequences (coding sequences) and finds lots of them. What this means is that stretches of coding region contain codons AND transcription factor binding sites (duh!).

This is such an important discovery (not!) that Stergachis et al. coined a new word, "duons," to describe sequences that have two meanings. The ridiculous hype over this paper is covered in a separate post []. Here, I want to look at the science.

Let's start by reviewing what we know about DNA binding proteins. Some of these proteins bind to specific sequences in DNA. The classic examples are the restriction enzymes (restriction endonucleases) produced by various bacterial species to protect themselves against invasion by foreign DNA. These enzymes recognize short sequences of DNA. They bind and cleave the DNA by cutting both strands [see Restriction, Modification, and Epigenetics].

Typical DNA binding proteins recognize specific sequences of about six base pairs. The restriction enzyme EcoR1, for example, binds to the sequence GAATTC. This sequence will occur quite often in any random stretch of DNA. You can calculate the frequency by determining the probability of GAATTC: it's 4 6 or one in 4096 base pairs. What this means is that EcoR1 will bind to any DNA about once every 4000 bp (4Kb). 1

Back in the olden days, before DNA sequencing became cheap and easy, we used to construct restriction maps of DNA to define genes. Here's an example from a paper we published over thirty years ago. It shows the DNA binding sites of various restriction enzymes on Drosophila melanogaster DNA clones containing hsp70 heat shock genes (Moran et al. 1979).

The important point here is that none of these bacterial enzymes will ever see Drosophila DNA outside of the laboratory but because of their binding properties they recognize their specific binding sequence whenever they encounter it. I could have done the same experiment using transcription factors. If I had several dozen transcription factors from human cells, I could have mapped their binding sites on my Drosophila DNA and made a figure just like the one shown above. Of course, none of those binding sites would be biologically relevant since the binding of a human transcription factor to fruit fly DNA isn't ever gong to happen in the real world.

The coding regions of the genes are shown by the solid black bars in the figure. (These genes have no introns.) Note that the restriction enzyme binding sites are distributed fairly randomly but many of them bind to the coding region. What this means is that certain sequences in the coding region have a dual "meaning." Not only do they specify codons, they also specify the binding site for a restriction endonuclease. I suppose we could have made a big deal of this back in 1979 and called those sequences "duons" but I doubt very much this would have got past the reviewers. It's too obvious and it's not biologically relevant.

Same with transcription binding sites. If I had published a map of human transcription factor binding sites on Drosophila DNA nobody would think this remarkable enough to coin a new word for codons that are also transcription factor binding sites.

This brings us back to the Stergachis et al. (2013) paper. What they did was to map the sites in human DNA that bind human transcription factors. Recall that there have to be lots of these sites in our genome since most of them recognize specific sequences of about 6bp. Like restriction enzyme binding sites, these sequences will occur once every 4Kb (4000 bp) in random sequences of DNA. The human genome is not exactly random DNA but it's close enough for our purposes. For any given transcription factor, there will be about 800,000 binding sites in the human genome. Only a tiny percentage of these sites will be be biologically relevant leading to regular transcription of a nearby gene.

Stergachis et al. did not map transcription factor binding sites to naked human DNA. Instead, they mapped the binding sites en vivo which means that a given cell type had to produce the transcription factor and the DNA binding site had to be accessible. The latter distinction is important because a lot of our DNA is tightly bound to nucleosomes to make chromatin and in higher order chromatin structures the naked DNA is not "visible" to DNA binding proteins. When a gene is active, the chromatin opens up to form an "open" chromatin region where the DNA is exposed to transcription factors and RNA polymerase transcription complexes.

What this means is that only a subset of possible transcription factor binding sites can be detected in any given cell type. Many of these will be in or near active genes where the chromatin is in an "open" conformation. This includes protein coding genes and coding regions.

Stergachis et al. (2013) found a total of 11,588,043 transcription factor binding sites in 81 different cell types. The average was 1,018,514 different binding sites in a typical cell. They found a total of 24,842 binding sites within protein-coding exons. This corresponds to 1.8% of the total. In other words, 98.2% of the binding sites were in noncoding DNA and 1.8% were in coding DNA. This is pretty close to the distribution of coding and noncoding DNA in the genome suggesting strongly that the method is detecting random non-functional binding of transcription factors.

I conclude that the authors are detecting transcription factors binding to non-functional sites within coding regions. The vast majority of these sites have no biological relevance. They simply reflect the occurrence of fortuitous binding sites in the genome that just happen to match the specific binding site consensus sequence. This is not a big deal. In fact, it is predicted simply on the basis of our understanding of DNA binding proteins.

The authors do not address this possibility in their paper. Instead, they conclude .

While the authors are entitled to their opinion, they are NOT entitled to ignore other possible interpretations of their data. Especially since, in this case, the other interpretation contradicts the main conclusions of the paper. This is not how science should be done. This paper should never have been published as it is. The reviewers should be named and shamed. The editor(s) at Ciencias should be fired. 2

1. It's actually a bit more complicated than that. Most DNA binding proteins bind nonspecifically to any piece of DNA. It's not just part of the intrinsic affinity for a negatively charged double-helix, it's also biologically relevant since these proteins usually bind weakly to DNA and then scan the DNA in one dimension looking for their specific binding site [see Slip Slidin' Along - How DNA Binding Proteins Find Their Target]. This kind of binding would not show up in the methods used by Stergachis et al. However, specific DNA binding proteins will recognize sequences that are closely related, but not identical, to their binding site and these interactions could be detected. EcoR1, for example, will bind with appreciable affinity to sites that differ by just one base pair from GAATTC.

2. No editor at Ciencias should be unaware of the controversy surrounding the ENCODE publicity fiasco of 2012. Thus, editors should be on high alert every time they receive a paper from another ENCODE lab. They should go out of their way to choose reviewers who have been critical of the claims of pervasive functionality.


Transcription factors may inadvertently lock in DNA mistakes

Transcription factor proteins are the light switches of the human genome. By binding to DNA, they help turn genes "on" or "off" and start the important process of copying DNA into an RNA template that acts as a blueprint for a new protein.

By being choosy about which genes they turn on, transcription factors determine which rooms in the house are lighted and which aren't, or rather, which components of a person's genome are activated.

A team of Duke researchers has found that transcription factors have a tendency to bind strongly to "mismatched" sections of DNA, sections of the code that were not copied correctly. The strong binding of transcription factors to mismatched sections of regulatory DNA might be a way in which random mutations become a problem that leads to disease, including cancer.

The findings appear Oct. 21 in the journal Naturaleza.

Most of the time, DNA replication in the body goes smoothly, with nucleotides locking arms with their complementary base pair and marching through the cycle together in intended A-T and C-G fashion. However, as Gordan describes it, "no polymerase is perfect" and every now and then, a nucleotide will be paired with the wrong partner, resulting in a mismatch.

Pipetting transcription factor proteins on slides pre-blotted with thousands of DNA molecule samples, a research team led by Duke computational biologist Raluca Gordan Ph.D., showed that the proteins had a stronger bond with the sections of DNA with the mismatched base pairs than with those with perfectly matched base pairs, or "normal" DNA structure.

But what makes these 'mistakes' an attractive binding site for transcription factor proteins? For insight, Gordan, an associate professor in the Department of Biostatistics and Bioinformatics and the Department of Computer Science, reached out to Hashim Al-Hashimi, Ph.D., a James B. Duke Professor of Biochemistry, and expert in DNA structure and dynamics who works just across the street.

Al-Hashimi studies nucleic acids (DNA and RNA) and their interactions with proteins and small molecules, with the idea that how these biomolecules look and move is as important for their function as their chemical properties.

Looking at the experimental results, Gordan and Al-Hashimi came to the conclusion that the strong interaction between transcription factor proteins and mismatched DNA has a lot to do with laziness. When a transcription factor protein binds to DNA, it must spend energy distorting the site, for example by bending the DNA to its will. However, mismatched sections of DNA are already distorted, so the transcription factor protein has to do less work.

"That's when the transcription factor doesn't need to pay that energetic penalty" to get the job done, Gordan said.

"If we are ever to attain a deep and predictive understanding of how DNA is recognized by proteins in cells, we need to go beyond the conventional description in terms of static structures and move towards describing both DNA and the protein molecules that bind to them in terms of dynamic structures that have different preferences to adopt a wide range of shapes," Al-Hashimi said.

Gordan said that going forward, the team hopes to understand how this interaction relates to disease development. If a mismatched base pair, bound strongly by a transcription factor, makes it through the DNA replication cycle without being repaired by another type of protein -- known as a repair enzyme -- it can become a mutation, and mutations can lead to genetic diseases like cancer and neurodegeneration.

"We are now convinced that the interactions between transcription factors and mismatches are really strong," she said. "So the next step is to understand what this means for the cell."

"We already know that regulatory regions of the genome harbor more cancer mutations than expected by chance. We just do not know why. The strong interactions between transcription factors and DNA mismatches, which could interfere with repair of the mismatches, provide a novel mechanism for the accumulation of mutations in regulatory DNA."


13059_2005_1138_MOESM1_ESM.pdf

Additional data file 1: A figure depicting the effective length and fuzziness of motifs as a function of the number of binding sites in the promoter region (PDF 17 KB)

13059_2005_1138_MOESM2_ESM.pdf

Additional data file 2: A figure depicting the correlation between fit of binding sites to the motif and the length of the motif (PDF 14 KB)

13059_2005_1138_MOESM3_ESM.pdf

Additional data file 3: A figure depicting the distribution of promoters according to the number of associated transcription factors/binding sites (PDF 19 KB)

13059_2005_1138_MOESM4_ESM.pdf

Additional data file 4: A figure depicting average promoter and gene properties as a function of the number of transcription factors (PDF 20 KB)

13059_2005_1138_MOESM5_ESM.pdf

Additional data file 5: A figure depicting average promoter and gene properties as a function of the number of binding sites, for promoters to which exactly one factor binds (PDF 20 KB)

13059_2005_1138_MOESM6_ESM.pdf

Additional data file 6: A figure depicting average promoter and gene properties as a function of the number of binding sites, for promoters for which each factor has exactly one binding site (PDF 20 KB)

13059_2005_1138_MOESM7_ESM.pdf

Additional data file 7: A figure depicting the distribution of correlations between motif length and number of binding sites in randomly shuffled data (PDF 14 KB)


Resumen & # 8211 Transcripción procariota vs eucariota

La transcripción es el primer paso de la expresión génica, seguido de la traducción. Aunque el mecanismo de transcripción es el mismo en procariotas y eucariotas, existen varias diferencias entre ellos. La diferencia clave entre la transcripción procariota y eucariota es que la transcripción procariota se produce en el citoplasma, mientras que la transcripción eucariota se produce en el núcleo ... Además, la transcripción procariota implica sólo una ARN polimerasa, mientras que la transcripción eucariota implica tres tipos de ARN polimerasas. Además, la secuencia de ARNm de los procariotas es policistrónica, mientras que en eucariotas, la secuencia de ARNm es monocistrónica. No solo eso, en eucariotas, ocurren modificaciones postranscripcionales, mientras que en procariotas, no ocurren. Este es el resumen de la diferencia entre la transcripción procariota y eucariota ...

Referencia:

1. Cooper, Geoffrey M. "Transcripción en procariotas". Current Neurology and Neuroscience Reports., Biblioteca Nacional de Medicina de EE. UU., 1 de enero de 1970. Disponible aquí
2. "Transcripción eucariota". Wikipedia, Wikimedia Foundation, 17 de enero de 2019. Disponible aquí

Imagen de cortesía:

1. & # 8221 Síntesis de proteínas bacterianas & # 8221 Por Joan L. Slonczewski, John W. Foster & # 8211 Microbiology: An Evolving Science, (CC BY-SA 3.0) vía Commons Wikimedia
2. & # 8221 Transcripción eucariota & # 8221 Por Frank Starmer (CC BY 1.0) vía Commons Wikimedia


Ver el vídeo: Regulación de la transcripción. Khan Academy en Español (Diciembre 2022).