Información

¿Encontrar distancia filogenética entre secuencias?

¿Encontrar distancia filogenética entre secuencias?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estoy trabajando en un software que hace análisis genómico comparativo; y descubrí en los métodos de homología para la anotación funcional, es preferible elegir el homólogo de alta puntuación de una secuencia distante (es decir, no estrechamente relacionada con la secuencia de consulta en el árbol filogenético).
Mi pregunta es: ¿por qué? y también ¿podría usarse el taxid del NCBI para cada taxón para aproximar esta distancia? si no es así, ¿existe una forma sencilla de tomar esta decisión binaria (cerrar, no cerrar) cuando se le dan dos secuencias?


No, porque en realidad no es una decisión binaria. Hay intentos de asociar la diferencia porcentual por pares con los rangos taxonómicos (particularmente las especies), pero esto es problemático porque cada linaje independiente puede variar de acuerdo con su propia tasa. Se pueden utilizar secuencias de diferentes familias, órdenes o incluso phyla, pero estos dos pueden depender de si los especialistas en el campo son acumuladores o divisores. Por ejemplo, todas las hormigas pertenecen a la misma familia y Formicidae tiene más de 100 millones de años, mientras que las aves que pueden haber divergido de un ancestro común en los últimos 10 millones de años pertenecen a una familia diferente. Puede utilizar la distancia por pares O la taxonomía de nivel superior como proxy. Pero sería tosco. ¿Por qué no programar su software para tomar decisiones difíciles sobre la homología y luego encontrar el homólogo más cercano más distante en términos de diferencias por pares?


Evaluación comparativa de métodos de comparación de secuencias sin alineación

La comparación de secuencias sin alineación (AF) está atrayendo un interés persistente impulsado por aplicaciones de uso intensivo de datos. Por lo tanto, se han propuesto muchos procedimientos de FA en los últimos años, pero la falta de un consenso de evaluación comparativa claramente definido dificulta su evaluación del desempeño.

Resultados

Aquí, presentamos un recurso comunitario (http://afproject.org) para establecer estándares para comparar enfoques sin alineación en diferentes áreas de investigación basada en secuencias. Caracterizamos 74 métodos de AF disponibles en 24 herramientas de software para cinco aplicaciones de investigación, a saber, clasificación de secuencias de proteínas, inferencia de árboles genéticos, detección de elementos reguladores, inferencia filogenética basada en el genoma y reconstrucción de árboles de especies bajo transferencia horizontal de genes y eventos de recombinación.

Conclusión

El servicio web interactivo permite a los investigadores explorar el rendimiento de herramientas sin alineación relevantes para sus tipos de datos y objetivos analíticos. También permite que los desarrolladores de métodos evalúen sus propios algoritmos y los comparen con las herramientas de vanguardia actuales, acelerando el desarrollo de nuevas soluciones de AF más precisas.


Métodos

Para construir una gráfica δ para un conjunto de taxones X, δq se calcula para cada cuarteto q en X y se muestra en un histograma. El número de cuartetos en un conjunto de datos con norte taxa es (n 4), por lo que el costo computacional de construir una gráfica δ es O(norte 4). Para grande norte (decir norte & gt 100 taxones), puede ser preferible construir una gráfica δ para una submuestra aleatoria de los cuartetos. Tenga en cuenta que denotamos por δ̄ el valor medio de δq tomado el control de todos los cuartetos en X. (Por ejemplo, las parcelas δ ver las fig.9a y 10una. La gráfica δ en la fig. 9a, siendo más sesgado hacia cero, muestra una distribución más arbolada que la de la fig. 10una. )

Como se menciona en el Introducción, la medida δq es bien conocido en el área de la geometría estadística, y ahora describimos brevemente la conexión que tienen las parcelas δ con este método. En caso de que una distancia D también satisface la desigualdad del triángulo, es decir, D es una métrica, su restricción a cualquier cuarteto se puede representar en un diagrama o gráfico ponderado como el de la figura 1.

Esto se lleva a cabo etiquetando apropiadamente los vértices colgantes (en esta figura etiquetados por x, y, u, v) y asignar valores no negativos (necesariamente únicos) a los pesos de los bordes a, b, c, d, s, l de modo que la suma de los pesos a lo largo de un camino más corto entre cada par de taxones es igual a la distancia entre esos taxones (Zaretsky 1965). Si la distancia es aditiva, entonces el valor asignado a al menos uno de s o l será cero y, como se esperaba, el diagrama se convierte en un árbol ponderado.

La geometría estadística (Dress 1988 Eigen, Winkler-Oswatitsch y Dress 1988 Eigen y Winkler-Oswatitsch 1990) intenta evaluar las propiedades de los datos, como la semejanza de los árboles, mediante el cálculo de diagramas o geometrías como la anterior para subconjuntos de un conjunto de alineaciones. secuencias. Se puede realizar tanto en el espacio secuencial como en el espacio lejano, siendo este último de interés para nosotros aquí. En particular, en este método se deriva un promedio de todos los diagramas de cuarteto y se representa en un diagrama característico que representa la divergencia evolutiva subyacente de las secuencias. En lugar de comprimir toda la información en un solo diagrama, los gráficos δ representan la distribución de las geometrías de distancia del cuarteto. Una filosofía similar subyace al método recientemente desarrollado de mapeo de cuarteto (Nieselt-Struwe y von Haeseler 2001) que tiene como objetivo visualizar el contenido filogenético de un conjunto de secuencias alineadas.


Resultados y discusión

Aislamiento de secuencias de bHLH de bases de datos de proteínas y genomas

Para aislar genes humanos bHLH, hicimos búsquedas TBLASTN [13] en la secuencia del borrador del genoma humano [11], como se describe en Materiales y métodos. Completamos la lista de los bHLH recuperados utilizando la base de datos SMART [14, 15]. Finalmente obtuvimos 125 secuencias diferentes de bHLH humana, que se enumeran en la Tabla 2. Todas las secuencias recuperadas se utilizaron para realizar búsquedas BLASTP en bases de datos de proteínas con el fin de detectar aquellas secuencias que ya estaban identificadas. Encontramos que 80 secuencias ya estaban presentes en bases de datos de proteínas, 45 de las secuencias recuperadas del genoma humano corresponden a genes previamente no caracterizados. De manera similar, recuperamos, mediante TBLASTN, 84 y 18 secuencias de bHLH diferentes de los genomas secuenciados de manera incompleta del pez globo. T. rubripes y el mar squirt C. intestinalis, respectivamente (consulte Archivos de datos adicionales). Además, recuperamos el conjunto completo de genes bHLH presentes en los genomas de mosca (58 en total), gusano (39) y levadura (8), así como todos los genes bHLH de ratón clonados hasta la fecha (102), como se describe en Materiales y métodos. Estas secuencias con sus números de acceso y alguna información (localización genómica y relaciones de ortología) se enumeran en las Tablas 3, 4, 5, 6.

Determinación de las relaciones ortológicas.

Para llevar a cabo análisis evolutivos de familias multigénicas es necesario distinguir los ortólogos, que han evolucionado por descenso vertical de un ancestro común, de los parálogos, que surgen por duplicación y barajado de dominios dentro de un genoma [17]. No hacerlo puede resultar en una clasificación funcional errónea y reconstrucciones evolutivas moleculares inexactas [18,19]. La similitud general (según lo determinado por BLAST mi-valor) se utiliza a menudo como un criterio para determinar las relaciones de ortología dentro de grandes conjuntos de datos, como genomas completos [20, 21, 22, 23], pero hay evidencia de que se requieren reconstrucciones filogenéticas más rigurosas para determinar con confianza las ortologías [22,24 ]. Por lo tanto, construimos árboles filogenéticos para definir grupos de secuencias ortólogas, como hicimos anteriormente [8] (ver Materiales y métodos).

Determinamos 44 familias ortólogas que contienen la mayoría de las familias de metazoos bHLH (Tabla 1 y datos adicionales). Dos de estas familias también contienen genes de levadura. El criterio que utilizamos para definir las familias ortólogas fue como en [8,25], es decir, las familias ortólogas son grupos monofiléticos que se encuentran en los árboles genéticos construidos por diferentes métodos filogenéticos y cuya monofilia está respaldada por valores bootstrap superiores al 50%. Nombramos a cada familia de acuerdo con su primer miembro descubierto o, en algunos casos, su miembro mejor caracterizado. Este análisis dio resultados similares a los descritos en [8], excepto que las secuencias adicionales incluidas en el presente análisis filogenético nos llevó a definir seis familias adicionales de bHLH de metazoos, en comparación con nuestro informe anterior. También debemos mencionar la existencia de tres familias específicas de levadura.

Comparación de los repertorios de bHLH humano y de ratón

Encontramos un total de 125 y 102 secuencias de bHLH diferentes en humanos y ratones, respectivamente (Tablas 2 y 5). Estas secuencias se utilizaron para realizar reconstrucciones filogenéticas como se describe anteriormente y en Materiales y métodos. Esto nos permite inferir relaciones ortológicas entre secuencias humanas y de ratón. Dos secuencias se consideraron ortólogas si están más estrechamente relacionadas entre sí que con cualquier otra secuencia humana o de ratón. Esto se puede detectar fácilmente en los árboles filogenéticos, ya que las dos secuencias formarán un grupo monofilético exclusivo (Figura 2a). Entre las 125 secuencias humanas, 94 pueden estar relacionadas con precisión con 1 (o en algunos casos 2, ver más abajo) genes de ratón (Tabla 2) y, a la inversa, los ortólogos humanos pueden asignarse con seguridad a 93 de los 102 genes de ratón (Tabla 5 ). Entre los 31 genes humanos y los 9 genes de ratón que no muestran una relación ortológica clara con ningún gen de ratón o humano, respectivamente, 8 genes humanos y 6 genes de ratón son miembros de familias en las que las relaciones filogenéticas son inciertas: las familias Mesp, E12 y Coe. (Figura 2b y datos adicionales). La familia Mesp contiene cuatro genes humanos y tres genes de ratón, la familia E12 siete genes humanos y cuatro de ratón, y la familia Coe cuatro genes humanos y cuatro de ratón. Algunos de estos genes no pueden vincularse claramente entre sí (consulte la Figura 2b para ver un ejemplo). Sin embargo, es concebible que tales relaciones existan pero que los métodos de reconstrucción filogenética no las detecten. Por tanto, consideramos que, en la familia Mesp, por ejemplo (Figura 2b), tres de los cuatro genes humanos corresponden a los tres genes del ratón, por lo que, hasta la fecha, un gen humano carece de un ortólogo entre los genes de ratón clonados.

Aplicar el mismo razonamiento a las familias E12 y Coe nos lleva a concluir que al menos 26 genes humanos (20% del total) no tienen ortólogos entre los genes bHLH de ratón clonados hasta la fecha y solo 3 bHLH de ratón (3%) no tienen ortólogos en el conjunto bHLH que derivamos del borrador de la secuencia del genoma humano. La Figura 2c muestra un árbol filogenético típico de una familia que contiene genes humanos que carecen de ortólogos de ratón. El hecho de que solo tres genes de ratón carecen de ortólogos humanos sostiene firmemente que, aunque nuestro análisis se realizó en una versión preliminar de la secuencia del genoma humano, es probable que el conjunto de bHLH que recuperamos esté casi completo y, por lo tanto, brinda una visión muy precisa de el repertorio bHLH de un ser humano. Las búsquedas BLAST adicionales de ortólogos humanos de los tres bHLH de ratón que carecían de ortólogos (Scleraxis, Dermo-1 y S-Myc) no tuvieron éxito, lo que sugiere que estos ortólogos no existen en humanos o no están en la secuencia de borrador. Recientemente nos dimos cuenta de que existe cierta incompatibilidad entre la versión actual de BLAST y la secuencia del genoma humano (probablemente debido a la gran cantidad de Ns (nucleótidos no asignados) en la secuencia), lo que hace que BLAST no pueda localizar algunos de los mejores o incluso coincidencias exactas de secuencias de consulta pequeñas (JAM Leunissen, comunicación personal). Esto puede explicar por qué pasamos por alto los cuatro genes citados anteriormente y también por qué, en algunos casos, no pudimos encontrar genes humanos clonados conocidos en la secuencia del genoma (ver Tabla 2).

También encontramos ocho casos en los que dos genes humanos se agrupan (con un alto apoyo estadístico) con exclusión de cualquier otro gen y, a menudo, son ortólogos de un solo gen de ratón (Figura 2b y datos adicionales). Por el contrario, encontramos dos casos en los que dos genes de ratón son, en conjunto, ortólogos de un solo gen humano (Figura 2d). Esto puede revelar duplicaciones relativamente recientes específicas del linaje humano o de ratón. De acuerdo con esto, en todos los casos la identidad de aminoácidos entre los dos duplicados es alta y no se limita a la bHLH. Además, encontramos que en dos casos (secuencias humanas Q9UH92 / N005106 y Q02363 / N005999), uno de los dos duplicados carece de intrones. Además, las dos copias se encuentran en diferentes cromosomas. Esto sugiere fuertemente que las duplicaciones se han producido por retrotransposición, un tipo de evento que parece ser bastante frecuente en humanos [26]. En ambos casos, la copia que carece de intrones tiene codones de parada en la bHLH, lo que sugiere que es un pseudogén.

Proteínas con dos bHLH

Entre los 39 bHLH del gusano, 6 no pueden asignarse a ninguna familia (los genes huérfanos, véanse las Tablas 1 y 4). Cinco de ellos tienen una arquitectura inusual ya que contienen dos dominios bHLH (ver también [27, 28]). El análisis filogenético de estas proteínas indica que son el resultado de la duplicación de un gen ancestral que ya contenía dos bHLH (Figura 3). Ambos dominios bHLH están vagamente relacionados (sobre la base de la similitud general) con las proteínas HER (grupo E, Figura 1), pero su inclusión en el grupo E no está respaldada por la reconstrucción filogenética (Figura 3). Además, carecen del dominio naranja, que es característico de la mayoría de las proteínas HER y les proporciona especificidad funcional [29]. También carecen del motivo WRPW que se encuentra en la región carboxi-terminal de casi todas las proteínas HER y que permite la interacción con la proteína represora de Groucho [30, 31, 32]. Además, carecen de una prolina conservada en el dominio básico que confiere especificidad de unión al ADN en las proteínas HER [30].

Proteínas de gusano con dos dominios bHLH. Se muestra un árbol NJ enraizado que representa las relaciones filogenéticas de las cinco proteínas del gusano con dos dominios bHLH. En este análisis se han incluido genes de ratón representativos de algunas de las familias de animales. El enraizamiento es como en la Figura 1. Los números arriba de las ramas indican el porcentaje de apoyo en los análisis de arranque (1,000 réplicas). Como en la Figura 1, el enraizamiento debe considerarse arbitrario. Las longitudes de las ramas son proporcionales a la distancia entre secuencias. Mmm Mus musculus Ce, Caenorhabditis elegans. Las secuencias de la primera bHLH de cada proteína de gusano se muestran en azul, la segunda en rojo. Ambos forman grupos monofiléticos con altos valores de arranque, lo que indica que estas proteínas se originan a partir de una proteína ancestral que ya tenía dos dominios bHLH. Además, hay un apoyo más débil (40% bootstraps) para una asociación de los dos dominios bHLH en un grupo monofilético (no se muestra en la figura, ya que solo se muestran los nodos con 50% o más de apoyo), lo que sugiere que la proteína ancestral puede haber adquirido sus dos dominios bHLH por duplicación en tándem en lugar de por asociación de dominios bHLH no relacionados.

No se ha informado de ninguna otra proteína con dos bHLH en otros metazoos y no pudimos encontrar tales proteínas en los genomas de mosca y humanos. Una proteína con dos dominios bHLH se encuentra en el arroz (Oryza sativa proteína P0498B01.20 número de acceso BAB61947) pero su secuencia no está relacionada en absoluto con la de la proteína del gusano. Varias proteínas bHLH contienen otros dominios de unión y / o dimerización de ADN además de su bHLH, como el dominio PAS, cremalleras de leucina o el dominio Coe [6,33,34]. Es concebible que estos dominios puedan cooperar y de ese modo conferir funciones particulares a las proteínas que los contienen. De manera similar, la presencia de dos bHLH podría modificar la especificidad de las proteínas que las contienen.

El establecimiento de la familia de genes bHLH

Los genes bHLH se encuentran en las principales subdivisiones de los eucariotas: metazoos, hongos y plantas. Por el contrario, no se pueden encontrar secuencias de bHLH en procariotas. Por tanto, parece que el motivo bHLH se estableció en la evolución eucariota temprana. Hemos encontrado ocho genes bHLH diferentes en el eucariota unicelular, la levadura S. cerevisiae. La mayoría de estos genes ya se clonaron y se caracterizaron funcionalmente (revisado en [7]). Estos genes a menudo regulan las vías bioquímicas (como la utilización de fosfato, la biosíntesis de fosfolípidos y aminoácidos, la glucólisis) mediante la activación transcripcional de conjuntos más o menos grandes de genes implicados en estas vías [7]. Los ortólogos de estos genes se encuentran en otras levaduras relacionadas lejanamente, como Schizosaccharomyces pombe y Kluyveromyces lactis (nuestras observaciones inéditas), lo que indica un origen antiguo para los diferentes genes bHLH entre las levaduras.

El número relativamente pequeño de genes bHLH encontrados en la levadura unicelular contrasta con el gran número encontrado en eucariotas multicelulares como animales y plantas. Divulgamos aquí la existencia de 39 genes bHLH diferentes en C. elegans, 58 pulg D. melanogaster, y 125 en humanos. Análisis preliminar de genomas vegetales, en particular de Arabidopsis thaliana y O. sativa, de manera similar indica un gran número de genes bHLH (más de 100 en el genoma completamente secuenciado de A. thaliana, nuestras observaciones inéditas). Esta importante diversificación del repertorio de bHLH en animales y plantas se ha producido de forma independiente, ya que los genes de bHLH de plantas y animales nunca se encuentran en una misma familia. La visión actual de la filogenia eucariota sugiere que los hongos y los animales están más estrechamente relacionados entre sí que con las plantas [35]. Sin embargo, encontramos que solo dos familias contienen genes de levadura y animales (ver Tabla 1), lo que sugiere que el ancestro común de hongos y animales puede haber poseído incluso menos genes de bHLH que las levaduras actuales. En un futuro próximo, los proyectos del genoma actualmente en curso en varios eucariotas "basales" (véase [36, 37]) pueden proporcionar información importante sobre la historia evolutiva muy temprana de la familia bHLH.

Sugerimos que la diversificación de los genes bHLH está directamente relacionada con la adquisición de multicelularidad y, por tanto, con el reclutamiento de genes implicados en funciones celulares como el metabolismo en los procesos de desarrollo necesarios para construir multicelularidad. De hecho, en los animales, los genes bHLH generalmente están involucrados en el desarrollo y en la regulación génica específica de tejido (revisado en [1, 2, 3, 4, 5]). Puede existir una situación similar en las plantas, aunque se han caracterizado funcionalmente muy pocos genes de bHLH. Además, tanto en animales como en plantas, la diversificación de genes bHLH parece haber ocurrido temprano en la evolución de estos linajes.

De hecho, nuestro análisis filogenético de genes bHLH animales muestra que la mayoría pertenecen a 44 familias ortólogas diferentes. De estas familias, 43 contienen representantes tanto de protóstomos como deuteróstomos y, por lo tanto, deben estar representados en su ancestro común (a menudo llamado Urbilateria) [38], que vivió en tiempos precámbricos (hace 600 millones de años).Además, los pocos genes bHLH que se han clonado a partir de cnidarios, que no son bilaterianos, están claramente incluidos en familias (consulte las familias Twist, MyoD y ASC en Datos adicionales), lo que sugiere que el establecimiento de al menos algunas familias es anterior a la divergencia. de bilaterales y no bilaterales. Otros análisis de los genes bHLH en cnidarios, esponjas y mohos limosos ayudarán a resolver el problema de la evolución temprana de los genes bHLH en animales.

Nuestros análisis preliminares de genes de bHLH de plantas son consistentes con una diversificación temprana en plantas, como en animales. De hecho, muchos A. thaliana Los genes bHLH tienen ortólogos claros en una planta relacionada lejanamente, O. sativa, cuyo genoma ha sido parcialmente secuenciado (nuestras observaciones no publicadas). Arabidopsis es un eudicotiledónea y Oryza miembro de la Liliopsida (una monocotiledónea), y dadas las relaciones filogenéticas de estos clados [39], esto sugiere que la posesión de numerosos genes bHLH podría ser ancestral de las angiospermas. Un análisis más detallado de la evolución de bHLH en plantas requerirá la finalización de los proyectos de genoma actualmente en curso en arroz y tomate (un eudicotiledóneo de un linaje diferente de Arabidopsis), así como el aislamiento de bHLH en un espectro más amplio de especies vegetales, en particular en angiospermas basales y no angiospermas.

Evolución de los genes bHLH en metazoos

La comparación de los repertorios de bHLH que se encuentran en los protóstomos y los deuterostomas proporciona importantes conocimientos sobre la evolución de la familia bHLH en los metazoos. Las conclusiones que pueden extraerse son completamente coherentes con las presentadas en nuestro trabajo anterior [8], pero la inclusión del probable conjunto completo de bHLH de un vertebrado refuerza estas conclusiones.

La mayoría de las familias (43/44) contienen genes de protostomas (mosca y / o nematodo) y deuterostomas, lo que indica que estas familias ya estaban presentes en el último ancestro común tanto de los protostomas como de los deuterostomas, es decir, de todos los bilaterianos. El hecho de que la mayoría de las familias contengan genes de protostoma y deuterostoma también sugiere que no hubo adición de nuevos tipos de bHLH en los linajes correspondientes y, por lo tanto, no hubo una diversificación importante del repertorio ancestral. Una sola familia contiene miembros vertebrados y no genes de moscas o gusanos. Esto puede representar la aparición de nuevos tipos de bHLH en el linaje de vertebrados o, alternativamente, una pérdida de tipos ancestrales tanto en moscas como en nematodos. El análisis de los genes bHLH de moluscos o anélidos podría ayudar a resolver esta cuestión. Ahora se cree ampliamente que los Bilateria (los metazoos triploblásticos) se componen de tres linajes principales: deuterostomas (que incluyen vertebrados y equinodermos) y protostomas, que a su vez incluyen dos grandes grupos, los ecdisozoos (por ejemplo, artrópodos y nematodos) y los lophotrochozoans (por ejemplo, anélidos, moluscos y gusanos planos) (revisado en [16]). Por lo tanto, el hallazgo de genes ortólogos en vertebrados y lopotrocozoos, pero no en moscas y nematodos, sugeriría fuertemente que se han producido pérdidas de genes en el linaje ecdysozoan.

De manera similar, el caso de familias que contienen genes de vertebrados y gusanos o moscas se explica mejor por las pérdidas de genes que ocurrieron, dentro del clado ecdisozoo, en cualquier linaje después de la divergencia artrópodo / nematodo. Esto ocurrió en el linaje de moscas para muy pocas familias (4/44), lo que sugiere la existencia de una fuerte presión para mantener todo el repertorio de bHLH. El número mucho mayor de familias (13/44) que tienen miembros vertebrados y moscas pero ningún representante de nematodos sugiere que se han producido pérdidas extensas del gen bHLH en el linaje del gusano. Sorprendentemente, el gusano carece del importante regulador celular y del desarrollo Myc. También se ha informado en el nematodo de una ausencia similar de importantes reguladores del desarrollo, como los elementos de las vías Hedgehog, Toll / IL-1 y JAK / STAT [27]. Además, una gran cantidad de genes de nematodos (6/39) no pueden asignarse claramente a familias específicas (genes huérfanos). Esto probablemente se deba a la alta tasa de divergencia reportada para los genes de nematodos en general [40,41] y que encontramos dentro de nuestro conjunto de datos específicos ([8] y datos no mostrados).

Curiosamente, sin embargo, algunas secuencias de nematodos han divergido muy poco de sus contrapartes de moscas o ratones. Estos incluyen los pocos caracterizados funcionalmente C. elegans Los genes bHLH que muestran una conservación funcional general con sus ortólogos de vertebrados y / o moscas, por ejemplo, el C. elegans ortólogos de giro y myoD están implicados en la formación muscular [42,43], y los ortólogos de atonal y NeuroD (lin-32 y cnd-1) tienen un papel en el desarrollo del sistema nervioso [44,45]. El control genético de los procesos de desarrollo como la neurogénesis y la miogénesis se basa en pequeños conjuntos de genes que interactúan (sintagmas) [46]. La función de los sintagmas se basa fundamentalmente en interacciones moleculares específicas entre sus miembros, por lo que les impone fuertes restricciones estructurales y evita la diversificación estructural (para una discusión sobre sintagmas y evolución, ver [47]). Esto puede explicar por qué tales redes se conservan fuertemente a lo largo de la evolución de los metazoos [48, 49] y por qué los genes de nematodos involucrados en tales redes han estado sujetos a restricciones especiales.

Duplicación de genes bHLH en vertebrados

Se ha producido un gran aumento de la complejidad de la familia bHLH en vertebrados: el número más frecuente de genes bHLH diferentes por familia es uno en mosca (30/44) y gusano (27/44), y dos en humanos (14/44 pero 20 / 44 familias humanas contienen de hecho más de dos genes). La mayoría de las familias de bHLH (32/44), al igual que otras familias de genes, tienen más miembros en los vertebrados que en otros phyla (Tabla 1). De estas familias, 14 (32%) contienen cuatro o más genes de vertebrados (Tabla 1) y, por lo tanto, pueden revelar la aparición de dos duplicaciones del genoma completo (la hipótesis 2R) en la evolución temprana de los vertebrados. En la versión más popular, se cree que esto ocurrió por una duplicación en la raíz de los vertebrados y una segunda en el linaje Gnathostomata, después de su divergencia con Agnatha (revisado en [50]).

Sin embargo, varios análisis recientes tienden a refutar (al menos, no respaldar) esta hipótesis (revisada en [51]). Por ejemplo, las estimaciones actuales del número de genes de mamíferos basadas en la secuencia de proyecto humano, tecnologías ecológicamente racionales y comparaciones con otros vertebrados proponen que el genoma humano no contendría más de 35.000 genes, es decir, aproximadamente el doble del número de moscas y gusanos [12]. De acuerdo con esto, muchas familias de genes en vertebrados tienen menos de cuatro genes. Sin embargo, esto podría deberse a la pérdida de genes durante o después de las rondas de duplicación [50]. Además, los análisis filogenéticos de familias de genes que comprenden cuatro miembros arrojan dudas sobre la hipótesis 2R.

Como señaló Hughes [52], la presencia de cuatro miembros en una familia de genes de vertebrados por sí misma no respalda la hipótesis de la duplicación del genoma. El apoyo sólo puede provenir de familias cuyo árbol filogenético muestra una topología de la forma (AB) (CD), es decir, dos pares de dos parálogos estrechamente relacionados [52]. Hughes [52] analizó las filogenias de 13 familias de proteínas importantes en el desarrollo y descubrió que solo una de ellas presenta una topología (AB) (CD). Martin [53] y Hughes obtuvieron recientemente resultados similares et al. [54] en varias otras familias con pruebas filogenéticas mucho más rigurosas. Estos resultados han llevado a la hipótesis alternativa de que la abundancia de genes duplicados en vertebrados en comparación con invertebrados puede deberse a una alta tasa de duplicaciones locales, en lugar de duplicaciones del genoma completo (revisado en [51]). El análisis de familias de genes adicionales puede ayudar a discriminar entre estas hipótesis. Los árboles filogenéticos de las 14 familias de bHLH que contienen cuatro o más miembros no muestran claramente tales topologías (AB) (CD) (ver Datos adicionales). Sin embargo, debemos señalar que las filogenias dentro de las familias a menudo solo tienen una resolución deficiente y, por lo tanto, es difícil sacar conclusiones firmes de ellas. Sin embargo, nuestros datos claramente no apoyan la hipótesis 2R.


Autor (es)

Barry, D. y Hartigan, J. A. (1987) Distancia asincrónica entre secuencias de ADN homólogas. Biometria, 43, 261–276.

Felsenstein, J. (1981) Árboles evolutivos a partir de secuencias de ADN: un enfoque de máxima verosimilitud. Revista de evolución molecular, 17, 368–376.

Felsenstein, J. y Churchill, G. A. (1996) Un enfoque del modelo de Markov oculto para la variación entre sitios en la tasa de evolución. Biología molecular y evolución, 13, 93–104.

Galtier, N. y Gouy, M. (1995) Inferir filogenias a partir de secuencias de ADN de composiciones de bases desiguales. Actas de la Academia Nacional de Ciencias de EE. UU., 92, 11317–11321.

Gu, X. y Li, W.-H. (1996) Distancias paralineales y LogDet corregidas por sesgo y pruebas de relojes moleculares y filogenias bajo frecuencias de nucleótidos no estacionarios. Biología molecular y evolución, 13, 1375–1383.

Jukes, T. H. y Cantor, C. R. (1969) Evolución de moléculas de proteínas. en Metabolismo de proteínas de mamíferos, ed. Munro, H. N., págs. 21-132, Nueva York: Academic Press.

Kimura, M. (1980) Un método simple para estimar las tasas evolutivas de sustituciones de bases a través de estudios comparativos de secuencias de nucleótidos. Revista de evolución molecular, 16, 111–120.

Kimura, M. (1981) Estimación de distancias evolutivas entre secuencias de nucleótidos homólogas. Actas de la Academia Nacional de Ciencias de EE. UU., 78, 454–458.

Jin, L. y Nei, M. (1990) Limitaciones del método de parsimonia evolutiva del análisis filogenético. Biología molecular y evolución, 7, 82–102.

Lake, J. A. (1994) Reconstrucción de árboles evolutivos a partir de secuencias de ADN y proteínas: distancias paralineales. Actas de la Academia Nacional de Ciencias de EE. UU., 91, 1455–1459.

Lockhart, P. J., Steel, M. A., Hendy, M. D. y Penny, D. (1994) Recuperación de árboles evolutivos bajo un modelo más realista de evolución de secuencia. Biología molecular y evolución, 11, 605–602.

McGuire, G., Prentice, M. J. y Wright, F. (1999). Límites de error mejorados para distancias genéticas de secuencias de ADN. Biometria, 55, 1064–1070.

Tamura, K. (1992) Estimación del número de sustituciones de nucleótidos cuando hay fuertes sesgos de transición-transversión y contenido de G + C. Biología molecular y evolución, 9, 678–687.

Tamura, K. y Nei, M. (1993) Estimación del número de sustituciones de nucleótidos en la región de control del ADN mitocondrial en humanos y chimpancés. Biología molecular y evolución, 10, 512–526.


Conclusión

Dado que la gran mayoría de los datos de secuencias de genomas complejos disponibles públicamente se derivan de proyectos de secuenciación de genes parciales a gran escala, sería una desventaja grave limitar los análisis filogenéticos a alineaciones derivadas únicamente de secuencias de longitud completa. Sin embargo, hemos demostrado que el patrón particular de lagunas encontradas en alineaciones de secuencias de genes parciales debe manejarse con cuidado para obtener filogenias precisas. Tanto los enfoques de enmascaramiento como los basados ​​en modelos para los datos faltantes muestran potencial para mejorar la precisión de los árboles obtenidos de alineaciones entrecortadas. Su rendimiento tendrá que compararse con otros enfoques para hacer frente a alineaciones incompletas [14, 23]. Estos métodos serán fundamentales para la aplicación de técnicas que se basan en un gran número de árboles genéticos precisos, como es común en la filogenómica [4, 6].


Introducción

Las secuencias moleculares homólogas en diferentes especies o incluso dentro del mismo genoma pueden mostrar una similitud notable debido a su historia evolutiva compartida. Estas similitudes han motivado muchas aplicaciones para agrupar primero los elementos de un conjunto diverso de secuencias en racimos de conjunto de secuencias con alta similitud para su uso en pasos posteriores. El significado preciso de los grupos depende de la aplicación. Por ejemplo, al analizar los datos del microbioma 16S, la tubería estándar es utilizar Unidades Taxonómicas Operativas (OTU), que son esencialmente grupos de secuencias estrechamente relacionadas que no divergen más de un cierto umbral [1-3]. Otro ejemplo es la inferencia de la transmisión del VIH, un campo en el que un enfoque dominante es agrupar las secuencias del VIH de diferentes individuos en función de su similitud (nuevamente utilizando un umbral) y utilizar estos grupos como sustitutos para definir grupos de transmisión de enfermedades [4, 5]. .

Las historias evolutivas compartidas, que es el origen de la similitud entre secuencias homólogas, se pueden mostrar utilizando árboles filogenéticos. El árbol filogenético puede inferirse a partir de datos de secuencia, [6, 7] y los métodos desarrollados recientemente pueden inferir árboles filogenéticos de máxima verosimilitud (ML) aproximados en tiempo subcuadrático, lo que les permite escalar a conjuntos de datos de incluso millones de secuencias [8]. . Además, la alineación precisa de conjuntos de datos con cientos de miles de especies (un requisito previo para la mayoría de los métodos de reconstrucción filogenética) ahora es posible utilizando métodos de divide y vencerás [9, 10].

La mayoría de los métodos de agrupación de secuencias existentes utilizan las distancias por pares entre las secuencias como entrada, pero no aprovechan los árboles filogenéticos. Por ejemplo, el ampliamente utilizado UCLUST [2] busca un agrupamiento que minimice la distancia de Hamming de las secuencias al centroide del grupo mientras maximiza la distancia de Hamming entre los centroides. Se han desarrollado varios otros métodos de agrupación para diversos contextos, como la circunscripción de la familia de genes [11, 12] y las grandes bases de datos de secuencias de proteínas [13].

El uso de filogenias para la agrupación tiene dos ventajas potenciales. I) Dado que las filogenias buscan explícitamente inferir la historia evolutiva, la agrupación basada en la filogenia tiene el potencial de no solo reflejar las distancias evolutivas (es decir, la longitud de las ramas) sino también las relaciones (es decir, la topología del árbol). Recuerde también que las longitudes de las ramas en una filogenia son "correcciones" basadas en modelos de distancias de secuencia de una manera estadísticamente rigurosa [7, 14] y, por lo tanto, pueden reflejar mejor la divergencia entre organismos. ii) Cuando se infiere mediante algoritmos subcuadráticos, el árbol puede eliminar la necesidad de calcular todas las distancias por pares, lo que puede mejorar la velocidad y la escalabilidad. Además, una filogenia a menudo tiene que inferirse para fines distintos a la agrupación y, por lo tanto, normalmente está disponible fácilmente. Sin embargo, a pesar de estos potenciales, hasta donde sabemos, no existe un método sistemático para la agrupación guiada por filogenia. Creado para analizar las transmisiones del VIH, ClusterPicker [15] agrupa las secuencias en función de sus distancias mientras usa el árbol filogenético como restricción, sin embargo, todavía usa distancias de secuencia (no de árbol) y escalas cúbicamente con respecto al número de secuencias en el peor de los casos.

Dado un árbol filogenético enraizado, si el árbol es ultramétrico (es decir, las distancias de todas las hojas a la raíz son idénticas), las secuencias de agrupamiento basadas en el árbol pueden proceder de una manera obvia: el árbol puede cortarse a cierta distancia del árbol. raíz, dividiendo así el árbol en grupos (Fig. 1A). Este enfoque se extiende de forma natural a los árboles ultramétricos desarraigados al enraizar primero el árbol en el punto medio único y procediendo como antes. Sin embargo, los árboles filogenéticos inferidos rara vez son ultramétricos. Diferentes organismos pueden evolucionar con diferentes tasas de evolución, e incluso cuando las tasas son idénticas (lo que conduce a un árbol verdadero ultramétrico), no hay garantía de que los árboles inferidos sean ultramétricos. Dado un árbol no ultramétrico (y quizás sin raíces), la mejor manera de agrupar secuencias no es obvia (Fig. 1B).

Por un umbral α, corte el árbol a la altura (A). Cuando el árbol no es ultramétrico, no es obvio cómo agrupar las hojas (B). En ambos casos, un conjunto de bordes cortados define un agrupamiento.

Una forma de abordar la agrupación en clústeres basada en árboles es tratarla como un problema de optimización. Podemos definir problemas de la siguiente forma: "encontrar el número mínimo de conglomerados de modo que algunos criterios restrinjan cada conglomerado". Curiosamente, al menos dos formas de tales problemas de optimización se han abordado ya en la década de 1970 por la comunidad de ciencias de la computación teórica, en el contexto de demostrar teoremas más desafiantes. los partición de árboles El problema es cortar un árbol en el número mínimo de subárboles de manera que la longitud máxima de la ruta entre dos nodos en el mismo subárbol [17] o la suma de todos los pesos de los bordes en cada subárbol [18] esté restringida por un umbral dado. Ambos problemas se pueden resolver exactamente utilizando algoritmos sencillos de tiempo lineal; sin embargo, hasta donde sabemos, estos algoritmos son en su mayoría ignorados por los bioinformáticos.

Aquí, argumentamos que un enfoque de agrupamiento basado en árboles rápido y eficiente puede ser beneficioso para varias preguntas en bioinformática. En este artículo, presentamos una familia de problemas de partición de árboles y describimos soluciones de tiempo lineal para tres instancias del problema (dos de las cuales corresponden a los problemas de máxima y suma mencionados anteriormente con algoritmos conocidos). Luego mostramos que la agrupación basada en árboles puede resultar en análisis biológicos posteriores mejorados en tres contextos diferentes: definición de OTU microbianas, agrupación de transmisión del VIH y alineación de secuencia múltiple de dividir y conquistar.


INTRODUCCIÓN A LA FILOGENÉTICA.

Desde la época de Charles Darwin, el sueño de muchos biólogos ha sido reconstruir la historia evolutiva de todos los organismos de la Tierra y expresarla en forma de árbol filogenético. La filogenia usa la distancia evolutiva, o relación evolutiva, como una forma de clasificar organismos (taxonomía).

La relación filogenética entre organismos viene dada por el grado y tipo de distancia evolutiva. Para comprender mejor este concepto, definamos taxonomía. La taxonomía es la ciencia de nombrar, clasificar y describir organismos. Los taxonomistas ordenan los diferentes organismos en taxones (grupos). Luego, estos se agrupan según las similitudes biológicas. Esta agrupación de taxones refleja el grado de similitud biológica.

La sistemática lleva la taxonomía un paso más allá al dilucidar nuevos métodos y teorías que pueden usarse para clasificar especies. Esta clasificación se basa en rasgos de similitud y posibles mecanismos de evolución. En la década de 1950, William Hennig, un biólogo alemán, propuso que la sistemática debería reflejar la historia evolutiva conocida de los linajes, un enfoque que llamó sistemática filogenética. Por lo tanto, la sistemática filogenética es el campo que se ocupa de identificar y comprender las relaciones evolutivas entre muchos tipos diferentes de organismos.

Las relaciones filogénicas se han estudiado tradicionalmente sobre la base de datos morfológicos. Los científicos solían examinar diferentes rasgos o características y trataron de establecer el grado de parentesco entre organismos. Luego, los científicos se dieron cuenta de que no todas las características compartidas son útiles para estudiar las relaciones entre organismos. Este descubrimiento condujo a un estudio de la sistemática llamada cladística. La cladística es el estudio de las relaciones filogenéticas basadas en características derivadas compartidas. Hay dos tipos de características, rasgos primitivos y rasgos derivados, que se describen a continuación.

Rasgos primitivos son características de los organismos que estaban presentes en el antepasado del grupo que se está estudiando.No indican nada sobre las relaciones de las especies dentro de un grupo porque se heredan del antepasado a todos los miembros del grupo. Rasgos derivados son características de organismos que han evolucionado dentro del grupo en estudio. Estas características no estaban presentes en el antepasado. Son útiles porque pueden ayudar a explicar por qué algunas especies tienen rasgos comunes. La explicación más probable de la presencia de un rasgo que no estaba presente en el antepasado de todo el grupo es que evolucionó a partir de un antepasado más reciente.

Existen dos grupos extensos de análisis para examinar las relaciones filogenéticas: métodos fenéticos y métodos cladísticos. Los métodos fenéticos, o taxonomía numérica, utilizan varias medidas de similitud general para la clasificación de especies. Pueden utilizar cualquier número o tipo de caracteres, pero los datos deben convertirse en un valor numérico. Los organismos se comparan entre sí para todos los personajes y luego se calculan las similitudes. Después de esto, los organismos se agrupan en función de las similitudes. Estos grupos se denominan fenogramas. No reflejan necesariamente la relación evolutiva. El método cladístico se basa en la idea de que los miembros de un grupo comparten una historia evolutiva común y están más estrechamente relacionados con los miembros del mismo grupo que con cualquier otro organismo. Las características derivadas compartidas se denominan sinapomorfías.

La introducción de dos herramientas importantes ha mejorado drásticamente el estudio de la filogenética. La primera herramienta es el desarrollo de algoritmos informáticos capaces de construir árboles filogenéticos. La segunda herramienta es el uso de datos de secuencias moleculares para estudios filogenéticos.

La filogenética puede utilizar datos tanto moleculares como morfológicos para clasificar organismos. Los métodos moleculares se basan en estudios de secuencias de genes. El supuesto de esta metodología es que las similitudes entre los genomas de los organismos ayudarán a desarrollar una comprensión de la relación taxonómica entre estas especies. Los métodos morfológicos utilizan el fenotipo como base de la filogenia. Estos dos métodos están relacionados ya que el genoma contribuye fuertemente al fenotipo de los organismos. En general, los organismos con genes más similares están más relacionados. La ventaja de los métodos moleculares es que posibilita el estudio de genes sin expresión morfológica.

Como se mencionó anteriormente, las especies estrechamente relacionadas comparten un ancestro común más reciente que las especies relacionadas lejanamente. Las relaciones entre especies se pueden representar mediante un árbol filogenético. Esta es una representación gráfica que tiene nodos y ramas. Los nodos representan unidades taxonómicas. Las ramas reflejan las relaciones de estos nodos en términos de descendientes. La longitud de la rama suele indicar alguna forma de distancia evolutiva. Las especies reales existentes llamadas unidades taxonómicas operativas (OTU) se encuentran en la punta de las ramas en los nodos externos.

Métodos de construcción de árboles
Se han propuesto algunos métodos para la construcción de árboles filogenéticos. Se pueden clasificar en dos grupos, los métodos cladísticos (máxima parsimonia y máxima verosimilitud) y el método fenético (método de matriz de distancia).

Máxima parsimonia Los árboles implican que las hipótesis simples son más preferibles que las complicadas. Esto significa que la construcción del árbol mediante este método requiere el menor número de cambios evolutivos para explicar la filogenia de la especie en estudio. En el procedimiento, este método compara diferentes árboles parsimoniosos y elige el árbol que tiene el menor número de pasos evolutivos (sustituciones de nucleótidos en el contexto de la secuencia de ADN).

Máxima verosimilitud Este método evalúa las topologías de diferentes árboles y elige el mejor en función de un modelo específico. Este modelo se basa en el proceso evolutivo que puede explicar la conversión de una secuencia en otra. El parámetro considerado en la topología es la longitud de la rama.

Matriz de distancia es un enfoque fenético preferido por muchos biólogos moleculares para el trabajo de ADN y proteínas. Este método estima el número medio de cambios (por sitio en secuencia) en dos taxones que descienden de un ancestro común. Hay mucha información en las secuencias de genes que debe simplificarse para poder comparar solo dos especies a la vez. La medida relevante es el número de diferencias en estas dos secuencias, una medida que se puede interpretar como la distancia entre las especies en términos de parentesco.

La filogenia molecular fue sugerida por primera vez en 1962 por Pauling y Zuckerkandl. Observaron que las tasas de sustitución de aminoácidos en la hemoglobina animal eran aproximadamente constantes a lo largo del tiempo. Describieron las moléculas como documentos de la historia evolutiva. El método molecular tiene muchas ventajas. Los genotipos se pueden leer directamente, los organismos se pueden comparar aunque sean morfológicamente muy diferentes y este método no depende del fenotipo.

La filogenia se utiliza actualmente en muchos campos, como la biología molecular, la genética, la evolución, el desarrollo, el comportamiento, la epidemiología, la ecología, la sistemática, la biología de la conservación y la ciencia forense. Los biólogos pueden inferir hipótesis a partir de la estructura de árboles filogenéticos y establecer modelos de diferentes eventos en la historia evolutiva. La filogenia es una forma excepcional de organizar la información evolutiva. A través de estos métodos, los científicos pueden analizar y dilucidar diferentes procesos de la vida en la Tierra.

Hoy en día, los biólogos calculan que hay entre 5 y 10 millones de especies de organismos. Diferentes líneas de evidencia, incluida la secuenciación de genes, sugieren que todos los organismos están relacionados genéticamente y pueden descender de un ancestro común. Esta relación se puede representar mediante un árbol evolutivo, como el Árbol de la Vida. El Árbol de la Vida es un proyecto que se centra en comprender el origen de la diversidad entre especies utilizando la filogenia.

Referencias:
1) Whelan S., Lio P., Goldman N., (2001) Filogenética molecular: métodos de vanguardia para examinar las tendencias pasadas en genética, volumen 17, número 5, 1, páginas 262-272

2) Berger J. Introducción a la construcción de filogenia molecular. BIOL 334.

3) Wen-Hsiung Li. Evolución molecular. Asociados Sinauer, 1997.

4) Pagel, M. (1999) Inferir patrones históricos de evolución biológica. Nature 401, 877–884

5) Zuckerlandl, E. y Pauling, L. (1962) Enfermedad molecular, evolución y heterogeneidad genética. En Horizons in Biochemistry (Kasha, M. Y Pullman, B., eds), págs. 189-225, Academic Press 1921-1930

6) Felsenstein, J. (1981), Árboles evolutivos a partir de secuencias de ADN: un enfoque de máxima verosimilitud, Journal of Molecular Evolution 17: 368-376

7) Endo T., Ogishima S., Tanaka H. (2003) Árbol filogenético estandarizado: una referencia para descubrir la evolución funcional J Mol Evol 57 Suppl 1: S174-81. Biología de especies vegetales

8) Murren C. (2002) Integración fenotípica en plantas. Biología de especies vegetales. Volumen 17 Edición 2-3 Página 89


Resultados

Cassiopeia: un marco escalable para la inferencia de filogenia de rastreo de linaje unicelular

Por lo general, los árboles filogenéticos se construyen intentando optimizar un objetivo predefinido sobre los caracteres (es decir, sitios de destino) y sus estados (es decir, indeles) [13]. Los métodos basados ​​en la distancia (como la unión de vecinos [11, 14, 15] o los mínimos cuadrados filogenéticos [16, 17]) tienen como objetivo inferir un árbol ponderado que se aproxime mejor a la disimilitud entre los nodos (es decir, el número de caracteres que diferencian dos celdas debe ser similar a su distancia en el árbol). Alternativamente, los métodos basados ​​en caracteres tienen como objetivo inferir un árbol de máxima parsimonia [18, 19]. Convencionalmente, en este enfoque, el objeto devuelto es un árbol enraizado (que consta de "hojas" observadas y nodos internos "ancestrales" no observados) en el que todos los nodos están asociados con un conjunto de estados de caracteres de modo que el número total de cambios en los estados de caracteres (entre los nodos ancestro e hijo) se minimiza. Finalmente, una tercera clase de métodos estrechamente relacionados con los basados ​​en caracteres adopta un enfoque probabilístico sobre los caracteres utilizando la máxima verosimilitud [20, 21] o la probabilidad posterior [22] como objetivo.

Elegimos centrar nuestra atención en los métodos basados ​​en la máxima parsimonia debido al éxito temprano de la aplicación de estos métodos a los datos de rastreo del linaje [5, 6], así como a la riqueza de la teoría y las aplicaciones de estos enfoques en dominios fuera del rastreo del linaje [23 ]. Nuestro marco, Cassiopeia, consta de tres algoritmos para resolver filogenias. En conjuntos de datos más pequeños, proponemos el uso de un enfoque de árbol de Steiner (Cassiopeia-ILP) [24] para encontrar el árbol de máxima parsimonia sobre las células observadas. Los árboles de Steiner se han utilizado ampliamente como una forma de abstraer los problemas de conectividad de la red en varios entornos, como el enrutamiento en el diseño de circuitos [25], y se han propuesto previamente como un enfoque general para encontrar filogenias de máxima parsimonia [26, 27]. Para adaptar los árboles de Steiner al rastreo de linajes unicelulares, diseñamos un método para inferir un gran "gráfico potencial" subyacente donde los vértices representan células únicas (tanto antepasados ​​observados como plausibles) y los bordes representan posibles caminos evolutivos entre células. Es importante destacar que adaptamos esta inferencia específicamente a los ensayos de rastreo de linaje unicelular: modelamos la irreversibilidad de las mutaciones Cas9 e imputamos los datos faltantes mediante un enfoque exhaustivo, considerando todos los indeles posibles en los respectivos sitios de destino (consulte la sección "Métodos"). Después de formular el gráfico de potencial, utilizamos la programación lineal entera (ILP) como técnica para encontrar soluciones casi óptimas al problema del árbol de Steiner. Debido a la complejidad NP-Hard de los árboles Steiner y la difícil aproximación del gráfico potencial (cuyo efecto sobre la estabilidad de la solución se evalúa en el archivo adicional 1: Fig. S2), la principal limitación de este enfoque es que en la práctica no puede escalar a muy gran número de células.

Para permitir que Cassiopeia escale a decenas de miles de células, aplicamos un algoritmo codicioso basado en heurística (Cassiopeia-Greedy) para agrupar células usando mutaciones que probablemente ocurrieron al principio del experimento de linaje. Nuestra heurística está inspirada en la idea de “filogenia perfecta” [28, 29], un régimen filogenético en el que cada mutación (aquí, indeles derivados de Cas9) es única y ocurre como máximo una vez. Para el caso de caracteres binarios (es decir, mutado sí / no sin tener en cuenta el indel específico), existe un algoritmo eficiente [30] para decidir si existe una filogenia perfecta y, de ser así, también para reconstruir esta filogenia. Sin embargo, dos facetas del problema del rastreo del linaje complican la deducción de si existe o no una filogenia perfecta: primero, la naturaleza "multiestado" de los caracteres (es decir, cada carácter no es binario, sino que puede asumir varios estados diferentes, lo que hace que el problema sea NP-Hard) [31, 32] y, en segundo lugar, la existencia de datos faltantes [33]. Para abordar estos problemas, primero adoptamos un enfoque teórico y demostramos que, dado que la célula fundadora (raíz de la filogenia) no está editada (es decir, incluye solo sitios objetivo sin cortar) y que el proceso de mutación es irreversible (es decir, los sitios editados no se pueden volver a cortar) por Cas9), podemos reducir la instancia de múltiples estados a una binaria para que pueda resolverse utilizando un algoritmo codicioso basado en filogenia perfecto. Aunque Cassiopeia-Greedy no requiere una filogenia perfecta, también probamos que si existe una en el conjunto de datos, nuestro algoritmo propuesto está garantizado para encontrarla (Teorema 1). En segundo lugar, Cassiopeia-Greedy adopta un enfoque basado en datos para manejar las celdas con datos faltantes (consulte la sección "Métodos"). A diferencia de Cassiopeia-ILP, Cassiopeia-Greedy no es por diseño robusto a la evolución paralela (es decir, "homoplasia", donde un estado dado surge independientemente más de una vez en una filogenia en diferentes partes del árbol). Sin embargo, demostramos teóricamente que, en la expectativa, es más probable que las mutaciones observadas en más células hayan ocurrido menos veces en el experimento para rangos de tasas de mutación suficientemente pequeños, pero realistas (consulte la sección "Métodos" Archivo adicional 1: Fig. S3) , apoyando así la heurística. Además, utilizando simulaciones, cuantificamos la precisión de esta heurística codiciosa para un número variable de estados y tasas de mutación, encontrando en general que estas divisiones son precisas (especialmente en estos regímenes de parametrizaciones realistas, consulte la sección "Métodos" y el archivo adicional 1: Fig. S4 ). A continuación, analizamos en mayor profundidad los análisis basados ​​en simulación que ilustran la eficacia de Cassiopeia-Greedy con diferentes cantidades de evolución paralela (archivo adicional 1: Fig S5).

Si bien Cassiopeia-ILP y Cassiopeia-Greedy son estrategias adecuadas según el conjunto de datos, podemos combinar estos dos métodos en un enfoque híbrido (Cassiopeia-Hybrid) que cubre una escala mucho más amplia de tamaños de conjuntos de datos (Fig. 1c). En este caso de uso, Cassiopeia-Hybrid equilibra la simplicidad y escalabilidad del algoritmo codicioso de varios estados con la exactitud y generalidad del enfoque del árbol de Steiner. El método comienza dividiendo las células en varios clados principales utilizando Cassiopeia-Greedy y luego reconstruyendo por separado las filogenias para cada clado con Cassiopeia-ILP. Este enfoque paralelo en subproblemas de tamaño razonable (∼ 300 celdas en cada clado) asegura tiempos de ejecución prácticos en un gran número de celdas (archivo adicional 1: Fig S1). Después de resolver todos los subproblemas con el enfoque del árbol de Steiner, fusionamos todos los clados para formar una filogenia completa (Fig. 1c).

Un motor de simulación permite un punto de referencia completo de algoritmos de reconstrucción de linaje.

Para proporcionar un punto de referencia integral para la reconstrucción de la filogenia, desarrollamos un marco para simular experimentos de rastreo de linajes en una variedad de parámetros experimentales. En particular, los linajes simulados pueden variar en el número de caracteres (por ejemplo, sitios de destino Cas9), el número de estados (por ejemplo, posibles indels inducidos por Cas9), la distribución de probabilidad sobre estos estados, la tasa de mutación por carácter, el número de generaciones de células y la cantidad de datos faltantes. Comenzamos estimando valores “por defecto” plausibles para cada parámetro de simulación usando datos experimentales (discutidos a continuación e indicados en la Fig. 2). En cada ejecución de simulación, variamos uno de los parámetros manteniendo el resto fijo en su valor predeterminado. La probabilidad de mutar en cada estado se encontró interpolando la distribución empírica de los resultados de indel (archivo adicional 1: Fig. S6, consulte la sección "Métodos"). Cada combinación de parámetros se probó utilizando un máximo de 50 repeticiones o hasta la convergencia, muestreando cada vez un conjunto de 400 celdas del total de 2 D celdas (donde D es la profundidad del árbol simulado).

Los algoritmos de Cassiopeia superan a otros métodos de reconstrucción filogenética en linajes simulados. La precisión se compara entre cinco algoritmos (Cassiopeia-Greedy, Cassiopeia-ILP y Cassiopeia-Hybrid, así como la unión de vecinos y Camin-Sokal) en 400 celdas. La precisión de la reconstrucción de la filogenia se evalúa con la estadística correcta de tripletes en varios regímenes experimentales: a el número de caracteres, B la tasa de mutación (es decir, tasa de corte Cas9), C la profundidad del árbol (o la longitud del experimento), D el número de estados por carácter (es decir, el número de posibles resultados indel), y mi la tasa de abandono. Las líneas discontinuas representan el valor predeterminado para cada prueba de esfuerzo. Se reconstruyeron entre 10 y 50 árboles replicados, dependiendo de la estabilidad de la estadística correcta de los tripletes y el tiempo de ejecución general. El error estándar sobre las réplicas está representado por el área sombreada

Comparamos el rendimiento de nuestros algoritmos Cassiopeia (Cassiopeia-ILP, Cassiopeia-Greedy y Cassiopeia-Hybrid), así como un algoritmo alternativo de máxima parsimonia, Camin-Sokal (utilizado anteriormente en aplicaciones de rastreo de linajes [5, 6]), y el Unión de vecinos de algoritmo basado en la distancia. Evaluamos el rendimiento utilizando una métrica combinatoria, "tripletes correctos" (archivo adicional 1: Fig. S7, consulte la sección "Métodos"), que compara la proporción de tripletes de células que se ordenan correctamente en el árbol. Es importante destacar que esta estadística es un promedio ponderado de los tripletes, estratificado por la profundidad del triplete (medido por la distancia desde la raíz hasta el último ancestro común (LCA) ver la sección "Métodos"). A diferencia de otras métricas de comparación de árboles, como Robinson-Foulds [34], razonamos que las métricas combinatorias [35] abordan más explícitamente las necesidades de los análisis posteriores fundamentales, es decir, la determinación de las relaciones evolutivas entre las células (aunque la estadística correcta de tripletes concuerda en gran medida con métricas basadas en la distancia, consulte el archivo adicional 1: Fig S7b).

En general, nuestras simulaciones demuestran el sólido rendimiento y la eficiencia de Cassiopeia. Específicamente, vemos que el conjunto de algoritmos de Cassiopeia encuentra constantemente árboles más precisos en comparación con Camin-Sokal y la unión de vecinos (Fig. 2a-e, archivo adicional 1: Fig S8a-e). Además, los árboles producidos con Cassiopeia no solo son más precisos que los métodos existentes, sino que también son más parsimoniosos en todos los rangos de parámetros, lo que sirve como una indicación de que los árboles alcanzan una solución objetiva más óptima (Archivo adicional 1: Fig S9). Es importante destacar que observamos que Cassiopeia-Hybrid y Cassiopeia-Greedy son más efectivos que los vecinos que se unen en regímenes de muestra moderadamente grandes (archivo adicional 1: Fig S10). En particular, Cassiopeia-Greedy y Cassiopeia-Hybrid escalan a regímenes especialmente grandes (de hasta 50.000 células, una escala que incluye el límite superior aproximado de la mayoría de los experimentos de secuenciación unicelulares actuales) sin comprometer sustancialmente la precisión (archivo adicional 1: Fig. S11). Por el contrario, Camin-Sokal y Cassiopeia-ILP no pudieron escalar a tales tamaños de entrada (archivo adicional 1: Fig S1). Finalmente, observamos que bajo un análisis de arranque, los módulos de Cassiopeia son robustos para los datos de rastreo de linaje (archivo adicional 1: Fig S12a, b) en comparación con la unión de vecinos como referencia (archivo adicional 1: Fig S12c, aunque la estabilidad de la unión de vecinos puede mejorarse con funciones de distancia más sofisticadas y selección de características).

Estas simulaciones además brindan información sobre los parámetros de diseño críticos para la tecnología de registro de linajes. En primer lugar, observamos que la "capacidad de información" (es decir, el número de caracteres y posibles indeles o estados) de una grabadora confiere un aumento en la precisión de los módulos de Cassiopeia, pero no necesariamente Camin-Sokal y la unión de vecinos (aunque funcionan moderadamente bien en simulaciones de baja capacidad de información Fig. 2a, d). Probablemente esto se deba a que el mayor tamaño del espacio de búsqueda afecta negativamente el rendimiento de estos dos algoritmos (en otros contextos se denomina “la maldición de la dimensionalidad” [36]).Además de la capacidad de información, encontramos que las distribuciones indel que tienden hacia una distribución uniforme (y por lo tanto una entropía más alta) permiten reconstrucciones más precisas, especialmente cuando el número de estados es pequeño o el número de muestras es grande (Archivo adicional 1: Fig. S13). Como era de esperar, la proporción de datos que faltan provoca una disminución abrupta del rendimiento (Fig. 2e). Además, en experimentos más largos en los que la población de células observada se extrae de un grupo de células más grande, encontramos que el problema tiende a volverse más difícil (Fig. 2c).

Además, estos resultados brindan una mayor comprensión de cómo Cassiopeia-Greedy se ve afectada en regímenes donde es probable una evolución paralela: como en regímenes de baja capacidad de información (por ejemplo, donde el número de indels posibles es menor que 10, Fig. 2d) o con alta tasas de mutación (Fig. 2b). En ambos regímenes, la proporción de mutaciones de evolución paralela de todas las mutaciones aumenta (archivo adicional 1: Fig. S14). Si bien Cassiopeia-ILP supera a Cassiopeia-Greedy en estas simulaciones, destacando su utilidad para resolver conjuntos de datos pequeños pero complejos, exploramos más a fondo la efectividad de Cassiopeia-Greedy en estos regímenes. Para fortalecer nuestros resultados teóricos anteriores que sugieren que los indeles observados en más células tienen más probabilidades de ocurrir menos veces y antes en la filogenia (archivo adicional 1: Fig S3), exploramos cómo la evolución paralela afecta a Cassiopeia-Greedy empíricamente con simulación. Específicamente, simulamos árboles con un número variable de eventos de evolución paralelos a varias profundidades y encontramos, en general, que si bien el rendimiento disminuye con el número de estos eventos, cuanto más se acercan estos eventos a las hojas, menor es el efecto (archivo adicional 1: Fig S5) . Además, encontramos que bajo los parámetros de simulación "predeterminados" (según lo determinado por los datos experimentales Archivo adicional 1: Fig. S6 y 3), Cassiopeia-Greedy toma consistentemente elecciones precisas del primer evento indel por el cual las células se dividen en clados (Adicional archivo 1: Fig S4b). Por supuesto, en los regímenes donde es posible, Cassiopeia-ILP supera a Cassiopeia-Greedy cuando hay pocos estados (es decir, menos de 10 Fig. 2d) o altas tasas de mutación (es decir, más del 10% Fig. 2b).

Un experimento de referencia in vitro. a Se generó un conjunto de datos de rastreo de linaje de referencia utilizando la tecnología propuesta en Chan et al. [10] a células humanas cultivadas in vitro durante ∼ 15 generaciones. Se analizaron un total de 34.557 células después del filtrado y la corrección de errores. Solo se muestra la división inicial (en dos placas). El análisis de la división posterior (en cuatro placas) se proporciona en el archivo adicional 1: Fig S22. BF Resumen de los parámetros de rastreo de linaje relevantes para cada población clonal en el experimento: B el número de caracteres por clon, C el número de estados por sitio de destino, D la tasa de mutación estimada por sitio objetivo, mi la mediana de abandonos por sitio de destino, y F la proporción de celdas marcadas de forma única. El sombreado gris indica regímenes de parámetros probados en simulaciones, y las líneas punteadas rojas indican los valores predeterminados para cada punto de referencia sintético.

En la práctica, la cuestión de la evolución paralela se puede abordar hasta cierto punto incorporando estados previos (es decir, probabilidades de formación indel inducida por Cas9). Idealmente, Cassiopeia-Greedy usaría estos antecedentes para seleccionar mutaciones que son de baja probabilidad, pero observadas con alta frecuencia. Teóricamente, esto sería ventajoso ya que se espera que los indeles de baja probabilidad ocurran menos veces en el árbol (1), por lo tanto, si aparecen con alta frecuencia en las hojas, es especialmente probable que ocurrieran antes en la filogenia. Además, nuestro análisis de precisión indica que las decisiones de Cassiopeia-Greedy son especialmente precisas si elige un indel con un previo bajo (archivo adicional 1: Fig S4). Para incorporar estos antecedentes en la práctica, seleccionamos una función de enlace (es decir, una que traduce la frecuencia observada y la probabilidad previa a la prioridad) que maximiza el rendimiento de Cassiopeia-Greedy (archivo adicional 1: Fig S15, consulte la sección "Métodos"). Después de encontrar un enfoque eficaz para la integración de probabilidades previas, realizamos los mismos puntos de referencia y descubrimos que en casos de probable evolución paralela, los antecedentes confieren un aumento en la precisión (por ejemplo, con altas tasas de mutación Archivo adicional 1: Fig S16), especialmente en regímenes más grandes (Archivo adicional 1: Fig S11).

Aquí, hemos introducido un simulador flexible que es capaz de ajustar datos reales y, por lo tanto, se puede utilizar para futuras evaluaciones comparativas de algoritmos. Usando este simulador y una amplia gama de parámetros, hemos demostrado que Cassiopeia funciona sustancialmente mejor que los métodos tradicionales. Además, estas simulaciones brindan información sobre cómo el rendimiento de Cassiopeia se modula mediante varios parámetros experimentales, lo que sugiere principios de diseño que pueden optimizarse para reforzar la precisión de la reconstrucción. Específicamente, estas simulaciones sugieren que estas tecnologías se beneficiarían más de aumentos en la capacidad de información, a través de más sitios objetivo o resultados indel más diversos, y tasas de mutación ajustadas adecuadamente para garantizar bajas tasas de evolución paralela. Anticipamos que este recurso seguirá siendo útil para explorar los principios de diseño de grabadoras y la eficacia de algoritmos novedosos.

Un experimento de referencia in vitro permite la evaluación de enfoques sobre datos empíricos.

Los conjuntos de datos de rastreo de linaje experimentales existentes carecen de una verdad básica definida para probar, lo que dificulta la evaluación de la precisión filogenética en la práctica. Para abordar esto, realizamos un experimento in vitro de seguimiento de la expansión clonal de células humanas (línea celular de adenocarcinoma de pulmón A549) diseñado con una tecnología de rastreo de linaje descrita anteriormente [10]. Aquí, hicimos un seguimiento del crecimiento de 11 clones (cada uno con conjuntos de sitios objetivo no superpuestos para poblaciones clonales en descomposición) durante el transcurso de 21 días (aproximadamente 15 generaciones en promedio), dividiendo aleatoriamente el grupo de células en dos placas cada 7 días. (Fig. 3a, consulte la sección "Métodos"). Al final del experimento, tomamos muestras de aproximadamente 10,000 células de cada una de las cuatro placas finales. Esta estrategia de división de placas aleatorias establece una verdad fundamental sobre cómo las células se relacionan entre sí. Aquí, las células dentro de la misma placa pueden estar arbitrariamente distantes en su linaje, sin embargo, solo hay un límite inferior en la disimilitud de linaje entre células en diferentes placas (ya que, por definición, están al menos separadas por el número de mutaciones que se han producido desde la última separar). Por lo tanto, en general, en promedio, esperamos que las células dentro de la misma placa estén más cerca entre sí en la filogenia que las células de diferentes placas. Sin embargo, debido a las consideraciones discutidas anteriormente, también esperamos ver algunas células más estrechamente relacionadas a través de las placas que dentro (Fig. 3a, derecha), y es probable que los indeles que relacionen estas células a través de las placas hayan ocurrido antes de la división.

Nuestro registrador de linaje se basa en una secuencia objetivo expresada de manera constitutiva que consta de tres sitios de corte espaciados uniformemente (cada sitio de corte corresponde a un carácter) y un código de barras de integración único ("intBC") que utilizamos para distinguir entre los sitios de destino y, por lo tanto, relacionarlos con mayor precisión estados de caracteres en las celdas (Fig. 1b). Los sitios objetivo se integran aleatoriamente en los genomas de las células fundadoras con un alto número de copias (en promedio, 10 objetivos por célula o un total de 30 caracteres que evolucionan independientemente, Fig. 3b, S18c). Nos basamos en la tubería de procesamiento en nuestro trabajo anterior [10] para obtener información indel confiable a partir de lecturas de scRNA-seq (Fig. 1b, archivo adicional 1: Fig S17 y amp Fig S18, consulte la sección "Métodos" para conocer los procedimientos de preprocesamiento y directrices, especialmente la sección “Directrices para el control de calidad final”). Además, hemos agregado módulos para la detección de dobletes de células utilizando los conjuntos de intBC en cada clon y los indeles detectados dentro de las células y hemos determinado una estrategia de detección eficaz mediante simulaciones (consulte la sección "Métodos", archivo adicional 1: Fig. S19 ). Es importante destacar que, aunque no es directamente aplicable aquí, esta detección de doblete puede complementarse con otros enfoques cuando se dispone de datos transcripcionales [37, 38] o códigos de barras multiplexados [39]. Además, nos basamos en un enfoque basado en datos para estimar las probabilidades de cada indel (consulte la sección "Métodos" Archivo adicional 1: Fig. S20) porque otros enfoques para la predicción de la probabilidad de indel [40-42] pueden estar sesgados por el tipo de celda o estado de la celda.

Después del control de calidad, la corrección de errores y el filtrado, procedimos a analizar un total de 34,557 células en 11 clones. Este conjunto diverso de poblaciones clonales representan varios niveles de diversidad indel (es decir, número de estados posibles, Fig. 3c), tamaño de los conjuntos intBC (es decir, número de caracteres, Fig. 3b y archivo adicional 1: Fig S18c), mutación de caracteres tasas (Fig. 3d, consulte la sección "Métodos") y proporción de datos faltantes (Fig. 3e, consulte la sección "Métodos"). Más importante aún, este conjunto de datos representa una mejora significativa en los experimentos de rastreo de linajes: es el conjunto de datos más largo y complejo hasta la fecha en el que la gran mayoría de las células, en toda la población celular, tienen estados de mutación únicos (71% después de todo control de calidad y Los porcentajes de filtrado de células únicas por clon se presentan en la Fig. 3f), lo que indica una gran complejidad de estado de carácter para la construcción de árboles.

A continuación, reconstruimos árboles para cada clon (excluyendo dos que se eliminaron mediante filtros de control de calidad, consulte la sección "Métodos") con nuestro conjunto de algoritmos, así como la unión de vecinos y Camin-Sokal (cuando sea posible computacionalmente). Para los métodos Cassiopeia-Greedy y Cassiopeia-Hybrid, también comparamos la precisión de la reconstrucción de árboles con o sin probabilidades previas. El árbol para el Clon 3, que consta de 7289 celdas, junto con su matriz de caracteres y las primeras anotaciones de división (es decir, si las celdas se dividieron inicialmente en la placa 0 o la placa 1, indicada como la identificación de la placa), se presenta en la Fig. 4. Curiosamente , encontramos que ciertos indeles de hecho abarcan las diferentes placas, lo que sugiere que Cassiopeia-Greedy elige como primeras divisiones indeles que probablemente ocurrieron antes de la primera separación de placas (aunque esto también podría deberse a eventos paralelos que ocurrieron independientemente en cada placa) . Además, la matriz de caracteres y la disección anidada del árbol ilustran la abundante información de linaje codificada en este clon (el 96% de las 7289 células observadas tienen estados de mutación únicos) lo que permite a Cassiopeia inferir un árbol relativamente profundo (Fig. 4d). A pesar de esta complejidad, Cassiopeia infiere un árbol que concuerda en gran medida con las mutaciones observadas: las células cercanas entre sí en el árbol tienden a tener mutaciones similares (Fig. 4e).

Cassiopeia puede reconstruir árboles filogenéticos de alta resolución a partir de datos de rastreo de linajes empíricos. El árbol filogenético completo para el clon 3 (a), que consta de 7289 células, se reconstruyó utilizando Cassiopeia-Hybrid (con antecedentes) y se muestra. El filograma representa las relaciones celda-celda, y cada celda está coloreada por el ID de la muestra en la primera división (placa 0 o 1). La matriz de caracteres se muestra con cada estado de carácter único (o "indel") representado por colores distintos (el gris claro representa los sitios sin cortar, el blanco representa los valores faltantes). De estas 7289 células, el 96% fueron etiquetadas de forma única por sus estados de carácter. B, C Vistas ampliadas y anidadas del filograma y las matrices de caracteres. Como era de esperar, Cassiopeia relaciona correctamente las células con estados de carácter similares, y las células estrechamente relacionadas se encuentran dentro de la misma placa de cultivo. D Un histograma de la profundidad del árbol de cada hoja desde la raíz (media = 8,22, máx. = 15). mi Concordancia entre la distancia alélica normalizada y la distancia filogenética normalizada (consulte la sección "Métodos", correlación de Pearson = 0,53)

Al realizar un seguimiento de la placa de la que proviene cada celda, podemos evaluar qué tan bien las distancias en un árbol reconstruido computacionalmente reflejan las distancias en el árbol experimental. Por lo tanto, probamos la capacidad de reconstrucción de un algoritmo utilizando dos métricas para medir la asociación entre el ID de la placa y la subestructura: "meta pureza" y "voto de mayoría media" (consulte la sección "Métodos"). Ambos se basan en la suposición de que, al igual que en el experimento real, a medida que uno desciende del árbol reconstruido, uno esperaría encontrar células más estrechamente relacionadas entre sí. En este sentido, utilizamos estas dos métricas para probar etiquetas de celda homogéneas debajo de un cierto nodo interno en un árbol, al que nos referimos como un "clado".

Usamos estas estadísticas para evaluar la precisión de la reconstrucción para el Clon 3 con respecto a las primeras etiquetas divididas (es decir, placa 0 o 1, Fig.5). Al hacerlo, encontramos que Cassiopeia-Greedy y Cassiopeia-Hybrid superan constantemente la unión de vecinos. Encontramos resultados generales consistentes para el resto de los clones reconstruidos (archivo adicional 1: Fig S21, y además al considerar la división posterior en cuatro placas - Archivo adicional 1: Fig S21), aunque los módulos de Cassiopeia tienen la mayor ventaja en reconstrucciones más grandes. Específicamente, Camin-Sokal y la unión de vecinos funcionan de manera similar a los módulos de Cassiopeia en clones con pocas células (p. Ej., Clon 11) o con baja diversidad de células (p. Ej., Clon 5, donde los sitios de destino están "agotados", posiblemente debido a un corte demasiado rápido , (Fig. 3f, Archivo adicional 1: Fig S23). Ambos casos indican que en clones más pequeños y menos complejos los algoritmos tradicionales pueden ser suficientes para la reconstrucción. Además, muchos de los problemas descritos anteriormente: evolución paralela, datos faltantes y contenido de la información —Contribuir a los errores inferenciales en este conjunto de datos empíricos (por ejemplo, archivo adicional 1: Fig S24).

Cassiopeia construye árboles de alta precisión a partir de grandes conjuntos de datos empíricos. La coherencia entre las reconstrucciones de árboles se evalúa con respecto a la primera división. El voto de la mayoría media (a) y la prueba de meta pureza (B) se utilizaron para Cassiopeia-Hybrid y Cassiopeia-Greedy (ambos con o sin antecedentes) y unión de vecinos. Las estadísticas se grafican en función del número de clados a la profundidad de la prueba (es decir, el número de clados creados por un corte horizontal a una profundidad determinada). Todos los enfoques de Cassiopeia superan consistentemente la unión de vecinos en ambas métricas

En general, anticipamos que este conjunto de datos in vitro servirá como un valioso punto de referencia empírico para el futuro desarrollo de algoritmos. Específicamente, hemos demostrado cómo se puede utilizar este conjunto de datos para evaluar la precisión de las filogenias inferidas e ilustrar que Cassiopeia supera consistentemente la unión de vecinos con el propósito de reconstruir árboles a partir de tecnologías de rastreo de linajes unicelulares. Además, demostramos la escalabilidad de Cassiopeia para reconstruir árboles que están más allá de las capacidades de otros métodos basados ​​en la máxima parsimonia como Camin-Sokal, tal como se han implementado actualmente.

Generalizando Cassiopeia a tecnologías alternativas y futuras

Si bien las aplicaciones previas de rastreo de linaje unicelular han propuesto métodos para la reconstrucción filogenética, se han adaptado al sistema experimental, lo que requiere que uno filtre indeles comunes [7] o proporcione probabilidades indeles [10]. Por lo tanto, investigamos qué tan bien Cassiopeia se generaliza a otras tecnologías con reconstrucciones de datos generados con la tecnología GESTALT aplicada al desarrollo del pez cebra [5, 6] (Fig. 6a, archivo adicional 1: Fig S25). Comparando los algoritmos de Cassiopeia con la unión de vecinos y Camin-Sokal (como se aplicó en estos estudios previos [5, 6]), encontramos que Cassiopeia-ILP encuentra consistentemente la solución más parsimoniosa. Además, la estadística de votos de la mayoría media también indica que hay un fuerte enriquecimiento del tipo de tejido en función de la profundidad del árbol, de acuerdo con la reconstrucción de Camin-Sokal que se utilizó en el estudio original [6] (Fig. 6b). Juntos, estos resultados demuestran claramente la eficacia de Cassiopeia para las tecnologías de rastreo de linajes alternativos existentes.

Generalización de Cassiopeia y principios de diseño futuro de trazadores de linaje habilitados para CRISPR. a Cassiopeia generaliza a métodos alternativos de rastreo de linajes, como se ilustra con el análisis de datos de la tecnología GESTALT [5, 6]). En una comparación de la parsimonia en Camin-Sokal, la unión de vecinos y los métodos de Cassiopeia, el enfoque del árbol de Steiner encuentra consistentemente soluciones más parsimoniosas (es decir, más óptimas). Z-las puntuaciones para cada conjunto de datos se anotan en cada mosaico. B Integridad biológica de árboles para cada pez cebra de Raj et al. [6], inferido con Cassiopeia-ILP, se evaluó utilizando la estadística de membresía media (la sección "Métodos") con respecto a las anotaciones de tipo de tejido del estudio original. C Explorando la capacidad de información de los registradores con editores básicos. Se simuló un editor de base teórica para 400 células y reconstrucciones con Cassiopeia-Hybrid, con y sin antecedentes. Comparamos la precisión de las reconstrucciones con el árbol simulado utilizando la estadística correcta de tripletes. Describimos el rendimiento de Cassiopeia-Hybrid a medida que se incrementó el número de caracteres (y, en consecuencia, se redujo el número de estados)

Después de establecer la capacidad de generalización de Cassiopeia, nos dedicamos a investigar los rastreadores de linaje plausibles de la próxima generación. Recientemente, se han propuesto sistemas de edición de base (Fig. 6c) para editar con precisión A& gtGRAMO [43], C& gtT [44, 45], o posiblemente C& gtnorte (norte siendo cualquier base como en [46]). La promesa de los registradores de linaje de edición de base es triple: primero, un editor de base aumentaría el número de sitios editables (en comparación con los que se basan en rupturas de doble hebra inducidas por Cas9 [5, 7, 10]) aunque en el a expensas del número de estados (en el mejor de los casos 4, correspondientes a A, C, T y G). En segundo lugar, un sistema de edición de bases teóricamente daría lugar a menos abandonos, ya que la resección del sitio objetivo a través de roturas de doble hebra inducidas por Cas9 es mucho menos probable [44]. En tercer lugar, se plantea la hipótesis de que los editores de bases serían menos citotóxicos, ya que no dependen de la inducción de roturas de doble hebra en el ADN (aunque esto se basa en estrategias efectivas para limitar la edición de bases fuera del objetivo de ADN y ARN [47]). Para evaluar la aplicación de editores de base para el rastreo de linajes, probamos el desempeño de Cassiopeia en regímenes de carácter alto y estado bajo como sería el caso en la edición de base (Fig. 6c, consulte la sección “Métodos”). Usando simulaciones con parámetros deducidos por una aplicación de editor de base reciente [46], demostramos que parece haber una ventaja de tener más caracteres que estados (Fig. 6c). Es de destacar que no observamos ninguna desviación sustancial en estas simulaciones de nuestros puntos de referencia de escalabilidad iniciales en el archivo adicional 1: Fig S1.Esto sugiere que los editores de base pueden ser una dirección futura prometedora para el rastreo de linajes desde una perspectiva teórica.

Otra consideración de diseño potencialmente prometedora se refiere a la gama de tasas de mutación de caracteres y su variabilidad en diferentes sitios de destino, un parámetro que puede diseñarse con precisión [48]. En este diseño, uno esperaría que la variabilidad ayude a distinguir entre los puntos de ramificación tempranos y tardíos y, en consecuencia, lograr una mejor resolución de la filogenia subyacente [9, 49, 50]. Simulamos “Grabadores por fases” (archivo adicional 1: Fig S26) con diferentes niveles de variabilidad de corte en el sitio de destino y observamos que este diseño permite una mejor inferencia cuando las distribuciones de las probabilidades de mutación están más dispersas (archivo adicional 1: Fig S26b). Esto se vuelve particularmente útil cuando se pueden integrar indeles a priori precisos en Cassiopeia.

En general, estos resultados sirven para ilustrar cómo Cassiopeia y el marco de simulación pueden usarse para explorar diseños experimentales. Si bien inevitablemente habrá desafíos en las nuevas implementaciones, estos análisis demuestran teóricamente cómo se pueden optimizar los parámetros de diseño para la inferencia del árbol en sentido descendente. De esta manera, la combinación de nuestros algoritmos y simulaciones permite a otros explorar no solo nuevos enfoques algorítmicos para la reconstrucción filogenética, sino también nuevos enfoques experimentales para registrar información de linaje.


¿Encontrar la distancia filogenética entre secuencias? - biología

Figura 14: La terminología del árbol.

4. Posibles formas de dibujar un árbol:

  • Ramas sin escala: la longitud no es proporcional al número de cambios. A veces, el número de cambios se indica en las ramas con números. Los nodos representan el evento de divergencia en una escala de tiempo.
  • Ramas escaladas: la longitud de la rama es proporcional al número de cambios. La distancia entre 2 especies es la suma de la longitud de todas las ramas que las conectan.

Figura 15: Algunas posibilidades para dibujar un árbol. (estos son solo algunos ejemplos, hay muchas variaciones posibles)

5. Métodos de análisis filogenético:

  1. Métodos fenéticos: los árboles se calculan por similitudes de secuencias y se basan en métodos de distancia. El árbol resultante se llama dendrograma y no refleja necesariamente las relaciones evolutivas. Los métodos de distancia comprimen todas las diferencias individuales entre pares de secuencias en un solo número.
  2. Métodos cladísticos: los árboles se calculan considerando las diversas vías posibles de evolución y se basan en métodos de parsimonia o verosimilitud. El árbol resultante se llama cladograma. Los métodos cladísticos utilizan cada posición de alineación como información evolutiva para construir un árbol.

5.1. Métodos fenéticos basados ​​en distancias:

  1. A partir de una alineación, las distancias por pares se calculan entre las secuencias de ADN como la suma de todas las diferencias de pares de bases entre dos secuencias (se supone que las secuencias más similares están estrechamente relacionadas). Esto crea una matriz de distancias.
    • Todos los cambios de base se pueden considerar por igual o se puede utilizar una matriz de los posibles reemplazos.
    • Las inserciones y eliminaciones reciben un mayor peso que los reemplazos. Las inserciones o deleciones de múltiples bases en una posición reciben menos peso que las múltiples inserciones o deleciones independientes.
    • es posible corregir múltiples sustituciones en un solo sitio.
  2. A partir de la matriz de distancias obtenida, se calcula un árbol filogenético con algoritmos de agrupamiento. Estos métodos de agrupación construyen un árbol vinculando el par de taxones menos distante, seguido de taxones sucesivamente más distantes.
    • Agrupación de UPGMA (método de grupo de P aire no ponderado que utiliza promedios aritméticos): este es el método más simple
    • Unión de vecinos: este método intenta corregir el método UPGMA por su supuesto de que la tasa de evolución es la misma en todos los taxones.

5.2. Métodos cladísticos basados ​​en la parsimonia:

5.3. Métodos cladísticos basados ​​en máxima verosimilitud:

6. Problemas teóricos con cambios evolutivos entre secuencias

  • Transiciones: sustituciones de A a G G a A C a T T a C.
  • Transversiones: sustituciones de G a C C a G T a A A a T.
  • Deleciones: eliminación de uno o más nucleótidos.
  • Inserción: adición de uno o más nucleótidos.
  • Inversión: rotación de 180 ° C de un segmento de ADN bicatenario comprometido de 2 o más pares de bases.

Figura: Dos secuencias de ADN homólogas que descienden de una secuencia ancestral y mutaciones acumuladas desde su divergencia. Tenga en cuenta que aunque se han acumulado 12 mutaciones, las diferencias se pueden detectar en solo tres sitios de nucleótidos. (de Fundamentals of Molecular Evolution, Wen-Hsiung Li y Dan Graur, 1991) volver a la página de inicio


Ver el vídeo: 14-12-18 - Λοιμώξεις Αναπνευστικού Συστήματος - Ε. Σταγάκη - Γ. Τσουκαλάς (Diciembre 2022).