Información

Importancia biológica de los parámetros de la red

Importancia biológica de los parámetros de la red


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Actualmente estoy trabajando en redes y he calculado varios parámetros para la red como el diámetro, la longitud promedio de la trayectoria, la excentricidad promedio, la radialidad, etc. red biológica (red reguladora de genes). Ejemplo, qué dice un diámetro pequeño, radialidad, etc. con respecto a la propiedad biológica de la red. En la investigación solo pude encontrar un artículo que podría ser de alguna ayuda. Gracias

Editar: Entiendo que esta pregunta ha sido identificada como demasiado amplia, pero todo lo que necesito son enlaces a artículos que quizás podrían guiarme hacia una solución adecuada. Quizás, la respuesta puede limitarse a cómo una red grande afecta un valor de radialidad que afecta a una red biológica.

Edit2: Es un grupo de una red más grande, es de naturaleza bipartita, que consta de factores de transcripción y genes con un tamaño de 361 nodos. Mi objetivo es comprobar si los grupos son todos diferentes entre sí y determinar si existen diferencias significativas entre cada grupo. La pregunta era sobre qué inferencias biológicas se pueden extraer de los parámetros de la red como el diámetro, la radialidad, etc. Por ejemplo, una red con un diámetro bajo significa que la información de la red se transmite más rápido incluso entre los nodos más lejanos, lo que significa que las vías en esa red podrían tener genes con funciones. que requieren acciones rápidas, dicen los genes que gobiernan las percepciones sensoriales como las acciones reflejas.


20.2: Medidas de centralidad de la red

  • Contribuido por Manolis Kellis et al.
  • Profesor (Ciencias de la Computación) en el Instituto de Tecnología de Massachusetts
  • Obtenido de MIT OpenCourseWare

En el capítulo anterior discutimos cómo podemos tomar una red biológica y modelarla matemáticamente. Ahora que visualizamos estos gráficos y tratamos de entenderlos, necesitamos alguna medida de la importancia de un nodo / borde para las características estructurales del sistema. Hay muchas formas de medir la importancia (a lo que nos referimos como centralidad) de un nodo. En este capítulo exploraremos estas ideas e investigaremos su significado.


Redes biológicas: de los principios físicos a los conocimientos biológicos

Un informe sobre la Cuarta Conferencia Internacional de Georgia Tech y UGA sobre Bioinformática 'Biological Networks: From Genomics to Epidemiology', Atlanta, EE. UU., 13-16 de noviembre de 2003.

La Cuarta Conferencia Internacional de Georgia Tech sobre Bioinformática se tituló 'Redes biológicas: de la genómica a la epidemiología' y reunió a un grupo interdisciplinario de físicos, matemáticos, informáticos y biólogos que trabajaban en la comprensión de las redes biológicas. La conferencia fue organizada por Mark Borodovsky (Instituto de Tecnología de Georgia, Atlanta, EE. UU.) Y Eugene Koonin (Centro Nacional de Información Biotecnológica, Bethesda, EE. UU.) Y cubrió principalmente tres áreas de investigación activas: reconstrucción computacional, análisis y simulación de redes biológicas. Una avalancha de datos experimentales provenientes de varios proyectos de genómica e 'interactómica' significa que las tres áreas focales están experimentando actualmente un crecimiento exponencial en resultados y publicaciones. A pesar del sabor computacional de la conferencia, una interacción productiva entre la teoría y el experimento fue claramente evidente, ya que la mayoría de los participantes colabora o utiliza directamente datos de los laboratorios experimentales.

Las presentaciones cubrieron varios tipos de redes biológicas: interacción proteína-proteína, genética, reguladora y metabólica. Si bien estos tipos de redes representan diferentes procesos celulares, todos comparten principios organizativos y funcionales comunes. En la reunión, se estudiaron las redes moleculares a diferentes escalas espaciales, desde el nivel de la red completa, a través de vías biológicas y módulos hasta el nivel de motivos topológicos elementales. Varias charlas emocionantes destacaron el rápido progreso en el campo.

Adam Arkin (Universidad de California, Berkeley, EE. UU.) Describió cómo se pueden utilizar los métodos de dinámica no lineal y teoría de juegos para determinar las estrategias evolutivas óptimas para el crecimiento bacteriano en entornos estocásticos. Demostró cómo la estocasticidad inherente de los procesos biológicos podría ayudar a las bacterias a sobrevivir en entornos inciertos. Arkin también presentó un análisis comparativo completo de los módulos de quimiotaxis de diferentes bacterias. Las variaciones en la estructura del módulo de quimiotaxis entre bacterias dan lugar a diferencias en la sensibilidad a los parámetros cinéticos que definen la respuesta de quimiotaxis. Resulta que los módulos suelen ser sensibles a sólo unos pocos parámetros "cruciales", lo que podría aumentar la "capacidad de evolución" de los módulos, mientras que la insensibilidad a otros parámetros asegura robustez y resistencia a los efectos de mutaciones perjudiciales. Es probable que estudios similares, que incluyen no solo la comparación de una lista de piezas, sino también un análisis dinámico detallado, representen un próximo paso importante en la genómica comparativa.

Albert-Laszlo Barabasi (Universidad de Notre Dame, EE. UU.), Que fue pionero en el análisis estadístico de redes biológicas, describió cómo el comportamiento sin escala es compartido por una amplia gama de redes. Las redes sin escala contienen concentradores altamente conectados, que generalmente representan proteínas esenciales y altamente conservadas. Barabasi mostró que, además de las redes estáticas, varias redes biológicas dinámicas, como las redes de coexpresión y las redes formadas por flujos metabólicos, también exhiben propiedades libres de escala. También demostró que las redes biológicas muestran un alto grado de modularidad y que los módulos altamente interconectados se organizan jerárquicamente en estructuras más grandes. En un análisis relacionado, Ricard Sol & # x000e9 (Universidad Pompeu Fabra, Barcelona, ​​España) mostró que propiedades importantes de las redes biológicas, como las distribuciones libres de escala y la modularidad, podrían surgir como un subproducto de las reglas de evolución de la red, en lugar de como consecuencia de la selección funcional. Martijn Huynen (Universidad de Nijmegen, Países Bajos) también demostró cómo un modelo mecanicista simple, sin selección, puede dar cuenta de la arquitectura observada de las redes biológicas.

Andreas Wagner (Universidad de Nuevo México, Albuquerque, EE. UU.) Dedicó su charla a la intrigante cuestión de la evolución y robustez de las redes biológicas. Mostró cómo las redes de proteínas evolucionan en términos de cambios en las interacciones de los socios, la localización celular y la regulación. Sergei Maslov (Laboratorio Nacional Brookhaven, Upton, EE. UU.) También mostró una diferencia interesante en las tasas de evolución entre la interacción proteína-proteína y las redes reguladoras. Una propiedad importante de las redes biológicas es la robustez frente a las mutaciones genéticas. La solidez hacia mutaciones deletéreas puede ser causada por duplicaciones de genes (la pérdida de función en una copia puede compensarse con la otra copia) o por efectos de red más complicados, como el uso de rutas metabólicas alternativas. Wagner presentó varias líneas de evidencia que sugieren que en Saccharomyces cerevisiae Entre el 25 y el 50% de las deleciones de genes se compensan con genes duplicados. Tanto Wagner como Maslov mostraron resultados basados ​​en Caenorhabditis elegans 'deleciones' obtenidas recientemente utilizando la interferencia de ARN (ARNi), lo que demuestra la rapidez con la que se utilizan actualmente los datos de proyectos experimentales a gran escala para investigar los principios de la organización de redes biológicas.

Joel Bader (Universidad Johns Hopkins, Baltimore, EE. UU.) Presentó un trabajo recientemente publicado sobre el mapa de interacción proteína-proteína de dos híbridos de Drosophila melanogaster. Este mapa de moscas contiene más de 20.000 interacciones y es el primer mapa de interactomas para un organismo multicelular. Es importante destacar que, debido a que se sabe que los métodos de dos híbridos contienen un número significativo de falsos positivos y negativos, Bader presentó un método computacional para detectar interacciones de alta confianza. El mapa de alta confianza resultante contiene 4.679 proteínas y 4.780 interacciones. los D. melanogaster El mapa de interactoma representa una rica fuente de información y, sin duda, será analizado en los próximos años. El análisis inicial de esta red mostró una desviación de la distribución de la ley de potencia comúnmente observada en las redes biológicas. Además, el análisis estadístico muestra una organización de red de dos niveles: estructuras de corto alcance, que representan complejos de proteínas, y componentes más grandes que presumiblemente representan conexiones entre complejos.

Leonid Mirny (Instituto de Tecnología de Massachusetts, Cambridge, EE. UU.) Ha demostrado que existe una organización similar en la red de interacción proteína-proteína de levadura y presentó varios algoritmos para identificar tales estructuras. Es importante destacar que las estructuras derivadas de datos estáticos, como las interacciones proteína-proteína por pares, pueden corresponder a complejos de proteínas, donde todas las proteínas se unen al mismo tiempo (por ejemplo, el ribosoma o el espliceosoma), oa módulos funcionales dinámicos donde se realizan diferentes interacciones. en diferentes momentos, por ejemplo, rutas de señalización o módulos de control del ciclo celular. Mirny también presentó simulaciones estocásticas de una vía de señalización celular enfatizando que incluso un módulo tan simple puede lograr un filtrado no trivial de la señal.

A medida que investigamos las redes reguladoras que están muy extendidas en los organismos modernos, también es interesante estudiar las interacciones reguladoras antiguas. Los ribosconmutadores son estructuras espaciales de ARNm que pueden unirse a moléculas pequeñas y cambiar la conformación del ARNm, y pueden representar el sistema más antiguo de regulación de la expresión génica. Mikhail Gelfand (Centro GosNIIGenetika, Moscú, Rusia) presentó un trabajo fascinante sobre los ribosconmutadores, cuyo trabajo de grupo demuestra que los ribosconmutadores parecen controlar las concentraciones de proteínas regulando tanto la transcripción como la traducción. Se descubrió que los riboswitches regulan el metabolismo de, por ejemplo, vitaminas, aminoácidos y purinas, y se conservan en distancias filogenéticas muy grandes. Gelfand también presentó algunos trabajos iniciales sobre la evolución de las redes reguladoras que involucran riboswitches.

El objetivo de explicar la distribución observada de las familias de dominios de proteínas en genomas secuenciados llevó a Koonin y sus colegas a desarrollar el Modelo de Nacimiento, Muerte e Innovación (BDIM). Al cambiar los parámetros en el BDIM, los investigadores pueden investigar cómo los diferentes procesos evolutivos dan forma a las distribuciones observadas de las familias de dominios. Si bien el BDIM lineal más simple muestra un ajuste excelente a la distribución observada de tamaños de familia de dominio en genomas, la introducción de estocasticidad en el modelo conduce a tiempos de evolución prohibitivamente grandes. Koonin demostró cómo los cambios en el modelo podrían acelerar la evolución, al menos in silico.


2 DESCRIPCIÓN GENERAL DEL SISTEMA

CentiScaPe calcula varias centralidades de red solo para redes no dirigidas. Los parámetros calculados son: distancia media, diámetro, grado, tensión, intermediación, radialidad, proximidad, valor del centroide y excentricidad. La ayuda del complemento y los archivos en línea se proporcionan con definición, descripción, significado biológico y complejidad computacional para cada centralidad (Tablas complementarias S2 y S3, Tutorial de centralidades). Los valores mínimo, máximo y medio se dan para cada centralidad calculada. También se admite el análisis de múltiples redes. Los valores de centralidad aparecen en el navegador de atributos de Cytoscape, por lo que se pueden guardar y cargar como atributos normales, lo que permite su visualización con las funciones principales de mapeo de Cytoscape. Una vez que se completa el cálculo, comienza el análisis real, utilizando la interfaz gráfica de CentiScaPe. CentiScaPe utiliza las bibliotecas Java gratuitas JFreeChart (http://jfree.org/jfreechart/) para mostrar los resultados como salidas gráficas. El primer paso del análisis es el panel de resultados basado en lógica booleana de CentiScaPe. Es posible, utilizando los controles deslizantes proporcionados en el Panel de resultados de Cytoscape, resaltar los nodos que tienen valores de centralidades que son mayores, menores o iguales a un valor de umbral definido por el usuario (el valor medio se usa de forma predeterminada). Si es necesario, se pueden desactivar una o más centralidades. El usuario puede seleccionar la opción más / igual para algunas centralidades, la opción menos / igual para otras y puede unirlas con operadores AND-OR. Esta función puede responder de inmediato a preguntas como: "¿Cuáles son los nodos que tienen un alto nivel de intermediación y estrés, pero una excentricidad baja?". Cabe destacar que el umbral también se puede modificar a mano para ganar en resolución. Una vez que se han seleccionado los nodos de acuerdo con sus valores específicos de nodo, el subgráfico correspondiente se puede extraer y mostrar utilizando las funciones principales normales de Cytoscape. Se admiten dos tipos de salidas gráficas: trazado por centralidad y trazado por nodo, ambos permitiendo análisis que no son posibles con otras herramientas de centralidades. El usuario puede correlacionar centralidades entre ellos o con datos experimentales, como, por ejemplo, nivel de expresión génica o nivel de fosforilación de proteínas (gráfico por centralidades), y puede analizar todos los valores de centralidades nodo por nodo (gráfico por nodo) (Fig.1) . Los gráficos se pueden guardar en un archivo jpeg.

Análisis de redes de quino-fosfatoma humano. (A) La proteína quinasa MAPK1 muestra valores altos de centralidades para la mayoría de las centralidades calculadas, lo que sugiere su papel central en la estructura y función de la red. Para cada centralidad se muestra el valor de nodo específico (gris), el valor medio (negro), el valor mínimo (gris claro) y el valor máximo (blanco). (B) Las correlaciones entre el valor del centroide y la intensidad de la fosforilación de proteínas en tirosina. Las proteínas con alto valor de centroide y alto nivel de fosforilación se identifican fácilmente en el cuadrante superior / derecho del gráfico. Al apuntar el mouse sobre las formas geométricas en el gráfico, se muestran el ID de nodo correspondiente y los valores de atributo (consulte la Sección 3 y Materiales complementarios).

Análisis de redes de quino-fosfatoma humano. (A) La proteína quinasa MAPK1 muestra valores altos de centralidades para la mayoría de las centralidades calculadas, lo que sugiere su papel central en la estructura y función de la red. Para cada centralidad se muestra el valor de nodo específico (gris), el valor medio (negro), el valor mínimo (gris claro) y el valor máximo (blanco). (B) Las correlaciones entre el valor del centroide y la intensidad de la fosforilación de proteínas en tirosina. Las proteínas con alto valor de centroide y alto nivel de fosforilación se identifican fácilmente en el cuadrante superior / derecho del gráfico. Al apuntar el mouse sobre las formas geométricas en el gráfico, se muestran el ID de nodo correspondiente y los valores de atributo (consulte la Sección 3 y Materiales complementarios).

los trama por centralidad La visualización es una forma fácil y conveniente de discriminar nodos y / o grupos de nodos que son más relevantes de acuerdo con una combinación de dos parámetros seleccionados. Muestra correlación entre centralidades y / u otros atributos cuantitativos del nodo, como datos experimentales de análisis genómico y / o proteómico. El resultado de la opción de trazar por centralidad es un gráfico en el que cada nodo individual, representado por una forma geométrica, se asigna a un eje cartesiano. En el eje horizontal y vertical, se reportan los valores de los atributos seleccionados. La mayoría de los nodos relevantes se identifican fácilmente en el cuadrante superior derecho del gráfico. La Figura 1 (Fig. Complementaria S1) muestra un gráfico de los valores de centroide sobre la intensidad de la fosforilación de la proteína tirosina en la red de quino-fosfatoma humana derivada del análisis de neutrófilos polimorfonucleares primarios humanos (PMN) estimulados con el quimioatrayente IL-8 (Sección 3) . Las proteínas que tienen valores altos para ambos parámetros probablemente juegan un papel regulador crucial en la red. El usuario puede graficar de cinco formas diferentes: centralidad versus centralidad, centralidad versus datos experimentales, datos experimentales versus datos experimentales, una centralidad versus sí mismo y datos experimentales versus sí mismo. En particular, una forma específica de utilizar la función de gráfico es visualizar el gráfico de dispersión de dos atributos de datos experimentales. Esta es una función adicional del complemento y se puede usar de la misma manera que la opción de centralidad / centralidad y la opción de atributo centralidad / experimental. Si se utiliza la opción de trazar por centralidad seleccionando la misma centralidad (o el mismo atributo experimental) tanto para el eje horizontal como para el vertical, el resultado es una fácil discriminación de los nodos que tienen valores bajos de los nodos que tienen valores altos del parámetro seleccionado. Por lo tanto, el uso principal de la función "trazar por centralidad" es identificar un grupo de nodos agrupados de acuerdo con la combinación de propiedades topológicas y / o experimentales específicas, con el fin de extraer subredes para su posterior análisis. La combinación de propiedades topológicas con datos experimentales es útil para permitir la validación experimental de predicciones más significativas de la función de la subred.

los opción trazar por nodo, otra característica única de CentiScaPe, muestra para cada nodo el valor de todas las centralidades calculadas representadas como un gráfico de barras. Los valores medio, máximo y mínimo se representan con diferentes colores. Para facilitar la visualización, todos los valores del gráfico están normalizados y los valores reales aparecen al apuntar el mouse sobre una barra. La Figura 1 (Fig. Complementaria S2) muestra, como ejemplo, los valores de MAPK1 calculados a partir del quino-fosfatoma humano global.


Análisis de red del metabolismo

El metabolismo celular depende de reacciones enzimáticas en las que los sustratos, como la glucosa o el acetato, se convierten en productos mediante enzimas. Sin embargo, el conjunto de reacciones metabólicas se puede traducir en una representación de red de muchas formas diferentes. La figura 4 muestra varias representaciones de red posibles de un conjunto de reacciones metabólicas simples. La figura 4A describe la relación entre los metabolitos A – F. En la primera reacción, A + B → C + D, decimos que A y B son eductos y C y D son productos. En la Fig. 4C se muestra una representación de red común, donde los metabolitos son nodos y dos metabolitos están conectados con un enlace no dirigido si participan como un educto y un producto, respectivamente, en la misma reacción. Tenga en cuenta que un enlace no representa una sola reacción o enzima, ya que pueden aparecer dos metabolitos en múltiples reacciones. Un ejemplo de esta posibilidad se muestra en la Fig. 4A, donde los metabolitos A y D co-ocurren en las reacciones R1 y R3, y el vínculo entre A y D en la Fig. 4C corresponde a ambas reacciones. Para complicar aún más el mapeo, una reacción también puede aparecer como múltiples enlaces (ver Fig. 4). Una representación alternativa es la de una red bipartita (Fig. 4E), donde los dos tipos de nodos son metabolitos o enzimas. Para este caso, un enlace dirigido desde (hacia) un metabolito hacia (desde) una enzima indica que el metabolito actúa como un educto (producto) en esa reacción. Por último, un conjunto de reacciones metabólicas también se puede representar como una red de reacción-reacción (Fig. 4F). Aquí, los nodos son reacciones y se incluye un enlace (posiblemente dirigido) entre dos nodos (reacciones) I y j si un metabolito se usa como educto (producto) en la reacción I y como producto (educto) en reacción j.

Estructura de la red metabólica

Las diversas representaciones de red de la Fig. 4 tienen diferentes propiedades estadísticas. Usando el metabolismo bacteriano en E. coli Como ejemplo, la Fig.5 muestra las diferencias en la distribución de la conectividad, PAG(k), implícito en las tres representaciones de red detalladas en la Fig. 4B-D. Tenga en cuenta que PAG(k) tiene una cola pesada en todos los paneles de la Fig. 5, sin embargo, el resultado no es tan simple para una representación de red bipartita (Fig. 4E). En este caso, es posible distinguir entre metabolitos y enzimas para los metabolitos, la distribución de conectividad es de cola pesada, mientras que la distribución de enzimas se ajusta mejor a una exponencial. Esto no es sorprendente, ya que cofactores como ATP o NADP pueden contribuir a cientos de reacciones, mientras que una enzima tiene un número limitado de dominios activos. Para contrastar y comparar aún más los sesgos potenciales de varias representaciones de red, la Tabla 2 muestra la agrupación & ltC& gt y la assortatividad ρ para tres organismos usando las representaciones de red de la Fig. 4B, C. Como era de esperar, la agrupación y la assortividad correspondiente a la Fig. 4B es significativamente mayor que la de la Fig. 4C, ya que la representación de la red en la primera implica un subgrafo completamente conectado para cada reacción.

Agrupación y assortividad promedio para tres redes metabólicas de organismos utilizando las representaciones de red descritas enFigura 4B, C

Organismo. norte . METROB . METROC . & ltC& gtB . & ltC& gtC . ρB . ρC .
H. pylori489 4058 1920 0.72 0.28 –0.285 –0.261
E. coli540 3753 1867 0.66 0.20 –0.251 –0.217
S. cerevisiae1064 6941 4031 0.67 0.23 –0.182 –0.150
Organismo. norte . METROB . METROC . & ltC& gtB . & ltC& gtC . ρB . ρC .
H. pylori489 4058 1920 0.72 0.28 –0.285 –0.261
E. coli540 3753 1867 0.66 0.20 –0.251 –0.217
S. cerevisiae1064 6941 4031 0.67 0.23 –0.182 –0.150

Abreviaturas: NORTE, número de nodos METRO, número de enlaces & ltC& gt, agrupamiento promedio ρ, subíndice de assortividad B y C, representaciones de red mostradas en la Fig. 4B y la Fig. 4C, respectivamente

El metabolismo celular se puede representar como una red. (A) Juego de reacción metabólica de juguete. Descripción de la red del conjunto de reacciones: (B) que conecta todos los metabolitos en una sola reacción con enlaces no dirigidos (C) los sustratos solo están conectados a productos con enlaces no dirigidos y (D) lo mismo que en C con enlaces dirigidos. (E) Representación en red bipartita del conjunto de reacciones. (F) Red con reacciones como nodos, y las reacciones que comparten un metabolito como producto-educto están conectadas.

El metabolismo celular se puede representar como una red. (A) Juego de reacción metabólica de juguete. Descripción de la red del conjunto de reacciones: (B) que conecta todos los metabolitos en una sola reacción con enlaces no dirigidos (C) los sustratos solo están conectados a productos con enlaces no dirigidos y (D) lo mismo que en C con enlaces dirigidos. (E) Representación en red bipartita del conjunto de reacciones. (F) Red con reacciones como nodos, y las reacciones que comparten un metabolito como producto-educto están conectadas.

Distribuciones de conectividad PAG(k) de E. colimetabolismo utilizando las tres representaciones de la red metabólica en la Fig. 4. El panel A corresponde a la Fig. 4B B corresponde a la Fig. 4C C corresponde a la Fig. 4D.

Distribuciones de conectividad PAG(k) de E. colimetabolismo usando las tres representaciones de la red metabólica en la Fig. 4. El panel A corresponde a la Fig. 4B B corresponde a la Fig. 4C C corresponde a la Fig. 4D.

Redes metabólicas ponderadas

La mayoría de los estudios de redes se han centrado en las propiedades topológicas y no en la tasa de actividad metabólica, que puede variar significativamente de una reacción a otra. Esta importante función no es capturada por enfoques topológicos estándar. Es necesario incluir esta información en la descripción de la red para desarrollar una comprensión de cómo la estructura de una red metabólica afecta la actividad metabólica. Una comprensión significativa requiere que consideremos la intensidad (es decir, la fuerza), la dirección (cuando corresponda) y los aspectos temporales de las interacciones. Aunque todavía se desconoce mucho sobre los aspectos temporales de la actividad metabólica dentro de una célula, los resultados recientes han proporcionado información sobre las intensidades relativas de las interacciones en el metabolismo unicelular (Sauer et al., 1999 Canonaco et al., 2001 Gombert et al. , 2001 Emmerling et al., 2002 Fischer y Sauer, 2003 Cannizzaro et al., 2004 Blank et al., 2005 Fischer y Sauer, 2005). Podemos incorporar estos resultados en el análisis de la red considerando que los enlaces no solo están presentes o ausentes, sino que además tienen un "peso de enlace" que refleja la fuerza de interacción no uniforme entre dos nodos. Una medida natural, aunque no única, de la fuerza de interacción para una red metabólica es la cantidad de sustrato que se convierte en un producto por unidad de tiempo, llamado "flujo" de la reacción.

Un enfoque de optimización lineal simple, llamado "análisis de balance de flujo" (FBA), nos permite calcular la tasa de flujo para cada reacción en una red metabólica de células completas. El método FBA se basa en el supuesto de que la concentración de todos los metabolitos celulares, [AI], no sujeto a transporte a través de la membrana celular debe satisfacer la restricción de estado estable de d [AI]/Dt= ΣjSijνj= 0, donde Sij es el coeficiente estequiométrico del metabolito AI en reacción j, t es el tiempo, y νjes el flujo de reacción en estado estacionario j. Seguimos la convención que Sij& lt0 (Sij& gt0) si metabolito I es un sustrato (producto) en reacción j. Tome la figura 4A como ejemplo. Los coeficientes estequiométricos de reacción. j= R3 son entonces SA, R3=–2, SE, R3=–1, SD, R3= 1, mientras SB, R3=SC, R3=SF, R3= 0. Tenga en cuenta que cualquier valor de flujo νI satisfacer la restricción de estado estable corresponde a un estado estequiométricamente permitido de la celda. Para seleccionar valores de flujo que sean biológicamente relevantes, optimizamos el crecimiento celular. Los experimentos apoyan esta hipótesis en varias condiciones, pero también hay otros objetivos significativos. Ver Bonarius et al. (Bonarius et al., 1997) y Kauffman et al. (Kauffman et al., 2003) para una discusión más detallada de FBA.

Distribución de los valores de flujo de reacción metabólica (pesos de enlace) del análisis FBA para la red metabólica de la levadura en ciernes S. cerevisiaeen (A) condiciones aeróbicas, limitadas en glucosa y (B) aeróbicas, limitadas en acetato.

Distribución de los valores de flujo de reacción metabólica (pesos de enlace) del análisis FBA para la red metabólica de la levadura en ciernes S. cerevisiaeen (A) condiciones aeróbicas, limitadas en glucosa y (B) aeróbicas, limitadas en acetato.

Los avances recientes en la anotación del genoma completo han hecho posible generar redes metabólicas de alta fidelidad a nivel de células completas. Modelos metabólicos de los procariotas. Helicobacter pylori y E. coli, así como el eucariota S. cerevisiae, se han utilizado para predecir 'genes esenciales' (Edwards y Palsson, 2000 Schilling et al., 2002 Duarte et al., 2004 Papp et al., 2004), 'interacciones epistáticas' donde la acción de un gen es modificada por uno o múltiples genes en diferentes loci (Segre et al., 2005), y posibles "genomas microbianos mínimos" (Burgard et al., 2001 Pal et al., 2006). Los flujos resultantes de FBA miden la actividad relativa de cada reacción. En particular, Almaas et al. demostrar que, similar a la distribución de grados, la distribución de flujo de E. coli muestra una fuerte falta de homogeneidad general: las reacciones con flujos que abarcan varios órdenes de magnitud coexisten en el mismo entorno (Almaas et al., 2004). Aplicando el enfoque computacional FBA, la distribución de flujo para S. cerevisiae (Fig.6) es de cola pesada, lo que indica que PAG(ν) ∼ν –α con un exponente de flujo de α = 1,5. En un experimento reciente, la fuerza de los diversos flujos del metabolismo central de E. coli se midió utilizando métodos de resonancia magnética nuclear (RMN) (Emmerling et al., 2002), revelando una dependencia del flujo de la ley de potencias PAG(ν) ∼ν –1 (Almaas et al., 2004). Este comportamiento de la ley de potencias indica que una gran mayoría de reacciones con pequeños flujos coexiste con unas pocas reacciones que tienen grandes flujos.

Distribución de los valores de fuerza del nodo para S. cerevisiae metabolismo en (A) condiciones aeróbicas, limitadas en glucosa y (B) aeróbicas, limitadas en acetato.

Distribución de los valores de fuerza del nodo para S. cerevisiae metabolismo en (A) condiciones aeróbicas, limitadas en glucosa y (B) aeróbicas, limitadas en acetato.

El enfoque FBA nos permite analizar la red metabólica como una red ponderada, ya que a cada reacción se le asigna un valor de flujo. Esta generalización de las medidas de red no ponderadas se introdujo originalmente en el contexto de las redes de coautoría y transporte de las aerolíneas (Barrat et al., 2004). La primera de las medidas de red generalizadas se llama "fuerza del nodo", sI, de un nodo I, definido como sI= Σjwijaij,dónde wij es el peso del enlace que conecta los nodos I y j, y aij es la matriz de adyacencia como antes. La fuerza del nodo actúa como una generalización del grado del nodo a las redes ponderadas y suma el peso total de los enlaces conectados a un nodo. La figura 7 muestra la distribución de las fortalezas de los nodos, PAG(s), por E. coli metabolismo con glucosa como única fuente de carbono.

Continuamos generalizando el coeficiente de agrupamiento a redes ponderadas. Ya que CI indica la densidad local de los triángulos, una definición similar con pesos de enlace debería permitir discernir si es más o menos probable encontrar pesos grandes o pequeños agrupados. Denotamos una posible definición dada por Barrat et al. (Barrat et al., 2004) como CWisconsin, y el agrupamiento ponderado promedio es & ltCw& gt = (1 /norte) ΣICWisconsin. Si no existen correlaciones entre ponderaciones y topología, esta nueva definición de coeficiente de agrupamiento es igual a la de la red no ponderada. Además, podemos identificar dos posibles escenarios. Si & ltCw& gt es mayor que & ltC& gt, los pesos grandes se distribuyen predominantemente en conglomerados locales, mientras que si & ltCw& gt es menos que & ltC& gt, los triángulos se construyen utilizando principalmente enlaces de bajo peso. Se han propuesto otras posibles definiciones de un coeficiente de agrupamiento ponderado con propiedades algo diferentes (Onnela et al., 2005 Zhang y Horvath, 2005 Holme et al., 2007).

Flujos y estructura de la red metabólica

Las distribuciones de flujo de una red metabólica se basan en la topología de la red. Parte de esta dependencia se comprende al estudiar la correlación entre wij, la fuerza del enlace que conecta los nodos Iy j y sus respectivas conectividades, kI y kj. La escala de los flujos metabólicos como & ltwij& gt∼ (kIkj) θ, donde θ = 0,5 en condiciones limitadas de glucosa en S. cerevisiae(Fig. 8A) y E. coli(Macdonald et al., 2005), así como la red World-Air-Transportation (Barrat et al., 2004). También podemos encontrar un comportamiento similar en modelos de red. Como ejemplo, la intermediación-centralidad [una medida de cuántos caminos más cortos utilizan un nodo o enlace dado (ver Brandes, 2001 Freeman, 1977 Newman, 2001 Wasserman y Faust, 1994) en el modelo de red de Barabási-Albert (Fig. 8C )]. Sin embargo, son posibles otros valores para θ, como se demuestra en la Fig. 8B, donde encontramos = 0,7 para los flujos metabólicos en condiciones limitadas de acetato.

¿Cómo influye la estructura de la red en los patrones de flujo a nivel de metabolitos individuales? La distribución de flujo libre de incrustaciones observada es compatible con dos estructuras de flujo local potenciales bastante diferentes. Una organización local homogénea implicaría que todas las reacciones que producen (consumen) un metabolito dado tienen valores de flujo comparables. Por otro lado, se espera una "columna vertebral caliente" más deslocalizada si la organización del flujo local es heterogénea, de modo que cada metabolito tiene una reacción de fuente dominante (consumidora). Para distinguir entre estos dos escenarios, definimos la medida Y(k, yo) (Barthelemy et al., 2003 Almaas et al., 2004) para cada metabolito producido o consumido por kreacciones, con las siguientes características. Si todas las reacciones que producen (consumen) metabolitos I tienen valores comparables, Y(k, yo)≈1/k. Sin embargo, si domina la actividad de una sola reacción, entonces Y(k, yo) ≈1, es decir Y(k, yo) es independiente de k. Para los dos casos en los que E. coli el rendimiento metabólico se optimiza con glucosa y succinato como las únicas fuentes de carbono disponibles, Y(k)∼k –0,27. Este es un comportamiento intermedio entre los dos casos extremos descritos anteriormente. Sin embargo, el valor del exponente de β = –0,27 indica que la falta de homogeneidad a gran escala observada en la distribución de flujo general es cada vez más válida a nivel de los metabolitos individuales también.

En consecuencia, para la mayoría de los metabolitos, se puede identificar una única reacción que domina su producción o consumo. Un algoritmo simple es capaz de extraer la sub-red que consta únicamente de estas reacciones dominantes, llamada "columna vertebral de alto flujo" (HFB) (Almaas et al., 2004). This algorithm has the following two steps: (1) for each metabolite, discard all incoming and outgoing links except the two links that dominate mass production and (2) from the resulting set of reactions, keep only those reactions that appear as both a maximal producer and a maximal consumer.

Note that the resulting HFB is specific to the particular choice of system boundary conditions (i.e. environment). Interestingly, the HFB mostly consists of reactions linked together, forming a giant component with a star-like topology that includes almost all metabolites produced in a specific growth environment. Only a few pathways are disconnected while these pathways are members of the HFB, their end-products serve only as the second most important source for some other HFB metabolite. One may further analyze the properties of the HFB (Almaas et al.,2004) however, we limit our discussion and simply mention that groups of individual HFB reactions largely agree with the traditional,biochemistry-based partitioning of cellular metabolism into pathways. For example, in the E. coli metabolic model, all metabolites of the citric acid cycle are recovered, and so are a considerable fraction of other important pathways, such as those being involved in histidine, murein and purine biosynthesis, to mention a few. While the detailed nature of the HFB depends on the particular growth conditions, the HFB captures the reactions that dominate the metabolic activity for this condition. As such, it offers a complementary approach to elementary flux mode and extreme pathway analyses(Schuster and Hilgetag, 1994 Schilling et al., 2000 Papin et al., 2004), which successfully determine the available modes of operation for smaller metabolic sub-networks.

Metabolic core reactions

Any whole-cell metabolic model contains a number of transport reactions for the uptake of nutrients and excretion of byproducts. Consequently, we may systematically sample among all possible environments captured by the model through varying the constraints on uptake reactions. This analysis suggests that optimal metabolic flows are adjusted to environmental changes through two distinct mechanisms (Almaas et al.,2004). The more common mechanism is `flux plasticity', involving changes in the fluxes of already active reactions when the organism is shifted from one growth condition to another. For example, changing from glucose- to succinate-rich media altered the flux of 264 E. coli reactions by more than 20%. Less commonly, environmental changes may induce `structural plasticity', resulting in changes to the metabolism's active wiring diagram,turning on previously zero-flux reactions and inhibiting previously active pathways. For example, when shifting E. coli cells from glucose- to succinate-rich media, 11 previously active reactions were turned off completely, while nine previously inactive reactions were turned on.

Correlation between (normalized) link weights and local connectivity for(A) metabolic fluxes in S. cerevisiae in glucose-limited and (B)acetate-limited conditions, as well as (C) betweenness-centrality for the Barabási–Albert model. The broken lines serve as visual guides only.

Correlation between (normalized) link weights and local connectivity for(A) metabolic fluxes in S. cerevisiae in glucose-limited and (B)acetate-limited conditions, as well as (C) betweenness-centrality for the Barabási–Albert model. The broken lines serve as visual guides only.

The `metabolic core' is the set of reactions found to be active (carrying a non-zero metabolic flux) in all tested environments. In recent computational experiments where more than 30 000 possible environments were sampled, the metabolic core contained 138 of the 381 metabolic reactions in the model of H. pylori (36.2%), 90 of 758 in E. coli (11.9%) and 33 of 1172 in S. cerevisiae (2.8%)(Almaas et al., 2005). While these reactions respond to environmental changes only through flux-based plasticity, the remaining reactions are conditionally active, being turned on only in specific growth conditions.

The metabolic core can be further partitioned into two types of reactions. The first type consists of those that are essential for biomass formation under all environmental conditions (81 out of 90 reactions in E. coli), while the second type of reaction is required only to assure optimal metabolic performance. In case of the inactivation of the second type,alternative sub-optimal pathways can be used to ensure cellular survival. However, the compact core of S. cerevisiae only contains reactions predicted by FBA to be indispensable for biomass formation under all growth conditions. A similar selection of metabolic reactions was suggested by Burgard et al. (Burgard et al.,2001). Their `minimal reaction' contains the metabolic core as well as all reactions necessary for the sustained growth on any chosen substrate. A different definition of a minimal reaction set was proposed by Reed and Palsson (Reed and Palsson,2004), which consists of the 201 reactions that are always active in E. coli for all 136 aerobic and anaerobic single-carbon-source`minimal environments' capable of sustaining optimal growth.

A reasonable speculation is that the reactions in the metabolic core play an important role in the maintenance of crucial metabolic functions since they are active under all environmental conditions. Consequently, the absence of individual core reactions may lead to significant metabolic disruptions. This hypothesis is strengthened through cross-correlation with genome-scale gene-deletion data (Gerdes et al.,2003): 74.7% of those E. coli enzymes that catalyze core metabolic reactions (i.e. core enzymes) are essential, compared with a 19.6%lethality fraction for the non-core enzymes. A similar pattern of elevated essentiality is also present when analyzing large-scale deletion data for S. cerevisiae (Giaever et al.,2002). Here, essential enzymes catalyze 84% of the core reactions,whereas the conditionally active enzymes have an average essentiality of only 15.6% (Almaas et al., 2005). The likelihood that the cores contain such a large concentration of essential enzymes by chance is minuscule, with PAG-values of 3.3×10 –23 and 9.0×10 –13 for E. coli and yeast, respectively.

Metabolic core reactions also stand apart from the conditionally active ones when comparing their evolutionary conservation. In comparing the core enzymes of E. coli with a reference set of 32 bacteria, the average core conservation rate is 71.1% (PAG<10 –6 ) while the non-core enzymes have a homology matching of only 47.7%. Taking into account correlations between essentiality and evolutionary conservation, one would expect the core enzymes to show a conservation level of 63.4%(Almaas et al., 2005).

These results indicate that an organism's ability to adapt to changing environmental conditions rests largely on the continuous activity of the metabolic core, regardless of the environmental conditions, while the conditionally active metabolic reactions represent the different ways in which a cell is capable of utilizing substrates from its environment. This suggests that the core enzymes that are essential for biomass formation, both for optimal and suboptimal growth, may provide effective antibiotic targets, given the cell's need to maintain the activity of these enzymes in all conditions.


Behavioral Medicine

Perceptive of the factors that sway human health and cause diseases are the chief driving forces of biological research. With advancement in quantitative techniques, large-scale measurement methods and with the close combination between experimental and computational approaches, Biology has lately gained new technological and conceptual tools to investigate, model, and understand living organisms at the system level. The young discipline of Systems Biology is devoted to the study of well-characterized model organisms. It is clear since the days of the human genome project that applications of system-wide approaches to human biology would open up great breaks in medicine.

Recent lessons learned from Systems Biology, when used on simple organisms like bacteria or yeast, predict the kind of understanding that will profit both basic medical research and clinical applications giving deeper appreciation of the genotype–phenotype relationship impact of the interactions between environmental conditions and genotype new mechanistic and functional understanding based on global unbiased approaches explanation of potent predictive models capturing the details of physiological states, progress on these various faces clearly depend on different types of research, ranging from investigations on basic aspects of human biology to the more clinically oriented applications. Appreciably, as techniques and concepts are established, a new discipline is budding at the crossing point between Medicine and Systems Biology.

In fields pertinent to medical research, together with cancer biology, deciphering the mechanisms of disease requires a deep knowledge of how signaling the process of shuffling of genes pathways operates. Quantitative large-scale study of proteins has made possible the simultaneous monitoring of the simultaneous activity of multiple signaling molecules, enabling a broader and unbiased view of cellular signaling proceedings. This type of high-throughput screening can be correlated to biological response like proliferation and cell migration to further understanding of the pathways known to be deregulated in cancer. These approaches reveal the unavoidable fact that biological pathways are highly interrelated, which represents one of the major motivations for adopting a system-level approach in biology. The impact of plugging in on biological outcome is analyzed to explain synergies and other non-intuitive interactions observed between concurrently applied drugs, with vital outcomes for drug design and pharmacology. The concept of linear pathway is confronted by network representations, which highlight the significance of interactions between components of a biological system. This network-based conceptual framework transforms current models in disease classification and treatment. The main practical challenge is how to figure out the structure of complex networks that underlie biological processes and how to characterize their state when disturbed by disease. New calculation strategies combined with the now well-established genome-wide expression profiling techniques provide new tools to reverse-engineer network structure and to identify and track mediators associated with a disease.

In view of the fact of completion of the human genome sequence, research in human genetics has been progressing at a rapid pace. With major achievements including realization of the haplotype map project facilitating the analysis of human genetic variability, the recent flurry of genome-wide associated studies providing a host of potential genetic determinants for major common diseases and the arrival of the first personalized human genome sequences. The power of genetics and genomics to explore the human disease scenery does not need to be demonstrated any more. Beyond genetic determinants, diseases are characterized by a disturbed physiology, and methods providing a wider and deeper window into physiological states will be influential to get hold of an integrated view of human disease. By their proximity to physiological output, metabolite measurements provide such a window, and advances in the associated techniques have led to the development of the field of metabonomics (measuring and mathematically modeling changes in the levels of products of metabolism found in biological fluids and tissues), pioneered by Jeremy Nicholson. The study reveals the deep sway exerted by gut bacterial flora on the metabolic equilibrium of the host and, as a consequence, on its health status. This study demonstrates that the genotype–phenotype relationship is far from being the entire story when dealing with disease, and it emphasizes the vital significance of putting together all aspects of physiology, including contributions from the totality of microbes and environment, thus adopting an even wider scope than the genome-wide model.

Great anticipation generated by the application of high-throughput technologies to human samples is that huge information gathered can lead to more powerful models able to predict susceptibility to disease, response to treatment and even more challenging, help in the prognosis of disease outcome. It is the latter question of prognosis that is addressed in the study by MacBeath and co-workers Knickerbocker et al, 2007, this book is designed to introduce biologists, clinicians and computational researchers to fundamental data analysis principles, techniques and tools for supporting the discovery of biomarkers and the implementation of diagnostic, prognostic systems. It focuses on how fundamental statistical and data mining approaches can support biomarker discovery and evaluation, emphasizing applications based on different types of “omic” data. The work also discusses design factors, requirements and techniques for disease screening, diagnostic and prognostic applications. It imparts knowledge needed to assess the requirements, computational approaches and outputs in disease biomarker research. There are also commentaries from guest experts containing detailed discussions of methodologies and applications based on specific types of “omic” data, as well as their integration. It also covers the main range of data sources currently used for biomarker discovery. It deals with the main range of data sources currently used for biomarker discovery. It emphasizes on concepts, design principles and methodologies that can be extended or tailored to more specific applications. It also offers principles and methods for assessing the bioinformatic-biostatistic limitations, strengths and challenges in biomarker discovery studies. The study discusses systems biology approaches and applications. The work includes expert chapter commentaries to further discuss relevance of techniques, summarize biological/clinical implications and provide alternative interpretations allowing integration of clinical parameters with protein microarray measurements of blood samples permitting improved prediction of early mortality of patients initiating a kidney dialysis treatment. Wider application of these technologies is likely to be instrumental in opening the door to the era of personalized medicine with tailored strategies encircling all aspects of clinical practice, including prevention, diagnosis, treatment and prognosis.

Interpreting the Systems Biology framework to the human ‘system’ is a formidable challenge because of the intimidating intricacy of human physiology and also because the human condition involve serious consideration of ethical, legal, safety, individual and epidemiological issues. Revolutionary technologies, fresh insights, immense digitalization of information will entitle clear thinking and innovation in the formulation of governance policies. These excerpts of recent concrete contribution to the field stimulates reflections and debates, extending beyond the Systems Biology community, enabling to realize full potential and promises of Systems Medicine in harmony with societal standards.


Third Strategy: Use of Novel Centrality Concepts

In addition to the use of individual classical centrality measures and their combinations to identify essential/lethal nodes in biological networks, new indices were designed using other features associated with nodes in biological networks. For instance, Yu et al. in 2004 introduced the notion of marginal essentiality which states that the essentiality of a gene is directly associated to its connectivity and the number of functions of that gene (Yu et al., 2004). Estrada and Rodriguez-Velazquez, in 2005 proposed a new index, subgraph centrality (SC) which characterizes the contribution of each node in all subgraphs of a network. The authors claimed that SC index is better in discriminating the nodes of a network than alternate classical measures such as degree, closeness, betweenness, and eigenvector centralities and is more highly correlated with the lethality of individual proteins removed from the proteome (Estrada and Rodriguez-Velazquez, 2005). Tew et al. defined a functional centrality as the topological centrality within a subnetwork of proteins with similar functions, called neighborhood functional centrality (NFC). NFC predicted the lethal proteins in four S. cerevisiae PPI datasets and was able to detect low connectivity lethal proteins that were previously undetected by conventional methods (Tew et al., 2007). Then, Koschutzki and Schreiber demonstrated that motif-based centralities yield better results in gene regulatory networks (Koschützki and Schreiber, 2008). Efforts were made to better predict and improve the existing methods for new insights of centrality usage in biology. For example, Hart et al. used an unsupervised probabilistic scoring scheme on large-scale yeast mass-spectrometry data, emphasizing that essentiality is the product of protein complexes rather than individual proteins (Hart et al., 2007). Piraveenan et al. used topological connectivity, as well as the percolation states of individual nodes in network percolation scenarios (such as infection transmission in a social network of individuals) to quantify relative impact of nodes (Piraveenan et al., 2013). Simko and Csermely applied game centrality to design more competent interventions in cellular networks (Simko and Csermely, 2013), and Szalay and Csermely developed perturbation centrality to provide a large variety of novel options to assess signaling, drug action, environmental, and social interventions (Szalay and Csermely, 2013). Wuchty recently determined minimum dominating sets (MDSet) as optimized subsets of proteins that play a role in the control of the underlying networks by enabling remaining proteins to be reached in one step. MDSet are enriched with essential, cancer-related, and virus-targeted genes. The author also compared the MDSet proteins with hub proteins and showed a higher impact of MDSet proteins on network resilience (Wuchty, 2014).


Biological significance of network parameters - Biology

Analysis of the structure of biological networks often uses statistical tests to establish the over-representation of motifs, which are thought to be important building blocks of such networks, related to their biological functions. However, there is disagreement as to the statistical significance of these motifs, and there are potential problems with standard methods for estimating this significance. Exponential random graph models (ERGMs) are a class of statistical model that can overcome some of the shortcomings of commonly used methods for testing the statistical significance of motifs. ERGMs were first introduced into the bioinformatics literature over ten years ago but have had limited application to biological networks, possibly due to the practical difficulty of estimating model parameters. Advances in estimation algorithms now afford analysis of much larger networks in practical time. We illustrate the application of ERGM to both an undirected protein-protein interaction (PPI) network and directed gene regulatory networks. ERGM models indicate over-representation of triangles in the PPI network, and confirm results from previous research as to over-representation of transitive triangles (feed-forward loop) in an E. coli and a yeast regulatory network. We also confirm, using ERGMs, previous research showing that under-representation of the cyclic triangle (feedback loop) can be explained as a consequence of other topological features.


Correlation-Based Network Generation, Visualization, and Analysis as a Powerful Tool in Biological Studies: A Case Study in Cancer Cell Metabolism

In the last decade vast data sets are being generated in biological and medical studies. The challenge lies in their summary, complexity reduction, and interpretation. Correlation-based networks and graph-theory based properties of this type of networks can be successfully used during this process. However, the procedure has its pitfalls and requires specific knowledge that often lays beyond classical biology and includes many computational tools and software. Here we introduce one of a series of methods for correlation-based network generation and analysis using freely available software. The pipeline allows the user to control each step of the network generation and provides flexibility in selection of correlation methods and thresholds. The pipeline was implemented on published metabolomics data of a population of human breast carcinoma cell lines MDA-MB-231 under two conditions: normal and hypoxia. The analysis revealed significant differences between the metabolic networks in response to the tested conditions. The network under hypoxia had 1.7 times more significant correlations between metabolites, compared to normal conditions. Unique metabolic interactions were identified which could lead to the identification of improved markers or aid in elucidating the mechanism of regulation between distantly related metabolites induced by the cancer growth.

1. Introducción

Advanced technology methods for high-throughput biological studies, such as metabolomics and transcriptomics developed during the last decades, are successfully applied in biomedical research [1], plant studies [2], and microbiology [3]. The wide use of these technologies led to the accumulation of data on biological processes at their multiple levels (metabolic, genetic, enzymatic, physiological, phenotypical, etc.) and called for the development of tools to ease the visualization, analysis, and interpretation of an often complex and multidimensional matrix. Furthermore, the readily available “omics” technologies in biological laboratories prompted biologists to enter a field often needing extensive computational knowhow and led to the increased interest in biological interaction networks [4]. Thus, in the recent decades networks describing cellular processes were generated for human [5], yeast [6], and plants [7].

Networks can be presented as graphs, that is, a set of vertices (V) connected by edges (E), and consequently can be analyzed using graph theory, an approach that has been increasingly implemented in biological studies during the last decade. It is commonly accepted that graph theory as a scientific discipline was first used by the Swiss mathematician Leonhard Euler in 1735-1736, tackling the Königsberg bridge problem. Later, in the 19th and 20th centuries, graph theory was formulated and eventually introduced for applied fields, such as physics, computer science, and biology [8]. Today, graph theory consists of many tens of basic definitions and properties [9]. The understanding of the biological networks lies in the nature of the vertices and edges between them that is, the vertices may represent one of the components of the three major molecular levels: genes, proteins, or metabolites, while the edges between them represent gene coexpression, protein-protein interactions, or biochemical conversions of metabolites, respectively [10]. However, molecular networks are not delimited to illustrate single-level component interactions. They can also show cross-level interactions. Alternatively, and perhaps a little counterintuitive, a network may incorporate vertices representing a set of metabolic reactions, where the connection between a pair of vertices is established if the reactions share one or multiple metabolites used or produced by these reactions [11, 12]. In other networks, vertices represent a community of molecular components, especially used with very vast data sets (>1000 of components) such as in weighted gene coexpression network analysis (WGCNA). Here, a single vertex delineates a module of genes and edges between vertices represent the correlation between them. This allows reducing the complexity of the network and simultaneously retains most of the information used for the interpretation of the gene coexpression results [13]. In simple words, vertices and edges represent the information as defined by the creator/user of the network.

In the last decade, correlation-based network analysis (CNA) has become a popular data-mining tool for visualizing and analyzing biological relationships within large data sets [13, 14]. In this type of networks, vertices and edges represent molecular elements (e.g., metabolites or genes) and their correlation coefficient (strength and sign), respectively [10, 15, 16]. Edges inferred by correlation analyses reflect a coordinated behavior between vertices across the data set (treatments, genotypes, conditions, and time). The type of correlation has to be selected based on the parametrical distribution of the data. In large population studies, data has to be tested for normality using existing tests, for example, the Shapiro-Wilk test. The Pearson correlation should be applied to normally distributed data, while Spearman’s rank correlation should be used for data violating the assumption of normal distribution. CNA was successfully applied to various biological systems it revealed, for example, metabolic markers related to plant growth and biomass in Arabidopsis thaliana recombinant inbred lines (RIL) and introgression lines (IL) [17, 18], the role of gene Col5a2 in myocardial infarction [19], effect of hypoxia on tumor cell biochemistry [20], and recently, identification of genetically based mechanism of the regulation of amino acid metabolism [2].

Graph theory defines a number of network properties that allow successful analysis and interpretation of correlation networks (CN). These properties are a set of measures that describe the graph topology from different vantage points. CNs are undirected graphs, reflecting the coordinated behavior of two or more adjacent vertices (connected vertices) and the biological components they represent and not the effect of one vertex/component onto another, that is, a directed network. Properties that may have biological significance have been reviewed by Toubiana et al. [10] they include (a) vertex degree: the number of edges incident on a given vertex [21], (b) centrality score: reflecting the number of shortest paths between a vertex and any other vertex in the network, (c) network diameter: the maximal shortest path between any two vertices in the graph, (d) network density: the ratio of existing edges to the number of all possible edges of a network, (e) vertex betweenness centrality: the relative number of the shortest paths between any two vertices that pass via a specific vertex, and (f) modules: subgraphs, within a global network characterized by higher connectivity (biologically interpreted as possible tighter coordination) between their components compared to other regions of the network. The analysis of these modules within the obtained network helped in the prediction of diseases [22, 23]. In this contribution we aim at providing an easy-to-implement pipeline for the generation of CNs for biologists without extensive computational skills. To do so, we are demonstrating the potential use of CNs in cancer studies.

Nowadays, there exist a number of software tools that allow researchers to generate networks, visualize them, and analyze their structure, via the calculation of a number of network properties, based on their own experimental data. Commonly known tools are Cytoscape [24], Gephi [25], and iGraph [26]. Each software has its benefits and disadvantages. For example, while iGraph requires programming skills and knowledge of the R programming language syntax, graphical-user-interface (GUI) based programs, such as Gephi and Cytoscape, do not, simplifying the interaction with the user. On the other hand, while script-based programs allow for the extension of existing functions and integration of compatible libraries, increasing the number of potential properties to be calculated, GUI programs are bound to the functionalities of the version of the software the researcher is using. However, Cytoscape and Gephi both offer a greater and easier-to-use set of visualization tools for networks, whereas the visualization functionalities of iGraph are rather limited and difficult to handle. Cytoscape allows for the integration of externally developed plugins, exerting functionality as desired by its developer. However, this option requires knowledge of the Java programming language and an understanding of how to interface it with the Cytoscape software.

The current proposed stepwise pipeline allows the user to control each step of the network creation, as it provides flexibility in selection of correlation methods and thresholds and describes easy-to-handle options to analyze the network topology. The pipeline works irrespective of the nature of the data set and can be implemented by a combined use of the freely distributed Apache OpenOffice software (http://www.openoffice.org/), built-in packages within the R-environment [27], and Cytoscape [24].

2. Method

The construction of correlation-based networks starts form the calculation of the pairwise correlation coefficients between any two pairs of vectors of a given data set. One of the easiest ways to complete this calculation in big sets of data is to exploit the freely available R-software. There are several packages developed for correlation analysis under the R-environment. It is very important for the output matrix to select the proper type of correlation coefficient (Pearson, Spearman, Kendal, etc., represented as the letter “r”) and its corresponding thresholds (r y pag). We recommend using the “psych” package under the R-environment [27, 28]. This package allows calculation of two diagonal matrices: (1) a symmetric diagonal r-matrix and (2) a symmetric diagonal p-matrix, where the lower triangle stores the

-valores and the upper triangle the multiple hypotheses corrected -valores, corrected either by the Bonferroni correction or by applying a false discovery rate (FDR) correction. The obtained matrix with both r- and raw/adjusted -valores can be then transformed to the table view and exported to any spreadsheet software for a supervised selection of significant correlation coefficients. The thresholds of significance should be selected in respect to the nature and size of the data and considering the general suggestions as described in the introduction and elsewhere [29]. The selected significant correlation values can be easily converted to a table, listing in three columns the vertices that are adjacent to each other. This table is subsequently used as a template to illustrate the network using Cytoscape. We have chosen Cytoscape out of the list of network software as it was specifically developed for biological data, because of its intuitively understandable interface, wide range of visualization options, and available additional plugins for calculations of the main network properties. The method’s workflow is presented in Figure 1.

2.1. Method Pipeline
2.1.1. Download R-Environment and Required R-Packages

To start the workflow, first download and install the latest version of R-environment from the following website: https://www.r-project.org/. For the processes described here two R-packages will be used: “psych” [28] and “reshape2” [30]. Both packages are freely available for downloading via the R-environment window. As mentioned above, the R-environment is a freely available powerful statistical software often used to analyze biological data. Its benefits stem from the integration of various built-in functions and libraries/packages, supplemented by its ability to complement these by numerous externally developed packages and the freedom to combine them as necessary. Often, different packages offer different functions tackling the same task. For example, to compute correlation coefficients, one may use the core built-in function “cor” or the “rcorr” function of the Hmisc-package [31]. For the current work we have chosen specifically the “psych” package to perform correlation analysis as it conveniently computes the

coefficients and its corresponding values and also performs post hoc tests to correct for multiple hypothesis testing (MHT). The package “reshape2” allows converting a matrix into a table and was chosen for this work for its easy implementation.

2.1.2. Adjusting the Allocated Memory

Before beginning with the actual analysis, we recommend checking for the size of virtual memory available for R and Cytoscape, considering the potential large size of a data set. To do so for R under Windows OS type memory.limit() and if the result is smaller than the potential amount of your data set, increase the memory by typing memory.limit(size = 4096). This step allocates 4096 MB, equivalent to 4 GB (maximal number for 32 GB systems) of virtual memory, to the R-software. Unix-based OS’s do not offer this function, as their virtual memory management is dynamic, adjusting itself to new and existing processes.

Similarly to the R-software the user may increase the memory allocated to Cytoscape, if, for instance, the size of a network is too large. Cytoscape is a Java-based software, so the first step here will be to access the Configure Java option via the Programs list. Next, select the Java tab in the displayed window, click on Vista button, and type -Xms4096m en el Runtime parameters line to allocated 4 GB of memory to the Cytoscape software. The amount of allocated memory is editable.

2.1.3. Producing the Matrices (the R Code Necessary to Complete the Steps Described below Can Be Found in Supplementary Figure 1)

After the size of virtual memory is set, the user can start the pipeline according to the protocol presented in Supplementary Figure 1 available online at http://dx.doi.org/10.1155/2016/8313272. The described protocol represents a set of consequent commands (with an exception to the parallel computation of the r- y -valor matrices using the “psych” package), where the execution of one step is dependent on the former.

The output of the executed protocol will provide two separate files that can be opened in spreadsheet software. One of the files, “r_table.csv,” will represent a table view of the correlation matrix, and the second file, “pag_table,” will represent the same table where r-values will be replaced by the correspondent valores. Probably the single disadvantage of this method is the time of calculation that strongly depends on number of the variables for the analysis and can be problematic for large (more than 500 variables) data sets. Nevertheless, the vast majority of metabolomics data sets does not exceed this amount of variables and usually is much smaller. Thus, the reader should not run into problems when executing the above code.

The obtained files “r_table.csv” and “pag_table.csv” can be opened in any spreadsheet software (in our case OpenOffice). The next step is to remove the first column in each file and copy the rest to a new multisheet file on separate sheets for the r-values and the -values, respectivamente. This step will provide two tables with two identical columns with the names of the variables, for example, metabolites/genes, and different third column with r- y -values, respectivamente. At this stage the correlation threshold has to be selected.

2.1.4. Selection of Significant Interactions and Arrangement of the Data to the Network Format Spreadsheet Software

Correlation coefficients, r, are the determining elements in CN construction the threshold of acceptable -value range and the threshold of its statistical significance will greatly affect the output of the network and its interpretation. The significance of a correlation is a two-factor concept. The first factor, the correlation coefficient (r), is expressed as a value ranging from −1 to 1, where positive and negative values represent a relation, alike or inverse, between the changes in the measure of the two variables. The magnitude of the coefficient reveals the strength of this relationship. However, the reliability of the model also depends on a second factor: the probability (pag) of the detected r-values, reflecting a true relation. This value ranges from 0 to 1 and depends to a great extent on the sample size [32] but also on the experimental setup and the biological system of study. The selection of the threshold for both values depends largely on the researcher. It is trivial that

(perfect positive correlation) or

(perfect negative correlation) represent strong coordinated behaviors, while

shows the absence of a relation between the variables. But what can be said about intermediate r’s? The “rule of thumb” suggests that there is no absolute r-threshold and different scientific disciplines apply different r-valor thresholds. For example, in biology, thresholds from as low as |±0.3| have been proposed to be relevant, for example, for metabolic data in tomato introgression lines seeds and fruits [33], while in physics, an r-valor lower than |±0.9| is often considered insignificant. Generalmente r ≥ |±0.5| is considered as “strong” by most of researches in biological systems [34]. The -valor that reflects significance of a correlation is usually accepted at three levels: 0.05, 0.01, and 0.001 [32]. However, since correlation analysis is applied on large data sets, -valores should usually be corrected by one of the post hoc tests for MHT, such as the Bonferroni correction or the false discovery rate (FDR) method, with the aim of avoiding false positives.

After both parameters of significance are decided, create a new sheet and copy the first two columns from any of the sheets (they are identical). In the first cell of the third column input the following formula:


Conclusión

We have reviewed several classes of approaches for network embedding, including spectral-based methods, random-walk based approaches and deep neural network techniques. We have demonstrated the utility of these approaches in a broad set of applications, ranging from network alignment to community detection, protein function prediction, and network denoising. We have also discussed recent embedding approaches in pharmacogenomics. We were interested in seeing whether the field of network embedding indeed enhances the types of questions that can be answered using graph-based approaches and our conclusion is that there is value in both graph-based and graph-embedding-based methods in a variety of applications.

In our experiments we found that depending on the task at hand and metric used, sometimes graph-based methods outperformed network embedding tools. This was the case with, for example, IsoRank beating MuNK with respect to edge conservation in network alignment, whereas MuNK outperformed IsoRank according to the area under the precision recall curve with respect to node mapping. In community detection experiments, our results were reversed, where the embedding method outperformed the graph-based method 3 out of 4 times. In fact, there is no single metric according to which one type of method is consistently better than the other. Even in compute time, where embedding methods outperform graph-based methods most of the time, on the function prediction task graph-based GeneMANIA outperforms the embedding method Mashup. This implies that the choice of graph-based versus embedding-based method will depend on many factors, not just the task at hand, but also the aspect or evaluation measure of highest importance to the user.

The network embedding principles create new opportunities to model large network datasets and move beyond standard prediction tasks of node classification, link prediction, and node clustering. For example, given a partially observed network of interactions between drugs, diseases, and proteins, one might be interested in posing a logical query: “What proteins are likely to be associated with diseases that have both symptoms X and Y?” Such a query requires reasoning about all possible proteins that might be associated with at least two diseases, which, in turn, clinically manifest through symptoms X and Y. Valid answers to such queries correspond to subgraphs. Since edges in the network might be missing because of biotechnological limits and natural variation, naively answering the queries requires enumeration over all possible combinations of diseases (Hamilton et al., 2018) developed a network embedding approach that answers such complex logical queries and achieves a time complexity linear in the size of a query, compared to the exponential complexity required by a naive enumeration-based approach. The approach embeds nodes into a low-dimensional space and represents logical operators as learned geometric operations in this embedding space. They demonstrated the utility of the approach in a study involving a biomedical network of drugs, diseases, proteins, side effects, and protein functions with millions of edges.

We summarize network embedding tools that are used in the biomedical field in Table 2. We expect the importance of these tools to grow with the magnitude and complexity of biomedical data that are being generated.

Tabla 2. A summary of network embedding tools and their applications.


Ver el vídeo: GANGLIÓSIDOS. IMPORTANCIA BIOLÓGICA Nivel medio-superior (Septiembre 2022).


Comentarios:

  1. Ben

    Sí, lo has dicho correctamente

  2. Meztilar

    SÚPER !!!!!!!!!!!!!!!!!!!!!!

  3. Torry

    ¡Todavía riendo!

  4. Nikorn

    ¡No puede ser!

  5. Fabio

    Es conforme, es información entretenida



Escribe un mensaje