Información

Valor negativo de la expresión génica lineal en microarrays

Valor negativo de la expresión génica lineal en microarrays


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estoy empezando a usar microarrays y tal vez esta sea una pregunta tonta:

Con los microarrays de Illumina, ¿la expresión génica lineal puede ser negativa? ¿O tal vez se han introducido algunos artefactos?

Y, en este caso, ¿cómo corregirlos? ¿Con escalado (sumando el valor absoluto del valor mínimo negativo) o piso (convirtiendo los valores negativos en ceros)?

Gracias


No estoy familiarizado personalmente con las matrices de Illumina, pero puedo dar algunas notas aquí. Este enlace es un documento que describe específicamente los controles de calidad de la matriz. Esta presentación describe el cálculo de las intensidades en bioconductor.

La respuesta es sí: a veces encontrarás números negativos. Deberían ser raros. Los números de intensidad de un escáner que esencialmente toma una imagen de la fluorescencia de la perla en el portaobjetos de vidrio e intenta restar una señal de fondo.

El fondo es el nivel típico de señal que se ve en una perla sin muestra de ADN adherida a ella. Obtendrá algunos píxeles iluminándose un poco incluso allí.

En los microarrays de expresión, este no es un sistema perfecto ya que cada cuenta tiene una secuencia de nucleótidos diferente. Cada cuenta tiene una secuencia de ADN específica que tiene una unión no específica que es bastante única en la diapositiva. Es decir, el oligómero de la perla podría unirse fuertemente al ADN de su muestra, que no es su complemento inverso en diversos grados.

Creo que lo que sucedió es que habrá algunos casos en los que puede encontrar una cuenta que tenga menos fluorescencia que los controles de fondo en la diapositiva. Es posible que la sonda tenga un defecto de diseño, pero generalmente supongo que el número negativo significa que no hay ADNc diana detectable en la muestra para ese oligo.

Probablemente no convertiría el número a cero, pero probablemente podrías justificarte a ti mismo en algunos casos. La mayoría de los experimentos de diferencias son el logaritmo de la razón, por lo que cero no es un gran número en esos casos.

Los comentarios de @Luke están bien dichos.

Creo que los valores negativos todavía pueden representar la señal debido a la variación de los efectos dependientes de la secuencia para los propósitos de escalado y experimentos de diferencia. Pero tendería a pensar en ellos como señal cero en cualquier caso. Probablemente hay genes que se expresan en el umbral de detección o por debajo de él todo el tiempo, lo que no es información cero, por lo que el número tiene algún valor.


Transcriptómica

■ El método y paquete de análisis de significación de microarrays (SAM)

SAM es un método no paramétrico basado en permutación propuesto especialmente para el análisis de datos de microarrays (Tusher et al., 2001). Calcula la tasa empírica de falso descubrimiento (FDR) mediante la permutación aleatoria de etiquetas de clase. La permutación genera una distribución nula, porque se supone que la aleatoriedad elimina todos los efectos biológicos. Por lo tanto, proporciona un medio para controlar los falsos positivos bajo varios umbrales cuando se analizan múltiples genes simultáneamente en una matriz. El paquete SAM puede manejar datos emparejados y no emparejados. Se ejecuta sobre el paquete estadístico R y tiene una interfaz de Excel que utiliza un complemento de Excel.


Referencias de análisis de datos de expresión de microarrays

La dimensión y complejidad de los datos de expresión génica sin procesar obtenidos mediante chips de oligonucleótidos, matrices de manchas o cualquier tecnología que se utilice, crean problemas de gestión y análisis de datos desafiantes. De manera limitada, estos desafíos pueden resolverse mediante los sistemas de software y los métodos de análisis existentes en manos de los usuarios finales. Sin embargo, estamos convencidos de que se requiere un esfuerzo científico mucho más activo. Anticipamos que, ampliamente definida, la bioinformática abarcará cuestiones estadísticas y biométricas de diseño experimental, análisis de datos, gráficos y modelado, y cuestiones computacionales relacionadas con algoritmos eficientes para diversas tareas de aprendizaje como clasificación y agrupamiento.

Los datos de microarrays se pueden analizar utilizando varios enfoques (Claverie, 1999). Los métodos de agrupación (es decir, el aprendizaje no supervisado) se utilizan ampliamente y tienen la capacidad de descubrir patrones de expresión coordinados a partir de una colección de microarrays (p. Ej., Eisen et al. 1998 Getz et al. 2000 Tibshirani et al. 2000 Dudoit, Fridlyand et al. 2000 Kerr y Churchill 2000a). El uso de métodos de agrupamiento estándar es más apropiado cuando los microarreglos surgen de algún tipo de célula fuente común, por ejemplo, de un tipo de tejido común de animales en algún cruce controlado. Es posible que sea necesario realizar mejoras cuando otras fuentes de variación afecten a los microarreglos (van der Laan y Bryan 2000). Los métodos de clasificación (es decir, el aprendizaje supervisado) han demostrado ser muy útiles para identificar patrones de expresión génica que pueden correlacionarse con fenotipos de enfermedades cualitativas (por ejemplo, Golub et al. 1999) y para clasificar genes según su función funcional (Brown et al. 2000). Los métodos relacionados de análisis estadístico multivariante, como los que utilizan la descomposición de valores singulares (Alter et al. 2000 West et al. 2000) o el escalado multidimensional, pueden ser efectivos para reducir la dimensión de los objetos en estudio.

Están surgiendo métodos estadísticos para dar cuenta de múltiples fuentes de variación cuando se intenta reunir información de muchos microarrays e identificar genes que exhiben una expresión diferencial significativa entre los tipos de células. Un enfoque consiste en descomponer la medida de expresión apropiadamente transformada como una combinación lineal de efectos de diferentes fuentes de variación (Kerr et al. 2000). Esto es básicamente ANOVA para microarrays. En el contexto de una comparación de dos grupos con la replicación Dudoit, Yang et al. (2000) han propuesto el uso de pruebas de permutación y ajuste del valor p para dar cuenta del problema de pruebas múltiples. Lin y col. (2001) describen un método no paramétrico adecuado para descubrir la expresión diferencial de transcripciones de baja abundancia. Alternativamente, el enfoque del modelo de mezcla se puede utilizar para analizar directamente la probabilidad de que un gen determinado se exprese verdaderamente (Lee et al. 2000) o la probabilidad de que un gen se exprese verdaderamente de manera diferencial entre dos condiciones (Newton et al. 2001 Efron et al. al. 2001). Los patrones funcionales de expresión identificados por tales cálculos estadísticos serán respaldados por exámenes de laboratorio para verificar los hallazgos (cf. Nadler et al. 2000).

Aunque los métodos de análisis han sido una preocupación central en la mayoría de las investigaciones bioinformáticas hasta la fecha, la cuestión del diseño experimental es fundamental. El uso de la replicación, por ejemplo, en experimentos controlados puede mejorar significativamente el poder para descubrir genes expresados ​​diferencialmente (Kerr y Churchill 2000b, Lee et al. 2000). Nuestra revisión interna de las solicitudes de soporte de microarrays incluirá un examen cuidadoso de las consideraciones de diseño experimental.

El análisis de microarrays generalmente usa intensidades de expresión ajustadas al fondo (PM-MM para chips Affymetrix). Sin embargo, esto puede crear problemas con los valores ajustados negativos, ya que la transformación logarítmica se aplica a menudo a estos valores ajustados. Esto ha provocado procedimientos ad hoc (cf. Roberts et al. 2000). Sin embargo, el manejo arbitrario de genes de baja expresión no es satisfactorio ya que estos pueden ser los más interesantes, p. Ej. factores y receptores de transcripción. En cambio, Lin et al. (2001) propugnó una transformación de puntuaciones normales aproximadas de la expresión ajustada al fondo que permite el uso de todos los datos (véase también Efron et al. 2001). Estas puntuaciones normales parecen tener mejores propiedades para la agrupación y se comportan bien para la inferencia de la expresión diferencial.

Los patrones de expresión génica evidenciados por el análisis de datos son solo el comienzo. En muchos casos, se puede lograr una mayor comprensión biológica utilizando datos de expresión junto con datos de secuencia (Craven et al. 2000), datos de ruta (Zien et al. 2000) y fuentes de texto biomédicas (Shatkay et al. 2000). Además, puede implicar la construcción de modelos predictivos a partir de diversas fuentes de datos (Craven et al. 2000) y el desarrollo de métodos automatizados para explotar texto y datos web (Craven y Kumlien, 1999 Shavlik et al. 1999).


Oncomine 3.0: genes, vías y redes en una colección de 18.000 perfiles de expresión génica del cáncer.

Departamento de Patología, Facultad de Medicina de la Universidad de Michigan, Ann Arbor, MI 48109-0940, EE. UU.

Los microarrays de ADN se han aplicado ampliamente al análisis del transcriptoma del cáncer, sin embargo, la mayoría de estos datos no son fácilmente accesibles o comparables. Además, se han aplicado varios enfoques analíticos importantes al análisis de microarrays; sin embargo, su aplicación suele ser limitada. Para superar estas limitaciones, hemos desarrollado Oncomine, una iniciativa de bioinformática destinada a recopilar, estandarizar, analizar y entregar datos de transcriptomas de cáncer a la comunidad de investigación biomédica. Nuestro análisis ha identificado los genes, las vías y las redes desreguladas en 18.000 microarreglos de expresión génica del cáncer, que abarcan la mayoría de los tipos y subtipos de cáncer. Aquí, proporcionamos una actualización de la iniciativa, describimos la base de datos y los módulos de análisis, y destacamos varias observaciones notables. Los resultados de este análisis exhaustivo están disponibles en http://www.oncomine.org.

Problemas de confiabilidad y reproducibilidad en las mediciones de microarrays de ADN.

El Dr. Sorin Drahici publicó una excelente reseña. Historia de microarrays, tipos, tecnología, aplicación. Biomarcadores y herramienta de diagnóstico. Correlación con PCR. Las proporciones son más fiables que el nivel de expresión. Errores de los experimentos de spike-in, emparejamiento de sondas, hibridación de ADN-ARN, variantes de empalme, plegamiento e hibridación cruzada. Las referencias son breves pero excelentes.

Trends Genet. 22 de febrero de 2006 (2): 101-9. Publicación electrónica 27 de diciembre de 2005. Enlaces


3. Aplicación a datos experimentales

(i) Descripción de los datos

Para analizar el rendimiento de BE en comparación con BN y BL, utilizamos dos conjuntos de datos generados en un estudio previo de microarrays de ADNc de dos colores realizado para identificar genes regulados por el factor sigma σ B en la bacteria. Listeria monocytogenes (Kazmierczak et al., Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003). En ese estudio, un L. monocytogenes sigB mutante nulo (que carece de la proteína σ B) y una cepa parental con sigB gen (tipo salvaje) fueron expuestos a dos condiciones de estrés, a saber estrés osmótico y fase estacionaria, para identificar genes con niveles de transcripción afectados por el sigB supresión en estas dos condiciones. Para cada condición de estrés, dos aislados de ARN independientes (réplicas biológicas) tanto para el tipo salvaje como para sigB las células mutantes se cambiaron de colorante para un total de cuatro matrices por condición de estrés. Cada matriz incluía 211 genes de prueba y una serie de controles de normalización y no hibridación (para obtener más información, consulte Kazmierczak et al., Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003) detectados por triplicado. La mayoría de los genes (166) incluidos en la matriz fueron identificados mediante búsquedas de promotores del modelo de Markov oculto como precedidos por un promotor supuestamente dependiente de σ B, mientras que algunos genes (36) se incluyeron debido a informes previos de su participación en la virulencia o la respuesta al estrés. Como σ B es un regulador positivo de la expresión génica con especial importancia para regular la respuesta al estrés y los genes de virulencia, se espera que la mayoría de los genes en estos dos experimentos muestren niveles de transcripción más altos en la cepa de tipo salvaje en comparación con la sigB cepa de deleción.

En su análisis, Kazmierczak et al. (Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003) consideraron todos los puntos individuales como repeticiones, generando 24 puntos de datos para cada gen (3 puntos por gen × 4 matrices × 2 canales por matriz), es decir, no se consideró la correlación entre réplicas técnicas. Informaron hallazgos para 208 de los 211 genes de prueba, ya que tres genes se detectaron dos veces. Antes del análisis, se realizó la normalización media de deslizamiento cruzado (sin corrección de fondo) y el piso. El análisis por el programa de Análisis de Significancia de Microarrays (SAM) (Tusher et al., Reference Tusher, Tibshirani y Chu 2001) identificaron 51 (25%) y 41 (20%) genes con al menos 1,5 veces diferentes expresiones estadísticamente significativas bajo estrés osmótico y condiciones de fase estacionaria, respectivamente.

Antes de nuestro análisis de los dos conjuntos de datos de 211 genes, realizamos la corrección y normalización de fondo. Las intensidades de fluorescencia de fondo medianas se recomiendan generalmente para la corrección del ruido de fondo debido a su robustez frente a los valores atípicos. Sin embargo, usamos las intensidades de fondo medias porque la distribución de las intensidades de fondo medianas tenía una distribución bimodal con algunos puntos que tenían fondo cero mientras que los otros estaban en el rango más alto de intensidades (por encima de 28) (posiblemente debido a la configuración o limitaciones de el escáner láser utilizado).

Dos procedimientos de corrección de antecedentes parecían apropiados para los datos. El primero, el modelo de corrección de fondo de convolución normal-exponencial (NeBC) (realizado con un desplazamiento de 100), implica el ajuste de la convolución de las distribuciones normal y exponencial a las intensidades de primer plano utilizando las intensidades de fondo como covariable (también conocida como la método normexp en Smyth, Referencia Smyth, Gentleman, Carey, Dudoit, Irizarry y Huber 2005). El segundo procedimiento utilizado fue la corrección de fondo multiplicativa (MBC). Este es un enfoque novedoso que implica la transformación logarítmica de las lecturas de intensidad antes de la corrección de fondo y se encuentra (a través de una serie de ejemplos) que es superior a la corrección de fondo aditiva y sin corrección de fondo (Zhang et al., Referencia Zhang, Zhang y Wells 2006). Debido a que, según se informa, MBC da menos falsos positivos que la corrección de fondo aditiva convencional (Zhang et al., Referencia Zhang, Zhang y Wells 2006) y debido a que su desempeño nunca ha sido contrastado con NeBC, usamos (y comparamos) ambos modelos de corrección de fondo en nuestro estudio.

La normalización apropiada para los datos fue la normalización de Lowess (Cleveland & amp Devlin, Reference Cleveland y Devlin 1988), con ponderación de los puntos de control de fondo y normalización, que se sabe que no son DE (http://bioconductor.org/packages /1.8/bioc/vignettes/limma/inst/doc/usersguide.pdf). La aplicación de los dos procedimientos de corrección de fondo (NeBC y MBC) a cada uno de los dos conjuntos de datos de condiciones de estrés (estrés osmótico y fase estacionaria) proporcionó un total de cuatro conjuntos de datos de modelos reales utilizados en nuestros análisis.

(ii) Resultados

En los cuatro conjuntos de datos del modelo, el registro normalizado y corregido en segundo plano2 proporciones entre los valores de expresión de genes en células de tipo salvaje y mutantes (Y gij) se distribuyeron asimétricamente alrededor de cero y muy sesgados hacia la derecha. Esto era de esperar porque se anticipó una regulación positiva en la mayoría de los genes probados. Por tanto, era razonable suponer que la distribución de las expresiones medias de los genes DE sigue a la EVD. Por tanto, el método BE podría aplicarse para la inferencia sobre la expresión diferencial.

Un tema crítico en la metodología de integración de MC, subyacente al método BE, es determinar el número de iteraciones que se pueden usar de manera segura como base para la inferencia. Utilizamos 50 000 iteraciones, ya que proporcionaron una precisión razonable de las estadísticas de BE aproximadas. Los MCSE logrados variaron para diferentes genes y conjuntos de datos de modelos. Las medianas, seguidas por los rangos entre paréntesis, de los MCSE logrados fueron 0 · 05 (0 · 01–0 · 42) y 0 · 03 (0 · 01–0 · 82) para los conjuntos de datos de estrés osmótico corregidos con el NeBC y Métodos MBC, respectivamente, y 0 · 38 (0 · 02–0 · 92) y 0 · 18 (0 · 02–0 · 52) para los conjuntos de datos de fase estacionaria corregidos con los métodos NeBC y MBC, respectivamente. En los cuatro conjuntos de datos del modelo, los MCSE fueron los más bajos (& lt0 · 1) para los genes con el valor de la estadística BE alrededor de 0.

Para cada conjunto de datos del modelo, se aproximaron las estadísticas de BN, BL y BE de genes específicos. El significado biológico de los genes DE identificados es importante. Por lo tanto, para cada uno de los cuatro conjuntos de datos del modelo en la Fig.1, mostramos los valores de los estadísticos BN, BL y BE, graficados contra estimadores de contraste de modelos lineales () (también traducidos en cambios de pliegue, para una interpretación más intuitiva) y contra resultados anteriores de Kazmierczak et al. (Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003). En cada conjunto de datos del modelo, los genes que se clasificaron muy bajo con la estadística BE tienen un cambio de veces por debajo de 1. Al mismo tiempo, la estadística BN clasificó alto algunos de los genes con un cambio de veces muy bajo, lo que sugiere incorrectamente una regulación negativa. La estadística BL dio resultados ambiguos con valores altos para la mayoría de los genes, particularmente en los datos de la fase estacionaria. Cabe señalar que para la aproximación de las estadísticas de BN y BE, fijamos los pDE a los informados en Kazmierczak et al. (Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003). Fijar pDE a diferentes valores cambiaría el BN y BE vs. pliegue cambiar parcelas. Disminuir la pDE desplazaría las gráficas hacia la derecha y hacia abajo, mientras que aumentar la pDE desplazaría las gráficas hacia la izquierda y hacia arriba en la X- y y-ejes, respectivamente.

Fig. 1. El BN (Lonnstedt & amp Speed, Referencia Lonnstedt y Speed ​​2002 Smyth, Referencia Smyth 2004), BL (Bhowmick et al., Referencia Bhowmick, Davison, Goldstein y Ruffieux 2006) y estadísticas empíricas del modelo de mezcla (BE) de Bayes EVD trazadas contra los estimadores de contraste de modelos lineales ajustados a nivel de gen, 'alpha_g' (denotado como en el texto), también traducido al pliegue cambios (FC), y contra los resultados informados por Kazmierczak et al. (Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003). "K" y el derecho asociado y-eje indica si Kazmierczak et al. (Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003) informaron un gen como DE ("sí") o no ("no"). "NeBC" = método de corrección de fondo de convolución exponencial normal. "MBC" = método de corrección de fondo multiplicativo. Dos líneas horizontales discontinuas (que encierran un área sombreada) indican los percentiles 5 y 95 de OT del estadístico BE estimado para el FDR fijado en 0. 'FNR = (,)' denota la tasa de falsos negativos (percentiles 5 y 95) asociada con el ANTIGUO TESTAMENTO.

La Tabla 1 muestra las características de los datos y los valores de los hiperparámetros estimados para cada uno de los cuatro conjuntos de datos del modelo. Los resultados ambiguos del método BL probablemente se deben, al menos en parte, a una probabilidad estimada muy alta de que un gen sea DE (w= 1 Tabla 1). Las distribuciones de varianza anteriores parecen bastante estables entre los métodos BN, BL y BE, excepto por el valor aproximadamente doble del parámetro de escala estimado para el método BL en comparación con el estimado para los métodos BN y BE. Contrariamente a eso, las variaciones previas difieren sustancialmente entre los métodos de corrección de fondo, siendo más estrechas para los datos corregidos con MBC, lo que puede explicar los gráficos más suaves de las estadísticas BN, BL y BE después de MBC. Además, curiosamente, la correlación entre las réplicas técnicas tiende a ser más alta después del NeBC que del MBC, lo que demuestra la diferencia entre estos dos procedimientos.

Tabla 1. Definiciones de los parámetros e hiperparámetros del modelo en el modelo empírico de mezcla de Bayes EVD (BE) y modelos de Lonnstedt & amp Speed ​​(Referencia Lonnstedt y Speed ​​2002) modificados por Smyth (Referencia Smyth 2004) (BN) y Bhowmick et al. (Referencia Bhowmick, Davison, Goldstein y Ruffieux 2006) (BL)

a NeBC = método de corrección de fondo de convolución normal-exponencial B MBC = método de corrección de fondo multiplicativo C DE = expresado diferencialmente D EVD = distribución de valor extremo mi IG = distribución gamma inversa F N = distribución normal gramo L = distribución de Laplace h w= la probabilidad de que un gen sea estimado por DE como parte del método BL (tenga en cuenta que las estadísticas de BN y BE utilizan un pDE fijo definido por el usuario).

En la estadística BE, una elección natural del umbral óptimo (OT) por encima del cual un gen podría considerarse DE es 0. Sin embargo, el TO real depende de los criterios impuestos, como el costo de un falso positivo y un falso negativo. Un enfoque típico para elegir una regla para la interpretación de una prueba estadística es controlar la probabilidad de error de tipo I mientras se mantiene un cierto poder. Una sensata, poderosa y fácil de interpretar (Verhoeven et al., Reference Verhoeven, Simonsen y McIntyre 2005) para controlar el error de tipo I cuando se realizan múltiples pruebas estadísticas es la tasa de descubrimiento falso (FDR) (Benjamini & amp Hochberg, Reference Benjamini and Hochberg 1995). FDR es la proporción esperada de errores entre los genes seleccionados para ser DE. Como un FDR bajo a menudo tiene el costo de una baja sensibilidad o potencia (es decir, una alta tasa de falsos negativos (FNR)), estos deben controlarse conjuntamente (Pawitan et al., Referencia Pawitan, Michiels, Koscielny, Gusnanto y Ploner 2005). Porque Kazmierczak et al. (Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003) considerando los genes que habían sido preseleccionados por su expresión diferencial esperada, elegimos un FDR = 0, es decir, no se aceptaron falsos positivos. El TO para BE (sus percentiles 5 y 95) se determinó mediante análisis de simulación para cada uno de los cuatro conjuntos de datos del modelo (asumiendo que los pDE informados en Kazmierczak et al. (Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003) son verdaderas), y se muestra en la Fig. 1, junto con el FNR asociado. Los genes cuya estadística BE estaba por encima del percentil 95 del TO podrían considerarse DE con una certeza alta. Es probable que los genes con una estadística BE entre los percentiles 5 y 95 del TO sean DE. BE se clasificó alto (por encima del percentil 95 del TO) algunos de los genes no identificados previamente por Kazmierczak et al. (Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003), mientras que algunos de los genes informados previamente como DE por Kazmierczak et al. (Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003) se clasificaron como bajos (por debajo del percentil 5 del TO). Sin embargo, los hallazgos del método BE han sido validados por otros estudios independientes para la mayoría de los genes, para los cuales el resultado del método BE difiere de los reportados por Kazmierczak. et al. (Referencia Kazmierczak, Mithoe, Boor y Wiedmann 2003) (elaborado en el Apéndice).


Análisis de dos condiciones con réplicas

Los experimentos científicos se replican comúnmente para mitigar el efecto del error experimental. Los experimentos de microarrays también pueden beneficiarse de la reproducción de muestras para reducir el efecto de fluctuaciones aleatorias o ruido. Al repetir los experimentos de microarrays, podemos elegir entre volver a muestrear un solo tipo de célula o tejido, o tomar una muestra de tipos de células o tejidos similares. La primera estrategia mitiga el problema del "ruido del chip", o las fluctuaciones debidas únicamente a las variaciones en la producción de microarrays y su hibridación. La última estrategia mitiga el problema del "ruido biológico" o las fluctuaciones debidas a la variabilidad entre diferentes muestras biológicas.

Un estudio reciente del ruido del chip indica que puede haber una variabilidad sustancial entre los experimentos de microarrays, incluso cuando las muestras se toman de la misma fuente 42. De hecho, este estudio examinó no solo la variación de chip a chip, sino también la variación dentro del chip mediante la aplicación de una sola muestra a una matriz de ADNc especial con 288 puntos impresos por triplicado en tres ubicaciones en el mismo portaobjetos. Los autores diseñaron el experimento de modo que se expresaran exactamente 32 de los 288 puntos. Su análisis de las tres réplicas mostró que 55, 36 y 58 de las manchas parecían estar expresadas y que había una considerable inconsistencia entre las tres réplicas.

Por más sustancial que parezca el ruido del chip, es probable que el ruido biológico sea aún mayor. Un estudio reciente 46 estimó la variabilidad de un lugar a otro, de un portaobjetos a otro y de un animal a otro para los tejidos del hígado de ratón. Este estudio midió la variabilidad de un lugar a otro al observar los lugares replicados en el mismo portaobjetos y encontró que el coeficiente de variación (desviación estándar dividida por la media) era del 8 al 18%, según el gen en particular. La variabilidad de un portaobjetos a otro fue similar al 15%. Pero la variabilidad de un animal a otro fue mayor, oscilando entre el 18 y el 60%, según el gen en particular.

Muchos de los problemas que discutimos en el caso de dos muestras, como la corrección de sesgos, siguen siendo importantes para los experimentos repetidos, aunque no los discutiremos más. A menudo, los métodos de dos muestras se pueden generalizar para manejar experimentos repetidos. Por ejemplo, podemos ampliar los métodos para la corrección de sesgos normalizando a través de una serie de norte muestras, en lugar de una muestra contra otra. En este caso, la solución implica ajustar una curva o línea de normalización en norte-espacio dimensional.

Comparación de muestras replicadas

Las muestras replicadas para dos condiciones se pueden comparar utilizando el t-prueba 39. los t-prueba mide la diferencia entre las dos medias muestrales, basándose en la cantidad de variabilidad, o error estándar, en las medias muestrales. Fórmulas para el t-La prueba se puede encontrar en los libros de texto de estadística para dos casos: varianza igual y varianza desigual entre los dos conjuntos de muestras. La suposición de una variación desigual parecería ser más apropiada para el análisis de la expresión génica, especialmente si los genes activos tienen una mayor variabilidad en la expresión génica que los inactivos.

Además, existe una versión del t-prueba para muestras pareadas. Esta versión podría ser aplicable a muestras de biopsia emparejadas, es decir, cuando se obtienen tejidos normales y tumorales del mismo paciente. Estas muestras pueden obtenerse del centro y los márgenes de una resección quirúrgica de un tumor. La ventaja de las muestras emparejadas es que eliminan la variabilidad entre pacientes o animales y, por lo tanto, hacen que las comparaciones sean más sensibles.

los t-test supone que los datos replicados tienen una distribución normal subyacente. Esta suposición es algo razonable, especialmente si las muestras replicadas son relativamente homogéneas. Tenga en cuenta que el supuesto de normalidad aquí es diferente del supuesto de normalidad que discutimos anteriormente en el caso de dos muestras. En esa discusión, consideramos la distribución de valores de expresión relativa sobre genes heterogéneos en una muestra dada, no para un gen dado sobre muestras replicadas homogéneas. En la mayoría de los casos, tenemos relativamente pocas muestras replicadas y es difícil probar la normalidad en solo unos pocos puntos de datos 39. Por lo tanto, a menudo adoptamos el supuesto de normalidad porque es difícil demostrar lo contrario.

Si el supuesto de normalidad se mantiene, el tla estadística se puede comparar con el apropiado tdistribución para determinar un pag valor. Sin embargo, debemos tener cuidado al asignar pag valores a datos que se han normalizado o corregido por sesgo. Estos procedimientos intentan hacer que los niveles de expresión sean aproximadamente iguales en todas las muestras, reduciendo así artificialmente la cantidad de variabilidad. A su vez, valores más bajos de variabilidad conducen a mayores t valores y una gran cantidad de resultados falsos positivos.

Aún no está claro cuál es la mejor manera de asignar pag valores después de que los datos se hayan normalizado o cuando la suposición normal no se mantenga. Una posibilidad es aplicar un método de remuestreo basado en una prueba de permutación 45. La prueba de permutación crea muestras de arranque reasignando etiquetas de categoría al azar. Por ejemplo, suponga que los datos se derivan de cuatro muestras tumorales y cuatro normales. En cada muestra de bootstrap, para cada gen, creamos una permutación de cuatro etiquetas tumorales y cuatro etiquetas normales y asignamos esas etiquetas a los valores antes de calcular la t estadística. La distribución de extremos t las estadísticas indican el apropiado pag valor para asignar. Actualmente, varios investigadores están investigando este tipo de análisis.

Métodos no paramétricos

los t-test es un ejemplo de un enfoque paramétrico, porque depende de ciertos parámetros, como las variaciones de las distribuciones normales subyacentes. También podemos considerar un enfoque no paramétrico del problema, donde no asumimos que los datos siguen un tipo particular de distribución. En una prueba no paramétrica, reemplazamos los valores de expresión cuantitativa con rangos o evaluaciones de verdadero-falso y usamos estos nuevos valores para calcular alguna estadística.

Una prueba no paramétrica estándar que se ha utilizado para analizar datos de microarrays es la prueba de Mann-Whitney. En esta prueba, agrupamos los valores de las dos muestras y calculamos la suma de los rangos que provienen de cada muestra. Si esta estadística de suma de rangos es menor o mayor de lo que esperaríamos bajo la hipótesis nula, entonces las muestras son estadísticamente diferentes entre sí para este gen. En lugar de usar rangos, podemos calcular el estadístico de suma de rangos usando comparaciones de verdadero-falso de los datos en su lugar específicamente, evaluando todos los pares de valores de la muestra 1 y de la muestra 2.

La clasificación y la formulación por pares son matemáticamente equivalentes. Sin embargo, la formulación por pares es particularmente apropiada para matrices Affymetrix. El software Affymetrix utiliza un algoritmo patentado para juzgar pares de conjuntos de sondas, lo que da como resultado una llamada de diferencia cualitativa que toma uno de cinco valores posibles: aumentado, marginalmente aumentado, sin cambios, marginalmente disminuido o disminuido. Podemos usar estas llamadas cualitativas en la formulación por pares de la prueba de Mann-Whitney para calcular el estadístico de suma de rangos.

En nuestra institución, hemos utilizado el método de Mann-Whitney para identificar genes sobreexpresados. En un experimento para determinar el efecto del captopril en la expresión de genes cardíacos, mis colegas estudiaron tejido cardíaco de ratas en las que se indujo quirúrgicamente un infarto de miocardio (IM) 47. Seis muestras procedían de ratas tratadas con captopril y seis de ratas no tratadas. Además, también hubo seis muestras de ratas de control que recibieron solo una operación simulada. Una comparación por pares de las muestras de MI con las muestras simuladas utilizando el método de Mann-Whitney identificó 37 genes que fueron inducidos significativamente y seis que fueron reprimidos significativamente. Otra comparación por pares de las muestras de MI tratadas con captopril con las muestras de MI no tratadas mostró que diez de los 37 genes tenían reversión de sus cambios en la expresión génica.

Los cambios en la expresión génica identificados por el método de Mann-Whitney se confirmaron mediante la realización de PCR cuantitativa utilizando un detector de secuencia TaqMan, lo que demuestra que el método de Mann-Whitney produce pocos falsos positivos. Sin embargo, debido a que las llamadas de diferencia son cualitativas y algo conservadoras, el método de Mann-Whitney parece ser relativamente insensible para identificar cambios verdaderos en la expresión génica.

Descubrir subtipos de afecciones

Al realizar muestras replicadas, puede que nos interese no solo reducir la variabilidad, sino también estudiarla. Es posible que deseemos saber, por ejemplo, si podemos descubrir subtipos entre las muestras replicadas. Aunque nuestras muestras replicadas se eligieron originalmente para ser similares, de hecho pueden ser heterogéneas, compuestas de dos o más subtipos. Descubrir subtipos previamente desconocidos a partir de los datos es un ejemplo de reconocimiento de patrones no supervisado, para el cual el análisis de conglomerados es el método prototípico. El análisis de conglomerados se ha aplicado ampliamente a los datos de microarrays 30, generalmente para identificar subgrupos de genes, en lugar de muestras. Sin embargo, estudios recientes han comenzado a utilizar el análisis de conglomerados para identificar subgrupos de muestras. This type of cluster analysis is useful in identifying candidate genes, because some genes are expressed only in particular tissue subtypes. Knowing these subtypes allows us to refine our search for genes of interest.

There are several methods for performing cluster analysis and many have already been applied to microarray data for clustering genes, including hierarchical clustering 16 , 48 , 49 , k-means clustering 50-52 , and self-organizing maps 53 , 54 . In addition, new types of cluster analysis techniques are being developed specifically for microarray data 55 , 56 . Cluster analysis methods differ along several attributes 57 . They can be either hierarchical or partitional, depending on the type of structure that they impose on the data. A hierarchical classification organizes the data into a dendrogram or tree structure, whereas a partitional method organizes the data into a single collection of groups. A hierarchical clustering specifies a sequence of nested partitions and we can obtain a single partition by cutting the dendrogram at a particular level.

Clustering algorithms can also be distinguished by whether they operate in an agglomerative or a divisive fashion. An agglomerative algorithm starts with each individual data element in its own cluster and then combines them to form larger clusters. In contrast, a divisive algorithm starts with the entire set of data in a single cluster and then subdivides the cluster to form smaller clusters. In order to perform a clustering analysis, we need to assess the similarity of two samples. Specifically, we require some function that takes two expression signatures (as defined in Figure 1) and produces some distance measure. The goal of cluster analysis is to produce clusters where this distance measure is small within clusters and large between clusters.

One example of sample clustering is a recent analysis of adult lymphoid malignancy 58 . In this analysis, researchers studied 96 samples of normal and malignant lymphocytes, including samples from patients with diffuse large B-cell lymphoma (DLBCL), follicular lymphoma (FL), and chronic lymphocytic leukaemia (CLL). Although these lymphomas are known to be distinct clinically, they were considered to be a single set of replicate samples for cluster analysis.

Hierarchical clustering of the data showed that FL and CLL samples were relatively similar to normal B-cells. However, DLBCLs had higher expression of several genes, especially those involved in cellular proliferation. Lower levels of the dendrogram revealed the presence of two distinct subtypes of DLBCLs, according to their expression signatures. One subtype had an expression signature similar to germinal centre B-cells and the other resembled activated peripheral blood B-cells. Interestingly, these subtypes of DLBCLs appeared to correlate with clinical outcome, with patients with germinal centre-like DLBCL having better survival rates than those with activated B-cell-like DLBCL.


Discussion and conclusions

En silico analysis gives reliable guidelines on algorithms’ performance in line with the results obtained on real data sets: ARACNE performs well for steady-state data and can be applied also when few experiments are available, as compared with the number of genes, but it is not suited for the analysis of short time-series data. This is to be expected owing to the requirement of statistically independent experiments. Banjo is very accurate, but with a very low sensitivity, on steady-state data when more than 100 different perturbation experiments are available, independently of the number of genes, whereas it fails for time-series data. Banjo (and Bayesian networks in general) is a probabilistic algorithm requiring the estimation of probability density distributions, a task that requires large number of data points. NIR works very well for steady-state data, also when few experiments are available, but requires knowledge on the genes that have been perturbed directly in each perturbation experiment. NIR is a deterministic algorithm, and if the noise on the data is small, it does not require large data sets, as it is based on linear regression. Clustering, although not a reverse-engineering algorithm, can give some information on the network structure when a large number of experiments is available, as confirmed by both en silico and experimental analysis, albeit with a much lower accuracy than the other reverse-engineering algorithms.

The different reverse-engineering methods considered here infer networks that overlap for about 10% of the edges for small networks, and even less for larger networks. Interestingly, if all algorithms agree on an interaction between two genes (an edge in the network), this interaction is not more likely to be true than the ones inferred by a single algorithm. Therefore it is not a good idea to ‘trust’ an interaction more just because more than one reverse-engineering algorithm finds it. Indeed, the different mathematical models used by the reverse-engineering algorithms have complementary abilities, for example ARACNE may correctly infer an interaction that NIR does not find and vice versa hence in the intersection of the two algorithms, both edges will disappear causing a drop in sensitivity without any gain in accuracy (PPV). Taking the union of the interactions found by all the algorithms is not a good option, as this will cause a large drop in accuracy. This observation leads us to conclude that it should be possible to develop better approaches by subdividing the microarray dataset in smaller subsets and then by applying the most appropriate algorithm to each microarray subset. How to choose the subsets and how to decide which is the best algorithm to use are still open questions.

A general consideration is that the nature of experiments performed in order to perturb the cells and measure gene expression profiles can make the task of inference easier (or harder). From our results, ‘local’ perturbation experiments, that is, single gene overexpression or knockdown, seem to be much more informative than ‘global’ perturbation experiments, that is, overexpressing tens of genes simultaneously or submitting the cells to a strong shock.

Time-series data allow one to investigate the dynamics of activation (inhibition) of genes in response to a specific perturbation. These data can be useful to infer the direct molecular mediators (targets) of the perturbation in the cell ( Bansal et al, 2006 ), but trying to infer the network among all the genes responding to the perturbation from time-series data does not yield acceptable results. Reverse-engineering algorithms using time-series data need to be improved. One of the reasons for the poor performance of time-series reverse-engineering algorithms is the smaller amount of information contained in time-series data when compared with steady-state data. Time-series are usually measured following the perturbation of one or few genes in the cell, whereas steady-state data are obtained by performing multiple perturbations to the cell, thus eliciting a richer response. One way to improve performance in the time-series case is to perform more than one time-series experiment by perturbing different genes each time, but this may be expensive another solution could be to perform only one perturbation experiment but with a richer dynamics, for example the perturbed gene should be overexpressed and then allowed to return to its endogenous level, while measuring gene expression changes of the other genes. Richer dynamics in the perturbation will yield richer dynamics in the response and thus more informative data.

Gene network inference algorithms are becoming accurate enough to be practically useful, at least when steady-state gene expression data are available, but efforts must be directed in assessing algorithm performances. In a few years, gene network inference will become as common as clustering for microarray data analysis. These algorithms will become more ‘integrative’ by exploiting, in addition to expression profiles, protein–protein interaction data, sequence data, protein modification data, metabolic data and more, in the inference process ( Workman et al, 2006 ).


Prediction of radiation sensitivity using a gene expression classifier

The development of a successful radiation sensitivity predictive assay has been a major goal of radiation biology for several decades. We have developed a radiation classifier that predicts the inherent radiosensitivity of tumor cell lines as measured by survival fraction at 2 Gy (SF2), based on gene expression profiles obtained from the literature. Our classifier correctly predicts the SF2 value in 22 of 35 cell lines from the National Cancer Institute panel of 60, a result significantly different from chance (P = 0.0002). In our approach, we treat radiation sensitivity as a continuous variable, significance analysis of microarrays is used for gene selection, and a multivariate linear regression model is used for radiosensitivity prediction. The gene selection step identified three novel genes (RbAp48, RGS19, and R5PIA) of which expression values are correlated with radiation sensitivity. Gene expression was confirmed by quantitative real-time PCR. To biologically validate our classifier, we transfected RbAp48 into three cancer cell lines (HS-578T, MALME-3M, and MDA-MB-231). RbAp48 overexpression induced radiosensitization (1.5- to 2-fold) when compared with mock-transfected cell lines. Furthermore, we show that HS-578T-RbAp48 overexpressors have a higher proportion of cells in G2-M (27% versus 5%), the radiosensitive phase of the cell cycle. Finally, RbAp48 overexpression is correlated with dephosphorylation of Akt, suggesting that RbAp48 may be exerting its effect by antagonizing the Ras pathway. The implications of our findings are significant. We establish that radiation sensitivity can be predicted based on gene expression profiles and we introduce a genomic approach to the identification of novel molecular markers of radiation sensitivity.


Discusión

Our goal was to explore the relationship between microarray expression data and the expression data reported in the literature because in our daily work both of these data sources are used as complementary sources of information. From the therapeutic point of view, for example, every DEG in disease is a potential point of intervention or target. Thus, the sole use of microarray data or of the literature could lead to missing out on potential targets that appear in one source and not the other. For instance, EGFR does not appear upregulated in the PS microarray dataset, while it is one of the most frequently mentioned upregulated genes in the PS literature dataset. On the other hand, defensin beta 4B (DEFB4B) does not appear in the PS literature dataset despite showing the second-highest level of overexpression in the PS microarray dataset.

Our strategy for gathering microarray data was to select one dataset for each disease of interest, each dataset created with the same platform to avoid variability across manufacturers. For literature data, our approach was to gather a representative sample of the literature, rather than to create an exhaustive representation. We, moreover, focused on abstracts, rather than on full text articles, due to limited full text availability. Thus, the true number of statements regarding differential expression in the literature is larger than what is reported here.

The fact that more literature results were oriented towards overexpression than underexpression, unlike in microarray data, indicates a scientific bias towards reporting overexpression. This bias could be related to the fact that most drugs are inhibitors and therefore an overexpressed gene is more likely to represent a potential target. Since, in principle, downregulation may have as much functional importance in disease as upregulation, this bias could be distorting in our understanding of diseases.

We also noted that popular genes tend to be more often described in the literature as overexpressed in disease, an effect that is much milder or non-existent for overexpressed genes from microarray data. This could explain partially why differential expression similarities between diseases are higher within the literature in comparison to microarray data. The quest for higher research impact could be one of the drivers for the additional attention paid to popular genes [31,32,33], leading to further amplification of their presumed biological importance beyond actual biological evidence.

Our analysis also hints that our perception of the level of similarity between certain diseases could be biased by general properties of the diseases that are not reflected in the expression data. Thus, PS and AD, which share anatomical location, appear more similar in the literature than UC and AD, contrary to what is reflected in microarray data.

We also found that microarray data and the literature can produce divergent views of the pathological mechanisms driving diseases depending on the fold-change cutoff. For FC > 0, the functional classes associated to overexpressed genes in the literature can be very different from those associated to microarray data. As the threshold for FC increases, the similarity between the literature and microarray data increases, which is then reflected in higher LR+ values and overlapping functional classes.

One explanation for the divergences between microarray data and the literature comes obviously from the differences in experimental settings. Expression data from the literature stem from a variety of sources involving methods such as immunohistochemistry, flow cytometry, in situ hybridization, RT-PCR, next-generation sequencing--and also microarrays. Each of these sources differs in level of granularity and molecule measured (e.g. mRNA vs. protein). On the other hand, even though all microarray data in our study came from the same platform from the same manufacturer, and each dataset was created within a single research study, microarray data variability has been shown to be a challenge for reproducibility [34,35,36,37].

Moreover, because experiments in the literature can be more fine-grained than microarray studies, it is possible that a gene might be found to be upregulated in some parts of a diseased tissue and downregulated in others, confounding the simplified representation used here and hampering comparisons with microarray data.

One additional aspect not considered in this study was the historical dimension. High-throughput techniques have been gaining in popularity only recently therefore older publications would have been less affected by findings coming from high-throughput studies.


Materiales y métodos

A graphical representation of the performed analyses, depicting interrelations, is provided in Supplementary Fig. S5. All figures can be reproduced using the R script available at http://www.combine.rwth-aachen.de/index.php/resources.html.

Datasets and annotation

The Lukk dataset 4 , consisting of 5372 samples from the Affymetrix Human U133A microarray platform, and the corresponding sample annotation was downloaded in preprocessed form from ArrayExpress (http://www.ebi.ac.uk/arrayexpress/, accession number E-MTAB-62). The own dataset consisting of 7100 samples from the Affymetrix Human U133Plus 2.0 platform was compiled based on 108 public datasets from the Gene expression omnibus (GEO) database (http://www.ncbi.nlm.nih.gov/geo/, Supplemental Table S1). The raw data (CEL-files) were downloaded and preprocessed with Affymetrix Power Tools (http://www.affymetrix.com/estore/partners_programs/programs/developer/tools/powertools.affx) using the robust multi-array average (RMA) normalization method. The preprocessed dataset can be downloaded from http://www.combine.rwth-aachen.de/index.php/resources.html. The sample annotation was performed manually based on the description in the GEO database. Cancer cell lines and tissues were classified according to their primary tissue, leading to a less detailed distinction as in the Lukk dataset. This explains the reduced number of groups (192 instead of 369) in the own dataset compared to the Lukk dataset. In the latter, different cell lines and histologically different cancer tissues from the same primary site are classified into separate groups. The own dataset contains 213 in vitro (trans-) differentiated or teratoma samples which were not associated with any of the 192 groups.

Comparison of PCA results

Principal components analysis of the Lukk and the own dataset were calculated in R version 3.1.2 using the prcomp función de la estadisticas paquete. Subsequently, we compared the first three PCs of both datasets in order to determine whether they span similar spaces. For this analysis, we mapped the probes of the two platforms using the getBM función de la biomaRt package in R and performed linear regression analysis (R function lm of package estadisticas) to explain the expression pattern of PCs 1 to 4 from the own dataset by the first three (first five, or first ten) PCs of the Lukk dataset. The resulting R 2 values were reported as similarity measure of the two spaces.

The selection of a subset of samples from the own dataset with similar sample distribution as the Lukk dataset was performed in the following way. We used all 482 hematopoietic samples in the own dataset and randomly selected 74 brain, 163 cell line, 40 incompletely differentiated, 48 muscle, and 587 other samples. These numbers were chosen to match the proportion of samples in each of these large-scale groups to the respective proportion in the Lukk dataset.

The investigation of the effect of reduced numbers of liver or liver cancer samples in the own dataset was performed on the complete dataset with only the number of liver (cancer) samples reduced. Thus, we used all 6825 non-liver samples together with the specified number of liver (cancer) samples and performed a PCA on the dataset. PCs 1–3 did not change significantly with increasing number of liver samples (data not shown). Therefore, we focused on the differences in the liver-specific PC 4.

Correlation analyses

The Pearson correlation of gene expression patterns between the 369 groups of the Lukk dataset as well as the 192 groups of the own dataset (Fig. 2a,d) was calculated between the vectors pointing from the overall mean of the entire dataset to the respective group mean. For the residual correlation after PCA-based decomposition (Fig. 2b,e), the residual vectors pointing from the three dimensional PCA space to the respective group means were used instead.

Within-group correlation was calculated in the same way between individual samples within one specific group. These calculations were performed for all groups that contain at least 10 samples. Depicted are the mean correlation values for each group (Fig. 2c,f).

Information ratio

The information ratio is described in detail in 3 and will be only briefly described here. The general idea is to decompose the expression data into two data matrices of the same size as the original data, one representing the projection onto the first three PCs and one representing the residual expression. For each of the two generated data matrices, the log-p-value between two groups, e.g. two different tissues, is calculated for each gene and plotted against the p-value of the original dataset. It is thus assessed which part of the expression difference between the two groups is captured by the first three PCs or the residual space, respectively. Strongly negative log-p-values are associated with high information content in the respective subspace. The p-values from the projected and residual space are then summarized into a single number ranging from 0 to 1, indicating whether most information is contained in the projected space (low IR values) or in the residual space (high IR values) 3 . This number can be interpreted as the proportion of group-specific information that is contained in the residual space.

Analysis of sample subsets

For the analysis of sample subsets we also used the decomposition into the projected and residual data matrices. We then concentrated on the residual data matrix and performed a PCA on the respective subset of data, i.e. the cancer subset or the brain subset. PCA successively identifies the direction of largest variability in the space orthogonal to the already identified directions. Therefore, it would not make sense to perform PCA on the complete residual matrix, since this would exactly identify the fourth, fifth, and all further PCs from the original dataset. However, performing PCA on a subset of data can reveal different directions. In our case, the first two PCs of this subset analyses had a clear biological meaning (Fig. 4) as opposed to the fourth PC of the original complete dataset (Supplemental Fig. S1). Thus, performing PCA on subsets of data can reveal additional biologically relevant dimensions.

Validation of the biological relevance of the newly identified dimensions was then performed using our own dataset. As a first step, the own data was projected onto the first three PCs of the Lukk dataset (Supplementary Fig. S3, Fig. 4b). In order to do this, probesets of the two different microarray platforms were matched using the biomaRt package in R. Afterwards, the mean value for each gene (from our own dataset) was subtracted and the data were orthogonally projected onto the three PCs of the Lukk dataset using scalar products between the loading vector of each PC and the gene expression vectors. In a second step, we concentrated on subsets of the own dataset that correspond to the two subsets from the Lukk dataset, i.e. consisting of colorectal, liver, and ovarian cancer samples, as well as hypothalamus, cerebral cortex, and cerebellum samples. For both of these subsets the residual expression matrix was determined by subtracting the information that is contained in the three PCs of the Lukk dataset. Afterwards, the residual expression vectors were projected onto the respective first two “residual subset PCs” that were identified based on the subset analysis of the Lukk dataset (Fig. 4b insets).

PhysioSpace analyses

For the PhysioSpace analyses the tissue-specific expression patterns that were determined based on the Human body index dataset (GEO accession GSE7307) were used 7 . Each individual sample of the Lukk dataset was compared to the overall mean of the Lukk dataset and the expression difference was projected onto the PhysioSpace as described in the original publication 7 . This results in 93 scores per sample that are associated with tissue specific expression. Eight of these scores were selected for visualization (Fig. 6) to exemplify the ability to detect additional clusters of samples that were partially not detectable by PCA.

Color-coding in Fig. 6 was performed according to the sample annotation provided by Lukk et al. 4. We detected some samples that were annotated as “kidney”, but which showed a low “kidney score” in the PhysioSpace (Fig. 6c). In addition, some samples annotated as “kidney” seemed to be similar to liver. We then went back to the original source of these samples (GEO accession GSE2004) and detected that these samples were wrongly annotated in the Lukk dataset (Fig. 6c).

In a similar way, we could detect that two samples annotated as “embryonic stem cell” in the Lukk dataset actually underwent an in vitro differentiation for 5 or 14 days (ArrayExpress accession E-MEXP-303, Fig. 6d).


Ver el vídeo: nanoHUB-U Biodesign: Gene Circuits - Network Motif Negative Autoregulation (Diciembre 2022).