Información

¿Por qué los individuos varían en el número de SNP para un gen determinado (por ejemplo, FOXO3A)?

¿Por qué los individuos varían en el número de SNP para un gen determinado (por ejemplo, FOXO3A)?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

El individuo n. ° 1, secuenciado por 23andMe y luego introducido en Promethease para los datos SNP tiene la siguiente salida SNP:

1) rs1935949 (C; T) 2) rs2802292 (G; T) 3) rs13217795 (C; T) 4) rs13220810 (C; T) 5) rs2764264 (C; T) 6) rs9400239 (C; T) 7) rs2153960 (C; T) 8) rs2802288 (A; G)

Por lo tanto, el individuo # 1 tiene ocho SNP informados.

El individuo 2 también es secuenciado por 23andMe y luego ingresado en Promethease para que los datos SNP tengan la siguiente salida SNP:

1) rs2802292 (T; T) 2) rs2764264 (T; T)

Por lo tanto, el individuo # 1 tiene ocho SNP reportados para el gen FOXO3A y el individuo # 2 tiene solo dos SNP reportados.

Dado que los SNP representan polimorfismos de un solo nucleótido en la secuencia, ¿por qué el individuo # 2 solo tiene dos SNP registrados en lugar de los ocho?


Variación del número de copias

Variación del número de copias (CNV) es un fenómeno en el que se repiten secciones del genoma y el número de repeticiones en el genoma varía entre individuos. [1] La variación del número de copias es un tipo de variación estructural: específicamente, es un tipo de evento de duplicación o eliminación que afecta a un número considerable de pares de bases. [2] Aproximadamente dos tercios de todo el genoma humano puede estar compuesto de repeticiones [3] y entre el 4,8 y el 9,5% del genoma humano puede clasificarse como variaciones en el número de copias. [4] En los mamíferos, las variaciones en el número de copias juegan un papel importante en la generación de la variación necesaria en la población, así como en el fenotipo de la enfermedad. [1]

Las variaciones del número de copias se pueden clasificar generalmente en dos grupos principales: repeticiones cortas y repeticiones largas. Sin embargo, no hay límites claros entre los dos grupos y la clasificación depende de la naturaleza de los loci de interés. Las repeticiones cortas incluyen principalmente repeticiones de dinucleótidos (dos nucleótidos repetidos, por ejemplo, A-C-A-C-A-C.) Y repeticiones de trinucleótidos. Las repeticiones largas incluyen repeticiones de genes completos. Esta clasificación basada en el tamaño de la repetición es el tipo de clasificación más obvio, ya que el tamaño es un factor importante para examinar los tipos de mecanismos que probablemente dieron lugar a las repeticiones, [5] de ahí los efectos probables de estas repeticiones en el fenotipo.


MEDICINA Y CIENCIA FORENSES

Ronald J Trent PhD, BSc (Med), MB BS (Sydney), DPhil (Oxon), FRACP, FRCPA, en Medicina Molecular (tercera edición), 2005

MICROSATELITAS

Los polimorfismos de ADN que ahora se utilizan en la situación forense son los microsatélites a los que también se les llama STRs para repeticiones cortas en tándem o SSRs para repeticiones de secuencia simple (consulte la Figura 9.2). Estos VNTR de un solo locus consisten en unidades de nucleótidos simples repetidas en tándem de aproximadamente 2 a 6 pares de bases. Las mejor descritas son las repeticiones de dinucleótidos que involucran bases como la adenina y la citosina (AC).norte, donde n (el número de repeticiones presentes) varía de 10 a 60. Para fines forenses, se prefieren las repeticiones tri y tetra, por ejemplo (AACT)norte—Porque producen resultados técnicamente más satisfactorios. Cada STR identifica un segmento único del genoma. Los microsatélites, debido a su potencial hipervariabilidad, son más informativos que el sistema RFLP bialélico, pero menos que los minisatélites. No obstante, los microsatélites pueden ensayarse mediante PCR, y su valor o informatividad se incrementa midiendo algunos de ellos y sumando la información obtenida de cada marcador.

Hoy en día, a veces puede resultar vergonzoso ver un antiguo perfil de ADN de minisatélite que se presentó como evidencia hace 10 a 15 años. Dependiendo del estándar del laboratorio de pruebas de ADN, la calidad de la transferencia Southern puede ser bastante normal y, a menudo, hay cambios de banda. Los cambios de banda se refieren a diferentes movilidades para el mismo fragmento de ADN. Ocurren debido a imperfecciones en los geles que dan como resultado una electroforesis no uniforme. Sin embargo, estos problemas técnicos son ahora cosa del pasado como resultado de la producción comercial de kits de perfiles de ADN. Estos kits están validados y con control de calidad, y se pueden buscar los mismos polimorfismos de ADN en diferentes laboratorios, lo que facilita la implementación de medidas de control de calidad internas y externas y la comparación de datos (ver Cuadro 9.1). Los resultados de las muestras probatorias pueden volver a comprobarse en el futuro o por un laboratorio independiente porque se utiliza PCR. Anteriormente, esta no era una opción con los minisatélites porque la mayor parte del ADN de la escena del crimen se habría utilizado en la prueba de transferencia Southern inicial. La PCR también permite el uso de la automatización, por lo que el tamaño de los fragmentos de ADN ya no se realiza visualmente sino con software propietario, lo que aumenta la precisión y reproducibilidad de la huella de ADN (Figura 9.3).

Figura 9.3. Mediciones automatizadas de tamaños de bandas de ADN. Para dimensionar un fragmento de ADN obtenido por PCR, ahora se puede usar el dimensionamiento automatizado de fragmentos basado en computadora. Este enfoque garantiza tanto la precisión como la reproducibilidad. (1) Cada ↑ muestra un polimorfismo de ADN (SNP) detectable por PCR. En total, se pueden multiplexar siete SNP diferentes y, por lo tanto, detectarlos con una única PCR. A continuación, los productos de la PCR se someten a electroforesis y se distinguen entre sí en función del tamaño del fragmento. Cuando hay superposición de tamaños (por ejemplo, fragmentos ayb), los cebadores para PCR se etiquetan en diferentes colores, por lo que los fragmentos con aproximadamente el mismo tamaño permanecen distinguibles. Cada fragmento tiene el potencial de tener dos alelos diferentes, por ejemplo, ayc, dye son alelos para los mismos dos fragmentos. Estos alelos se pueden separar en función del tamaño y el color, lo que mejora la precisión de la electroforesis. (2) Este gráfico ilustra las mediciones regulares de QA durante un período de seis meses para cuatro fragmentos de ADN en el rango de tamaño de 55 a 65 pb. El gráfico confirma la reproducibilidad de la electroforesis de ADN con muy poca deriva durante este período de tiempo.


Biología / ADN

Polimorfismos de un sólo nucleótido

Los SNP son sustituciones de una sola base que están presentes en el genoma. La mayoría de los SNP son bialélicos, pero también se han descrito SNP trialélicos y tetraalélicos.

Las ventajas de usar SNP en estudios de casos forenses y estudios genéticos de poblaciones radican en su abundancia en el genoma: aproximadamente el 85% de la variación genética humana se puede atribuir a los SNP.

En comparación con los STR, estos marcadores tienen tasas de mutación más bajas (aproximadamente 2 × 10 −8) y, por lo tanto, son más estables, lo que los hace más adecuados para su uso en análisis de parentesco y en circunstancias en las que se necesita la reconstrucción del linaje / pedigrí.

Los SNP también se pueden amplificar en fragmentos cortos de alrededor de 60 a 80 pb. Esto los hace muy útiles en muestras antiguas con plantilla de ADN de baja cantidad y / o en muestras degradadas donde el ADN disponible está fragmentado. En estas situaciones, es más probable que el análisis de SNP produzca mejores resultados que el genotipado STR.

El hecho de que la mayoría de los SNP sean bialélicos disminuye su informatividad por locus en comparación con los STR (

Se necesitan entre 10 y 13 SNP para obtener el mismo poder de discriminación que un STR). Aunque, en última instancia, los SNP no sustituirán a los STR utilizados actualmente, pueden utilizarse como una herramienta complementaria, aumentando la información disponible.

Dependiendo de las características, la ubicación en el genoma y la diversidad genética de un determinado SNP dentro y entre poblaciones, el análisis de SNP se puede utilizar en la identificación individual, la inferencia fenotípica y los estudios de ascendencia o linaje.

El proyecto International HapMap es uno de los estudios más importantes que reporta variantes genéticas comunes que ocurren en diferentes poblaciones humanas. Ya en la fase III, la base de datos HapMap ha contribuido a aumentar la densidad de SNP conocidos en todo el genoma humano y ha informado de más de 10 millones de SNP no redundantes hasta la fecha. La base de datos SNP del Centro Nacional de Información Biotecnológica (dbSNP www.ncbi.nlm.nih.gov/) incluye actualmente más de 400 000 SNP específicos del cromosoma X que han sido validados y están disponibles para múltiples aplicaciones.

En la actualidad, se han publicado pocos datos sobre el uso de SNP del cromosoma X en análisis forenses, aunque algunos estudios ya han demostrado su aplicabilidad en pruebas de relación y caracterización de poblaciones. Esta área tendrá un crecimiento sustancial en los próximos años, a medida que se desarrollen metodologías de tipificación de SNP más automatizadas y rápidas.


Resultados

Número de SNP por gen

El Affymetrix 500K GeneChip incluye aproximadamente 500.000 SNP distribuidos por todo el genoma. Asignamos estos SNP a su gen codificador de proteínas más cercano si un SNP se encuentra a menos de 40 kb de un gen. Se asignaron aproximadamente 290.000 SNP a genes, de los cuales 227.000 quedaron después del control de calidad para conjuntos de datos de enfermedades específicas (Tabla 1). Los genes varían sustancialmente en tamaño, lo que conduce a diferentes números de SNP asignados a cada gen (Figura 1). De 20,919 genes que codifican proteínas, 17,006 tienen al menos un SNP asignado, la mayoría de estos genes (∼77% o 13,083 genes) tienen menos de 10 SNP y el 6,5% (1,097 genes) tienen más de 50 SNP. La mayor cantidad de SNP asignados a un solo gen es 1008 (CSMD1, longitud del gen: 818 kb).

Asignamos SNP en la matriz de genotipado Affymetrix 500K a genes que codifican proteínas. Los SNP se asignaron a un gen si están ubicados dentro de la región transcrita o dentro de una ventana flanqueante de 40 kilobase alrededor de la región transcrita. Cuando las ventanas flanqueantes se superpusieron, los SNP se asignaron solo a su gen más cercano.

Realizamos análisis de los datos de GWAS tanto para la enfermedad de Crohn (EC) como para la diabetes tipo 1 (DT1). En la siguiente sección presentamos los resultados para CD. Los resultados para la diabetes Tipo 1 son comparables y se presentan en material complementario.

Derivar una estadística de prueba de todo el gen para cada gen

Para medir la asociación de un SNP con la enfermedad, comparamos las frecuencias de genotipos entre casos y controles y calculamos una estadística de prueba corregida por control genómico basada en una prueba de tendencia de Armitage para cada SNP. Para obtener una medida de asociación de todo el gen, primero derivamos tres estadísticas resumidas: maxT (la estadística de prueba máxima para cada gen), quiso decir (la estadística de prueba media para cada gen), y topQ (la media del cuartil más alto de todas las estadísticas de prueba en un gen). Aquí ilustramos cómo cada estadística de resumen está sujeta a factores de confusión que deben controlarse. La estadística de prueba de todo el gen se correlaciona con el número de SNP por gen, norte (Figuras 2 y S1), como sigue.

  • Para maxT el estadístico de prueba aumenta aproximadamente linealmente con norte (Coeficiente de correlación de Pearson r = 0.36). Incluso si no hay asociación, es más probable que los genes con muchos SNP asignados tengan un SNP con una estadística de prueba alta, por casualidad.
  • Se produce un efecto diferente para quiso decir, por lo que los genes con muchos SNP tienden a tener estadísticas de prueba de todo el gen cercanas a uno, mientras que los genes con pocos SNP tienden a estar en los extremos de la distribución, es decir, tener estadísticas de prueba de todo el gen muy bajas o muy altas. Bajo la hipótesis nula de no asociación, el estadístico de prueba tiene un χ1 2, con una media de 1. Al calcular la media T, es probable que los genes con más SNP tengan estadísticas de prueba de todo el gen cercanas a 1, mientras que los genes con pocos SNP se ven más afectados por SNP individuales con estadística de prueba extrema.
  • Se observa un efecto similar a la T media para topQ: Los genes con menos SNP tienden a tener estadísticas extremas de prueba de todo el gen, mientras que los genes con muchos SNP tienden a tener una estadística de prueba de todo el gen cercana a χ 2 ≈3. Este valor es más alto que para el método meanT ya que solo se selecciona el 25% superior de SNP por gen.

Se combinan múltiples estadísticas de prueba para cada gen utilizando tres métodos diferentes (maxT, meanT, topQ). Para cada método, la estadística de prueba de todo el gen se correlaciona con el número de SNP por gen. Para estos histogramas, los genes se agrupan de acuerdo con la estadística de prueba de todo el gen (eje izquierdo). Los puntos rojos muestran el número medio de SNP por gen para cada bin (eje derecho).

Derivando un valor p empírico para cada gen

La distribución de las estadísticas resumidas para cada gen no se conoce y es imposible de derivar analíticamente, ya que depende del patrón de LD dentro de cada gen. Por lo tanto, obtenemos un valor p empírico pagemp para cada gen de conjuntos de datos permutados (ver Métodos). Al comparar las estadísticas de prueba observadas con las permutadas, mantenemos la estructura de LD y tenemos en cuenta las diferencias en el número de SNP por gen. El observado pagemp Los valores están adecuadamente controlados para el número de SNP por gen, observamos que no hay correlación entre el número de SNP por gen y el pagemp valor (Figuras 3 y S2). Para cada uno de los tres métodos para combinar las estadísticas de prueba, el pagemp los valores se distribuyen aproximadamente de manera uniforme. Las altas proporciones de muy bajas pagemp Es probable que los valores (Figuras 3 y S2) se deban a una verdadera señal de asociación.

Los genes fueron asignados a 50 contenedores según su pemp. El histograma muestra el número de genes con pagemp valores (eje izquierdo). La línea roja muestra el número medio de SNP por gen para cada grupo (eje derecho). En contraste con las estadísticas de prueba de todo el gen, no observamos correlación del número de SNP por gen con pagemp para cualquier método. Observamos un aumento de genes con muy baja pagemp valores causados ​​por la señal de asociación real.

Valor p no controlado frente a empírico

Aunque diferentes métodos producen diferentes niveles de asociación para un gen dado, los resultados están correlacionados. Entre los tres métodos para derivar pemp valores, observamos un coeficiente de correlación de rango de Spearman promedio de 0,74 al considerar los 500 genes principales (Tablas S1 y S2). El coeficiente de correlación de rango de Spearman promedio entre los tres métodos antes de derivar pemp Los valores (es decir, controlando el número de variantes por gen y LD) es solo 0,30, lo que refleja los diferentes sesgos introducidos por los métodos para derivar estadísticas de prueba de todo el gen.

los pagemp los valores se controlan por el número de SNP por gen y la estructura de correlación, pero ¿cómo afecta el control a los genes individuales? Para abordar esta pregunta, convertimos las estadísticas de prueba combinadas a valores p asumiendo que las estadísticas de prueba tienen un χ1 2 distribución. Estos valores p no controlados se grafican contra el pagemp valores para los tres métodos (Figuras 4 y S3):

  • Para el maxT método, genes con muchos SNP (grandes norte) tienen más probabilidades de tener un estadístico de prueba alto y, por lo tanto, un valor de p no controlado bajo. Al derivar pagemp valores que controlamos norte. El control tiene muy poco impacto en los genes con norte = 1 y en ese caso los valores p empíricos y no controlados son muy similares (se encuentran a lo largo de la diagonal en las Figuras 4 y S3). Para genes con mayor norte el control es más fuerte y pagemp los valores son más altos que los valores p no controlados.
  • Para quiso decir observamos una distribución de tipo sigmoidea. Eso se explica por el efecto de variar norte: Comparamos las estadísticas de prueba permutadas con las observadas. Si no hay asociación, la estadística de prueba esperada es 1. Por lo tanto, los valores medios esperados de T para los conjuntos de datos permutados son 1, es decir, con el aumento norte es más probable que la T media permutada sea 1. Para genes con grandes norte esto lleva al extremo pagemp valores cuando comparamos los valores observados con la media T permutada. Como resultado, la distribución de genes con grandes norte muestra una curvatura más fuerte que para los genes con pequeños norte. Cuando el valor T medio observado es 1 (valor p no controlado = 0,317), el control (en promedio) no se ve afectado por norte. Por lo tanto, los puntos que representan genes con diferentes norte superposición en la media T = 1.
  • La distribución para topQ es similar a maxT, pero el gradiente de genes con muchos SNP es menos pronunciado.

Para cada gen el pagemp se traza frente al valor p no controlado (basado en la estadística de prueba de todo el gen). Cada punto representa un gen y está coloreado de acuerdo con el número de SNP asignados a un gen (norte). Los genes con pocos SNP tienen pagemp valores similares al valor p no controlado y, por lo tanto, se agrupan a lo largo de la diagonal. Para genes con mayor número de SNP, la distribución depende del método para combinar las estadísticas de prueba.

Rendimiento

Para evaluar el rendimiento de los diferentes métodos de combinación de estadísticas de prueba, trazamos las curvas de la característica operativa del receptor (ROC) para la EC y la diabetes tipo 1 (Figura 5) utilizando dos conjuntos de genes de enfermedad confirmados [17], [18] bajo el supuesto de que todos los demás genes no están asociados (ver Métodos). Los genes de enfermedades conocidas se basan en metanálisis CD [17] y T1D [18]. Basándose en los loci genómicos que se replicaron con éxito, los autores seleccionaron el gen candidato más probable considerando la participación conocida en el sistema inmunológico, la asociación con otros trastornos autoinmunes y la ubicación del SNP más fuertemente asociado. Aunque la lista de genes resultante puede contener genes que no están asociados con el rasgo, es el mejor conjunto de datos actualmente disponible para evaluar el rendimiento de nuestros métodos para medir la asociación genética a nivel de gen.

Para evaluar el rendimiento de diferentes métodos para combinar las estadísticas de la prueba, graficamos la proporción de genes de enfermedades confirmadas (Tasa de verdaderos positivos) frente a su rango dentro del conjunto completo de genes (Tasa de falsos positivos).

Los tres pagemp Los métodos dan resultados considerablemente mejores de los esperados por casualidad. Para ambas enfermedades, el método topQ funciona ligeramente mejor que maxT y meanT, aunque los tres métodos funcionan de manera similar con diferencias en las áreas bajo la curva (AUC) de menos del 2%. El rendimiento de los diferentes métodos para las dos enfermedades podría depender del número de SNP asignados a los genes de la enfermedad conocida. Para genes con muchos SNP, la señal de asociación puede diluirse, como es el caso del gen de la enfermedad de la EC. ZNF365, que tiene 91 SNP (Tabla 2). Su maxT es 23,74 que corresponde a pagemp = 0.0001, pero la mediaT y la topQ para este gen son 2,46 (pagemp = 0,0041) y 8,32 (pagemp = 0,0010), respectivamente. En consecuencia, los rendimientos medidos aquí por las AUC dependen de las propiedades de los genes de enfermedades conocidas y solo podemos asumir que son característicos de genes de enfermedades que aún no se han identificado.

Varios genes de enfermedades conocidas se clasificaron consistentemente como muy bajos por los tres métodos (Tabla 2). Para algunos de estos genes, los SNP asociados tienen más de 40 kb del gen (p. Ej. PTPN22), o el SNP asociado se encuentra en el gen adyacente (p. ej. ORMDL3). Otros genes de enfermedades confirmadas se clasificaron en un lugar bajo porque el SNP asociado no ha sido genotipado por el WTCCC (p. Ej. JAK2) o no mostró ninguna asociación (p. ej. PLCL1).

Desequilibrio de ligamiento

Nuestro análisis está influenciado por el desequilibrio de ligamiento (LD) y algunos de los genes mejor clasificados (Tabla 3) son parte de la misma región LD, lo que refleja el hecho de que una verdadera señal de asociación podría extenderse sobre una gran región del genoma si cae en un bloque LD grande. La mayoría de los SNP en dicha región parecerían estar asociados con el fenotipo, lo que puede dar como resultado varios genes con valores p empíricos significativos. Por ejemplo, CYLD y SNX20 tengo pagemp valores inferiores a 5,4 × 10 −5 se encuentran aguas arriba y aguas abajo de NOD2 y están ubicados en el mismo bloque LD que NOD2. Su asociación es muy probablemente un artefacto de la asociación confirmada de la NOD2 gen [26], [27], [28]. Para evaluar aún más el impacto de LD en nuestros análisis, ampliamos el gen inicial a la asignación de SNP. Además de los SNP ubicados dentro del gen o una ventana flanqueante de 40 kb, incluimos SNP en LD (r 2 & gt0.8) con cualquier SNP en esta región. Esto aumenta el número medio de SNP por gen a 15,5 (desde 13,9) y el número total de SNP asignados a genes a más de 296.000 (desde 290.000) (Figura S4). La inclusión de LD en el gen para la asignación de SNP tiene solo un efecto moderado: aunque los valores de AUC muestran un pequeño aumento para cada método (& lt1.3%), solo una pequeña minoría de genes se ve afectada (Figura S5). Los rangos de genes obtenidos con y sin tener en cuenta LD están altamente correlacionados (correlación de rango de Spearman r = 0.98 para cada método y enfermedad). Solo 3 genes de los 100 principales tienen un rango superior a 100 cuando se incluye LD (maxT para CD) y todos los genes discutidos aquí y que se muestran en las tablas solo cambian marginalmente su rango o valor p.

Estratificación de población

Nuestro método de análisis principal es probar la asociación con la prueba de tendencia de Cochran Armitage, con corrección de control genómico para la ascendencia de la población, ya que esto hace que la realización de un gran número de permutaciones sea computacionalmente manejable. Para evaluar el efecto de la estratificación de la población en nuestro análisis con más detalle, realizamos un análisis de componentes principales [21] para ambos conjuntos de datos. Repetimos las pruebas de asociación mediante regresión logística y ajustando los dos primeros componentes principales (corrección de PC). Esto redujo la medida de control genómico para CD de λ = 1.12 a λ = 1.08, sin que se observara reducción para T1D (λ = 1.06). El ajuste de hasta 10 PC no redujo más λ. La correlación entre los rangos de genes de nuestro análisis primario y después de la corrección para la estratificación de la población fue alta (CD-maxT R = 0.932, CD-meanT R = 0.942, CD-topQ R = 0.940, T1D-maxT R = 0.997, T1D-meanT R = 0,998, T1D-topQ R = 0,998). Los rangos de genes para la EC se ven más afectados que para la diabetes Tipo 1: de los 100 genes principales de nuestro análisis primario, 78 están dentro de los 100 genes principales después de la corrección de PC, y los 100 están dentro de los 204 genes principales (maxT, Figura S6). Para la diabetes Tipo 1, 86 de los 100 genes principales de nuestro análisis primario están dentro de los 100 principales después de la corrección de PC y los 100 están dentro de los 143 genes principales (maxT, Figura S6). La corrección de dos componentes principales solo afecta marginalmente el rendimiento de nuestros métodos: los valores de AUC aumentaron en & lt0.6% tanto para CD como para T1D.

Genes asociados

Todos los genes discutidos aquí solo cambian marginalmente su rango o valor p después de corregir dos componentes principales o al considerar LD para el SNP a la asignación de genes. Para la EC, encontramos 7 de 39 genes de enfermedades conocidas (verdaderos positivos) dentro de los 30 genes principales cuando clasificamos todos los genes según pagemp valores (derivados de maxT). Usamos sus estadísticas de pruebas genéticas para resolver los lazos cuando pagemp los valores son idénticos para dos o más genes (Tabla 3). Los genes STAT3 (rango maxT 27) y SBNO2 (maxT rango 26) se encuentran dentro de loci de enfermedades conocidas, pero no forman parte de la lista de verdaderos positivos porque la señal de asociación se extiende a varios genes [17]. Ambos loci no alcanzaron significación en todo el genoma en el estudio original de WTCCC y su asociación solo se confirmó en un metanálisis a gran escala más reciente. STAT3 y SBNO2 se puede vincular a la IL10 / STAT3 vía antiinflamatoria [29], que se ha relacionado con la EC [2], [17], [30].

Otro candidato prometedor para CD podría ser DAG1 (distroglicano 1), en el puesto 23 para maxT. Se encuentra dentro de un gran bloque LD cuya asociación se ha replicado y que engloba alrededor de 35 genes [17]. DAG1 es un receptor de superficie celular que es utilizado por varios patógenos conocidos [31], [32] y se ha especulado sobre un papel para DAG1 en la captación de Mycobacterium avium ssp. paratuberculosis y la etiología de la enfermedad de Crohn [33].

Para la diabetes Tipo 1, cinco de los 27 genes de enfermedades conocidas se encuentran entre los 30 principales (según maxT, Tablas S3 y S4). De los 30 genes principales, 14 caen en una gran región LD en el cromosoma 12 (posición 111,348,628 a posición 112,947,717), que contiene 15 genes. Según Todd et al. [34] el gen causal más probable de esta región es SH2B3. Los autores detectaron un SNP no sinónimo altamente asociado en el exón 3 de SH2B3, que no había sido genotipado en el estudio WTCCC [16]. Dos SNP que fueron genotipados en el WTCCC se asignan a SH2B3 y muestran una asociación moderada (p = 3 × 10 −5 yp = 7 × 10 −4). Dado que otros 40 SNP en la región muestran una asociación más fuerte, SH2B3 solo ocupa el puesto 26 (según maxT).


Métodos

Recuperación y procesamiento de datos

La versión reciente (Phase1, versión 3, octubre de 2012) de los archivos vcf 1000 Genomes que contienen genotipos en fase para 36,7 millones de SNP autosómicos y 1,38 millones de SSV autosómicos se descargaron del servidor ftp del Proyecto 1000 Genomas [92]. La información de alelos ancestrales para SNP sobre la base de alineaciones de múltiples especies, para todas las variantes, también se descargó del sitio ftp de 1000 Genomes. La conversión de los datos de 1000 Genomes al formato PLINK se realizó utilizando las herramientas VCF [93, 94]. Los cálculos de frecuencia y muchas otras operaciones de manipulación de datos se realizaron utilizando PLINK [94]. Se excluyeron las poblaciones mezcladas (ASW, CLM, MXL y PUR) y las poblaciones chinas (CHB y CHS) se fusionaron en una sola población utilizando PLINK a la que nos referimos como "CHINESE". Los SNP se clasificaron como comunes en una población si se observó que el MAF era superior a 0,05 en esa población. Los SNP con MAF más bajo se trataron como raros.

Análisis de distribución genómica y enriquecimiento regional

La identificación del enriquecimiento de los SNP de CPS en las regiones genómicas se realizó utilizando scripts de Perl personalizados. Usamos dos enfoques basados ​​en ventanas deslizantes. En el primer enfoque, se escaneó cada cromosoma utilizando ventanas de 50 SNP deslizantes y no superpuestas y se calculó la frecuencia de SNP de CPS en cada ventana. Basado en la ocurrencia general de SNP de CPS en todo el cromosoma, el hipergeométrico acumulativo pag-Se estimó el valor para el enriquecimiento de los SNP de CPS en cada ventana. Para corregir las pruebas de hipótesis múltiples, utilizamos un método conservador pag-valor de corte de & lt5 × 10 -8 para la identificación de ventanas enriquecidas con CPS SNP. En el segundo enfoque, empleamos un escaneo similar utilizando ventanas no superpuestas de 5 kb.

Escaneo de selección

Las firmas de selección se evaluaron utilizando dos enfoques diferentes. La puntuación iHS basada en la homocigosidad del haplotipo se calculó utilizando el paquete WHAMM [95]. Como el cálculo de iHS requiere que se especifiquen las posiciones físicas, descargamos el mapa físico de enlace combinado para la construcción del genoma humano GrCh37 de Rutgers Map [96] e incorporamos las posiciones físicas en los datos existentes. Para cada población, se calcularon las puntuaciones de iHS para los SNP que se producen en las ventanas de 50 SNP que se encontraron enriquecidas en los SNP de CPS en esa población utilizando el script iHS_calc del paquete WHAMM. Para estimar la distribución de fondo de iHS para cada población, muestreamos aleatoriamente 10,000 bloques de 50 SNP y calculamos las puntuaciones de iHS para los SNP que ocurren en estos bloques. A continuación, se estandarizaron las puntuaciones de iHS basándose en las agrupaciones de frecuencias alélicas derivadas del trasfondo. Como una extensión de las puntuaciones de iHS, también definimos las puntuaciones de enriquecimiento de iHS (iES), que es la proporción de SNP en cada ventana de 50 SNP que tiene | iHS | & gt 2. Las ventanas que muestran las puntuaciones iES superiores al 1%, 5% y 10% se seleccionaron respectivamente como tres niveles para el análisis. Para cada nivel, se estimó la distribución de iES esperada en todas las ventanas CPS SNP de una población y se comparó con la distribución real. La significación estadística de la sobrerrepresentación de las puntuaciones de iES en las ventanas de una población enriquecidas con SNP de CPS se estimó mediante un pag-valor calculado por un análisis de remuestreo bootstrap. También se realizó un análisis similar para ventanas de 5 kb enriquecidas con SNP de CPS en cada población. Además, se realizó un conjunto separado de análisis para las ventanas de 50 SNP y 5 kb, considerando solo los SNP con un MAF mínimo de 0.05.

El cálculo de PBS se llevó a cabo siguiendo los métodos propuestos por Yi et al. [71]. Para calcular las puntuaciones de PBS para las poblaciones africanas (YRI y LWK), se utilizó JPT como valor atípico. Para las poblaciones asiáticas CHINO y JPT, YRI se utilizó como valor atípico. De manera similar, para las poblaciones europeas (FIN e IBS) YRI se utilizó como valor atípico. Para cada conjunto de tres poblaciones (como YRI-LWK-JPT o JPT-CHB-YRI) estimamos la distribución de fondo de las puntuaciones de PBS, utilizando 10.000 ventanas de 50 SNP seleccionadas al azar. Luego identificamos puntos de corte basados ​​en el 1%, 5% y 10% superior de la distribución de fondo y estimamos el número de ventanas de 50 SNP y 5 kb que se puede esperar que estén en el 1%, 5% superior y rango de puntuación de PBS del 10% para una población. El número de ventanas observadas en el rango del 1%, 5% y 10% se comparó con el número esperado y el correspondiente pag-Los valores se estimaron mediante un análisis bootstrap.

Tasa de recombinación

Recuperamos el mapa de recombinación deCODE y los mapas de recombinación relacionados con HapMap (hapMapRelease24YRIRecombMap y hapMapRelease24CombinedRecombMap) utilizando el navegador de tablas UCSC [97]. La distribución de los puntos calientes de recombinación del mapa de recombinación deCODE usando un límite de 10 SRR (tasa de recombinación estandarizada por sexo) encontró solo unos pocos puntos calientes en el conjunto de genes y no se analizaron más.

El mapa de recombinación de HapMap YRI (hapMapRelease24YRIRecombMap) se utilizó para identificar los puntos calientes y fríos de recombinación en YRI y el conjunto de datos combinado. Se estudió la distribución de las tasas de recombinación para seleccionar las regiones genómicas que mostraban las puntuaciones superiores de la tasa de recombinación del 1% y estas regiones se designaron como puntos calientes de recombinación. También utilizamos las puntuaciones de la tasa de recombinación del 5% superior para seleccionar un segundo conjunto de puntos críticos. De manera similar, los dos conjuntos de puntos fríos también se definieron por las tasas de recombinación más bajas del 1% y el 5%. Basándonos en la distribución genómica de las tasas de recombinación en YRI (hapMapRelease24YRIRecombMap), estimamos el número de sitios de hotspot que se espera que ocurran en ventanas enriquecidas con SNP de CPS para YRI. El valor esperado se comparó con el valor observado y un hipergeométrico acumulativo pag-valor se utilizó para estimar la significación estadística de la sobrerepresentación y la subrepresentación para los puntos calientes de recombinación y los puntos fríos en las ventanas de 50 SNP enriquecidas con SNP de CPS y las ventanas de 5 kb enriquecidas con SNP de CPS en YRI. Se realizaron análisis similares para todas las demás poblaciones, tanto individualmente como combinadas, utilizando el mapa de recombinación combinado HapMap (hapMapRelease24CombinedRecombMap).

Evaluación de la función SNP

Los contextos genómicos de todos los SNP de CPS se determinaron mediante ANNOVAR [98], que también se utilizó para anotar variantes no sinónimas potencialmente funcionales en función de su impacto funcional previsto a nivel de proteínas. ANNOVAR obtiene puntuaciones de impacto funcional precalculadas para SIFT [80], POLYPHEN2 [79], LRT [82] y Mutation Taster [81]. Se consideró que las variantes no sinónimas tenían un impacto funcional si se cumplían los criterios de puntuación recomendados para cualquiera de los algoritmos, SIFT: ≥ 0,95, POLYPHEN2: ≥ 0,85, LRT ≥ 0,5, Tasador de mutaciones ≥ 0,50.

Para identificar los SNP de CPS no codificantes que pueden tener un efecto sobre la unión de factores reguladores, se buscaron variantes intrónicas y esos genes flanqueantes en la base de datos RegulomeDB [83], que emplea un sistema de puntuación heurístico basado en la confianza de que la variante radica en un elemento regulador y si tiene consecuencias funcionales conocidas o posibles, como la alteración de la unión del factor de transcripción (TF) y cambios en los patrones de expresión de los genes asociados. Las variantes de dbSNP [99] se clasifican en 6 categorías, siendo la categoría 1 la que tiene la mayor confianza debido a los datos eQTL asociados y la categoría 6 la más baja. Solo los SNP de CPS pertenecientes a las categorías 1 y 2 se consideraron modificadores de la regulación, ya que son los que tienen más probabilidades de producir una consecuencia funcional.

Análisis de IPA

Para cada población, se generaron dos listas de genes a partir del conjunto de SNP de CPS. El primero contenía solo genes que incluían variantes seleccionadas, identificadas por rs ID [99]. The second contained all genes that contained the identified SNPs, as well as nearest neighbour genes for the SNPs that were intergenic. By definition, the second list contained more genes than the first. Ingenuity Pathway Analysis (IPA) software was used to analyse gene interaction networks in the gene lists, as well as enriched ‘canonical’ pathways describing well characterised and validated regulatory pathways [84].

DAVID analysis

The Database for Annotation, Visualisation and Integrated Discovery (DAVID) [85] is an online tool that accepts a list of genes as input and performs functional analysis on them. It provides a list of functions enriched in the gene list, and clusters these functions according to their similarity. Functions include gene ontology (GO) and Swiss-Prot annotation, InterPro matches, OMIM [100] and other disease links, as well as KEGG [101, 102] and other pathway database links. The gene-enrichment analysis is based on the Fisher’s Exact test, which determines whether or not a given list of genes is enriched for a certain function label or if this function occurs in the list by chance. A pag-value shows the significance and adjusted pag-values are also provided, after correction for multiple testing. The gene lists for each population that contained CPS SNPs were run through DAVID to identify overrepresented pathways and other functional labels.

Function and disease association of CPS-SNP containing genes

Potential functions of CPS-SNP containing genes and their role in various diseases were inferred from the GeneCards database [103].


Genes, Behavior, and the Social Environment: Moving Beyond the Nature/Nurture Debate.

In the search for a better understanding of genetic and environmental interactions as determinants of health, certain fundamental aspects of human identity pose both a challenge and an opportunity for clarification. Sex/gender and race/ethnicity are complex traits that are particularly useful and important because each includes the social dimensions necessary for understanding its impact on health and each has genetic underpinnings, to varying degrees.

Although there have been numerous genetic studies of sex and gender𠅊nd more recently race and ethnicity—over the past several decades, detailed information about the extent of our genetic similarities and differences did not reach the public’s attention until the completion of the Human Genome Project. With base pair comparisons possible across the individuals sequenced, the estimate that any two humans are 99.9 percent the same has raised our awareness that all humans are incredibly similar at the genetic level. Paradoxically, the evidence of vast numbers of DNA base pairs at which humans differ also became known at this time. It is estimated currently that any two people will differ at approximately 3 million positions along their genomes. Although there is some evidence that information about an individual’s sex or ancestry would provide information about the likelihood that he/she carries one allele versus another, it is typically a matter of probability—not a discrete or absolute determinant (even for the Y chromosome). While there is growing evidence of a number of significant differences between males and females in terms of health and health outcomes (IOM, 2001), 𠇌onsiderable controversy remains about the existence and importance of racial differences in genetic effects, particularly for complex diseases” (Ioannidis et al., 2004).

Previous chapters have discussed the contributions of the social environment, behavior, psychological factors, physiological mechanisms, and genetic variation to health. This chapter highlights the fact that the contributions of these variables are not monolithic and that fundamental individual traits, such as sex/gender and race/ethnicity, can change their meaning and health impact in different contexts. These complex traits are multifaceted, and the goal is to tease apart the facets at different levels of organization in order to identify which of them directly modulate health. This is a reciprocal process, because these various domains in turn inform our understanding of sex/gender and race/ethnicity. Failing to distinguish these different facets, both in the aggregate and within each level of analysis, will compromise the ability to obtain a more fine-grained understanding of how the different aspects of these fundamental individual traits interact to influence health.


Opciones de acceso

Obtenga acceso completo a la revista durante 1 año

Todos los precios son precios NETOS.
El IVA se agregará más adelante en el proceso de pago.
El cálculo de impuestos se finalizará durante el pago.

Obtenga acceso a artículos por tiempo limitado o completo en ReadCube.

Todos los precios son precios NETOS.


Comentario

From a biological point of view, genetic research over the past decade has led to an unprecedented level of raw information about schizophrenia risk, as have genomic investigations of other traits and complex diseases across medicine, including in cancer, hypertension, diabetes mellitus, and cardiovascular disease. But how far will genetic insights take psychiatry? Will they change how patients are clinically diagnosed? Will they predict outcome and personalize medicine? Will they lead to novel therapies based on pathogenesis? My view is that the latter is a good bet, and the others are much more speculative. Given the substantial role of environmental variables in the etiology and course of all complex disorders, it is unlikely that even sequencing the DNA of everyone on the planet would lead to a full understanding of schizophrenia. It is important to continually emphasize that genes do not encode for psychopathology. Genes associated with schizophrenia implicate subtle malfunctions at the molecular and cellular level, most likely within neurons, altering micro- and macrocircuits in the developing brain. Cells process molecular information, and circuits process environmental information (e.g., sensory information, cognitive information, social information). Behavior is an emergent phenomenon of circuit physiology, which may be aberrant because the cells comprising the circuit are altered, for example, by not signaling to each other in an appropriate manner for a given context, based on the genetic and epigenetic programs that entrain their development and function. Psychiatric disorders ultimately reflect how the brain mishandles environmental information, which at the systems level is far “downstream” of the effect of genes in cells. Thus, given the complexity of the development and function of the brain and its emergent properties, determining what it means for a brain to be at increased risk for schizophrenia is a far more complex and challenging problem than finding susceptibility loci.

There is also reason to wonder to what degree GWAS associations sharpen the focus on the core pathogenic processes of schizophrenia. The omnigenic hypothesis mentioned above cautions that many GWAS associations are likely to be relatively peripheral factors in causation, detected because they play a role in the biological function of relevant cells. This may account in part for the substantial overlap between schizophrenia and not just other psychiatric diagnoses but even disorders as seemingly distant pathogenically as amyotrophic lateral sclerosis (46). Moreover, while the loci that have been found seem not to respect our clinical diagnoses, the drugs we use to treat patients generally do. Lithium is not antipsychotic clozapine does not benefit individuals with ADHD and stimulants are not antimanic drugs. From a clinical perspective, treatment is a litmus test of biological relevance.

There is also concern that some of the genes within GWAS loci may not substantially contribute to symptomatology in adulthood. Studies of gene expression in adult postmortem brain samples of patients with schizophrenia do not generally find differential expression of genes within GWAS loci (47, 48). In contrast, in a consistent emergent literature, many of the genes found in these loci have been found to be preferentially expressed and dynamically regulated in fetal life (49), consistent with the prevailing assumption that schizophrenia, like most psychiatric syndromes, has early developmental origins (50). A recent study (45) found that a substantial fraction of genes in the GWAS-significant loci are abundantly expressed in the placenta and are dynamically regulated in placenta from complicated pregnancies, possibly explaining the link between schizophrenia risk and pregnancy complications. While this finding has potential implications for primary prevention based on enhancing placental health, it does not suggest specific treatment options for an affected adult.

These caveats notwithstanding, genes are critical and valid entry points to the biology of cells, and genes related to risk for schizophrenia are building blocks for model systems that may lead to novel insights and novel therapeutic targets. There is considerable enthusiasm in basic research laboratories for creating neuronal models based on human pluripotent stem cells from patients with schizophrenia and from cells with genomes that contain risk-associated variants (51). In principle, such approaches may identify early developmental phenotypes that can be rescued experimentally. While this work also may not translate simply to the adult brain, it is worth remembering that the molecular programs that build synapses are at least in part the same ones that sustain them and modify them during adult life. Furthermore, animal research has shown that some early developmental abnormalities, even in brain structure, may be reversed during adulthood (52). This is a new frontier, but it is not science fiction.

For good reason, 21st-century medicine has become highly intertwined with genomic-based medicine. Psychiatry is part of this new age, and the opportunities to change our nosology and our understanding of what we call mental illness and to find new approaches to improve the lives of affected individuals have never seemed more promising. That being said, as usual, the more we learn, the more we need to know, and with such a complex task, it’s likely to be a bumpy ride.


Contenido

An organism's genotype may not define its haplotype uniquely. For example, consider a diploid organism and two bi-allelic loci (such as SNPs) on the same chromosome. Assume the first locus has alleles A o T and the second locus GRAMO o C. Both loci, then, have three possible genotypes: (Automóvil club británico, AT, y TT) y (GG, GC, y CC), respectivamente. For a given individual, there are nine possible configurations (haplotypes) at these two loci (shown in the Punnett square below). For individuals who are homozygous at one or both loci, the haplotypes are unambiguous - meaning that there is not any differentiation of haplotype T1T2 vs haplotype T2T1 where T1 and T2 are labeled to show that they are the same locus, but labeled as such to show it doesn't matter which order you consider them in, the end result is two T loci. For individuals heterozygous at both loci, the gametic phase is ambiguous - in these cases, you don't know which haplotype you have, e.g., TA vs AT.

Automóvil club británico AT TT
GG AG AG AG TG TG TG
GC AG AC AG TC
o
AC TG
TG TC
CC AC AC AC TC TC TC

The only unequivocal method of resolving phase ambiguity is by sequencing. However, it is possible to estimate the probability of a particular haplotype when phase is ambiguous using a sample of individuals.

Given the genotypes for a number of individuals, the haplotypes can be inferred by haplotype resolution or haplotype phasing techniques. These methods work by applying the observation that certain haplotypes are common in certain genomic regions. Therefore, given a set of possible haplotype resolutions, these methods choose those that use fewer different haplotypes overall. The specifics of these methods vary - some are based on combinatorial approaches (e.g., parsimony), whereas others use likelihood functions based on different models and assumptions such as the Hardy–Weinberg principle, the coalescent theory model, or perfect phylogeny. The parameters in these models are then estimated using algorithms such as the expectation-maximization algorithm (EM), Markov chain Monte Carlo (MCMC), or hidden Markov models (HMM).

Microfluidic whole genome haplotyping is a technique for the physical separation of individual chromosomes from a metaphase cell followed by direct resolution of the haplotype for each allele.

Unlike other chromosomes, Y chromosomes generally do not come in pairs. Every human male (excepting those with XYY syndrome) has only one copy of that chromosome. This means that there is not any chance variation of which copy is inherited, and also (for most of the chromosome) not any shuffling between copies by recombination so, unlike autosomal haplotypes, there is effectively not any randomisation of the Y-chromosome haplotype between generations. A human male should largely share the same Y chromosome as his father, give or take a few mutations thus Y chromosomes tend to pass largely intact from father to son, with a small but accumulating number of mutations that can serve to differentiate male lineages. In particular, the Y-DNA represented as the numbered results of a Y-DNA genealogical DNA test should match, except for mutations.

UEP results (SNP results) Edit

Unique-event polymorphisms (UEPs) such as SNPs represent haplogroups. STRs represent haplotypes. The results that comprise the full Y-DNA haplotype from the Y chromosome DNA test can be divided into two parts: the results for UEPs, sometimes loosely called the SNP results as most UEPs are single-nucleotide polymorphisms, and the results for microsatellite short tandem repeat sequences (Y-STRs).

The UEP results represent the inheritance of events it is believed can be assumed to have happened only once in all human history. These can be used to identify the individual's Y-DNA haplogroup, his place in the "family tree" of the whole of humanity. Different Y-DNA haplogroups identify genetic populations that are often distinctly associated with particular geographic regions their appearance in more recent populations located in different regions represents the migrations tens of thousands of years ago of the direct patrilineal ancestors of current individuals.

Y-STR haplotypes Edit

Genetic results also include the Y-STR haplotype, the set of results from the Y-STR markers tested.

Unlike the UEPs, the Y-STRs mutate much more easily, which allows them to be used to distinguish recent genealogy. But it also means that, rather than the population of descendants of a genetic event all sharing the mismo result, the Y-STR haplotypes are likely to have spread apart, to form a grupo of more or less similar results. Typically, this cluster will have a definite most probable center, the modal haplotype (presumably similar to the haplotype of the original founding event), and also a haplotype diversity — the degree to which it has become spread out. The further in the past the defining event occurred, and the more that subsequent population growth occurred early, the greater the haplotype diversity will be for a particular number of descendants. However, if the haplotype diversity is smaller for a particular number of descendants, this may indicate a more recent common ancestor, or a recent population expansion.

It is important to note that, unlike for UEPs, two individuals with a similar Y-STR haplotype may not necessarily share a similar ancestry. Y-STR events are not unique. Instead, the clusters of Y-STR haplotype results inherited from different events and different histories tend to overlap.

In most cases, it is a long time since the haplogroups' defining events, so typically the cluster of Y-STR haplotype results associated with descendants of that event has become rather broad. These results will tend to significantly overlap the (similarly broad) clusters of Y-STR haplotypes associated with other haplogroups. This makes it impossible for researchers to predict with absolute certainty to which Y-DNA haplogroup a Y-STR haplotype would point. If the UEPs are not tested, the Y-STRs may be used only to predict probabilities for haplogroup ancestry, but not certainties.

A similar scenario exists in trying to evaluate whether shared surnames indicate shared genetic ancestry. A cluster of similar Y-STR haplotypes may indicate a shared common ancestor, with an identifiable modal haplotype, but only if the cluster is sufficiently distinct from what may have happened by chance from different individuals who historically adopted the same name independently. Many names were adopted from common occupations, for instance, or were associated with habitation of particular sites. More extensive haplotype typing is needed to establish genetic genealogy. Commercial DNA-testing companies now offer their customers testing of more numerous sets of markers to improve definition of their genetic ancestry. The number of sets of markers tested has increased from 12 during the early years to 111 more recently.

Establishing plausible relatedness between different surnames data-mined from a database is significantly more difficult. The researcher must establish that the very nearest member of the population in question, chosen purposely from the population for that reason, would be unlikely to match by accident. This is more than establishing that a randomly selected member of the population is unlikely to have such a close match by accident. Because of the difficulty, establishing relatedness between different surnames as in such a scenario is likely to be impossible, except in special cases where there is specific information to drastically limit the size of the population of candidates under consideration.