Información

Análisis de imágenes de ráfagas de localización de proteínas etiquetadas con GFP

Análisis de imágenes de ráfagas de localización de proteínas etiquetadas con GFP


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estoy leyendo un artículo (texto completo aquí) que analiza la dinámica de localización de un factor de transcripción etiquetado con GFP (Crz1) a lo largo del tiempo a nivel de una sola célula, tomando películas en un microscopio fluorescente.

En la sección de métodos dicen:

Las imágenes de células de fluorescencia se segmentaron utilizando un algoritmo de transformación de Hough en Matlab, proporcionado por Sharad Ramanathan. La puntuación de localización se determinó mediante la diferencia entre la intensidad media de los 5 píxeles más brillantes de la celda y la intensidad media del resto de píxeles de la celda.

El proceso de segmentación aquí parece ser la identificación de células sobre el fondo. Luego calculan un puntuación de localización, para cada fotograma del video, para cada celda. Ahora está la parte que no puedo entender:

Las ráfagas se identificaron mediante trazas de umbral en> 1 desviaciones estándar por encima del ruido de fondo, estimadas a partir del 20% más bajo de los valores.

Busqué algunas definiciones de "ruido de fondo", pero no puedo entender qué significa en este contexto en particular. Además, ¿"el 20% más bajo de los valores" de qué?

¿Es plausible que lo definan para el 20% más bajo de los valores de las puntuaciones de localización a lo largo del tiempo, en la celda cada vez que se considera?

Quizás pueda ser útil una captura de pantalla de una sola celda en un fotograma del video:


Sí, la transformación de Hough es una forma de seleccionar las formas que le interesan, en este caso probablemente lo tengan configurado para buscar círculos y lo usen para segmentar la imagen.

Creo que ha interpretado correctamente sus métodos. Para cada celda, hacen un seguimiento de la puntuación de localización frente al tiempo, puntuación de localización definida en unidades arbitrarias como la diferencia entre la media de los cinco píxeles más brillantes y la media de los píxeles restantes en la celda. Creo que el 20% más bajo se refiere a los fotogramas del video que tienen el 20% más bajo de puntajes de localización. Toman el 20% más bajo de puntajes de localización, calculan una desviación estándar y luego, para cualquier marco que tenga un puntaje de localización que sea más de 1 desviación estándar por encima de la media de ese 20%, usted dice que el marco exhibe una ráfaga de localización. Si entiendo esto correctamente, este proceso se repetirá en cada celda individual.

Mi interpretación es que el 20% no tiene nada que ver con la intensidad de la señal de los píxeles de fondo, y proviene de analizar la serie a lo largo del tiempo, ni una sola imagen.


No sé mucho sobre el procesamiento de señales, pero estoy un poco familiarizado con la inteligencia artificial. Quizás esta wiki sea útil http://en.wikipedia.org/wiki/Image_segmentation. Estoy familiarizado con la agrupación de k-medias discutida allí y, como método de segmentación trivial, de hecho identificaría la celda frente al fondo de la foto. La transformación de Hough sería más sofisticada y probablemente más útil para esta aplicación, pero si desea tener una idea del proceso, el algoritmo ingenuo de k-medias puede ser útil.

Interpreto el "20% más bajo de los valores" para referirme a los valores de puntuación de localización, siendo los más bajos aquellos que son más oscuros en su imagen. Es decir, el fondo en el que se crea la imagen de la celda. El ruido de fondo se refiere al hecho de que un algoritmo de procesamiento de señales sin ningún preprocesamiento puede intentar identificar patrones del fondo de la imagen en lugar del tema de la celda, que es la parte que buscan los investigadores. Por eso realizan la segmentación.

Por ejemplo, imagine un algoritmo de k vecinos más cercanos http://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm para calcular una "puntuación de localización" para el brillo de la imagen. Su artículo está interesado en la intensidad de GFP para una célula. En la imagen, los píxeles en el borde de la celda con su fondo tendrán valores de puntuación artificialmente bajos debido al fondo: los píxeles adyacentes que están en el fondo y no son parte de la celda están oscuros, pero eso no significa nada relacionado a la biología del problema. Este es el ruido.

El 20% más bajo de los valores, entonces, debe referirse a una sola imagen, no a una serie a lo largo del tiempo.


Diseccionar las vías de respuesta al daño del ADN mediante el análisis de la localización de proteínas y los cambios de abundancia durante el estrés de replicación del ADN

La relocalización de proteínas es un sello distintivo de la respuesta al daño del ADN. Utilizamos el cribado microscópico de alto rendimiento de la colección de fusión de levadura GFP para desarrollar una visión a nivel de sistemas de la reorganización de proteínas después del estrés de replicación del ADN inducido por fármacos. Los cambios en la localización y abundancia de proteínas revelan patrones de enriquecimiento funcional específicos del fármaco. La clasificación de proteínas por destino subcelular permite la identificación de vías que responden al estrés de replicación. Analizamos combinaciones por pares de fusiones de GFP y mutantes de deleción de genes para definir y ordenar dos respuestas de daño de ADN previamente desconocidas. En el primero, Cmr1 forma focos subnucleares que están regulados por la histona desacetilasa Hos2 y son distintos de los focos típicos de reparación de Rad52. En un segundo ejemplo, encontramos que las quinasas de punto de control Mec1 / Tel1 y el regulador de traducción Asc1 regulan la formación de cuerpos P. Este método identifica las vías de respuesta que no se detectaron en las pantallas de interacción genética y de proteínas, y se puede aplicar fácilmente a cualquier forma de estrés químico o genético para revelar las vías de respuesta celular.


INTRODUCCIÓN

Las células epiteliales cubren la superficie externa e interna del cuerpo de los vertebrados y son fundamentales para mantener la homeostasis al separar distintos compartimentos del cuerpo. Las uniones apical célula-célula consisten en uniones estrechas (TJ), uniones adherentes (AJ) y desmosomas. Los AJ y los desmosomas conectan mecánicamente las células epiteliales adyacentes y contribuyen al mantenimiento de la forma celular y la integridad del tejido (Hartsock y Nelson, 2008 Nekrasova y Green, 2013 Takeichi, 2014 Lecuit y Yap, 2015). Los TJ regulan el paso de fluidos y solutos a través de la vía paracelular y sirven como barrera (Hartsock y Nelson, 2008 Krug et al., 2014 Van Itallie y Anderson, 2014 Zihni et al., 2016).

Debido a que los tejidos epiteliales se renuevan continuamente, se deben generar nuevas células por división celular, lo que es especialmente evidente en el epitelio en desarrollo. A pesar de los drásticos cambios de forma celular que ocurren durante la citocinesis, las uniones célula-célula deben mantener la adhesión célula-célula y la función de barrera durante la división celular. Aunque está comenzando a surgir una comprensión de cómo se mantienen las uniones célula-célula durante la citocinesis (Higashi et al., 2016), no está claro cómo las células epiteliales distinguen y coordinan los mecanismos de señalización que regulan las matrices contráctiles de actomiosina en las uniones célula-célula y el anillo contráctil citocinético.

Tanto las uniones célula-célula como los anillos contráctiles citocinéticos están regulados por Rho GTPasas (Kishi et al., 1993 Mabuchi et al., 1993 Nusrat et al., 1995 Braga et al., 1997 Miller, 2011 Arnold et al., 2017). RhoA cambia entre un estado vinculado a GTP activo y un estado vinculado a GDP inactivo. Cuando RhoA está en el estado activo unido a GTP, se une y activa sus efectores, incluidas las ROCK / Rho quinasas (Ishizaki et al., 1996 Matsui et al., 1996) y formins (Kohno et al., 1996 Watanabe et al., 1997 Alberts et al., 1998). No está claro cómo los efectores RhoA regulan diferencialmente la formación y el mantenimiento tanto de los haces de actomiosina de unión dependientes de RhoA como de los anillos de actomiosina citocinéticos dentro de las mismas células. Para abordar esta pregunta, investigamos la localización y los roles funcionales de las forminas en las uniones de células epiteliales y los anillos contráctiles citocinéticos en un sistema modelo de vertebrados en desarrollo, la etapa de gástrula. Xenopus laevis embrión.

Los formins constituyen una familia de reguladores de actina que se conserva entre eucariotas (Higgs y Peterson, 2005 Rivero et al., 2005 Chalkia et al., 2008). Las formas median el ensamblaje de actina lineal a través de sus dominios de homología de forma (FH) 1 y FH2. El dominio FH1 recluta monómeros de actina unidos a profilina y los pasa al dominio FH2. El dominio FH2 se une directamente y cubre el extremo con púas de los filamentos de actina y simultáneamente agrega nuevos monómeros de actina al extremo con púas, lo que da como resultado un alargamiento continuo de la actina F en el extremo con púas (Pruyne, Evangelista, et al., 2002 Kovar et al., 2003). Los genomas de vertebrados tienen al menos 15 formas (Higgs y Peterson, 2005 Rivero et al., 2005 Chalkia et al., 2008) (consulte la Figura complementaria S2). Entre ellos, 10 formins (Dia1 / 2/3, Daam1 / 2, Fmnl1 / 2/3, Fhod1 / 3) se clasifican como formins relacionados con diáfanos (DRF) (Alberts, 2002 Kuhn y Geyer, 2014). Los DRF comparten varios dominios reguladores importantes además de los dominios FH1 y FH2. Unión del dominio inhibidor diáfano (DID) (Li y Higgs, 2005), que se encuentra en el lado N-terminal (NT) de los dominios FH1 / FH2, al dominio autoinhibidor diáfano (DAD) (Alberts, 2001), que se encuentra en el lado C-terminal (CT) de los dominios FH1 / FH2, mantiene suprimida la actividad de ensamblaje de actina de los dominios FH1-FH2 (Watanabe et al., 1999 Li y Higgs, 2003). En su extremo NT, los DRF tienen un dominio de unión a GTPasa (GBD) (Watanabe et al., 1997 Otomo et al., 2005a Rose, Weyand, Lammers, et al., 2005). La unión de Rho GTPasas activas al GBD (y parte del DID) libera la interacción autoinhibidora DID-DAD (Watanabe et al., 1999 Lammers et al., 2005 Nezami, Poy y Eck, 2006). Otros factores pueden cooperar para liberar interacciones DID-DAD, incluida la unión de anilina a DID para mDia2 (Dia2, también conocido como DIAPH3, Diap3 o DRF3) (Watanabe et al., 2010), Flightless-I vinculante a DAD para mDia1 y Daam1 (Higashi, Ikeda, et al., 2010), y fosforilación de DAD por ROCK para Fhod1 (Takeya et al., 2008) y mDia2 (Staus et al., 2011). Al desencadenar la autoinhibición de DID-DAD, se abren las moléculas de DRF, lo que hace que los dominios FH1-FH2 sean accesibles para unirse a la actina.

Se ha implicado a las forminas en la regulación de las uniones célula-célula (para una revisión, ver Grikscheit y Grosse, 2016). Por ejemplo, se ha demostrado que el mamífero Dia1 (mDia1, también conocido como DIAPH1 o DRF1) se localiza en AJ y regula la estabilidad y contractilidad de AJ en muchos tipos de células (Sahai y Marshall, 2002 Carramusa et al., 2007 Ryu et al., 2009 Rao y Zaidel-Bar, 2016 Acharya et al., 2017). Fmnl3 está implicado en la regulación de AJ a través de la polimerización de F-actina y la estabilización de E-cadherina en células EpH4 epiteliales mamarias de ratón en migración (Rao y Zaidel-Bar, 2016). Un modelo de cultivo tridimensional de células MCF10A epiteliales de mama humana mostró que Fmnl2 estaba involucrado en la formación de nuevas uniones célula-célula entre células hijas aguas abajo de Rac1 (Grikscheit et al., 2015). Por último, varios estudios indican un papel de las forminas en la regulación de la adhesión célula-célula aguas abajo de Rho durante los procesos de desarrollo. Drosophila El diáfano regula los niveles y la actividad de la miosina II de la unión y es necesario para la estabilidad de la unión y los movimientos celulares debidamente regulados durante la morfogénesis (Homem y Peifer, 2008). Drosophila Diáfano también puede controlar la endocitosis de E-cadherina aguas abajo de Rho, regulando así el nivel de E-cadherina en la unión célula-célula (Levayer et al., 2011). Además, el empuje basado en actina controlado por Fmn1 que actúa aguas abajo de RhoA impulsa la aparición apical de nuevas células epiteliales multiciliadas en desarrollo. X. laevis embriones (Sedzinski, Hannezo, et al., 2016) sin embargo, no está claro cómo esta red de actina especializada está vinculada a las uniones y si Fmn1 regula las uniones célula-célula en este entorno.

Las formas también son reguladores conocidos de la citocinesis (para una revisión, consulte Bohnert et al., 2013). La levadura de fisión formin Cdc12 se concentra en los nodos mediales y media la formación y el mantenimiento de los anillos contráctiles (Chang et al., 1997 Kovar et al., 2003 Wu et al., 2006). En la levadura en ciernes, se requieren dos forminas, Bni1p y Bnr1p, para una citocinesis exitosa (Imamura et al., 1997 Peaje et al., 2002). Caenorhabditis elegans CYK-1 y Drosophila Se requieren diáfanos para las primeras divisiones embrionarias (Castrillon y Wasserman, 1994 Severson et al., 2002). Aunque mDia1, 2 y 3 son todos ortólogos de CYK-1 y Diaphanous, se ha demostrado que solo una forma de vertebrado, mDia2, controla la citocinesis. mDia2 se localiza en los anillos contráctiles en fibroblastos NIH 3T3 de ratón, y la caída de mDia2 causó falla en la citocinesis en las células NIH 3T3 (Watanabe et al., 2008). Adicionalmente, mDia2 Los ratones knockout son embrionarios letales debido a la falla de la citocinesis en los eritroblastos fetales, lo que resulta en anemia severa (Watanabe et al., 2013). Debido a que la nomenclatura de las formas del grupo Dia se confunde con frecuencia entre genes humanos y de ratón (p. Ej., El ortólogo humano de ratón mDia2 [DIAPH3] se llama hDIA3, DRF3, y DIAPH3), usamos constantemente Dia1 (mDia1 en ratones, DIAPH1 Inhumanos), Dia2 (mDia2 en ratones, DIAPH3 en humanos), y Dia3 (mDia3 en ratones, DIAPH2 en humanos) para X. laevis genes en este artículo.

Hasta la fecha, no ha habido un estudio completo de las 15 formas de vertebrados en el mismo sistema modelo. Además, no está claro si alguna (s) forma (s) está implicada en la regulación de las uniones célula-célula y de los anillos contráctiles citocinéticos, o si estas dos estructuras basadas en actomiosina se influyen activamente entre sí a través de la regulación de las proteínas de la formina. Aquí, clonamos los 15 formins de X. laevis y caracterizó su localización en células epiteliales. Identificamos Dia1 y Dia2 como formas de localización de la unión célula-célula y descubrimos que la perturbación de la localización de la unión de Dia1 y Dia2 provocaba un defecto de citocinesis.


2 RESULTADOS Y DISCUSIÓN

BacStalk está diseñado para la detección de células bacterianas y tallos sin etiquetas en imágenes de contraste de fase con precisión de píxeles. Como los tallos suelen tener un contraste muy bajo y apenas son visibles, los enfoques de umbralización convencionales no logran separarlos de forma fiable del fondo de la imagen. BacStalk supera estas dificultades implementando un enfoque de dos pasos: primero, las células se identifican mejorando las características de la imagen de una escala de longitud típica mediante la aplicación de un filtrado de paso de banda, seguido de un umbral automático. En el segundo paso, BacStalk detecta los tallos conectados mediante la realización de operaciones morfológicas locales. En detalle, se construye un caparazón alrededor de cada celda, que consta de todos los píxeles que rodean la celda y que se colocan a una distancia definida por el usuario de la celda. Los valores de intensidad de todos los píxeles de este caparazón luego se escanean en busca de diferencias sutiles de intensidad (ya sea en la imagen de contraste de fase o de campo brillante o en cualquier canal de fluorescencia deseado) que podrían indicar un punto de unión del tallo potencial (Figura 1a). Para cada píxel de esta capa, la intensidad se compara con la intensidad media de todos los píxeles de esta capa, calculando la z-puntaje (es decir, el número de desviaciones estándar que un valor de intensidad se desvía de la intensidad media del proyectil). Si el mas bajo z-puntaje en imágenes de contraste de fase (o el más alto z-puntaje en imágenes de fluorescencia) excede un valor de umbral definido por el usuario, el píxel con este z-score se define como el punto de unión del tallo. La columna vertebral del tallo se genera luego a través de la dilatación repetida comenzando desde el punto de unión del tallo, buscando otros píxeles en un rango definido por el usuario que estén nuevamente debajo (o arriba, para fluorescencia) de un definido z-puntaje (Figura 1a). Por lo tanto, si está presente, el tallo se construye desde el punto de unión del tallo hacia afuera de una manera direccional. Si se encuentra otra célula durante la propagación del tallo, tanto la célula inicial como la contraparte tocada se definen como relacionadas y pueden tratarse como una estructura conectada (célula madre y yema) durante el seguimiento celular y el análisis posterior. La célula más grande se define, por la presente, como célula madre. En células y brotes de bacterias en ciernes con pedúnculo, la polaridad celular está claramente definida por el punto de unión del tallo y se indica con un punto amarillo al final del eje medial de la célula (Figura 1a). En el caso de las células enjambres sin tallo, la identidad del polo celular se adivina en función de la morfología celular o la existencia de características de intensidad, pero también se puede cambiar de forma interactiva manualmente en cualquier etapa del análisis. Como la asignación inequívoca de tallos en grupos de múltiples células suele ser imposible, los grupos de células se reconocen automáticamente y se excluyen de un análisis posterior. El enfoque descrito anteriormente es relativamente insensible a la iluminación de fondo desigual en las imágenes de microscopía y no requiere ninguna corrección de fondo.

Como alternativa al algoritmo de detección de células incorporado de BacStalk, BacStalk también puede importar las máscaras de segmentación de otros paquetes de software, lo que permite el uso de las funciones de análisis de BacStalk para imágenes con requisitos de segmentación personalizados. El proceso de detección de células y tallos de BacStalk es relativamente rápido y requiere aproximadamente 4,5 s por imagen (para 40 células en una imagen de 2048 × 2048 píxeles utilizando una computadora con un procesador Intel i7-6700K y 16 GB de memoria). En equipos con varios núcleos de CPU, BacStalk puede paralelizar las tareas informáticas para reducir el tiempo de procesamiento y facilitar el análisis de alto rendimiento. Los análisis por lotes de imágenes pueden beneficiarse de la posibilidad de diferenciar entre diferentes cepas o condiciones de crecimiento utilizando la opción de metadatos personalizados durante la importación de imágenes, lo que permite el análisis de múltiples cepas al mismo tiempo utilizando la misma configuración.

Para probar la funcionalidad de BacStalk, primero comparamos los resultados de su algoritmo de segmentación celular con el de MicrobeJ (Ducret et al., 2016) y Oufti (Paintdakhi et al., 2016) cuantificando las dimensiones celulares de 105 C. crescentus células detectadas por cada uno de estos paquetes de software (Tabla de información de apoyo S1). Este análisis mostró algunas diferencias específicas del algoritmo de segmentación en los valores de longitud y ancho de celda, pero desviaciones estándar muy similares.

Luego probamos BacStalk en varias especies de bacterias acechadas para verificar la robustez del algoritmo de detección de tallos. El algoritmo funcionó bien para C. crescentus (Figura 2a), Brevundimonas aveniformis (Figura 2b) y H. neptunio (Figuras 3 y 4). Para examinar la precisión del algoritmo de detección de tallos, utilizamos un C. crescentus cepa en la que los segmentos terminales del tallo están marcados con fluorescencia por una versión etiquetada con GFP de la proteína StpX específica del tallo (Hughes et al., 2010). Al correlacionar los tallos identificados por BacStalk en base a imágenes de contraste de fase en presencia de señales StpX-GFP (Figura S1 de información de apoyo), observamos que los tallos se identificaron correctamente para el 91% de las células (n = 616) sin modificar el valor predeterminado configuración de segmentación de imágenes, lo que indica que el algoritmo de detección de tallos funciona de manera robusta. La mayoría de las identificaciones erróneas se produjeron en celdas que estaban ligeramente desenfocadas (solo las celdas que estaban considerablemente desenfocadas se habían excluido del análisis manualmente) o en los casos en que el tallo era muy pequeño, claramente por debajo de los 5 píxeles definidos como mínimo predeterminado. longitud del tallo. Para investigar si los tallos de diferentes longitudes se detectan de manera confiable, obtuvimos imágenes C. crescentus células cultivadas en presencia o ausencia de fosfato, ya que se ha demostrado previamente que C. crescentus las células alargan fuertemente su tallo tras la inanición de fosfato (Schmidt y Stanier, 1966). El análisis de 500 células cultivadas en estas dos condiciones verificó que los tallos de las células cultivadas con fosfato eran de hecho considerablemente más cortos y menos variables en longitud (1,47 ± 0,75 µm) que los tallos de células privadas de fosfato (6,45 ± 2,90 µm) (Figura 2a) . Curiosamente, encontramos que en la última condición la longitud de la célula se correlaciona al menos parcialmente con la longitud del tallo. La detección de tallos también funciona en condiciones de muy bajo contraste en las que el tallo es difícil de distinguir del fondo a simple vista, como se observa generalmente en B. aveniformis (Figura 2b). Para esta especie, BacStalk identifica el 60 ± 5% de todas las células como acechadas (norte = 750, de cinco experimentos independientes), que es comparable a la medición de la fracción de población acechada de 46 ± 4% informada por un estudio anterior (Curtis, 2017). Además, nuestro análisis mostró que las células con tallos presentan en promedio cuerpos celulares ligeramente más largos (2,47 ± 0,56 µm) que las células sin tallos (2,05 ± 0,45 µm).

Además de los tallos, el algoritmo de detección de tallos también puede identificar otros apéndices de una sola célula polar, como los flagelos (Figura 2c). Dado que estas estructuras a menudo no son visibles en imágenes de campo claro o contraste de fase, el algoritmo se puede aplicar a apéndices teñidos visualizados por microscopía de fluorescencia. BacStalk fue capaz de detectar flagelos de Shewanella putrefaciens células que fueron marcadas con un tinte fluorescente (Figura 2c) (Kühn et al., 2017). Este análisis mostró que las longitudes de los flagelos varían considerablemente entre las células (de 0,33 a 6,88 µm, con una media de 3,35 ± 1,87 µm).

En el caso de la bacteria en ciernes acechada H. neptunio, BacStalk puede distinguir con precisión entre células madre, tallos y brotes para el tipo salvaje, así como para mutantes con morfología alterada (Figura 3). Por lo tanto, BacStalk cuantifica los fenotipos de una manera más precisa, detallada y rápida que el estándar actual en el campo (es decir, cuantificación vía mediciones manuales). El poder de tales cuantificaciones automatizadas queda ilustrado por el hecho de que el fenotipo morfológico de un H. neptunio Δpbp1x mutante (es decir, una mayor longitud de las células en gemación), que se describió cualitativamente antes (Cserti et al., 2017), ahora se puede cuantificar con precisión (Figura 3): la longitud combinada de las células madre y los tallos fue de 3,2 ± 1,3 µm de largo para Δpbp1x células y 2,7 ​​± 0,7 µm para células de tipo salvaje (ambas norte = 183). El análisis cuantitativo de BacStalk también proporcionó nuevos conocimientos adicionales. Por ejemplo, BacStalk reveló que la distribución de las longitudes de los tallos se amplía drásticamente en el Δpbp1x fondo y que el área de la yema se correlaciona parcialmente con la longitud total de la entidad concatenada de la célula madre, el tallo y la yema.

La combinación de características que ofrece BacStalk también facilita análisis detallados de experimentos de localización de proteínas basados ​​en señales de fluorescencia. Con este fin, BacStalk puede detectar el foco más brillante dentro de las celdas después de aplicar un filtro medio de 3 por 3 a la celda. A continuación, se mide la distancia al polo de este punto de fluorescencia más brillante a lo largo del eje medial. De forma predeterminada, no se realiza ninguna normalización de fluorescencia ni sustracción de fondo durante el análisis, pero el usuario puede elegir entre restar el fondo o normalizar la fluorescencia durante la visualización de datos. Para visualizar la localización de proteínas, BacStalk puede mostrar perfiles de intensidad combinados de la célula madre, el tallo y la yema, que pueden alinearse de acuerdo con las ubicaciones de los hitos celulares relevantes y clasificarse por cualquier propiedad medida de la estructura combinada (Figura 1b). Para generar perfiles de intensidad a lo largo del eje medial de una celda, BacStalk ajusta una malla de líneas espaciadas uniformemente en cada celda perpendicular a su eje medial, similar a Oufti (Paintdakhi et al., 2016). Para cada punto en el eje medial, se calcula la media o máxima de los valores de intensidad a lo largo de la línea correspondiente para obtener perfiles de intensidad suaves a lo largo del eje medial de la célula. Además, la malla se utiliza para realizar una transformación del sistema de coordenadas del eje medial con el fin de reorientar las celdas curvas de modo que puedan colocarse una al lado de la otra en demografías y quimógrafos bidimensionales (2D) para conservar la información espacial completa de los patrones internos. las celdas (Figuras 2a, 4b, c, 5b). Estos demográficos y quimógrafos 2D visualizan de forma intuitiva los datos de las imágenes y proporcionan información adicional importante en los casos en que la proteína fluorescente de interés se encuentra lejos del eje medial. Además, los perfiles de intensidad de fluorescencia se pueden normalizar y corregir el fondo por entidad celular.

BacStalk proporciona un entorno de visualización de datos muy flexible para experimentos de localización de proteínas. Los demográficos y quimógrafos 1D y 2D, el uso de perfiles de intensidad concatenados, la posibilidad de alinear estos perfiles en función de los criterios morfológicamente relevantes (p. Ej., Alineación en la unión entre la célula madre y el tallo, o flagelo, o en un polo específico ), y la opción de mostrar subconjuntos específicos de células (es decir, células enjambre, células acechadas sin brotes y células en gemación) son fundamentales para comprender el comportamiento de localización de proteínas en diferentes tipos de células en una población mixta. Esto se ejemplifica mediante un análisis de la dinámica de localización de la histidina quinasa CckA en H. neptunio utilizando BacStalk, que verificó la localización dependiente del ciclo celular previamente observada de manera cualitativa (Leicht et al., 2020). BacStalk proporciona un medio para trazar automáticamente la localización intracelular de CckA-Venus en demografías por separado para células enjambres, células acechadas sin brotes y células en gemación (Figura 4a). Todos los demográficos se ordenaron de acuerdo con la longitud de las estructuras celulares: el primer demográfico se clasifica por la longitud de la célula, el segundo por las longitudes combinadas de la célula madre y el tallo, y el tercero por las longitudes combinadas de la célula madre. tallo y yema. Las células se alinearon en el centro de la célula, la unión célula-tallo o el polo de la yema opuesto al tallo, respectivamente.

Además de sus poderosas herramientas de visualización, BacStalk incluye características especiales para rastrear células individuales en experimentos de lapso de tiempo y para analizar la localización dinámica de proteínas durante la gemación terminal del tallo. En los experimentos de lapso de tiempo, las celdas que muestran una superposición de posición en fotogramas consecutivos se identifican como la misma celda y se guarda la información de linaje de las celdas. Como ejemplo, volvimos a investigar la localización dependiente del ciclo celular de la guanilato ciclasa PleD en H. neptunio células (Figura 4b). El análisis de BacStalk proporciona una cuantificación detallada del patrón de localización específico del tipo de célula que anteriormente solo se había descrito de manera cualitativa (Jung et al., 2015). En las células enjambre, PleD-Venus se localiza en el polo flagelado de la célula madre. En las células con tallo, el foco PleD-Venus también tiende a ubicarse en el polo flagelado de la célula madre, mientras que en la mayoría de las células en gemación se detecta en la yema en el polo opuesto al tallo. Aunque la reubicación de PleD desde el polo antiguo de la célula madre al polo antiguo de la célula hija se puede rastrear en un quimógrafo 1D, el quimógrafo 2D también facilita la correlación de la reubicación de proteínas con la morfogénesis celular (por ejemplo, formación de yemas). La cuantificación de la localización de PleD-Venus en diferentes tipos de células también es posible determinando y trazando su distancia desde el antiguo polo de la célula madre (Figura 4b).

Para investigar los patrones de múltiples señales de fluorescencia en diferentes longitudes de onda simultáneamente, BacStalk puede crear quimógrafos (o demografías) multicanal: el quimógrafo en la Figura 4c muestra H. neptunio células sometidas a replicación, en las que (a) el componente replisoma DnaN está marcado con la proteína fluorescente Venus y (b) se sigue el origen de replicación con la ayuda de una fusión ParB-Cerulean, que se une parS sitios cercanos al origen cromosómico de replicación (Jung et al., 2019). Este enfoque de dos colores corrobora la sincronización relativa del movimiento replisoma y la segregación de origen revelada previamente por el análisis manual (Jung et al., 2019), y verifica que el origen de la replicación ya se mueve hacia la yema antes de que se complete la replicación (como se visualiza mediante la deslocalización de DnaN-Venus). Además, la visualización del quimógrafo 2D identifica claramente ambas horquillas de replicación como entidades separadas (focos de DnaN distintos dentro de la primera celda en el quimógrafo, Figura 4c). Como en la Figura 4b, determinamos la distancia de los focos ParB-Cerulean y DnaN-Venus al polo viejo de la célula madre. Usando esta representación, la Figura 4c confirma que el origen de replicación (marcado por ParB-Cerulean) solo se transfiere a la yema una vez que se ha alcanzado un cierto tamaño de yema y que el proceso de movimiento del origen a través del tallo debe ser rápido, ya que el origen fue capturado dentro del tallo en solo

1% de todas las células que se analizaron (4 de 378 células).

BacStalk proporciona varias herramientas de análisis que simplifican enormemente la exploración y visualización de datos. Los usuarios pueden agregar mediciones de celda personalizables y se enumeran, junto con todos los demás parámetros medidos, en una interfaz que permite el filtrado y la identificación de subpoblaciones específicas de interés. Los datos medidos para cada celda se pueden exportar a varios formatos estándar. Similar a MicrobeJ (Ducret et al., 2016), todas las gráficas creadas con BacStalk son interactivas: al hacer clic en un punto de datos en una gráfica de dispersión (Figuras 2–4-2–4) o en un perfil de fluorescencia en un demo- o quimógrafo (Figuras 4 y 5) se muestra la celda subyacente, de modo que se puedan evaluar los datos de imagen sin procesar y el fenotipo correspondientes. Además, las imágenes de salida de BacStalk que muestran los resultados de los análisis o las imágenes de las células están listas para publicación: todas las imágenes de las Figuras 2–5-2–5 solo se han editado mínimamente después de su exportación desde BacStalk (p. Ej., Cambiando el color de fondo , recorte o edición menor de los ejes). BacStalk ofrece la posibilidad de obtener todos los datos brutos subyacentes, de modo que puedan utilizarse para análisis posteriores con otras herramientas de software, como se describe en la documentación en línea de BacStalk.

Las características de BacStalk que se ejemplifican anteriormente para bacterias acechadas y flageladas, en particular su interactividad, su facilidad de uso (consulte la Figura 6 para obtener una descripción del flujo de trabajo), la generación con un solo clic de kimógrafos y demografías 1D y 2D, y la capacidad de generar imágenes editables listas para publicación, también son aplicables a la investigación de organismos modelo clásicos no acechados, como E. coli y M. xanthus (Figura 5). La generación de demografías 2D interactivas es una característica que actualmente no está disponible en ningún otro paquete de software de análisis de imágenes. Su utilidad se demuestra mediante un análisis de la dinámica de localización de PadC marcado con YFP, una proteína adaptadora que conecta la ATPasa ParA de partición cromosómica con polímeros de bactofilina localizados subpolarmente en M. xanthus (Lin et al., 2017). Aquí, la representación 2D proporciona información importante sobre la disposición espacial de los filamentos dentro de la celda que no se puede apreciar en demografías 1D estándar (Figura 5B). Cabe señalar que para las especies acechadas y no acechadas, las imágenes solo deben tener una densidad celular de baja a moderada, ya que no se implementa ninguna función de división celular en la versión actual de BacStalk.

BacStalk fue escrito en MatLab para hacer uso de sus capacidades de edición y personalización de figuras integradas para generar gráficos vectoriales listos para publicación, y para proporcionar a los usuarios avanzados un fácil acceso a los datos procesados ​​subyacentes. Sin embargo, nuestro principal objetivo en el diseño del software era hacerlo lo más fácil de usar posible y aplicable en el primer intento sin ningún conocimiento de programación. Esta facilidad de uso se logra mediante la potente y rápida interfaz gráfica de usuario de BacStalk (Figura 6). Además, el usuario cuenta con una documentación completa y tutoriales en video detallados, que están disponibles en línea en https://drescherlab.org/data/BacStalk junto con el código fuente abierto y una versión precompilada independiente que no requieren una licencia de MatLab.

Overall, BacStalk facilitates high-throughput, in-depth, single-cell image analysis of stalked and non-stalked bacteria. It thus enables the study of many interesting and environmentally relevant bacteria as novel model organisms, provides tools for more detailed analyses of established model organisms, and therefore, constitutes an indispensable tool for bacterial cell biology and physiology.


Resultados

Training and validating a deep neural network (DeepLoc) for classifying protein subcellular localization in budding yeast

Toward our goal of building a transferable platform for automated analysis of high-content microscopy data, we constructed a deep convolutional neural network (DeepLoc) to re-analyze the yeast protein localization data generated by Chong et al (2015). We provide a brief overview of convolutional neural networks in Fig EV1 and refer readers to LeCun et al ( 2015 ) and Goodfellow et al ( 2016 ) for a more thorough introduction. To make a direct comparison of DeepLoc and ensLOC performance, we decided to train our network to identify and distinguish the same 15 subcellular compartments identified using the SVM classifiers (Fig 1A). We implemented and trained a deep convolutional network in TensorFlow (Abadi et al, 2015 ), Google's recently released open-source software for machine learning (Rampasek & Goldenberg, 2016 ). In DeepLoc, input images are processed through convolutional blocks in which trainable sets of filters are applied at different spatial locations, thereby having local connections between layers, and enabling discovery of invariant patterns associated with a particular class (e.g., nucleus or bud neck). Fully connected layers are then used for classification, in which elements in each layer are connected to all elements in the previous layer. Our network arranges 11 layers into eight convolutional blocks and three fully connected layers, consisting of over 10,000,000 trainable parameters in total (more detail in 4, network architecture shown in Fig 1B). To ensure the validity of our comparative analysis, we trained DeepLoc on a subset of the exact same manually labeled cells used to train ensLOC (Chong et al, 2015 ), totaling

22,000 images of single cells. However, instead of training a classifier on feature sets extracted from segmented cells, we trained DeepLoc directly on a defined region of the original microscopy image centered on a single cell, but often containing whole, or partial cells in the periphery of the bounding box. The use of these “bounding boxes” removes the sensitivity of the image analysis to the accuracy of segmentation that is typical of other machine learning classifiers. Despite using a substantially smaller training set than was used to train ensLOC (Chong et al, 2015 ) (

70% fewer cells), we found that training a single deep neural network using a multi-class classification setting substantially outperformed the binary SVM ensemble when assigning single cells to subcellular compartment classes (71.4% improvement in mean average precision, Fig 1C).

Figure EV1. Illustration of convolutional neural networks

  1. Illustration of how convolutional neural networks learn to identify location invariant patterns. The input shown is an illustration of a yeast cell with a nuclear periphery protein localization. The input is convolved with convolutional filters, each representing a unique pattern that is learned during training. When the pattern of a filter matches the input at some location, the corresponding feature map is activated at that location. Pooling layers smooth the activations in the feature maps by calculating an aggregation (such as the maximum) over adjacent elements, effectively down sampling the feature maps. Pooling layers reduce the number of parameters in the model and also contribute to the location invariance of network. The fully connected layers in the network are typically responsible for classifying the activations extracted by the convolutional layers into the desired output categories. Each element in the final feature map is connected to each element in the first fully connected layer. The final activations in the network are passed through an activation function, such as the softmax function, to produce a distribution over output classes.
  2. An example of computation carried out by a convolutional filter. The calculations below the figure illustrate that the activation in top left corner is calculated by the weighted sum of its receptive field weighted by the convolutional filter. In convolutional networks, the values in the convolutional filters are parameters that are updated during training to reduce the networks prediction error on labeled samples from the training set.
  3. An example of computation carried out by max pooling layers. The calculations below the figure illustrate that the activation in the top left corner is the maximum over the elements in its receptive field. These layers do not have parameters and subsample the feature maps to reduce the number of parameters in the network and introduce more spatial invariance.
  4. An example of computation carried out by the fully connected layers. The calculations below the figure illustrate that the activation is the weighted sum of the input elements. Once again the weights themselves are the parameters learned by the network during training. A non-linear activation function is typically applied to this activation (as well as activations in other layers in the network). The non-linear activation functions enable the network to learn non-linear mappings between layers, and ultimately enable the network to approximate complex non-linear mappings between the input data and output classes. In the final layer, the sigmoid (σ) or softmax functions are used to produce distributions over the output classes for binary and multi-class problems, respectively.

Figure 1. DeepLoc input data, architecture, and performance

  1. Example micrographs of yeast cells expressing GFP-tagged proteins that localize to the 15 subcellular compartments used to train DeepLoc.
  2. Architecture of DeepLoc illustrating the structure of typical convolutional blocks, max pooling, and fully connected layers. The flowchart focuses on a sample image with a GFP fusion protein that localizes to the nuclear periphery (input). The input is processed through a series of repeating convolutional blocks (orange) and max pooling layers (yellow). In the convolutional block, the activation images illustrate network representations of the sample image (input). The red box and dashed/solid lines illustrate the connections within convolutional layers. Max pooling (yellow blocks) down sample activations across spatial dimensions. After repeated processing through convolutional blocks and max pooling, three fully connected layers are used for classification (green). The last layer (output) represents the distribution over localization classes.
  3. Average precision of DeepLoc (red bars) and ensLOC (Chong et al, 2015 ) (blue bars) on classifying a single cell test set (norte = 4,197 samples). The cell compartment is indicated on the X-axis and the average precision (area under the precision recall curve) on the y-eje. The dashed lines indicate the mean average precision across the localization classes (0.49 for ensLOC (Chong et al, 2015 ) and 0.84 for DeepLoc).
  4. Average precision of DeepLoc (red bars) and ensLOC (Chong et al, 2015 ) (blue bars) on assigning localizations to images of GFP fusion proteins with single or multiple localization classes according to manual annotations by Huh et al ( 2003 ) (norte = 2,833 proteins). The cell compartment is indicated on the X-axis and the average precision (area under the precision recall curve) on the y-eje. The dashed lines indicate the mean average precision across the localization classes (0.70 for ensLOC (Chong et al, 2015 ) and 0.84 for DeepLoc).

The ensLOC method relied on aggregating across cell populations to achieve > 70% precision and recall in comparison with manually assigned protein localizations (Huh et al, 2003). To assess the performance of DeepLoc in a similar way, we aggregated cell populations by computing the mean for each localization category across single cells containing the same GFP fusion protein. Again, DeepLoc outperformed the binary classifier ensemble across all localization categories (Fig 1D), achieving a mean average precision score (area under precision recall curve) of 84%, improving on the classification accuracy of ensLOC by almost 15% with substantially less training input.

Visualizing network features

Having demonstrated the improved performance of DeepLoc over the analysis standard, we next investigated which components of our network were contributing to its success. One of the hallmark differences between deep networks and traditional machine learning is that the network's learned representations are better at distinguishing between output classes than extracted feature representations used by other classifiers. To address whether this difference was relevant in our experiments, we visualized the activations of the final convolutional layer in 2D using t-distributed stochastic neighbor embedding (t-SNE) (Maaten & Hinton, 2008 ) for a single cell test set (Fig 2A). t-SNE is a popular non-linear dimensionality reduction algorithm often used to visualize the structure within high dimensional data in 2D or 3D space. Similarly, we visualized the CellProfiler (Carpenter et al, 2006 )-based features used to train the ensLOC SVM ensemble (Chong et al, 2015 ) on the exact same test set of single cell images (Fig 2B). We observed that using the DeepLoc representations, cells appeared to be better arranged in accordance with their localization classes, suggesting that DeepLoc's convolutional layers learn to extract features that are meaningful in the distinction of protein subcellular localization. These results suggest that an important component of the improved performance of DeepLoc reflects the network's ability to learn feature representations optimized directly on pixel values for a specific classification task as opposed to training classifiers on static feature sets.

Figure 2. Visualizing DeepLoc features

  1. 2D t-SNE (Maaten & Hinton, 2008 ) visualization of activations in the last convolutional layer of DeepLoc for 2,103 single cells in the test set. We computed the maximum activation across the spatial coordinates for each of the 256 features prior to fitting t-SNE.
  2. t-SNE visualization of CellProfiler features extracted for the same cells. We normalized the 313 CellProfiler features to be in the range [0,1]. In these plots, each circle represents a single cell circles are colored by their localization as determined by manual annotation (Huh et al, 2003 ) (color code to the right).
  3. Filters and activations in the last convolutional layer of DeepLoc for sample input images containing GFP fusion proteins that localize to the bud neck (top), Golgi (middle), or nuclear periphery (bottom). The convolutional filter visualizations were generated by activation maximization (Yosinski et al, 2015 ). The maximally activated filter for each input is highlighted with a red box (bud neck at the top, Golgi in the middle, and nuclear periphery at the bottom). For the bud neck sample, the input patch, filter, and activation are presented together to visualize how features are activated in DeepLoc. Other input patches that also maximally activate the selected feature are displayed.
  4. Regularized activation maximization (Yosinski et al, 2015 ) of output layers based on inputs initialized to leftmost column (Initialization). Different localization classes (compartment labels at the top of the images) are grouped by their morphological similarity (labels at bottom of images).

Next, we wanted to display these features to assess how they differ between compartment classes. To do this, we visualized activations and patterns extracted in the last convolutional layer of the network (layer 8) for specific input examples (Golgi, bud neck, nuclear periphery, Fig 2C, 4). Different input patterns activated specific features in deeper convolutional layers (convolutional activations, Fig 2C), with representations being combined in the fully connected layers from the convolutional feature maps, ultimately producing unique signals for different input patterns. These signals differ by localization class in a biologically interpretable way. For example, images containing punctate subcellular structures like the Golgi (top panels, Fig 2C) activated similarly patchy, dispersed features, while images containing discrete compartments like the bud neck (middle panels, Fig 2C) activated features that appear localized and linear.

We extended our analysis by applying activation maximization (Yosinski et al, 2015 ) to visualize input patterns that maximally activate each output class (Fig 2D, see 4). This technique works by keeping the parameters of the network constant while updating input pixel values to maximize the activation of specific features. In our implementation, the network iteratively updates an input with a randomly initialized green channel to produce an example “input” that resembles a cell with a GFP fusion protein that localizes to the maximally activated output class. The visualizations produced by the network for different output categories were convincing in their similarity to real compartment architecture. For example, visualizations for compartments such as the actin cytoskeleton, peroxisomes, and the spindle pole body were all punctate and dispersed (Fig 2D). Although these general visualizations may place compartments in various locations in the cell due to variable compartment locations in different images (e.g., spindle pole), the general morphology remains biologically interpretable. These results further justify the use of deep learning for classifying protein subcellular localization.

Using DeepLoc to identify protein dynamics in response to mating pheromone

Next, we assessed the ability of DeepLoc to classify images of yeast cells generated in different microscopy screens from those that served as training input to the network. We opted to analyze images from a screen generated by our group at the same time and on the same HTP confocal microscope as our previously published wild-type screens (Chong et al, 2015 ), but that ensLOC had been unable to accurately classify. In this genome-wide screen, haploid MATa cells were exposed to the mating pheromone α-factor, causing cell cycle arrest in G1 phase and polarized growth of a mating projection (schmoo) (Merlini et al, 2013). We used DeepLoc to analyze 16,596 images of the ORF-GFP collection acquired after exposure to mating pheromone for 40, 80, and 120 min. Images and analysis are available on the Cyclops Database (http://cyclops.ccbr.utoronto.ca). We reasoned that a pheromone response time course would be a challenging test case for DeepLoc, due to the dramatic changes in cell morphology associated with α-factor treatment. DeepLoc produced reasonable protein classifications for single cells within hours, without the need for additional, non-wild-type training, while re-implementing an SVM ensemble would have necessitated weeks of training and optimization.

We identified 297 proteins (Table EV1) whose localization changed significantly in response to α-factor using Welch's t-test to score localization changes and a mixture model to identify significance (see 4). The 100 proteins demonstrating the most substantial localization changes were significantly enriched for proteins with annotated roles in conjugation and sexual reproduction (Gene Ontology bioprocess PAG & lt 0,01). This subset was also enriched for proteins required for cell fusion (e.g., Fus1, Fus2, Fus3, PAG < 0.01), nuclear fusion during mating (e.g., Prm3, Fig2, Kar5, PAG < 0.01), and polarized growth of the mating projection (e.g., Bni1, Pea2, Cdc24, PAG & lt 0,05). DeepLoc's ability to identify the movement of proteins that are already implicated in the mating response program serves to validate our method for detecting biologically meaningful results.

To do this, in addition to the localization measurements calculated by DeepLoc, we also extracted pixel intensity measurements as a metric for protein abundance (Tkach et al, 2012 Breker et al, 2013 Chong et al, 2015 ) (Table EV2). In total, we detected 82 proteins whose abundance changed 2-fold or more in response to pheromone, with 75 proteins increasing in abundance and seven proteins decreasing in abundance. Although there are minimal data available for protein abundance changes in α-factor, we compared our abundance measurements to gene expression changes and found positive correlations that are largely driven by the strongest hits (Fig EV2). While unrelated to the localization analysis by DeepLoc, this evaluation of protein abundance further validates the effectiveness of our screening protocol it also provides a complementary overview of proteomic responses to those made by Chong et al ( 2015 ) in the Cyclops database.

Figure EV2. Correlation of protein abundance measurements with gene expression data in response to α-factor treatment

  • A–C. In these plots, only proteins with ∂PL > 1 in at least one time-point are compared to corresponding gene expression changes from three different data sources. In each instance, genes demonstrating a substantial increase in expression as well as protein abundance are indicated on the plots. Comparison to gene expression microarray data from (A) Pramila et al ( 2006 ), (B) Spellman et al ( 1998 ), and (C) Roberts et al ( 2000 ).

Next, we wanted to display a quantitative snapshot of these proteomic responses to α-factor treatment similar to those previously constructed to illustrate protein movement after treatment with rapamycin, hydroxyurea, or the deletion of RPD3 (Chong et al, 2015 ). We displayed proteins with the most substantial localization changes (t-test statistic with magnitude > 10) in a flux network, indicating if these proteins changed in abundance as well (Fig 3A). As previously reported (Chong et al, 2015 ), after exposure to an environmental perturbation, we observe that proteins change in abundance or localization but rarely in both. Representative micrographs illustrate interesting localization/abundance changes shown in the flux network (Fig 3B). Importantly, DeepLoc identified novel movements of proteins already implicated in the mating response, such as the movement of Kss1, a MAPK that functions primarily to regulate filamentous growth, from the nucleus to the cytoplasm. We also identified the appearance of cell fusion regulators Prm1, Prm2, and Fus1 at the vacuole, which presumably results from the endocytosis of these cell surface proteins. Importantly, DeepLoc also identified the known localization of Prm1 and Prm2 at the Schmoo/bud tip (Heiman & Walter, 2000 ), though this movement is not shown on the flux network as their localization at the vacuole is more substantial. Deeploc also identified changes in localization of a number of proteins that control bud site selection, including Bud2, Bud4, and Bud5, which presumably reflects the fact that pheromone signaling is controlling polarized growth and over-riding the bud site selection machinery.

Figure 3. Protein dynamics in response to mating pheromone

  1. Flux network (Chong et al, 2015 ) showing significant protein localization and abundance changes in response to the mating pheromone α-factor. Localization changes with t-scores above 10 are shown. Hubs represent cellular compartments, while nodes represent proteins. Nodes are colored to represent abundance changes for those proteins that are changing in both their localization as well as abundance. Edge thickness corresponds to the magnitude of the localization change score.
  2. Representative micrographs highlighting protein subcellular movements after treatment with α-factor. Group 1: proteins that move from the nucleus to the cytoplasm. Group 2: proteins that appear in the vacuole/vacuolar membrane. Group 3: proteins that are moving away from the spindle pole after treatment with α-factor.

In addition to these striking changes, DeepLoc also identified more subtle or partial localization changes. For example, Nvj1 localized primarily to the spindle pole in untreated cells, but was also present at the nuclear periphery, as previously reported, where it performs a role in the formation of nucleus-vacuole junctions (Pan et al, 2000). After treatment with α-factor, DeepLoc captured Nvj1's movement away from the spindle pole, and its enhanced localization at the nuclear periphery. A number of proteins with no or poorly annotated roles also show clear localization changes, implicating these proteins in the pheromone response. For example, an uncharacterized protein Yor342c moved from the nucleus to the cytoplasm after α-factor treatment, a relocalization that has been previously noted in response to DNA replication stress (Tkach et al, 2012 ).

Assessing the transferability of DeepLoc to new and different microscopy datasets

With the goal of generating an automated image analysis system that can be broadly implemented by the budding yeast community, we used transfer learning (Yosinski et al, 2014 ) to classify image sets that significantly diverge from the images used to train DeepLoc. First, we completed a new genome-wide screen in standard cell culture conditions, which we called wild-type (WT)-2017, using the budding yeast ORF-GFP fusion collection (Huh et al, 2003). To differentiate this image set from other datasets analyzed by DeepLoc, screens were performed using a new HTP confocal microscope, and strains contained different red fluorescent markers (See 4, cropped cell images available at: http://spidey.ccbr.utoronto.ca/

okraus/DeepLoc_full_datasets.zip). We incorporated five new localization classes, many of which are punctate (e.g., Cytoplasmic foci, eisosomes, and lipid particles) and likely difficult to differentiate using traditional machine learning approaches, explaining their absence from ensLOC (localization classes shown in Fig 4A). We transferred and fine-tuned DeepLoc to the WT-2017 dataset using an increasing amount of training input per class, and contrasted the performance of this network with one trained from scratch using the same amount of training input (See 4 Fig 4B). Remarkably, transfer learning using DeepLoc achieved an average accuracy of 62.7% when fine-tuned with only five additional supplemental training cells per class (Fig 4C, yellow highlight), with several localization categories achieving accuracies above 80% (Fig 4D) this is a 63.4% improvement in performance using transfer learning over training from scratch (Fig 4E). The classes with significant errors are mostly the new punctate localizations, including cytoplasmic foci, and lipid particles, which are difficult to differentiate with only a few samples, and are still identified with 63.8% accuracy when merged with peroxisomes into one class.

Figure 4. Performance of DeepLoc after transfer learning

  1. Example micrographs from a screen of wild-type yeast cells expressing ORF-GFP fusion proteins. The images are of single cells expressing fusion proteins that localize to 20 unique output classes (colored green). The cells also express a bright cytosolic marker (FarRed colored blue), as well as a nuclear RFP fusion protein (colored red).
  2. Illustration of transfer learning. All layers except for the last layer (in red) are initialized to the network trained on the Chong et al ( 2015 ) dataset.
  3. Comparison of classification accuracy (y-axis) for different training set sizes (X-axis) when transfer learning is implemented using DeepLoc (red line) versus training a network from scratch (blue line). Error bars indicate the standard deviation of the accuracy based on five different samplings of the training set for each training set size. A yellow box highlights network versions that are referred to in (D and E).
  4. Confusion matrix for transfer learning the DeepLoc network trained on the Chong et al ( 2015 ) dataset to the new dataset with five samples per class. The intensity of the yellow color in each block of the matrix indicates the fraction of cells classified from each class predicted to be in a given class (scale bar to the right). Prediction accuracy for each class is indicated in brackets on the y-eje.
  5. Confusion matrix for training DeepLoc from random initializations with five samples per class.

Next, we used our transfer learning protocol to classify images generated by the Schuldiner laboratory using a different microscope and fluorescent markers (Yofe et al, 2016). Because these images were never intended for automated analysis, they contain many cells that are often clustered and overlapping. Also, bright field imaging was used to identify outlines of the cells, which do not express a fluorescent cytosolic marker (Fig 5A). Despite these significant differences, we were able to use transfer learning with DeepLoc (Fig 5B) to classify protein localizations in this dataset with an average accuracy of 63.0% after training with only 100 samples per class (Fig 5C). Classification accuracy with transfer learning ranged from 79% for the mitochondrial and “punctate” compartments to 41% for the bud compartment (Fig 5D). The availability of unique cell images for training varied by localization class, which likely affected accuracy in some cases (see 4, Table EV3). In contrast, performance was reduced for all classes when DeepLoc was trained from scratch (Fig 5E). Despite these classification errors, the performance of DeepLoc is a significant achievement given that these images have previously only been classified by manual inspection, and that the imaging protocols were highly divergent from those that are optimized for automated analysis.

Figure 5. Performance of DeepLoc for classifying images of cells expressing ORF-RFP fusion proteins collected for manual assessment

  1. Example micrographs from a screen of wild-type yeast cells expressing ORF-RFP fusion proteins (Yofe et al, 2016). The images are of single cells expressing ORF-RFP fusion proteins that localize to 10 unique output classes. The cells express a single RFP fusion protein of interest cell outlines are visualized in brightfield.
  2. Illustration of transfer learning. All layers except for the last layer (in red) are initialized to the network trained on the Chong et al ( 2015 ) dataset.
  3. Comparison of classification accuracy (y-axis) for different training set sizes (X-axis) when transfer learning is implemented using DeepLoc (red line) versus training a network from scratch (blue line). Error bars indicate the standard deviation of the accuracy based on five different samplings of the training set for each training set size. A yellow box highlights network versions that are referred to in (D and E).
  4. Confusion matrix for transfer learning the DeepLoc network trained on the Chong et al ( 2015 ) dataset to the new dataset with 100 samples per class. The intensity of the yellow color in each block of the matrix indicates the fraction of cells classified from each class predicted to be in a given class (scale bar to the right). Prediction accuracy for each class is indicated in brackets on the y-eje.
  5. Confusion matrix for training DeepLoc from random initializations with 100 samples per class.

Resultados

Overview of PLAST

PLAST can be generally applied to microscopy images of proteins labeled with fluorescent protein fusion tags, fluorophore-conjugated antibodies, or other labeling techniques. PLAST has five major steps: cell segmentation, feature extraction, protein localization profile (“P-profile”) construction, P-profile dissimilarity computation, and compartment mapping (Fig. 1A). First, we automatically segment cells from microscopy images. To avoid segmentation bias that may be introduced by protein-to-protein variations in expression levels [25], we do not use fluorescent signals from the labeled proteins. Instead, we have developed a segmentation algorithm based on differential interference contrast (DIC) illumination and fluorescent nuclear stains (Supplementary Fig. S1). Other segmentation algorithms based on fluorescent whole-cell stains [26] may also be used in this step.


Dynamics of the nuclear lamina as monitored by GFP-tagged A-type lamins

J.L. Broers, B.M. Machiels, G.J. van Eys, H.J. Kuijpers, E.M. Manders, R. van Driel, F.C. Ramaekers Dynamics of the nuclear lamina as monitored by GFP-tagged A-type lamins. J Cell Sci 15 October 1999 112 (20): 3463–3475. doi: https://doi.org/10.1242/jcs.112.20.3463

The behavior of chimeric proteins consisting of A-type lamins and green fluorescent protein (GFP) was studied to investigate the localization and dynamics of nuclear lamins in living cells. Cell line CHO-K1 was transfected with cDNA constructs encoding fusion proteins of lamin A-GFP, lamin Adelta10-GFP, or lamin C-GFP. In the interphase nucleus lamin-GFP fluorescence showed a perinuclear localization and incorporation into the lamina for all three constructs. Our findings show for the first time that the newly discovered lamin A 10 protein is localized to the nuclear membrane. The GFP-tagged lamins were processed and behaved similarly to the endogenous lamin molecules, at least in cells that expressed physiological levels of the GFP-lamins. In addition to the typical perinuclear localization, in the majority of transfected cells each individual A-type lamin-GFP revealed an extensive collection of branching intra- and trans-nuclear tubular structures, which showed a clear preference for a vertical orientation. Time-lapse studies of 3-D reconstructed interphase cells showed a remarkable stability in both number and location of these structures over time, while the lamina showed considerable dynamic movements, consisting of folding and indentation of large parts of the lamina. Fluorescence recovery after bleaching studies revealed a low protein turnover of both tubular and lamina-associated lamins. Repetitive bleaching of intranuclear areas revealed the presence of an insoluble intranuclear fraction of A-type lamins. Time-lapse studies of mitotic cells showed that reformation of the lamina and the tubular structures consisting of A-type lamins did not occur until after cytokinesis was completed.


Agradecimientos

We thank Bastian Oldenkott (Bonn), Esther Engelhardt (Cologne) and Florian Kotnik (Münster) for assistance with experimental optimisation, and Jörg Kudla (Münster) for access to the Leica SP5 confocal microscope. This work was supported by the Deutsche Forschungsgemeinschaft (DFG) through the Emmy-Noether programme (SCHW1719/1-1), the Research Training Group 2064 (‘Water use efficiency and drought stress responses: From Arabidopsis to Barley’), the priority program SPP1710 ‘Dynamics of thiol-based redox switches in cellular physiology’ (SCHW1719/7-1, ME1567/9-1) and a project grant (SCHW1719/5-1) as part of the package PAK918. The Boost Fund project ‘PlaMint’ of the Bioeconomy Science Center (BioSC) provided partial support. The scientific activities of the Bioeconomy Science Center were financially supported by the Ministry of Innovation, Science and Research within the framework of the NRW Strategieprojekt BioSC No. 313/323-400-002 13.


Abstracto

Polarizing cells extensively restructure cellular components in a spatially and temporally coupled manner along the major axis of cellular extension. Budding yeast are a useful model of polarized growth, helping to define many molecular components of this conserved process. Besides budding, yeast cells also differentiate upon treatment with pheromone from the opposite mating type, forming a mating projection (the ‘shmoo’) by directional restructuring of the cytoskeleton, localized vesicular transport and overall reorganization of the cytosol. To characterize the proteomic localization changes accompanying polarized growth, we developed and implemented a novel cell microarray-based imaging assay for measuring the spatial redistribution of a large fraction of the yeast proteome, and applied this assay to identify proteins localized along the mating projection following pheromone treatment. We further trained a machine learning algorithm to refine the cell imaging screen, identifying additional shmoo-localized proteins. In all, we identified 74 proteins that specifically localize to the mating projection, including previously uncharacterized proteins (Ycr043c, Ydr348c, Yer071c, Ymr295c, and Yor304c-a) and known polarization complexes such as the exocyst. Functional analysis of these proteins, coupled with quantitative analysis of individual organelle movements during shmoo formation, suggests a model in which the basic machinery for cell polarization is generally conserved between processes forming the bud and the shmoo, with a distinct subset of proteins used only for shmoo formation. The net effect is a defined ordering of major organelles along the polarization axis, with specific proteins implicated at the proximal growth tip.

SPECIAL ISSUE

This article is part of the Spatial and Temporal Proteomics special issue.


Expresiones de gratitud

The authors acknowledge the facilities of the Australian Microscopy & Microanalysis Research Facility at the Centre for Microscopy and Microanalysis, The University of Queensland, and the Australian Cancer Research Foundation (ACRF)/Institute for Molecular Bioscience (IMB) Dynamic Imaging Facility for Cancer Biology, established with funding from the ACRF. Professor Michael P. Rout supplied the initial mCherry nanobody vector series. Dr Andy Badrock supplied the vector backbones for the split-mVenus expression vectors. Professor Fred Meunier provided intellectual input into experimental design. We are particularly grateful to Associate Professor Brett Collins for advice on the GBP/split-YFP interaction.


Ver el vídeo: Detección de proteínas por medio de la reacción de Biuret (Septiembre 2022).


Comentarios:

  1. Ahriman

    Felicitaciones, tu idea es maravillosa

  2. Lang

    Pido disculpas, pero no podrías pintar un poco más en detalle.

  3. Morell

    Completamente comparto tu opinión. Me parece que es una buena idea. Estoy de acuerdo contigo.

  4. Kenyon

    No ha entendido todo.

  5. Heikki

    Cometes un error. Discutamos. Escríbeme en PM, hablaremos.

  6. Mikakazahn

    Considero que no estás bien.



Escribe un mensaje