¿Qué es un modo propio en el lenguaje común (puntos de bonificación si puede relacionarlo con el enfoque de análisis estadístico de acoplamiento para proteínas)?

Probablemente no soy la mejor persona en Quora para responder a esto, pero lo intentaré. Esta no es una pregunta fácil de responder en “lenguaje común”. Básicamente, estas cosas son matemáticas y es difícil entender la interpretación (y por qué la interpretación es buena) sin entender las matemáticas. Por eso, voy a suponer que tienes un fondo matemático bastante suficiente. Si nunca has visto algo como, [math] Ax = \ lambda v [/ math], esto podría ser difícil. Además, como solicitó una respuesta en un idioma común, voy a tratar de evitar cualquier matemática en mi respuesta.

Comenzaré abordando la primera parte. Considero que el “lenguaje común” significa que estás buscando una forma intuitiva de entender qué son los modos propios. Creo que los modos propios tienen un significado particular en física, pero no estoy familiarizado con él. Tomé una clase de análisis de datos y muchas veces usamos las palabras “eigenvector”, “mode” y “eigenmode” de manera intercambiable cuando comenzamos a hablar sobre cosas como PCA. En ese caso, realmente está buscando una explicación intuitiva de vectores propios. Esta es una pregunta común en el álgebra lineal y se ha cubierto un millón de veces en todas partes, así que no voy a tratar de explicar esto (ni podría hacer un mejor trabajo que otras personas). Personalmente, realmente no creo que la intuición sea algo que realmente puedas explicarle a alguien más, particularmente cuando superas dos o tres dimensiones, sino que se desarrolla a medida que trabajas las matemáticas. De todos modos, aquí hay algunos enlaces que creo que son geniales. [1] [2]

Eigen-cosas es bastante esencial para la variedad de análisis diferentes (por ejemplo, el análisis de sistemas de ecuaciones diferenciales o la reducción de dimensionalidad) por lo que definitivamente vale la pena aprender bien. Hay diferentes formas de interpretar vectores propios, pero la interpretación estadística es la más importante aquí. [3] [4] [5] Cuando observa los vectores propios de la matriz de covarianza, puede interpretar los vectores propios con los valores propios más grandes como los vectores que apuntan en la dirección de mayor varianza en los datos. En otras palabras, los vectores propios con los valores propios más grandes son aquellos en las direcciones que explican la mayor varianza .

La importancia de esto es que le permite “resumir” efectivamente los datos con muchos menos puntos de datos y le ayuda a decidir qué es lo más “importante”. Por ejemplo, puede decidir que el vector propio que explica [matemática] 90 \% [ / math] de la varianza es más importante que el eigenvector que explica [math] 1 \% [/ math] de la varianza y puedes elegir mirar solo a esa. * Si pones todos los vectores propios juntos en una matriz y construyó una matriz de correlación, las correlaciones entre estos vectores propios serían cero. En cierto sentido, los vectores propios transforman los datos en un espacio donde todos los datos están correlacionados (tenga en cuenta que esto no significa que sean estadísticamente independientes ). Otra forma de pensar es que eliminó toda la redundancia de sus datos. En el análisis de componentes principales, los vectores propios son los “componentes principales”.

Ahora, ¿cómo se relaciona todo esto con SCA? Este es el único documento de SCA que puedo encontrar que menciona los modos propios, así que espero que esto sea a lo que te refieres. [6] El principal fundamental detrás de SCA es la “matriz SCA”, que básicamente es solo una matriz de correlación de los residuos en una alineación de secuencia múltiple ponderada por la distribución de aminoácidos en ese sitio. Esto le permite determinar qué sitios están evolucionando. Desafortunadamente, la mayoría de estas correlaciones no son relevantes desde el punto de vista funcional y, principalmente, son solo ruido de algún tipo. [7] Una forma de superar este problema se detalla en [7]. Básicamente, encuentran los autovalores / vectores propios de la matriz SCA, aleatorizan el MSA y observan qué valores propios cambian mucho. Aquellos que sí corresponden a autovectores importantes, aquellos que no corresponden al ruido. Esos autovectores importantes se pueden usar para producir una matriz SCA “limpia” que identifica grupos de residuos coevolving. Los autores interpretan estos grupos como “sectores” proteicos, que ya no discutiré a menos que me lo pidan.

* Sería negligente si no señalara que esta suposición, aunque esencial para todos estos tipos de análisis, no es necesariamente buena. La varianza no siempre implica importancia para el sistema en cuestión. Por ejemplo, si imaginaba analizar la estela de un bote, el timón probablemente caería muy abajo en la lista en términos de varianza, pero en realidad es una de las cosas más importantes para el sistema.

Notas a pie de página

[1] Eigenvectors y Eigenvalues ​​explicados visualmente

[2] ¿Cómo entender de forma intuitiva el valor propio y el vector propio?

[3] Una interpretación geométrica de la matriz de covarianza

[4] ¿Qué es un vector propio de una matriz de covarianza?

[5] ¿Por qué el vector propio de una matriz de covarianza es igual a un componente principal?

[6] Sectores proteínicos: análisis de acoplamiento estadístico versus conservación

[7] http://www.cell.com/cell/fulltex…