Tengo problemas para entender PCA y OPLS-DA, que utilizaré en mi investigación futura. En términos simples, ¿qué tipo de análisis estadístico es ese?

Tanto PCA como OPLS son técnicas para la reducción de la dimensionalidad.
Aquí hay un ejemplo de reducción de dimensionalidad, similar a la utilizada en los libros de texto estándar (por ejemplo, Análisis multivariable por Mardia, Kent y Bibby).

Supongamos que tiene datos para estudiantes que toman exámenes en inglés, español, matemáticas y ciencias. Como cada alumno tiene 4 puntajes de prueba, puede pensar en los datos para cada alumno como un vector de 4 dimensiones. Sin embargo, los humanos no tienen forma de visualizar un espacio de 4 dimensiones. Por lo tanto, puede intentar lo siguiente. Defina Z como el promedio de los puntajes de inglés y español de un estudiante, y W como el promedio de los puntajes de Matemáticas y Ciencias del estudiante. Puede interpretar Z como “habilidad del lenguaje” y W como “capacidad cuantitativa”. El punto es que Z y W forman conjuntamente un espacio bidimensional que puedes trazar fácilmente, y al mismo tiempo capturar la mayor parte de la información de tus datos que te interesa.

Aquí definimos manualmente las variables Z y W. Sin embargo, los estadísticos emplean métodos para definir automáticamente las variables que reexpresan los datos en una forma dimensional inferior. Por ejemplo, en PCA, las variables se llaman “componentes principales”.

PCA es una de las técnicas más comunes utilizadas por los estadísticos. OPLS-DA es una técnica más nueva, que no aparecerá en la mayoría de los libros de texto. OPLS-DA combina OPLS, una técnica de reducción de dimensionalidad, con análisis discriminante, que es una forma de clasificación.

Sugeriría aprender PLS (Mínimos cuadrados parciales) antes de aprender OPLS-DA.
Para obtener más información sobre PCA y PLS, sugiero leer el Cap. 3, especialmente la sección 3.5 en Elementos de Aprendizaje Estadístico (2da Edición), o preguntas quóricas adicionales. El capítulo del libro se trata principalmente de regresión lineal, pero aprenderá todos los conceptos que necesitará para comprender métodos como PCA y PLS en el proceso.