¿Qué es una tubería en el contexto de un RNA-seq?

Los datos brutos que genera un secuenciador de alto rendimiento son bastante diferentes de los resultados analizados que buscan la mayoría de los usuarios. Una tubería es la serie de pasos de procesamiento computacional necesarios para pasar de datos sin procesar a cualquier aplicación posterior que el usuario esté interesado.

La secuenciación de Illumina funciona generando grupos de secuencias idénticas en una celda de flujo de vidrio, y luego sintetizando una cadena complementaria de un nucleótido a la vez. Utiliza nucleótidos con extremos coloreados reversibles, de modo que cada etapa de incorporación solo agrega un nucleótido a la vez. Después de extender cada producto en un nucleótido, se forma una imagen de la celda de flujo y se eliminan los terminadores de colorante para que pueda tener lugar la siguiente etapa de extensión.

Los datos brutos de un secuenciador de Illumina son una gran cantidad de archivos de imágenes que muestran en qué parte de la celda de flujo se incorporaron cada tipo de nucleótido (A, T, G o C). Transformar esto en secuencias basadas en texto requiere identificar las manchas (y filtrar cualquier cosa que no sea un punto discreto), correlacionar los puntos que están en la misma ubicación en la celda de flujo en diferentes pasos de incorporación, y usar un algoritmo probabilístico para llamar al identidades de cada nucleótido en cada punto en cada paso de extensión.

Esto da como resultado archivos de texto que contienen secuencias procesadas para cada punto en la celda de flujo (casi siempre cientos de millones), que luego pueden ser analizados por el usuario. Hay muchos objetivos de análisis diferentes que tienen sus propios canales, pero la mayoría de ellos generalmente comienzan con la limpieza de las secuencias y su alineación con una secuencia de genoma de referencia. Las bibliotecas de secuenciación profunda contienen secuencias adaptadoras que normalmente aportan algunos nucleótidos a cada lectura: el recorte es necesario para el trabajo posterior. Cada secuencia también tiene un puntaje de calidad asociado (derivado de cuán claras eran las manchas en la imagen original); muchas tuberías se deshacen de secuencias por debajo de un umbral específico.

Una vez que las secuencias se limpian, se alinean con un genoma de referencia (por lo general, pero no siempre, la secuenciación profunda se usa también para el genoma de novo y el ensamblaje del transcriptoma) y las secuencias que no coinciden inequívocamente con el genoma de referencia descartado.

Normalmente, lo que sucede a continuación es ensamblar las lecturas limpias, filtradas y alineadas en transcripciones, que luego se pueden analizar para proporcionar información sobre fenómenos como la expresión génica y el splicing alternativo.