Cómo calcular las muestras necesarias para encontrar un biomarcador de enfermedad significativo

Este es un cálculo de tamaño de muestra estándar y puede ver cualquiera de los miles de libros, sitios web, applets de Java, etc. que lo harán por usted.

Todos te dirán que debes proporcionar tres datos más. En primer lugar, debe conocer la variación en la población de su biomarcador. Entonces necesita saber cuál es la diferencia más pequeña que desea que su estudio pueda detectar. Finalmente, debe decir qué posibilidades tiene de darse a sí mismo al encontrar esto diferente (este es el poder de su estudio).

En términos simples, esto significa que debe saber cuán obvio es probable que sea el biomarcador. Si es probable que los casos y controles sean muy diferentes (en comparación con la variación natural del marcador en la población), entonces no necesita muchas muestras. Si los casos y controles serán muy similares, necesitará muchas más muestras.

Mira los 2 ejemplos a continuación

A la izquierda hay muy poca superposición entre las cajas y los controles, intuitivamente solo necesitarás unos pocos puntos de datos para ver la diferencia. De hecho, una calculadora de tamaño de muestra dice que necesitará alrededor de 6 muestras de cada una para detectar una diferencia con un 90% de potencia usando una prueba del 5% (la diferencia de medias es el doble de la desviación estándar dentro de cada grupo).

A la derecha, los casos y controles serán más similares, porque hay más variación. Aquí la diferencia de medias es 1 desviación estándar, y necesitará alrededor de 44 casos y 44 controles (otra vez 90% de potencia, lo que significa que tiene un 90% de posibilidades de detectar la diferencia con una prueba de hipótesis del 5%).

Para obtener esta información, puede consultar información publicada anteriormente o puede realizar un trabajo piloto en un pequeño número de casos (o puede tener una conjetura razonable).

Finalmente, ha agregado una complicación de que es posible que desee observar más de un biomarcador. Esto inflará la cantidad de muestras que necesita.

La pregunta necesita poco más detalles sobre los supuestos subyacentes y la naturaleza de la variable. Tal como es, puede haber todo tipo de posibilidades.