¿Cuáles son las diferencias entre una prueba de Logrank (Mantel-Cox) y una regresión de Cox como una herramienta para evaluar la diferencia entre dos grupos desiguales (~ 900 contra 150) en la supervivencia y recurrencia del cáncer?

En primer lugar: realmente no sé la respuesta. La teoría de estos modelos es un área muy técnica, y según tengo entendido, todavía no hay una teoría concreta de pruebas de hipótesis “exactas” para el análisis de supervivencia, porque necesitaría una distribución exacta de los tiempos de censura.

Segundo: si planea enviar a NEJM o JAMA, es mejor que trabaje con un bioestadístico o epidemiólogo real para ayudarlo a diseñar su estudio y redactar un plan de análisis estadístico antes de ir y hacerlo, incluso si se trata de un caso-control estudiar. Puede contratar a estas personas (por ejemplo, STATKING Consulting u otras empresas) si no tiene acceso a colaboradores académicos. Esta es simplemente la norma en esta área: a diferencia de las ciencias físicas, los investigadores médicos generalmente no analizan sus propios datos. Traen estadísticos. Y la especificación previa del método es importante; a menos que se trate de un trabajo puramente “generador de hipótesis”, no se puede simplemente recopilar todos los datos y luego compartir el análisis hasta encontrar algo significativo.

Tercero: al diseñar el estudio y elegir los métodos estadísticos, es tan importante elegir algo culturalmente aceptable para los lectores como lo es elegir una técnica con propiedades matemáticas probadamente agradables. Los lectores y árbitros de NEJM están familiarizados con las estimaciones de Kaplan-Meier, los modelos de riesgos proporcionales de Cox y las pruebas de log-rank y Wilcoxon.

Cuarto: Mi propio entendimiento es que el modelo de riesgos proporcionales de Cox y la prueba de log-rank son complementarios y no van a estar en desacuerdo. Puede usar una regresión de Cox multivariable para estimar el cociente de riesgo (riesgo relativo) para varias características, y puede usar la prueba de rango logarítmico para evaluar la significación en un alfa deseado. De hecho, la prueba de log-rank aparentemente es LA prueba de puntaje para el modelo de riesgos proporcionales de Cox.

Muchos, muchos documentos NEJM (parece que> 60%) hacen un análisis de riesgos proporcionales de Cox y presentan valores p de la prueba de log-rank. Por lo tanto, esto no sorprenderá a nadie si sus recursos humanos son del modelo de Cox y sus valores de p corresponden a la prueba de log-rank.

Según entiendo, esa es la diferencia entre las técnicas: el modelo de riesgos proporcionales de Cox es un estimador para una razón de riesgos, y la prueba de logaritmo es una prueba de hipótesis que intenta rechazar la hipótesis de que una razón de riesgos equivale a la unidad. No sé exactamente la diferencia entre cuando usas log-rank versus Wilcoxon.

Quinto: veo que estás en Harvard. Tienes un departamento completo de bioestadística y epidemiología en la Escuela de Salud Pública, lleno de algunos de los expertos mundiales en este tema. Probablemente sabrán mucho más que nadie en Quora. Sus colegas David Harrington, David Hunter y James Ware son tres de los cuatro asesores estadísticos de NEJM. Brent Coull también está allí y es un tipo agradable.

No estoy seguro de cuánta ayuda seré, pero haré mi mejor esfuerzo. Así es como mantengo las dos cosas en mi cabeza:

  • Logrank: dada 2 o más cohortes, ¿hay una diferencia estadísticamente significativa entre sus curvas de supervivencia?
  • Regresión de Cox: dada 1 cohorte, ¿qué variables afectan estadísticamente significativamente la curva de supervivencia de esa cohorte?

Hablando en términos prácticos, use la regresión de Cox para descubrir qué variables son significativas en general, y luego use la herramienta de lograr para aislar una variable a la vez y profundizar en más detalles.

La razón por la cual esto se torna insignificante es porque todo se reduce a la forma en que desea dividir sus datos, y hay muchas maneras de hacerlo. Voy a intentar ejecutar un ejemplo usando pseudodatos en función de los detalles que me has dado.

PREPARAR
Variables básicas:

  • Cohorte: A = cohorte de 900 personas (¿sus casos, supongo?), B = cohorte de 150 personas (¿controles?)
  • tiempo = tiempo de supervivencia, digamos en meses

Variables características

  • Edad en años)
  • Género (M / F)
  • Altura en pulgadas)
  • Etapa (en el descubrimiento)

Posibles puntos finales:

  • hadRemission = variable binaria sí / no, codificada como 1 y 0.
  • stillAlive = variable binaria sí / no, codificada como 1 y 0
  • remissionOrDeceased = resultado de (hadRemission ||! stillAlive)

Sus datos (en Stata, JMP, Excel, etc.) probablemente se verían así:

  El tiempo de cohorte tuvo Remisión * Edad Sexo Altura Etapa
 A 34 0 28 F 62 2
 B 7 1 67 M 68 4
 B 3 1 53 F 65 3
 A 23 0 32 M 71 1
 A 16 1 47 F 64 2
 ... etc. 

* Por simplicidad, voy a decir que el único punto final que nos interesa es si el paciente tuvo remisión. Para ti, esto depende completamente de lo que te interese, pero si tienes más de un punto final, corre las estadísticas con cada uno para ver si hay diferencias, y luego enfoca tu trabajo en el clínicamente significativo si es posible. Ejemplo: ROSC versus supervivencia al alta hospitalaria en ACLS dan números muy diferentes.

ANÁLISIS
Genial, entonces, ¿qué queremos saber sobre nuestro conjunto de datos? Presumiblemente, nuestra cohorte de casos recibió un tratamiento novedoso que nuestra cohorte de control no presentó, entonces, ¿por qué no respondemos primero la pregunta principal y vemos si el nuevo tratamiento causó que nuestras cohortes tuvieran realmente curvas de supervivencia significativamente diferentes?

Paso 1:
Dile al programa de estadísticas que ejecute 2 curvas de Kaplan-Meier; use Cohort como el clúster, el tiempo como el tiempo de supervivencia y tenga Remisión como punto final.

Si la ponderación de Logank es <0.05, entonces las dos cohortes tienen curvas de supervivencia que son estadísticamente significativamente diferentes. Ve al Paso 2a.

Si las curvas de supervivencia no son significativamente diferentes, vaya al Paso 2b.

Nota: también podría haberlo hecho con una regresión de Cox usando Cohort como la única variable de predicción.

Paso 2a:
Impresionante, el nuevo tratamiento fue un éxito. Averigüemos si algo más está afectando las tasas de supervivencia. Ejecute una regresión de Cox; utilice el tiempo como tiempo de supervivencia, tenga la Remisión como punto final y luego agregue Cohort, Age, Gender, Height y Stage como variables.

Si existen otras variables que contribuyen a predecir la supervivencia (p. Ej., Estadio del cáncer al momento del descubrimiento, edad), escriba en su trabajo que su modelo corroboró los hallazgos de publicaciones anteriores por [inserte los nombres más importantes aquí], pero este nuevo tratamiento también fue una mejora estadísticamente significativa en la curva de supervivencia, lo que significa que su trabajo es brillante y debe seguir recibiendo financiación. Si corresponde, tenga en cuenta nuevos hallazgos novedosos también; si la altura <72 pulgadas resulta ser un predictor positivo, también podría tirarla.

Si no hay otras variables que contribuyan a predecir la supervivencia (muy poco probable), escribe en tu trabajo que aunque respetas el buen trabajo de [inserte aquí los nombres más importantes], tu tratamiento es tan asombroso y glorioso que fue el único predictor de supervivencia . Por lo tanto, su trabajo legendario debe considerarse para la próxima subvención R01 NIH disponible. Es una broma. Regresa y averigua qué hiciste mal, porque … definitivamente has estropeado algo.

Paso 2b:
Bien crud. El tratamiento aparentemente no funcionó. Deberíamos descubrir qué es significativo. Ejecute una regresión de Cox; utilice el tiempo como tiempo de supervivencia, tenga la Remisión como punto final y luego agregue Cohort, Age, Gender, Height y Stage como variables.

Si hay otras variables que contribuyen a predecir la supervivencia (p. Ej., Estadio del cáncer al momento del descubrimiento, edad), escriba en su trabajo que su modelo corroboró los hallazgos de publicaciones anteriores por [inserte aquí los nombres importantes], y que este tratamiento, desafortunadamente, todavía está sus primeras etapas y no parece ser un predictor viable de supervivencia. Haga hincapié en que aún se debe ofrecer a los pacientes seleccionados de forma adecuada en función del juicio clínico, y que su estudio se limita a un pequeño número de pacientes recogidos en un sitio clínico y puede no ser ampliamente aplicable a todos los pacientes con la afección; aliente a los lectores de diarios a continuar investigando.

Si no hay otras variables que contribuyan a predecir la supervivencia (muy poco probable), lleve sus resultados a su jefe con su mejor disculpa redactada en su cabeza. Considere escribir una carta de renuncia también.

Paso 3:
Presentar el documento para su publicación una vez aprobado por el jefe. Prepárese para la avalancha de críticas brutales a medida que pasa por el proceso de revisión por pares; se preguntará si algunos de sus revisores incluso se molestaron en mirar su documento, por lo que se muestran sus comentarios. Slogan a través de. Empuje el papel a la publicación.

Etapa 4:
¿Lucro?

~~~~~
En general, no debería haber ninguna discordia importante entre los resultados de su regresión de Cox y lo que fue logrado; es decir, si su regresión de Cox muestra que la edad es significativa, pero su logaritmo dice que el valor p no es <0.05, algo probablemente salió mal en su extremo.

A continuación, le explicamos por qué: las regresiones de Cox ya debieron tener en cuenta las diferencias observadas con arreglo. Entonces, aunque los p-values ​​exactos serán diferentes, ambos deberían ser significativos o ambos no ser significativos.

Por lo tanto, en cierto sentido, puede pensar en logrank como un componente de la regresión de Cox, por lo que realmente no tiene sentido hacer ambas cosas en un modelo univariado. Piénselo: cuando lo descompone, un modelo de regresión de Cox con 0 variables de predicción es solo una curva de supervivencia. Un modelo de regresión de Cox con 1 variable de predicción es básicamente equivalente al uso de logaritmo.

Sin embargo, tiene sentido usar tanto la regresión de CoN y la regresión de Cox en un modelo multivariado. La ventaja del logro es que te permite profundizar en una variable específica. Por ejemplo, la regresión de Cox puede mostrar que la edad afecta significativamente la curva de supervivencia. Genial, ¿y qué? ¿Cómo? Aquí es donde puedes dividir tus datos y afinar prácticamente cualquier nivel de detalle que desees. Puede dividir su cohorte en 65+ y <65. Puede dividir en 0-20, 21-40, 41-60, 60+. Realmente puedes jugar con la variable solitaria en detalle.

Espero que esto haya ayudado?

Descargo de responsabilidad: no soy un estadístico, y escribí esta respuesta después de permanecer despierto hasta ~5 a.m. mientras me metía en Norwegian Recycling y comía los restos de quiche de Acción de Gracias, por lo que puede haber grandes errores en esta respuesta. Siéntete libre de hacer agujeros en él, sería útil para mí en el futuro.

Enlaces que pueden ser útiles:
Curvas de supervivencia de Kaplan-Meier
Regresión de Cox
Revisión de estadísticas 12: análisis de supervivencia

Si su estudio duró lo suficiente, también podría considerar usar el análisis de Weibull.
Distribución de Weibull
Esto es realmente útil cuando los datos comienzan a verse continuos. Por ejemplo, hay muchos tiempos de supervivencia diferentes y no quiere simplemente dejarlos “sobrevividos hasta el final” o “muertos algún día antes del final”. También es útil cuando las personas abandonan el estudio en diferentes momentos; otorga crédito por la supervivencia, al menos, hasta que el participante abandonó el estudio. Y es útil si las personas murieron por causas múltiples y no solo una.

El análisis Weibull de vida / supervivencia / falla es una herramienta estándar utilizada en estudios de ingeniería para detectar causas de falla y tiempos medios de falla debido a varios modos de falla.

No sé si el análisis de Weibull es conocido en la literatura médica. Si no, también puede obtener crédito por expandir el kit de herramientas.

La comparación de dos curvas de supervivencia se puede hacer usando una prueba de hipótesis estadística llamada prueba de log rank. Se usa para probar la hipótesis nula de que no hay diferencia entre las curvas de supervivencia de la población.

La prueba de log rank se utiliza para comprobar si existe una diferencia entre los tiempos de supervivencia de diferentes grupos, pero no permite que se tengan en cuenta otras variables explicativas.

El modelo de riesgos proporcionales de Cox es análogo a un modelo de regresión múltiple y permite evaluar la diferencia entre los tiempos de supervivencia de grupos particulares de pacientes, al tiempo que permite otros factores.

Necesito ayuda en su investigación médica, haga clic aquí