De los métodos frecuentistas en estadística, los «valores p» al interpretar los resultados no informan sobre el tamaño del efecto, se basan solo en el umbral del 5% para declarar un efecto real en la prueba de hipótesis y al mismo tiempo no proporcionan información probabilística. Por eso la importancia de considerar otras alternativas o métodos estadísticos en el contexto actual. La inferencia o el enfoque bayesiano como este método alternativo aborda las limitaciones anteriores al tener la capacidad de estimar directamente la probabilidad de un beneficio clínico significativo y permitir a los investigadores cuantificar la influencia de la información previa en la interpretación de los resultados finales, con el fin de proporcionar soluciones temporales al problema de la significación en el marco frecuentista. Como objetivo general revisaremos el enfoque o la inferencia bayesiana intentando abordar estas limitaciones, algunos aspectos como fórmulas estadísticas y matemáticas se escapan de esta revisión.
Of the frequentist methods in statistics, the “p-values” when interpreting the results do not inform about the effect size, they are based only on the 5% threshold to declare a real effect in the hypothesis test, and at the same time do not provide probabilistic information. That is why it is important to consider other alternatives or statistical methods in the current context. Bayesian inference or approach as this alternative method addresses the above limitations by having the ability to directly estimate the probability of a significant clinical benefit, and allowing researchers to quantify the influence of prior information on the interpretation of the final results, in order to provide temporary solutions to the problem of significance in the frequentist framework. As a general objective we will review the Bayesian approach or inference trying to address these limitations, some aspects such as statistical and mathematical formulas are beyond the scope of this review.
El ensayo clínico ANDROMEDA-SHOCK comparó 2 intervenciones para reanimar pacientes en shock séptico. Un grupo de reanimación dirigida por llenado capilar tuvo una mortalidad del 34,9% a los 28 días, mientras que el grupo de reanimación dirigida por lactato tuvo una mortalidad del 43,4%. Aunque la diferencia de riesgo fue del 8,5% quizás clínicamente significativo, el «valor p» fue 0,06 por lo tanto no se logra rechazar la hipótesis nula al no existir diferencia estadísticamente significativa entre las 2 intervenciones. La conclusión fue que la estrategia de reanimación dirigida por tiempo de llenado capilar, en comparación con la dirigida a los niveles de lactato sérico, no redujo la mortalidad por todas las causas a los 28 días1. Si asumimos que la diferencia de riesgo de 8,5% es clínicamente significativa, el «valor p» no permite rechazar la hipótesis nula. Pero la sugerencia es que la interpretación del estudio no debería afrontarse de forma simplista como negativo. Pero la pregunta es: ¿pero se podría anunciar con certezas que son negativos?
En respuesta a lo anterior, se publicó en el American Journal of Respiratory and Critical CareMedicine un análisis bayesiano de este mismo ensayo clínico. Metodológicamente se incluyó a todos los pacientes reclutados en el ANDROMEDA-SHOCK para realizar la inferencia bayesiana. Se incluyeron 4 creencias previas por los investigadores; optimista, neutral, nulo y pesimista al valorar el riesgo previo de reducir la mortalidad. Con una creencia optimista, la odds ratio para reducción de mortalidad a los 28 días fue 0,61 (intervalo de confianza [IC] del 95%, 0,41-0,90), es decir, una reducción del 39% para este desenlace, considerándose un ensayo «positivo»1,2. Aunque el ensayo ANDROMEDA-SHOCK se diseñó originalmente para evaluar una diferencia en la mortalidad, basados en un modelo de regresión Cox o supervivencia, como se especifica en su plan de análisis estadístico, simplemente cambiando el análisis a un modelo de regresión logística en lugar del modelo Cox, ANDROMEDA-SHOCK se consideraría un ensayo «positivo» para su criterio de valoración principal de mortalidad a los 28 días (p=0,022)3,4. Estos resultados resaltan la importancia del diseño y el análisis del estudio para interpretar los efectos de una intervención. Por lo anterior, se concluiría que una reanimación dirigida por llenado capilar puede dar lugar a una menor mortalidad en comparación con una estrategia de reanimación dirigida a lactato. Sin embargo, la controversia refleja más una mala interpretación del «valor de p»’ más que un inconveniente del enfoque frecuentista en sí mismo porque ambos enfoques producen tamaños de efecto similares.
Después de ejemplificar ambos enfoques estadísticos con el ejemplo anterior, revisaremos algunos aspectos fundamentas la inferencia estadística y bayesiana.
Inferencia frecuentistaLa prueba de hipótesis frecuentista se basa en dos principios. Primero, se plantean dos explicaciones opuestas para los datos: la hipótesis nula y la hipótesis alterna. La hipótesis nula sostiene que no hay efecto de la intervención en el resultado. Por ejemplo, para un ensayo clínico que compara las tasas de eventos en un grupo control «A» versus un grupo de intervención «B», su hipótesis nula (H0) establecería que no hay diferencia significativa entre los 2 grupos; (H0): A – B=0. La hipótesis alterna (H1) establecería que sí hay diferencia significativa entre los dos grupos; (H1): A – B ≠ 0. Esta perspectiva se respalda con la observación de George Box, si bien todos los modelos son erróneos, algunos siguen siendo útiles, lo que destaca la importancia y la utilidad de la hipótesis nula en la estadística frecuentista5.
El segundo principio utiliza la evidencia de los datos para evaluar la validez de la hipótesis nula. Se explica que, si los datos son lo suficientemente improbables bajo una hipótesis nula verdadera, se rechaza la hipótesis nula y se acepta la hipótesis alterna, lo que se considera un resultado «significativo». En contraste, si los datos no son lo suficientemente improbables bajo la hipótesis nula, esta no se rechaza y el resultado se considera «no significativo». Otro aspecto de la prueba de hipótesis frecuentista es que cuantifica la evidencia en contra, pero no a favor de la hipótesis nula, lo que subraya la importancia de interpretar los resultados con precaución y comprender las limitaciones de las pruebas de hipótesis6.
En medicina, predomina el analiza frecuentista que utiliza «valores de p» e IC para determinar la «significación» de los resultados. Sin embargo, la interpretación de estos valores puede ser incorrecta, lo que puede llevar a conclusiones engañosas. Este problema tiene implicaciones importantes en los ensayos clínicos, ya que podría resultar en el rechazo de intervenciones útiles o la adopción de intervenciones ineficaces o perjudiciales7. Vamos con un ejemplo; imagínense un ensayo clínico aleatorizado que comparó un medicamento «A»’ versus un medicamento «B» en pacientes con síndrome de dificultad respiratoria aguda (SDRA), aunque los autores esperaban que el medicamento «A» fuera superior al medicamento «B», observaron una tasa más alta de muerte o disfunción orgánica persistente con el medicamento «A». Bajo el marco frecuentista, este resultado fue estadísticamente significativo (riesgo relativo [RR], 1,25; IC del 95%, 1,08 a 1,44; valor p=0,01), lo que sugiere que el medicamento «A» aumentan el riesgo de muerte o disfunción orgánica en pacientes con SDRA. Pero podría existir un problema en la situación anterior; los valores p y los IC no responden directamente a la pregunta sobre la probabilidad de que el medicamento «A» incrementa el riesgo de muerte, y que resultados significativos no necesariamente aportan evidencia de efectos reales del tratamiento8,9. El estudio realizado por Silberzahn et al. en 2018 destaca la relación precaria entre los resultados significativos y los efectos reales. Al analizar un conjunto de datos sobre si los árbitros de fútbol son más propensos a mostrar tarjetas rojas a jugadores con tono de piel oscuro versus jugadores con tono de piel clara: el autor encontró 20 de 29 grupos informaron una asociación significativa, mientras que 9 no10. Esto subraya la variabilidad de los resultados de las pruebas de significación según el modelo estadístico usado. En 2015, la Asociación Estadounidense de Estadística emitió una declaración sobre los valores de p y la significación estadística, en respuesta al mal uso y la mala interpretación de los valores de p y los defectos de las pruebas de hipótesis frecuentistas. La declaración propuso 3 posibles respuestas al «problema de la significación». La primera sugerencia es comprender mejor las limitaciones de la prueba de hipótesis frecuentista. El segundo enfoque plantea la eliminación completa de esta prueba, reemplazándola por algo diferente. Por último, se menciona la posibilidad de cuantificar la relación entre las declaraciones de importancia y la presencia de efectos reales del tratamiento. Estas propuestas buscan abordar las preocupaciones sobre la interpretación y el uso adecuado de los valores de p11,12.
Por último, este método no brinda la probabilidad deseada de que un valor poblacional esté dentro de un IC o que una hipótesis nula sea verdadera. Esta brecha entre aquello que buscan los investigadores y lo proporcionado por el método frecuentista puede conducir a malas interpretaciones de los resultados clínicos13. En consecuencia, en el momento de las interpretaciones deberíamos evitar la práctica usual de subdividir los valores p en «significativos» y «no significativos», y centrarnos más en los IC, ya que solo los valores de p no proporcionan información sobre el tamaño del efecto14.
Recordamos que básicamente el «valor de p» se calcula asumiendo que la hipótesis nula es verdadera, pero no proporciona información directa sobre la verdad o falsedad de la hipótesis en sí misma, es una medida importante en la inferencia estadística al proporcionar información sobre la significación de los resultados al evaluar la evidencia en contra de la hipótesis nula, convirtiéndose en una herramienta clave en la toma de decisiones basada en pruebas estadísticas. Sin embargo, es común malinterpretar el «valor de p» como la probabilidad de que la hipótesis nula sea verdadera, lo cual es incorrecto ya que no mide directamente la verdad o falsedad de dicha hipótesis15.
Siguiendo con la inferencia frecuentista ahora hablaremos de los IC y decimos que no guardan una relación con la probabilidad de que la verdadera diferencia poblacional se encuentre dentro del intervalo, sino que más bien se refiere a la probabilidad de que, si el estudio se repitiera muchas veces, el intervalo contenga la verdadera diferencia poblacional en el 95% de las ocasiones, y que pueden cambiar debido a la variabilidad del muestreo, lo cual no sería apropiado calcular las probabilidades de hipótesis a partir del IC al ser este una variable aleatoria y no representa la probabilidad de la hipótesis en sí misma15. Otro aspecto fundamental, es el concepto de error y poder estadístico. El error estadístico hace referencia a la variabilidad de una medida. Por ejemplo, cuando un valor de p (nivel de significación) es menor o igual a 0,05, se puede estar cometiendo un error tipo I o falso positivo, es decir, indica que el resultado de una prueba es positiva cuando en realidad es negativa. En cambio, cuando un valor de p es mayor de 0,05 se puede estar cometiendo un error tipo II o falso negativo, es decir, no se detecta un efecto positivo cuando en realidad sí se ha producido el efecto. El poder estadístico representa la probabilidad de que una prueba sea significativa cuando existe un efecto real, por lo que está relacionada con la tasa de error tipo II16,17. Echemos un vistazo a la prevalencia del poder estadístico en la investigación médica. Un análisis reciente reveló que la mediana del poder estadístico alcanzado en más de 20.000 ensayos aleatorios fue de solo el 13%18. Esta baja potencia conlleva a una alta tasa de errores tipo II, lo que significa que pocos ensayos reportan resultados significativos, situación que observamos comúnmente en cuidado intensivo8.
Por último, hablaremos del umbral de significación del 5%; su origen se debe a Ronald Fisher en el año de 1925. La elección este umbral fue influida por consideraciones prácticas y cuando el cálculo estadístico se realizaba manualmente. Desde entonces este umbral ha adquirido una importancia excesiva en la investigación médica moderna, pero con la limitación de que algunas veces no declara la presencia de un efecto real19,20. Esto plantea la posibilidad de analizar y reportar datos de una manera que se evite dicotomizar los resultados, utilizando una métrica que cuantifique algo más útil que la probabilidad del estadístico de prueba sujeto a la hipótesis nula.
A continuación, revisaremos la inferencia bayesiana intentando abordar las limitaciones del enfoque frecuentista.
Inferencia o análisis bayesianoSi bien los análisis frecuentistas suelen ser más numerosos y dominar en las publicaciones científicas, la inferencia bayesiana es más prevalentes en la estadística matemática, siguiendo un marco conceptual simple que implica considerar el conocimiento previo sobre una intervención en forma de probabilidades utilizando el teorema de Bayes y así obtener un resultado final o posterior, típicamente relacionada con el tamaño del efecto del tratamiento13,21.
A continuación, definiremos que es una distribución previa y una distribución posterior. La distribución «previa» se obtiene, o se postula, antes de que nuestros datos hayan sido tenidos en cuenta. La distribución «posterior» se refiere a las probabilidades obtenidas después de que se hayan tenido en cuenta los datos. La distribución previa se basa en el conocimiento o la creencia sobre la intervención analizada. Por ejemplo, supongamos que queremos estimar la prevalencia de una enfermedad «X» en una comunidad en América. Nos vendría bien saber que el porcentaje de esa enfermedad «X» en América es aproximadamente del 5%, o también podríamos tener información basada en otros conjuntos de datos donde las tasas varían entre el 3 y el 7%, o podríamos suponer que la prevalencia se encuentra en algún punto entre estos valores. Por lo que esperamos que la prevalencia en nuestra comunidad estudiada sea bastante similar. Por el contrario, creemos que es poco probable que la prevalencia sea del 15%. La distribución previa va a influir en las distribuciones posteriores, principalmente cuando es una síntesis subjetiva o creencia por parte de los investigadores y esto podría llevar a conclusiones diferentes. El análisis frecuentista clásico ignoraría el conocimiento previo o la creencia si hubo ausencia de datos.
Cuando comparamos el enfoque frecuentista del bayesiano en los ensayos clínicos realizados en cuidado intensivo, el primero se centra en la probabilidad de que los datos indiquen que no hay diferencia entre el tratamiento y el control; el segundo puede estimar directamente la probabilidad de un beneficio clínicamente significativo del tratamiento, combinando información previa con los datos observados13,21. La corriente bayesiana permite a los investigadores cuantificar la influencia de la distribución previa en la interpretación de los resultados finales del estudio. Esto ha permitido que este enfoque sea relevante en cuidado intensivo, ya que frecuentemente encontramos ensayos clínicos pequeños que no excluyen diferencias mínimamente importantes en la mortalidad y la distribución previa será crucial para evitar conclusiones erróneas por el tamaño de muestra, con resultados engañosos y decisiones clínicas subóptimas22,23.
Si bien ambos métodos producen conclusiones similares, el análisis bayesiano puede identificar intervenciones con probabilidades de beneficio clínicamente relevante, incluso cuando no hay significación estadística bajo el enfoque frecuentista. Por ejemplo, Yarnell et al., en un análisis bayesiano de ensayos aleatorizados de pacientes con enfermedades críticas, reportó que los 2 enfoques analíticos coincidieron en general, pero el enfoque bayesiano identificó casos donde el beneficio clínico era probable a pesar de la falta de significación estadística, lo cual esto podría influir en las decisiones clínicas24. Los consejos por parte de Grooth y Cremer25. Incluye diseñar estudios bajo un marco bayesiano y hacer una justificación bien fundamentada para cada distribución previa, teniendo en cuenta las desventajas del método como son:
- 1.
Dependencia en las distribuciones previas: la subjetividad y la falta de consenso pueden influir en las distribuciones previas, afectando a los resultados posteriores.
- 2.
Complejidad computacional: los métodos bayesianos requieren algoritmos sofisticados, que son complejos y demandan mucho tiempo y recursos computacionales.
- 3.
Interpretación y comunicación: los resultados expresados en términos de distribuciones de probabilidad pueden ser difíciles de interpretar y comunicar, especialmente para audiencias no técnicas.
- 4.
Adopción y formación: la falta de capacitación adecuada en métodos bayesianos limita su adopción, además de enfrentar barreras institucionales y normativas.
En conclusión, las pruebas de hipótesis frecuentistas han dominado la investigación médica durante décadas, pero estas pueden ser engañosas cuando se trata de interpretar la significación clínica de los resultados, especialmente cuando el valor de p se acerca al umbral de 0,05 como se documentó en el ANDROMEDA SHOCK. La adopción de la inferencia bayesiana como método predeterminado para abordar esta problemática permitiría una actualización continua del conocimiento previo y ofrece una interpretación intuitiva de las distribuciones posteriores. Sin embargo, reconozco que el cambio de paradigma no será sencillo, ya que implica la comprensión teórica y el uso métodos estadísticos sofisticados, lo que podría resultar ser intimidante para los investigadores superar estas barreras. No obstante, actualmente sigue predominando la inferencia estadística en nuestras investigaciones médica, por lo que las directrices estandarizadas de ensayos clínicos (CONSORT) recomiendan que se reporten en los ensayos clínicos tanto el efecto absoluto y relativo del tratamiento, además de que se enfatice más en el IC como un rango plausible para el efecto del tratamiento, en lugar de un umbral de significación preespecificado26.
Conflicto de interesesEl autor declara que no tiene ningún potencial conflicto de interés con relación al manuscrito.