Estudios de rendimiento diagnóstico: interpretación del análisis ROC y de los puntos de corte

Arredondo Montero, Javier; Martín-Calvo, Nerea

doi:10.1016/j.ciresp.2022.10.011

Información del artículo

Texto completo

Bibliografía

Descargar PDF

Estadísticas

Figuras (1)

Texto completo

El diagnóstico constituye una parte esencial de la práctica médica. Existe una gran cantidad de literatura científica en torno a la implementación de nuevas herramientas diagnósticas, por lo que es fundamental que todo clínico sea capaz de conocer los métodos utilizados para evaluar la validez de esas herramientas y determinar así su utilidad.

1.
Estudios de rendimiento diagnóstico: los estudios de rendimiento diagnóstico evalúan la capacidad de una herramienta clínica (por ejemplo, una prueba radiológica o un biomarcador) para diagnosticar una determinada enfermedad. Estos estudios incluyen:
-
Un grupo de pacientes afectos de la enfermedad (enfermos).
-
Un grupo de pacientes control que generalmente tiene una clínica superponible a la del grupo de enfermos. Por ejemplo, en el caso de los estudios que evalúan el rendimiento de una determinada prueba para el diagnóstico de la apendicitis aguda, el grupo control suele estar constituido por pacientes con dolor abdominal agudo en los que finalmente se excluye el diagnóstico de apendicitis aguda.
-
Una prueba diagnóstica a evaluación. Por ejemplo, un nuevo biomarcador sérico.
-
Un gold standard o estándar de referencia, que es la mejor prueba diagnóstica existente para dicha enfermedad. Por ejemplo, en la apendicitis aguda sería el estudio histopatológico de la pieza quirúrgica del apéndice. La finalidad de esa prueba en este tipo de estudios es servir de referencia con la que comparar la nueva herramienta que se quiere evaluar.
2.
Caracterización del rendimiento diagnóstico: en la evaluación de una prueba diagnóstica hay que conocer algunos indicadores importantes:
-
La sensibilidad (S): es la probabilidad de que la prueba clasifique correctamente (como positivo) a un individuo afecto de la enfermedad (enfermo).
-
La especificidad (E): es la probabilidad de que la prueba clasifique correctamente (como negativo) a un control (sano).
-
El valor predictivo positivo (VPP): es la probabilidad de que un sujeto tenga la enfermedad en cuestión (enfermo) si ha obtenido un resultado positivo en la prueba.
-
El valor predictivo negativo (VPN): es la probabilidad de que un sujeto no tenga la enfermedad en cuestión (sano) si ha obtenido un resultado negativo en la prueba.
-
El análisis Receiver Operating Characteristic (ROC): este análisis establece la capacidad de diagnóstico de un sistema de clasificación binario a medida que varía su punto de corte1,2. El resultado de un análisis ROC se expresa como un área bajo la curva o AUC (Area Under the Curve), que refleja la capacidad de discriminación de la herramienta diagnóstica, es decir, su capacidad de clasificar al sano como sano y al enfermo como enfermo. El AUC suele expresarse como un número y un intervalo de confianza, y suele ir acompañado de una representación gráfica (fig. 1).

∘
AUC=1: discriminación perfecta.
∘
AUC≥0,9: discriminación excelente.
∘
0,7≤AUC<0,9: discriminación moderada.
∘
0,5<AUC<0,7: discriminación pobre.

Un AUC de 0,5 se interpreta como una prueba no útil para el diagnóstico, ya que su probabilidad de clasificar correctamente los pacientes es la misma que la de sacar cara al lanzar una moneda al aire. Un valor de AUC por debajo de 0,5 indica que debe invertirse el criterio diagnóstico.

3.
Importancia de la prevalencia de la enfermedad: La S y E son características intrínsecas de una herramienta diagnóstica, pero los valores predictivos dependen de la prevalencia de la enfermedad en la población en la que se aplica esa herramienta. La misma prueba diagnóstica tendrá un mayor VPP si se aplica en una población donde la prevalencia de la enfermedad es alta que si se aplica en una en la que es baja. Por el contrario, el VPN desciende si aumenta la prevalencia de la enfermedad. En los estudios de rendimiento diagnóstico podemos encontrar distintos valores de VPP y VPN para una misma herramienta diagnóstica aplicada en 2 poblacionales diferentes3.
4.
El punto de corte: cuando una herramienta diagnóstica se presenta como una variable continua (por ejemplo, el valor sérico de un biomarcador), llamamos punto de corte al valor elegido para clasificar a los sujetos como sanos o enfermos. El punto de corte con mejor capacidad discriminatoria es el más cercano a la esquina superior izquierda de la curva ROC. Para calcularlo hay distintos métodos4,5:
-
Punto de corte con mayor Índice de Youden: (S+E–1)
-
Punto de corte con menor valor para la fórmula: (1−S)2+ (1−E)2.

A partir del punto de corte podremos calcular la S, E, y valores predictivos de la herramienta diagnóstica en una tabla que compare los resultados de nuestra prueba con los del estándar de referencia. Lo más habitual es elegir el punto de corte con mejor capacidad de discriminación, pero también puede ser interesante valorar otros puntos de corte, como el más sensible (en enfermedades graves) o el más específico (en enfermedades cuyo tratamiento conlleve importantes efectos secundarios).

Fortalezas y limitaciones: el análisis de curvas ROC permite evaluar la capacidad de discriminación de una herramienta diagnóstica y compararla con la de otras de forma sencilla y gráfica. Entre sus limitaciones destacan la necesidad de un estándar de referencia con el que comparar la herramienta a evaluación y la dificultad para generalizar los resultados (punto de corte, sensibilidad y especificidad) a otras poblaciones figura 1.

Figura 1.

Ejemplo de curvas ROC reales con distintos rendimientos diagnósticos. El eje de abscisas se expresa como (1-especificidad) y el eje de ordenadas como (Sensibilidad). La línea recta que divide el gráfico en 2 mitades iguales representa el valor AUC de 0,5. A: 0,97, discriminación excelente. B: 0,83, discriminación moderada. C: 0,65, discriminación pobre. D: 0,52, discriminación prácticamente nula (cercana al azar).

(0.22MB).

Contribuciones de los autores

Todos los autores han hecho una contribución sustancial, directa e intelectual al trabajo, y lo han aprobado para su publicación.

Todos los autores del manuscrito declaran que se trata de una contribución original, no publicada anteriormente.

Conflicto de intereses

No hay ningún conflicto de intereses ni financiación externa que declarar. Ninguno de los autores tiene nada que declarar.

Bibliografía

[1]

R. Aggarwal, P. Ranganathan.

Understanding diagnostic tests - Part 3: Receiver operating characteristic curves.

Perspect Clin Res, 9 (2018), pp. 145-148

http://dx.doi.org/10.4103/picr.PICR_87_18 | Medline

[2]

K.H. Zou, A.J. O’Malley, L. Mauri.

Receiver-operating characteristic analysis for evaluating diagnostic tests and predictive models.

Circulation, 115 (2007), pp. 654-657

http://dx.doi.org/10.1161/CIRCULATIONAHA.105.594929 | Medline

[3]

J. Arredondo Montero, C. Bardají Pascual, G. Antona, M. Bronte Anaut, N. López-Andrés, N. Martín-Calvo.

Diagnostic performance of calprotectin and APPY-1 test in pediatric acute appendicitis: A systematic review and a meta-analysis.

Eur J Trauma Emerg Surg, (2022),

http://dx.doi.org/10.1007/s00068-022-02000-2

[4]

W.J. Youden.

Index for rating diagnostic tests.

Cancer, 3 (1950), pp. 32-35

http://dx.doi.org/10.1186/1471-2407-3-32 | Medline

[5]

J. Arredondo Montero, G. Antona, A. Rivero Marcotegui, C. Bardají Pascual, M. Bronte Anaut, R. Ros Briones, et al.

Discriminatory capacity of serum interleukin-6 between complicated and uncomplicated acute appendicitis in children: A prospective validation study.

World J Pediatr, 18 (2022), pp. 810-817

http://dx.doi.org/10.1007/s12519-022-00598-2 | Medline

Indexada en:

Síguenos:

Suscribirse:

Indexada en:

Síguenos:

Suscribirse:

Suscríbase a la newsletter