El análisis de la curva característica de operación del receptor (ROC) es una de las herramientas analíticas más importantes en el proceso de detección de la presencia o ausencia de una anormalidad en una imagen. El análisis de las curvas ROC aporta, de manera sencilla, un magnífico indicador de la precisión de una prueba diagnóstica. En este trabajo, se propone la herramienta imageROC desarrollado para la evaluación diagnóstica de la calidad de imágenes. También se presentan algunos aspectos de esta metodología y su utilidad. Se concluyó que el programa propuesto proporciona una forma eficaz y rápida para evaluar completamente el desempeño conjunto del observador y del sistema de imágenes en una tarea de diagnóstico.
The analysis of the receiver operating characteristic (ROC) curve is one of the most important analytical tools in the process of detecting the presence or absence of an abnormality in an image. ROC curve analysis provides a simple and excellent indicator of the accuracy of a diagnostic test.
In this work we propose the imageROC tool developed for the quality of images for diagnostic assessment. Some aspects of this methodology and its usefulness are also presented. We concluded that the proposed program, along with the input by the observer, provides an effective and rapid means of assessing a diagnosis in an imaging system.
El análisis de la curva característica de operación del receptor (ROC) es una de las herramientas analíticas más importantes para caracterizar el desempeño humano en una tarea de análisis de imágenes, y es un área activa de investigación en imágenes médicas1.
La efectividad clínica de un sistema de imágenes médicas depende usualmente no sólo de las características físicas del sistema y de la presencia o no de anormalidades en el paciente, sino también de las características preceptuales del observador humano y del nivel crítico de confianza que el observador utiliza para determinar si una imagen es positiva o negativa1.
Al cambiar el nivel crítico de confianza, cambian la sensibilidad y la especificidad. Entonces no se puede evaluar de forma completa el desempeño conjunto del observador y del sistema de imágenes en una tarea de clasificación, utilizando solamente los índices de especificidad y sensibilidad. Es necesario estimar y reportar todas las combinaciones entre especificad y sensibilidad que pueden lograr, en conjunto, un cierto observador y un cierto sistema de imágenes. La curva ROC es uno de los métodos modernos que superan muchas de las limitaciones de los índices tradicionales2.
Las curvas ROC proporcionan un buen índice de la capacidad de una prueba diagnóstica para diferenciar entre estados alternativos de salud, cuando los resultados se miden en escala ordinal, por intervalo o continua3. También son útiles para comparar distintos métodos diagnósticos y seleccionar umbrales de decisión4.
En este trabajo se propone un acercamiento a esta metodología y se presenta una herramienta que permite la construcción de la curva y el cálculo del área bajo la curva.
Base teóricaCurvas ROCLa metodología ROC se desarrolló en el contexto de la detección de señales electrónicas en los inicios de la década de 1950. A mediados de la década de 1960 se habían usado las curvas ROC en psicología y psicofísica experimental5.
El radiólogo Leo Lusted fue el primero en usarlas en 1967 en el proceso de toma de decisiones médicas, y en 1969 comenzó a aplicarlas en estudios con imágenes6,7. El análisis ROC (que algunos autores han traducido como curvas de rendimiento diagnóstico) es una técnica matemática para describir y estudiar las propiedades de las pruebas diagnósticas8. Mediante ella, es posible hacer una estimación de la exactitud diagnóstica de un método determinado, modalidad de imagen o evaluador, mediante la medición de la capacidad de éste de clasificar correctamente los casos en categorías9.
Construcción de las curvas ROCClásicamente, la exactitud de una prueba diagnóstica se ha evaluado en función de dos características: la sensibilidad y la especificidad7. Sin embargo, éstas varían en función del criterio elegido como punto de corte entre la población sana y la enferma.
El método tradicional para determinar experimentalmente la curva ROC de un observador humano es el siguiente:
- –
Se adquiere un conjunto representativo de imágenes que incluyan casos positivos y negativos.
- –
Se le pide al observador que califique cada imagen en una escala de varios niveles, que pueden ir desde “definitivamente anormal” hasta “definitivamente normal”.
- –
Entonces se pueden tabular diferentes valores de sensibilidad y especificidad para el conjunto de imágenes utilizando cada nivel de certeza como un umbral de decisión.
La curva ROC es un gráfico en el que se observan todos los pares de sensibilidad/especificidad resultantes de la variación continua de los puntos de corte en todo el rango de resultados observados10.
En el eje “Y” de coordenadas se sitúa la sensibilidad o la fracción de verdaderos positivos, definida como la probabilidad de clasificar correctamente a un individuo cuyo estado real sea el definido como positivo respecto a la condición que estudia la prueba, razón por la que también se denomina fracción de verdaderos positivos10.
En el eje “X” está la fracción de falsos positivos o 1-especificidad, definida como la probabilidad de clasificar correctamente a un individuo cuyo estado real sea el definido como negativo. Es igual al resultado de restar a uno la fracción de falsos positivos10.
Una prueba con diferenciación perfecta tiene una curva ROC que pasa por la esquina superior izquierda, donde S y E toman valores máximos (S y E = 1). Una prueba sin diferenciación, con igual distribución de resultados en los dos subgrupos, da lugar a una línea diagonal de 45°, desde la esquina inferior izquierda hasta la superior derecha.
Área bajo la curva ROCEl área bajo la curva ROC (ABCROC) es una medida global de la exactitud de una prueba diagnóstica. En el caso de las imágenes médicas, ésta mide la probabilidad de que, en forma aleatoria, pares de imágenes normales y anormales sean correctamente clasificadas debido a las anormalidades percibidas en ellas9.
Por convenio, el ABCROC es siempre mayor o igual que 0,5. Toma valores comprendidos entre 0,5 (si no hay diferencias en la distribución de resultados de la prueba entre los subgrupos enfermo y sano) y 1 (cuando hay separación perfecta entre las dos distribuciones). Swets11 interpreta el ABCROC de la manera siguiente: valores entre 0,5 y 0,7 indican baja exactitud; entre 0,7 y 0,9 pueden ser útiles para algunos propósitos, y un valor mayor de 0,9 indica exactitud alta.
En función del tipo de curva, el cálculo del ABCROC, así como de su error estándar, puede abordarse mediante un enfoque paramétrico o no paramétrico. Si se utiliza el criterio no paramétrico, el ABCROC puede calcularse mediante un método trapezoidal o estimarse como el estadístico W de Wilcoxon9. Ambas metodologías pueden expresarse a través de las ecuaciones 1 y 2, respectivamente.
Método trapezoidalEstadístico W de Wilcoxondonde f(x) representa la ecuación que describe la curva; nA y nN representan el número de imágenes anormales y normales, y S (xj, xk) es el puntaje dado al par compuesto por el jth paciente con la enfermedad y el kth paciente sin la enfermedad. S (xj, xk) es 1 si xj > xk,1/2 si xj = xk y 0 si xj < xk.
Bamber12 demostró que el ABCROC coincide con la suma de rangos W obtenida mediante la prueba no paramétrica de comparación de medias de Wilcoxon. Hanley y McNeil9 exponen esta demostración matemática en el contexto médico y el método directo para el cálculo del error estándar de W, que permite obtener su intervalo de confianza. La metodología propuesta por Hanley y McNeil se expresa en la ecuación 3:
DondeQ1=W(2−W)yQ2=2W2(1+W)
La herramienta imageROC se implementó usando Matlab 2009a con el sistema operativo Windows XP. Su uso es muy sencillo e incluye tres módulos, como se muestra en la figura 1.
Introducción de los datosPara evaluar las imágenes, primero se pasa a introducir información referente a las imágenes a través de este procedimiento de recolección de información. Se pueden introducir datos relacionados con la técnica, la institución, el equipo y las imágenes. Al introducir las imágenes, éstas se alistarán con sus nombres. Primero se introducen las imágenes que presentan alguna anormalidad y después las imágenes de pacientes normales. Los tipos de imágenes que pueden introducirse son: Dicom (dcm), Bitmap (bmp) y jpg.
Niveles de decisiónLa elección del número y niveles de decisión puede efectuarse de acuerdo a criterios ya establecidos por trabajos anteriores, por razones teóricas basadas en la información clínica o fisiológica, pero otras veces es el propio investigador quien tiene que decidir los niveles de decisión que va a establecer. En esta herramienta tiene niveles ya preestablecidos que van desde seguramente normal, hasta seguramente anormal. El usuario tiene la opción de definir el número y los niveles que va a utilizar para evaluar su sistema de imágenes.
Cálculo del ABCROCDespués de evaluar las imágenes, aparecerán los datos relacionados a la evaluación en la tabla de contingencia. Posteriormente, el usuario puede visualizar la curva ROC obtenida y obtener el ABC a través de la regla trapezoidal (ABCT), por el estadístico de Wilcoxon (ABCW) y el error estándar (SEW).
Almacenamiento de datosToda la información relacionada con la evaluación de un sistema de imágenes puede almacenarse para su utilización posterior en otros estudios y análisis. En la tabla 1 se observan los datos que se conservan con la herramienta imageROC.
Conjunto de datos salvados en un archivo txt por imageROC
2/7/2011 |
Modalidad. imagenología: TC |
Institución: Hospital Provincial |
Modelo y fabricante: Sensation Cardiac 64, Siemens |
Observador: 3 |
Protocolo: cabeza |
Enfermedades: ACV isquémico y hemorrágico |
Total de imágenes: 109 |
Normales: 58 |
Anormales: 51 |
Niveles de referencia |
KV: 120-mAs: 380-DPL: 793–814-CTDIVOL: 59,66 |
Imágenes: ‘1.bmp’ ‘2.bmp’ ‘3.bmp’ ‘4.bmp’ ‘5.bmp’ ‘41.bmp’ ‘42.bmp’ ‘43.bmp’ ‘44.bmp’ ‘45.bmp’ ‘1030.bmp’ ‘6030.bmp’ ‘A11.bmp’ ‘A12.bmp’ ‘CTDI1.bmp’ ‘CTDI2.bmp’ ‘E.bmp’ |
ABCT: 0,882015 |
W: 0,893171 |
SE(W): 0,0319904 |
ABCT: área bajo la curva por el método trapezoidal; ACV: accidente cerebrovascular; CTDIVOL: índice de dosis volumétrico; DPL: producto dosis longitud; Kv: kilovoltaje; mAs: miliamperaje/segundo; SE (W): error estándar de W; W: estadístico de Wilcoxon.
En la figura 2 se observa la curva ROC obtenida a través de la herramienta imageROC, que se conserva junto con el resto de los datos.
Aplicación del softwareEn este trabajo se presenta un ejemplo que ilustra la aplicación de la herramienta imageROC en el análisis del efecto de la reducción de dosis en la detectabilidad de lesiones. Para esto, se tomaron un conjunto de imágenes de tomografía computarizada (TC) a diferentes índices de dosis, con el fin de determinar la capacidad de detección de un observador con este sistema de imágenes. La tabla 2 muestra los valores de ABCROC y SE obtenidos a través de la herramienta imageROC. Con la disminución del ABCROC, disminuye la capacidad de clasificar correctamente las lesiones, hecho que se relaciona con la pérdida de calidad en la imagen, teniendo en cuenta el compromiso existente entre la calidad de la imagen y la dosis de radiación en la TC. Como puede observarse, esta herramienta podría ser muy útil para evaluar la detectabilidad de lesiones en imágenes que han sido sometidas a algún tipo de procesamiento.
Valores del área bajo la curva ROC obtenidas mediante la herramienta imageROC.
Rangos de CTDIVOL (mGy) | ABCROC ± SE |
CTDIVOL: 50–60 | 0,92±0,069 |
CTDIVOL: 40–50 | 0,89±0,073 |
CTDIVOL: 30–40 | 0,80±0,103 |
CTDIVOL: 20–30 | 0,75±0,120 |
ABCROC: área bajo la curva ROC; CTDIVOL: índice de dosis volumétrico; mGy: miliGray; SE: error estándar.
imageROC proporciona un medio eficaz y rápido por métodos no paramétricos para realizar la evaluación diagnóstica de la calidad de imágenes médicas. Por otra parte, permite almacenar información para la utilización posterior en otros estudios y análisis.
Con todo este procedimiento en pocos minutos se puede conocer la calidad diagnóstica del sistema de imágenes, partiendo de la percepción de los observadores, así como de datos referentes a los parámetros bajo los cuales se obtuvieron estas imágenes.
Esta herramienta no sólo es útil como apoyo a investigaciones, sino que también podría ser de gran utilidad para los profesionales vinculados con el análisis del desempeño conjunto observador-sistema de imágenes en una tarea de diagnóstico.
Conflicto de interesesLos autores declaran no tener ningún conflicto de intereses.