El dolor en fosa ilíaca derecha (FID) sigue planteando problemas diagnósticos. El objetivo de este estudio es la elaboración de un modelo diagnóstico de dolor en FID basado en árboles de clasificación (CHAID) y en una red neuronal artificial (RNA).
MétodosEstudio prospectivo de 252 pacientes que acudieron al hospital por presentar dolor en FID. Se recogieron datos demográficos, clínicos, exploración física y analíticos. Se clasificaron en 4 grupos: dolor simple en FID (dFID), apendicitis aguda (AA), dolor abdominal sin proceso inflamatorio (DASPI) y dolor abdominal con proceso inflamatorio (DACPI). Se construyó un modelo de árbol de clasificación tipo Chi-Square Automatic Interaction Detection (CHAID) y un modelo de RNA. Se evaluaron también los modelos clásicos (Alvarado [ALS], Appendicitis Inflammatory Response [AIR] y Fenyö-Lindberg FLS]). Se evaluó la discriminación mediante curvas ROC (ABC [IC 95%]) y porcentaje de correcta clasificación (PCC).
ResultadosEl 53% eran varones. Edad media 33,3±16 años. El grupo más numeroso fue el de dFID (45%), AA (37%), DASPI (12%) y DACPI (6%). Discriminación de ALS (0,82 [0,76-0,87]), AIR (0,83 [0,77-0,88]) y FLS (0,88 [0,84-0,92]). El CHAID determina 10 grupos de decisión: 3 con probabilidad altas para dFID, 3 altas para AA y 4 especiales sin diagnóstico predominante. PCC de RNA y CHAID con el 75 y 74,2%, respectivamente.
ConclusionesLa metodología basada en árboles de clasificación tipo CHAID permite establecer un modelo diagnóstico basado en cuatro grupos de dolor en FID y genera reglas de decisión que pueden ayudarnos en el diagnóstico de procesos con dolor en FID.
Pain in the right iliac fossa (RIF) continues to pose diagnostic challenges. The objective of this study is the development of a RIF pain diagnosis model based on classification trees of type CHAID (Chi-Square Automatic Interaction Detection) and on an artificial neural network (ANN).
MethodsProspective study of 252 patients who visited the hospital due to RIF pain. Demographic, clinical, physical examination and analytical data were registered. Patients were classified into 4 groups: NsP (nonspecific RIFP group), AA (acute appendicitis), NIRIF (RIF pain with no inflammation) and IRIF (RIF pain with inflammation). A CHAID-type classification tree model and an ANN were constructed. The classic models (Alvarado [ALS], Appendicitis Inflammatory Response [AIR] and Fenyö-Linberg [FLS]) were also evaluated. Discrimination was assessed using ROC curves (AUC [95% CI]) and the correct classification rate (CCR).
Results53% were men. Mean age 33.3±16 years. The largest group was the NsP (45%), AA (37%), NRIF (12%) and IRIF (6%). The analytical model results were: ALS (0.82 [0.76-0.87]), AIR (0.83 [0.77-0.88]) and FLS (0.88 [0.84-0.92]). CHAID determined 10 decision groups: 3 with high probability for NsP, 3 high for AA and 4 special groups with no predominant diagnosis. CCR of ANN and CHAID were 75% and 74.2%, respectively.
ConclusionsThe methodology based on CHAID-type classification trees establishes a diagnostic model based on four pain groups in RIF and generates decision rules that can help us in the diagnosis of processes with RIF pain.
El dolor abdominal es un problema habitual de consulta en los centros hospitalarios. Dentro de este tipo de dolor, el centrado en la fosa ilíaca derecha (FID), es una de las afecciones más frecuentes atendidas en los servicios de urgencias y cirugía general1.
Los trabajos publicados sobre el diagnóstico del dolor en FID se han centrado en el diagnóstico principal de apendicitis aguda (AA) y en subgrupos de pacientes con características diferenciales2. De este modo, los distintos trabajos intentan desarrollar nuevos modelos diagnósticos de esta afección (pero casi siempre solo diferenciando AA frente al resto de problemas) o buscan validar los sistemas clásicos3.
Algoritmos clásicos como el de Alvarado4, Fenyö-Lindbert5 o Appendicitis Inflammatory Response (AIR)6, tienen alta capacidad de discriminación de la AA, pero al centrarse sobre la AA, no suelen ser útiles para otros diagnósticos de dolor en la FID. Harían falta modelos que intenten clasificar, de forma integral, la afección de la FID desde el punto de vista de los profesionales que atienden a estos pacientes (urgencias y cirujanos)7.
El objetivo de nuestro trabajo es desarrollar, con los datos obtenidos en el servicio de urgencias, un modelo de diagnóstico diferencial de dolor en la FID basado en metodología de árboles de clasificación, y comparar este modelo con los scores clásicos y el generado por una red neuronal artificial (RNA), lo que nos ayudará en el diagnóstico de la AA y otros procesos abdominales.
MétodoEstudio prospectivo observacional, desarrollado durante 18 meses (entre 1 de 2015 y el 31 de diciembre de 2016) realizado en el servicio de urgencias (SU) de un hospital de 2.° nivel, dotado de 450 camas de hospitalización y con 93.000 visitas anuales al SU.
Los pacientes firmaron el correspondiente consentimiento informado y el estudio fue aprobado por el Comité de Ética de Investigación Clínica (CEIC) del hospital.
Se incluyeron los pacientes mayores de 14 años con más de 6h de evolución del dolor en FID. Se excluyeron los pacientes apendicectomizados previamente y los que no pudieron seguirse en su evolución.
Una vez establecido el diagnóstico de dolor en la FID, se recogieron las siguientes variables: edad, sexo, cirugía abdominal previa, índice de masa corporal (IMC), tiempo de evolución de la clínica en horas, toma previa de analgésicos y temperatura corporal.
Se recogieron las variables clínicas incluidas en los modelos clásicos: dolor previo similar, signo de Blumberg (positivo o no), migración del dolor, incremento del dolor con la tos, aumento del dolor con movilización, náuseas/vómitos, anorexia, diarrea y estreñimiento. Datos analíticos: número de leucocitos (número de células × 109), porcentaje de neutrófilos (%) y niveles séricos de PCR (mg/dl). El método analítico utilizado fue el estándar según el laboratorio del hospital. Durante el seguimiento se registró si el paciente quedaba hospitalizado, si se le practicaba una intervención quirúrgica y el diagnóstico al finalizar el episodio. Se establecieron 4 grupos diagnósticos: dolor simple en FID (dFID) cuando el cuadro remitía y el paciente era alta a domicilio, AA cuando el paciente era intervenido y la anatomía patológica era concordante, dolor abdominal en FID sin proceso inflamatorio (DASPI) y dolor abdominal en FID con proceso inflamatorio (DACPI). Se consideró proceso inflamatorio a la existencia de 2 o más síntomas clínicos de los siguientes, además del dolor en FID: temperatura >38°C o <36°C, frecuencia cardíaca >90 latidos por minuto, frecuencia respiratoria mayor de 20 respiraciones por minuto o pCO2<32mmHg, leucocitos en sangre>12.000/ml o <4.000/ml. También se registró si al paciente se le realizaba una ecografía abdominal, aunque su realización no estaba en el protocolo del estudio y quedaba a criterio del médico que atendía al paciente.
Se calcularon los valores de los algoritmos de Alvarado4, AIR6 y Fenyö-Lindberg5.
Análisis estadísticoLas variables se expresan como media y desviación estándar o como porcentaje. Para la comparación entre grupos (4 categorías) se utilizó la prueba de Chi-cuadrado para variables cualitativas y el test no paramétrico de Kruskal-Wallis para las variables continuas. Valor de significación estadística con p<0,05.
El modelo de árbol de clasificación se realizó utilizando el módulo AnswerTree del programa SPSS® (versión 20.0). Se utilizó la opción Chi Square Automatic Interaction Detection (CHAID) con criterio de parada limitada a un número mínimo de 15 pacientes por nodo terminal8.
El modelo de RNA se implementó utilizando el programa Alyuda® (Neurointelligence) que incorpora la metodología de Perceptrón multicapas con retro-propagación del error9.
La estrategia de incorporación de variables en los modelos fue de tipo full model (inclusión de todas las variables candidatas), ambos modelos tienen capacidad de selección automática de las variables según su importancia o jerarquía. La validación interna de los dos modelos se llevó a cabo mediante validación cruzada (10 particiones). La capacidad discriminatoria de los modelos mediante cálculo del área bajo la curva ROC y porcentajes de correcta clasificación (PCC)10.
ResultadosSe incluyeron 295 pacientes con dolor en la FID. Se excluyeron 43 (15 con apendicectomía previa, 5 con menos de 6h de evolución de la clínica y 23 por falta de seguimiento). El grupo de estudio lo formaron 252 pacientes (fig. 1).
Del total de pacientes, 121 fueron ingresados en el hospital, de los cuales, 107 fueron intervenidos quirúrgicamente. Los casos por grupos diagnósticos: 114 casos de dFID, 93 con AA, 30 con DASPI y 15 con DACPI. Los diagnósticos incluidos en la clasificación DASPI fueron: infección de tracto urinario 11 casos, cólico nefrítico 7 casos, gastroenteritis aguda 5 casos, suboclusión intestinal 2 casos, quiste de ovario un caso y otros diagnósticos,4 casos. Los diagnósticos incluidos en DACPI, fueron: enfermedad inflamatoria pélvica 5 casos, pielonefritis aguda 4 casos, absceso tubo-ovárico 2 casos, diverticulitis aguda 2 casos, colecistitis aguda un caso y enfermedad inflamatoria intestinal un caso.
La tabla 1 muestra las características clínicas de los pacientes incluidos en los 4 grupos diagnósticos. Se aprecia que, en general, son pacientes jóvenes y sin diferencias según el sexo.
Características demográficas y clínicas. Según grupos diagnósticos (n=252)
Todos(n=252) | dFID(n=114) | AA(n=93) | DASPI(n=30) | DACPI(n=15) | Valor de p | |
---|---|---|---|---|---|---|
Edad (media±DE) | 33±16 | 30±13 | 37±17 | 35±18 | 31±16 | 0,010 |
Sexo (varón), % | 52,8 | 41,2 | 74,2 | 36,7 | 40,0 | <0,001 |
IMC (media±DE) | 25±4 | 24±4 | 25±3 | 25±3 | 23±4 | 0,286 |
Antecedente cirugía, % | 22,2 | 18,4 | 26,9 | 16,7 | 33,3 | 0,292 |
Horas evolución (media±DE) | 37±32 | 39±36 | 31±25 | 36±33 | 51±33 | 0,182 |
Fiebre, % | 34,9 | 24,6 | 50,5 | 13,3 | 60,0 | <0,001 |
Analgesia previa, % | 40,9 | 41,2 | 37,6 | 43,3 | 53,3 | 0,694 |
Dolor previo similar, % | 28,6 | 27,2 | 28,0 | 33,3 | 33,3 | 0,891 |
Signo de Blumberg, % | 65,9 | 54,4 | 87,1 | 43,3 | 66,7 | <0,001 |
Migración del dolor, % | 53,6 | 36,0 | 72,0 | 43,3 | 93,3 | <0,001 |
Incremento de dolor, tos, % | 68,3 | 63,2 | 82,8 | 40,0 | 73,3 | <0,001 |
Aumento de dolor movilización, % | 65,9 | 57,9 | 80,6 | 40,0 | 86,7 | <0,001 |
Náuseas/vómitos, % | 63,9 | 50,9 | 76,3 | 66,7 | 80,0 | <0,001 |
Anorexia, % | 42,1 | 35,1 | 53,8 | 33,3 | 40,0 | 0,037 |
Diarreas, % | 11,1 | 14,0 | 3,2 | 23,3 | 13,3 | 0,010 |
Estreñimiento, % | 11,9 | 12,3 | 9,7 | 13,3 | 20,0 | 0,694 |
AA: apendicitis aguda; DACPI: dolor abdominal en FID con proceso inflamatorio; DASPI: dolor abdominal en FID sin proceso inflamatorio; dFID: dolor simple en FID; IMC: índice de masa corporal.
Comparación entre grupos con el test de Chi-cuadrado y para variables continuas con el test de Kruskal-Wallis.
En la tabla 2 se observan las variables analíticas y los valores de las puntuaciones de los modelos clásicos estudiados. Si calculamos las curvas ROC (ABC) de las puntuaciones para el diagnóstico único de AA frente a los otros 3 diagnósticos restantes obtenemos 0,82 (0,76-0,87) para el Alvarado, 0,83 (0,77-0,88) en AIR y 0,88 (0,84-0,92) para Fenyö-Lindberg.
Características analíticas y puntuación de Alvarado, AIR y Fenyö-Lindberg según grupos diagnósticos (n=252)
Todos(n=252) | dFID(n=114) | AA(n=93) | DASPI(n=30) | DACPI(n=15) | Valor de pa | |
---|---|---|---|---|---|---|
Leucocitos (109/l) | 12±5 | 10±4 | 16±4 | 10±4 | 14±4 | <0,001 |
Porcentaje de neutrófilos | 75±12 | 69±13 | 82±7 | 72±13 | 78±7 | <0,001 |
PCR (mg/l) | 60±54 | 25±15 | 98±78 | 38±23 | 129±81 | <0,001 |
Alvarado | 5±2 | 4±2 | 6±1 | 4±2 | 6±1 | <0,001 |
AIR | 6±2 | 5±2 | 7±1 | 5±2 | 7±1 | <0,001 |
Fenyö-Lindberg | 7±30 | −9±25 | 31±18 | −14±27 | 19±17 | <0,001 |
AA: apendicitis aguda; AIR: Appendicitis Inflammatory Response; DACPI: dolor abdominal en FID con proceso inflamatorio; DASPI: dolor abdominal en FID sin proceso inflamatorio; dFID: dolor simple en FID; PCR: proteína C reactiva.
Valores como media±DE.
a Comparación entre grupos con el test de Kruskal-Wallis.
El modelo CHAID selecciona 6 variables: número de leucocitos, PCR, dolor con la tos, signo de Blumberg, sexo y tiempo de evolución.
La jerarquía de variables, seleccionada de forma automática, se aprecia en la figura 2. La primera es el número de leucocitos y según el punto de corte, también determinado de forma automática, se incorporan las siguientes variables. El modelo determina 10 reglas de decisión que son los nodos finales.
Los nodos finales (fig. 2) pueden clasificarse en 3 categorías. Los nodos 10, 11 y 13 con una asignación clara para el grupo diagnóstico dFID, los nodos 7, 14 y 17 para el diagnóstico AA y los nodos 5, 12, 15 y 16 con una asignación menos clara (incluye a los diagnósticos DASPI y DACPI) y que pueden considerarse como especiales. Por ejemplo, estos grupos especiales precisaron la realización de más ecografías frente a los grupos con asignación más clara (41,6 vs. 21,1; p<0,01).
Modelo de red neuronal artificialEl modelo de RNA que se genera selecciona de forma automática 10 variables: signo de Blumberg, migración del dolor, incremento del dolor, aumento del dolor con los movimientos, dolor con la tos, anorexia, temperatura, número de leucocitos, horas de evolución y niveles de PCR. La arquitectura que se origina de forma automática queda constituida con una capa de entrada (con las 10 variables seleccionadas), una capa oculta con 12 nodos y una capa de salida con la posibilidad de los 4 grupos diagnósticos. El modelo nos asigna para cada paciente (registro) un grupo diagnóstico de las 4 probabilidades diagnósticas posibles. El modelo RNA también determina que la variable con más peso es el número de leucocitos.
En la tabla 3 se comparan los modelos RNA y árbol de clasificación tipo CHAID. No se observan grandes diferencias entre los porcentajes de PCC ni en las curvas ROC calculadas.
Comparación del modelo de RNA y árbol de clasificación tipo CHAID
RNA | CHAID | |
---|---|---|
PCC (%) | ||
Todos | 75,0 | 74,2 |
dFID | 84,2 | 91,2 |
AA | 93,5 | 81,7 |
DASPI | 20,0 | 13,3 |
DACPI | 12,0 | 20,0 |
ABC ROC (IC 95%) | ||
dFID | 0,92 (0,88-0,96) | 0,89 (0,85-0,93) |
AA | 0,95 (0,91-0,98) | 0,93 (0,90-0,96) |
DASPI | 0,92 (0,84-0,99) | 0,86 (0,81-0,99) |
DACPI | 0,84 (0,70-0,99) | 0,82 (0,73-0,90) |
AA: apendicitis aguda; ABC: área bajo la curva; DACPI: dolor abdominal en FID con proceso inflamatorio; DASPI: dolor abdominal en FID sin proceso inflamatorio; dFID: dolor simple en FID; PPC: porcentaje de correcta clasificación; RNA: red neuronal artificial.
Se realizó la comparativa de este trabajo con otros estudios publicados en la literatura sobre dolor en FID (tabla 4). Se revisaron los tamaños muestrales y se observó que destaca su variabilidad (la mayoría oscila entre los 139 y 545 pacientes, siendo el más grande con 941 pacientes)19.
Comparación descriptiva de nuestro estudio con otros trabajos publicados de dolor en FID
Nombre de estudio | AñoLugar | N.° | DiseñoServicio | Metodología | Población | Utilidad |
---|---|---|---|---|---|---|
Alvarado4 | 1986EE. UU. | 305 | RCirugía | DES Alvarado | SOSP AAHOSP | DIAG AA |
Fenyö-Lindberg4 | 1997Suecia | 1.167 | PCirugía | DES Fenyö-Lindberg | SOSP AAHOSP | DIAG AA |
Fenyö-Lindberg11 | 2004Suecia | 455 | PCirugía | VAL Fenyö-LindbergMujeres | SOSP AAMujeres-HOSP | DIAG AACirugía |
Tzanakis et al.12 | 2005Grecia | 504 | PCirugía y radiología | DES ScoreVAL Alvarado | SOSP AAHOSP | DIAG AAEcografía |
Rennie et al.13 | 2006G. Bretaña | 300 | PCirugía | Estudio mujeres | SOSP AAMujeres-HOSP | DIAG AA |
Antevil et al.14 | 2006EE. UU. | 383609 | P-RCirugía | VAL TAC | SOSP AAHOSP | DIAG AATAC |
Andersson et al.6 | 2008Suecia | 545 | PCirugía | AlvaradoDES Score RL | SOSP AAHOSP | DIAG AA |
McCartan et al.15 | 2010Irlanda | 302 | PCirugía | Revisión AA | SOSP AAHOSP | DIAG AA |
Lintula et al.16 | 2010Finlandia | 181 | PCirugía | VAL ScorePediatría | SOSP AAHOSP | DIAG AA |
Poletti et al.17 | 2011Suiza | 183 | PRadiología | VAL ECO/TAC | SOSP AAHOSP | DIAG AAECOG-TAC |
Chong et al18 | 2011Singapur | 192 | PCirugíaUrgencias | VAL RIPASAUrgencias | Dolor FIDHOSP | DIAG AA |
De Castro et al.19 | 2012Holanda | 941 | PUrgencias | VAL Score | SOSP AAHOSP | DIAG AA |
Gudelis et al. | 2018España | 252 | PUrgencias | DES Score | Dolor FIDURG | DIAG dolor FID |
AA: apendicitis aguda; DES: desarrollo; DIAG: diagnóstico; ECO: ecografía; FID: fosa ilíaca derecha; HOSP: pacientes hospitalizados; P: prospectivo; R: retrospectivo; RL: modelo de regresión logística; SOSP AA: sospecha de AA; TAC: tomografía axial computarizada; URG: urgencias; VAL: validación.
Una de las aportaciones de nuestro trabajo es la utilización de 4 grupos de clasificación. En nuestra serie, el grupo más numeroso de pacientes es el de dFID. En los trabajos que se realizan con pacientes más seleccionados (han pasado el primer filtro de su atención en urgencias) este grupo es más reducido13,14.
El grupo de AA agrupaba a todos los pacientes que fueron ingresados en el servicio de cirugía e intervenidos por sospecha de AA y cuyo diagnóstico fue confirmado por anatomía patológica. El porcentaje de estos pacientes oscila según los criterios de inclusión de los distintos trabajos publicados17.
En nuestro trabajo se ha considerado el grupo de diagnóstico de AA cuando la anatomía patológica es concordante. Si consideramos los pacientes que tenían sospecha de AA y se operaron, encontramos que solo 6 (5,7%) pacientes no presentaban un diagnóstico anatomopatológico de AA (3 con diagnóstico final de dFId y 3 con DACPI). Este porcentaje (5,7%) de apendicitis «blancas» es inferior al publicado en otras series que oscilan entre el 10 y el 23%7,11,15.
La utilización de otras 2 categorías diagnósticas DASPI y DACPI creemos que aporta una visión más amplia del problema y una clasificación con distinto comportamiento tanto en el diagnóstico (necesitaran más pruebas de imagen), como en el tratamiento y pronóstico.
La principal ventaja del modelo basado en árboles de clasificación, que en nuestro caso es de tipo CHAID, es la fácil interpretación del modelo. Las reglas de clasificación que se generan incluyen a todos los pacientes posibles e incluyen aspectos de distintos subgrupos como la edad y el sexo20,21.
El modelo CHAID detecta como variable más importante el número de leucocitos (coincidiendo con el modelo RNA). El CHAID incluye en segunda línea la cifra de PCR. También es interesante observar que la variable clínica que incluye es la de dolor con la tos. Dentro de la exploración clínica este dolor no depende del explorador sino de una maniobra alejada de la exploración abdominal directa. Las 10 reglas de clasificación generadas se han podido agrupar según la posibilidad diagnóstica principal. Podemos encontrar reglas para el diagnóstico de dFID y de AA de forma más clara y otras reglas de decisión (que nombramos como especiales) donde el diagnóstico diferencial alcanza un mayor protagonismo ya que los grupos DASPI y DACPI están más presentes.
Se han publicado otras series que han empleado la metodología de árboles de clasificación, por ejemplo, utilizando tipos de árboles distintos como el CART. Pero todos ellos solo para diferenciar AA y no AA. Se han hecho modelos con variables clínicas y analíticas22, utilizando la combinación con Alvarado23 y añadiendo pruebas de imagen24.
El modelo de RNA empleado consigue valores aceptables de capacidad discriminatoria. La desventaja de este modelo es que funciona como una «caja negra» y no se puede interpretar de forma sencilla para utilizar en clínica, ya que consta de 480 parámetros (10×12×4) que incluyen todas las interacciones entre las variables de entrada, las de la capa oculta y las de los nodos de salida. Hace falta su implementación en un ordenador para poder utilizarlo. Nos sirve como modelo comparativo. La RNA utiliza todas las interconexiones de las variables empleadas y tampoco consigue una precisión mayor que el basado en CHAID. Hay otros estudios que han empleado RNA para el diagnóstico de AA (focalizando solo sobre AA y no AA)25.
Este estudio también tiene varias limitaciones. La principal depende de la asignación de los grupos utilizados. Son grupos no validados por la literatura y la AA tiene consideración de proceso inflamatorio. Sería interesante disponer de un mayor tamaño de la muestra, sobre todo en los grupos diagnósticos DASPI y DACPI. Como defensa del trabajo, creemos que los modelos que solo enfrentan AA al resto de problemas pierden capacidad de utilización real asistencial.
En conclusión, creemos que los profesionales que atienden a los pacientes con dolor en FID pueden beneficiarse de modelos fáciles de interpretar y con una clasificación de más de dos posibilidades (AA vs. no AA). El modelo CHAID generado consigue este objetivo, aunque debe ser validado en otras series más amplias.
FinanciaciónDeclaramos que no hubo ninguna fuente de financiación para elaborar este estudio.
Conflicto de interesesDeclaramos que no existe conflicto de intereses.