Validar los modelos pronósticos de las escalas APACHE II y SOFA en pacientes con sospecha de infección en escenarios diferentes de las unidades de cuidados intensivos.
Materiales y métodosSe realizó un análisis secundario de 2 estudios de cohortes que incluyó 2.530 pacientes adultos con sepsis o sospecha de la misma, atendidos en las primeras 24h de su ingreso en salas de hospitalización o servicios de urgencias. Se evaluó el desempeño de ambos sistemas de puntuación para establecer calibración y discriminación, respectivamente, en los desenlaces primarios como la mortalidad intrahospitalaria y a los 28 días, y secundarios como la necesidad de ingreso en Unidad de Cuidados Intensivos, desarrollo de shock séptico y disfunción orgánica múltiple.
ResultadosLos valores de AUC-ROC para mortalidad al alta hospitalaria y el día 28 en la primera cohorte estuvieron alrededor de 0,50 para SOFA y APACHE II, mientras que para la segunda cohorte el valor de discriminación fue de alrededor de 0,70. La calibración de ambos sistemas de puntuación para desenlaces primarios, según la prueba de Hosmer-Lemeshow, mostró un valor p>0,05 en la primera cohorte, mientras que en la segunda cohorte la calibración solo tuvo un valor p>0,05 en el caso del SOFA para mortalidad al alta hospitalaria.
ConclusiónEl estudio de validación de los sistemas de puntuación SOFA y APACHE II en los pacientes con sospecha de sepsis en el contexto hospitalario fuera de la Unidad de Cuidados Intensivos evidenció un rendimiento inadecuado para calibración y discriminación; su aplicación en salas de urgencias y hospitalización es limitada.
To validate the APACHE II and SOFA scores in patients with suspected infection in clinical settings other than intensive care units.
Materials and methodsA secondary analysis was performed on 2,530 adult patients participating in 2 cohort studies, with suspected infection as admission diagnosis within the first 24h of hospitalization. The performance of both scoring systems was studied in order to set calibration and discrimination, respectively, on the outcomes such as mortality, admission to Intensive Care Unit, development of septic shock, or multiple organ dysfunctions.
ResultsThe AUC-ROC values for mortality at discharge and on day 28 in the first cohort were around 0.50 for the SOFA and APACHE II scores; whereas for the second cohort the discrimination value was around 0.70. Calibration of both scoring systems for primary outcomes, according to Hosmer-Lemeshow test, showed p>.05 in the first cohort; while in the second cohort calibration it only showed a p>.05 in the case of the SOFA for mortality at hospital discharge.
ConclusionThis validation study of SOFA and APACHE II scores in patients with suspected infection in-hospital units other than the Intensive Care Unit, showed no consistent performance for calibration and discrimination. Its application in emergency and in-hospital patients is limited.
La sepsis es uno de los principales problemas de salud a nivel mundial y parece afectar especialmente a países en vías de desarrollo. Se estima que actualmente 18 millones de casos nuevos se presentan cada año en el mundo1. La sepsis es una respuesta sistémica a la infección, que a su vez puede llevar a disfunción de órganos y sistemas, shock y, finalmente, a la muerte hasta en un 30% de los casos1. Sus efectos se pueden medir en términos de mortalidad a corto o medio plazo, ingreso en una Unidad de Cuidados Intensivos (UCI), tiempo de estancia hospitalaria o evolución al shock séptico y la disfunción orgánica múltiple. Esto indica la necesidad de profundizar en el diagnóstico y tratamiento precoces de la sepsis2–7.
Por otra parte, los sistemas de puntuación de gravedad y disfunción de órganos, como las escalas APACHE II8,9 y SOFA10, han sido utilizados y validados ampliamente en diversos escenarios y poblaciones11–18. Su objetivo es categorizar a los pacientes según el grado de compromiso que presentan, y predecir el riesgo de muerte, partiendo de variables fisiológicas –clínicas y paraclínicas– e indicando el grado de disfunción de órganos. Aunque estos sistemas de puntuación no han sido desarrollados para el problema específico de la sepsis, su potencial utilidad se puede extender a pacientes hospitalizados en salas generales o en el Servicio de Urgencias con sospecha de infección19. Estos modelos pueden ser potencialmente útiles para la toma de decisiones, como determinar la necesidad de procedimientos invasivos, de tratamientos especiales, de ingreso a UCI o, incluso, para evaluar la respuesta a un tratamiento20,21. Igualmente, desde los puntos de vista de la investigación y administrativo, la caracterización de una población en términos de su gravedad es un requisito fundamental para el desarrollo de proyectos y estudios clínicos. Recientemente hemos demostrado en una revisión sistemática de la literatura médica que no hay suficiente información que permita evaluar la exactitud de estos sistemas de puntuación en pacientes «fuera de la UCI»22.
Teniendo en cuenta las carencias anteriormente mencionadas, nuestro objetivo fue validar la utilización de los sistemas de puntuación de gravedad (APACHE II) y de disfunción de órganos (SOFA) en escenarios clínicos diferentes de la UCI. Para lo anterior, evaluamos la exactitud predictiva de dichos sistemas de puntuación para predecir mortalidad, necesidad de ingreso en UCI, desarrollo de shock séptico y disfunción orgánica múltiple en 2 cohortes de pacientes con sepsis o sospecha de la misma, atendidos en servicios de urgencias o salas generales de hospitalización.
Materiales y métodosDiseño del estudioSe realizó un análisis secundario de los datos de 2 estudios de cohorte: EPISEPSIS (estudio de cohorte prospectivo en 10 instituciones hospitalarias del territorio nacional colombiano)23 y DISEPSIS (estudio de cohorte prospectivo en el HUSVP de Medellín, Colombia, hospital universitario y centro de referencia de cuarto nivel de atención, con 550 camas y 4 UCI)24,25. Para el primer estudio el período de reclutamiento de los pacientes fue desde el 1 de Septiembre de 2008 hasta el 28 de febrero de 2009. En el segundo, este período fue desde el 27 de agosto de 2007 hasta el 29 de diciembre de 2008.
Población y escenario de estudioAmbas cohortes tenían como población de estudio pacientes adultos con infecciones bacterianas agudas confirmadas o probables, sepsis o sospecha de la misma de acuerdo con los registros de las historias clínicas de ingreso a las instituciones (ver definiciones y población de estudio en el Anexo), y en el momento de la selección para la investigación se encontraban dentro de las primeras 24h de ingreso en el hospital. Las áreas de selección para el estudio EPISEPSIS fueron tanto las salas de hospitalización como las UCI y el Servicio de Urgencias, mientras que en la cohorte DISEPSIS solo se tuvieron en cuenta aquellos pacientes que ingresaron por el Servicio de Urgencias. Para efecto del presente análisis se excluyeron los pacientes hospitalizados en UCI y los que tenían diagnóstico de infección nosocomial, dado que la población objeto del estudio son pacientes que se encuentran en salas de hospitalización o servicios de urgencias y con infección adquirida en la comunidad.
Protocolo de estudioEn la totalidad de los pacientes fue determinada de forma estándar la puntuación en las escalas APACHE II y SOFA en las primeras 24horas del ingreso hospitalario. Se estudió la mortalidad intrahospitalaria y a los 28 días como objetivos principales, y como objetivos secundarios, la necesidad de ingreso en la UCI, el desarrollo de shock séptico, y la disfunción orgánica múltiple (definida como puntuación en la escala SOFA≥2 en 2 o más órganos o sistemas).
Diseño estadísticoLos datos se presentan como medias, medianas o proporciones, según las respectivas distribuciones, con sus correspondientes medidas de dispersión (desviación estándar, rango intercuartílico o intervalo de confianza, respectivamente); y la comparación entre grupos se hizo por medio de test estadísticos paramétricos o no paramétricos, basados en los mismos criterios. La metodología para valorar la exactitud predictiva de los modelos pronósticos consistió en determinar la calibración y la discriminación para cada uno de los sistemas de puntuación con respecto a los desenlaces específicos a evaluar. La calibración se determinó por medio de la prueba de bondad de ajuste de Hosmer-Lemeshow, en la que se considera que los valores de p>0,05 representan una adecuada concordancia entre los desenlaces observados en la cohorte y los predichos por el modelo26. La discriminación se estimó por medio del área bajo la curva de características operativas del receptor (AUC-ROC), en la cual valores cercanos a 1 representan excelente discriminación, y valores cercanos a 0,5 representan la discriminación explicada por el azar.
ResultadosLos estudios incluyeron en total 3.486 pacientes. De la cohorte EPISEPSIS se excluyeron 835 por tener infecciones adquiridas en el hospital, y de la cohorte DISEPSIS se excluyeron 40 pacientes que ingresaron directamente en la UCI y 81 que ingresaron en el estudio por un criterio diferente al de sospecha de infección (fig. 1). En total se analizaron los datos de 2.530 pacientes, de los cuales 1.846 correspondían a la cohorte de EPISEPSIS y 684 a la de DISEPSIS. En la tabla 1 se muestran las características de la población. Los valores en los sistemas de puntuación APACHE II y SOFA fueron más altos en la cohorte EPISEPSIS, con una diferencia estadísticamente significativa: APACHE II 11,06 frente a 9,09, SOFA 3,06 frente a 2,08. La mortalidad intrahospitalaria y a los 28 días fue mayor en la primera cohorte (16,9 frente a 9,5% y 18,9 frente a 11,0%, respectivamente), al igual que la comorbilidad en general, aunque la proporción de pacientes tratados en UCI fue similar en ambos estudios (8,9 frente a 8,6%).
Características basales de la población (n=2.530)
Variable | Cohorte de EPISEPSIS (n=1.846) | Cohorte de DISEPSIS (n=684) | pa |
Edad (años) | 55,7±20,7 | 51,3±20,2 | 0,0000 |
Sistema de puntuación APACHE II | 11 (6-16) | 9 (5-14) | 0,0000 |
Sistema de puntuación SOFA | 3 (1-5) | 2 (1-4) | 0,0000 |
Estancia hospitalaria (días) | 8 (4-13) | 9 (5-17) | 0,0000 |
Sexo femenino | 965 (52,3) | 344 (50,3) | 0,3754 |
VIH/SIDA | 69 (3,7) | 17 (2,5) | 0,1226 |
Trauma o Cx en los últimos 30 días | 320 (17,3) | 46 (6,7) | 0,0000 |
ICC | 161 (8,7) | 22 (3,2) | 0,0000 |
Paciente trasplantado | 38 (2,1) | 45 (6,6) | 0,0000 |
Cirrosis | 24 (1,3) | 6 (0,9) | 0,3828 |
Uso de esteroides o quimioterapia | 134 (7,3) | 55 (8,0) | 0,5064 |
Drogadicción/alcoholismo | 63 (3,4) | 5 (0,7) | 0,0002 |
EPOC | 190 (10,3) | 86 (12,6) | 0,1022 |
IRC y/o diálisis | 186 (10,1) | 76 (11,1) | 0,4478 |
DM | 297 (16,1) | 135 (19,7) | 0,0303 |
Historia de cáncer en el último año | 162 (8,8) | 56 (8,2) | 0,6394 |
Ingreso en UCI | 165 (8,9) | 59 (8,6) | 0,8021 |
Mortalidad intrahospitalaria | 311 (16,9) | 65 (9,5) | 0,0000 |
Mortalidad a los 28 días | 348 (18,9) | 75 (11,0) | 0,0000 |
Disfunción orgánica múltiple | 1.305 (70,7) | 419 (61,3) | 0,0000 |
Choque | 184 (10) | 9 (1,3) | 0,0000 |
VIH/SIDA: virus de la inmunodeficiencia humana/síndrome de la inmunodeficiencia adquirida; Cx: cirugía; ICC: insuficiencia cardíaca congestiva; EPOC: enfermedad pulmonar obstructiva crónica; IRC: insuficiencia renal crónica; DM: diabetes mellitus; UCI: Unidad de Cuidados Intensivos.
Las variables se presentan como media±desviación estándar, mediana (rango intercuartílico) o número absoluto (proporción), según corresponda.
La capacidad de discriminación de los 2 sistemas de puntuación con respecto a la mortalidad intrahospitalaria y a los 28 días fue igualmente deficiente en la cohorte EPISEPSIS, mientras que ambos mostraron valores aceptables de discriminación en la cohorte DISEPSIS con respecto a estos mismos 2 desenlaces (tabla 2). La calibración, evaluada por medio de la prueba de bondad de ajuste de Hosmer-Lemeshow, tuvo un comportamiento opuesto al anterior, con una adecuada concordancia entre lo observado y lo predicho por los 2 sistemas de puntuación en la primera cohorte, pero con diferencias significativas en los mismos para la segunda (tabla 2 y figs. 2 y 3).
Área bajo la curva de características operativas del receptor y valores de p para la prueba de Hosmer-Lemeshow, según los desenlaces evaluados
Variables | Sistema de puntuación | Estudio | |||||
EPISEPSIS (n=1.846) | DISEPSIS (n=684) | ||||||
Desenlace, n (%) | AUC ROC | Hosmer-Lemeshow, valor de p | Desenlace, n (%) | AUC ROC | Hosmer-Lemeshow, valor de p | ||
Supervivencia al alta | SOFA | 311 (16,9) | 0,50 | 0,5793 | 65 (9,5) | 0,74 | 0,0663 |
APACHE | 0,50 | 0,7569 | 0,72 | 0,0348 | |||
Estado vital día 28 | SOFA | 348 (18,9) | 0,50 | 0,8843 | 75 (11,0) | 0,74 | 0,0444 |
APACHE | 0,51 | 0,9290 | 0,69 | 0,0170 | |||
Ingreso en UCI | SOFA | 422 (22,9) | 0,80 | 0,7411 | 59 (8,6) | 0,67 | 0,2337 |
APACHE | 0,74 | 0,3932 | 0,68 | 0,4380 | |||
SDOM | APACHE | 1.305 (70,7) | 0,76 | 0,0340 | 419 (61,2) | 0,82 | 0,9090 |
Desarrollo de choque | SOFA | 184 (10,0) | 0,93 | 0,0353 | 9 (1,3) | 0,96 | 0,8730 |
APACHE | 0,78 | 0,3472 | 0,80 | 0,5945 |
AUC ROC: área bajo la curva de características operativas del receptor; SDOM: síndrome de disfunción orgánica múltiple (2 o más órganos con sistema de puntuación de SOFA≥2).
Con respecto a los objetivos secundarios, admisión en UCI, desarrollo de shock y desarrollo de disfunción orgánica múltiple, en general los 2 sistemas de puntuación tuvieron valores aceptables de discriminación y calibración, con la excepción de la escala APACHE II y la calibración de disfunción orgánica múltiple (p=0,0340), y la escala SOFA y la calibración de desarrollo de shock séptico (p=0,0353) (tabla 2).
DiscusiónEl objetivo de este estudio fue validar el desempeño de los sistemas de puntuación SOFA y APACHE II en pacientes con diversos tipos de infecciones agudas en el contexto hospitalario fuera de la UCI, utilizando para lo anterior la información proveniente de 2 cohortes colombianas previamente desarrolladas con pacientes con sepsis o sospecha de la misma. Encontramos que el rendimiento de dichos modelos no fue adecuado en términos de calibración y discriminación, y, por lo tanto, su uso en salas de urgencias y hospitalización parece muy limitado. En una revisión sistemática de la literatura médica publicada recientemente, se determinó que para pacientes con sospecha de infección fuera de la UCI se encuentran muy pocos estudios que evalúen correctamente el desempeño de los modelos predictivos en términos de discriminación y calibración22.
La validación de un modelo o sistema de pronóstico, desde el punto de vista de su exactitud, se realiza por medio de la calibración y la discriminación. La primera hace referencia a la proporción, más allá de aquella explicada por el azar, en que los desenlaces observados coinciden con los predichos por el modelo, y una de las formas de evaluarla es a través de la prueba de bondad de ajuste de Hosmer-Lemeshow. Dicha prueba determina, con base en una distribución de probabilidades de tipo Chi cuadrado, si no existen diferencias estadísticamente significativas entre los desenlaces observados y los predichos, caso en el cual los valores de p deben ser superiores al nivel tradicionalmente considerado como significativo de 0,05. La discriminación se refiere a la capacidad del modelo para diferenciar o separar los pacientes de acuerdo con su nivel de riesgo de presentar un desenlace determinado, y se expresa en términos de AUC-ROC. Esta área va desde 0,5 (no discriminación) hasta 1,0 (perfecta discriminación).
Los pacientes del estudio EPISEPSIS presentaron valores de SOFA y APACHE II significativamente más altos que los del estudio DISEPSIS, lo que se relaciona con una mayor tasa de mortalidad al alta hospitalaria y al día 28. En el estudio EPISEPSIS se encontró que los sistemas de puntuación SOFA y APACHE II tenían una pobre discriminación para mortalidad (AUC de 0,51), indicando que para esta cohorte los modelos no lograron diferenciar los pacientes según el nivel de riesgo. Resultados similares encontraron Chen et al.27 en un estudio que comparó la puntuación MEDS con el APACHE II en pacientes con sepsis grave en el Servicio de Urgencias, y en el cual se obtuvieron AUC-ROC de 0,75 y 0,62, respectivamente. En cuanto a la calibración, en esta misma cohorte, se obtuvo un valor de p para la prueba de Hosmer-Lemeshow mayor de 0,05 en los desenlaces de mortalidad con ambos sistemas de puntuación. Este mismo patrón fue encontrado por Markgraf et al.28 en un estudio donde se comparó la escala APACHE II y III con SAPS II en pacientes de la UCI. Estos valores, si bien corresponden a un buen desempeño en términos de calibración, no pueden ser interpretados de forma aislada, ya que al tener una pobre discriminación no es posible diferenciar los pacientes según el nivel de riesgo y, por lo tanto, el modelo los separa por azar y no por la condición clínica real, lo que lleva a un resultado de calibración que finalmente carece de validez.
La hipótesis más evidente para explicar la pobre discriminación de las escalas APACHE II y SOFA en el estudio EPISEPSIS es que estos modelos se desarrollaron y validaron específicamente en población de UCI9,10, y dado que la condición clínica de los pacientes de esta cohorte es menos grave, es de esperar que se afecte el desempeño del modelo en la predicción de mortalidad. Además, la escala APACHE II fue desarrollada para pacientes de UCI con diversas condiciones críticas de tipo cardiovascular, renal, respiratorio, circulatorio y neurológico, de origen médico y/o quirúrgico, mientras que la población de EPISEPSIS incluía solo pacientes con diagnóstico de infección. Otro aspecto que se ha demostrado puede afectar la discriminación de un modelo de pronóstico es la variabilidad en las características demográficas de la población, como es el caso de la cohorte de EPISEPSIS, que incluyó 10 centros hospitalarios. Un fenómeno similar se evidenció en el estudio multicéntrico realizado por Man et al.29, donde se obtuvo un AUC-ROC para APACHE II modificado de 0,743, que fue diferente del AUC-ROC de 0,91 encontrada en otro estudio realizado por los mismos autores en un solo centro30, incluyendo ambos estudios pacientes críticamente enfermos, pero seleccionados en el Servicio de Urgencias.
En la cohorte DISEPSIS, al contrario de lo esperado por ser esta una población de menor gravedad y con menor mortalidad, se encontró una aceptable discriminación, con un AUC-ROC de alrededor de 0,7; pero, paradójicamente, además se encontró una pobre calibración, con valores de p<0,05 en la prueba de Hosmer-Lemeshow. Lo mismo fue observado por Beck et al. en un estudio multicéntrico que comparaba APACHE II, APACHE III y SAPS II en pacientes de UCI, y en el que se obtuvo un valor de AUC-ROC de 0,83 y p<0,001 (Hosmer-Lemeshow) para la escala APACHE II con respecto al desenlace de mortalidad hospitalaria31. Resultados similares, con esta aparente contradicción, se han encontrado en otros estudios sobre el desempeño del APACHE II32,33. En una revisión de sistemas de puntuación de predicción de riesgo en enfermedades cardiovasculares34 se demostró que, desde el punto de vista estadístico y matemático, una buena discriminación no garantiza una buena calibración, lo cual ya había sido planteado por Diamond con algunos ejemplos clínicos35, concluyendo que un modelo no puede ser perfectamente confiable (buena calibración) y perfectamente discriminatorio, dado que cuando se trata de maximizar la discriminación se hace a expensas de la calibración, y viceversa. Por otra parte, parece evidente que las pruebas estadísticas utilizadas para determinar la discriminación y la calibración no son lo suficientemente sensibles ni específicas con respecto al concepto que desean cuantificar; particularmente, la prueba de bondad de ajuste de Hosmer-Lemeshow, como han mostrado sus mismos autores, puede dar resultados inexactos en ciertos contextos de menor tamaño de muestra, grandes diferencias en los valores de las covariables entre individuos, o en presencia de términos de interacción entre esas mismas covariables36.
En conclusión, los sistemas de puntuación de gravedad SOFA y APACHE II no fueron validados en nuestra población para ser aplicados en pacientes en salas de urgencias y salas generales con sospecha de infección, dado que no se obtuvo una adecuada discriminación y calibración en ninguna de las 2 cohortes analizadas. En la revisión sistemática previamente mencionada22 se encontró que el sistema de puntuación MEDS parece tener un aceptable desempeño en términos de discriminación (AUC-ROC=0,78) y calibración (Hosmer-Lemeshow, p=0,39) en este tipo de pacientes7, pero este sistema de puntuación no ha sido validado en nuestra población. Como un desarrollo futuro y una propuesta necesaria para la investigación en el área del pronóstico en la sepsis, en la literatura se proponen diferentes métodos de recalibración como alternativa para validar modelos previamente desarrollados en poblaciones diferentes37,38, lo cual permitiría tener en cuenta otros factores pronósticos emergentes, y también ajustar los modelos a los cambios de comportamiento de una enfermedad determinada en el tiempo31.
FinanciaciónEste artículo fue apoyado por la Estrategia de Sostenibilidad 2013-2014 de la Universidad de Antioquia.
Conflicto de interesesLos autores declaran no tener ningún conflicto de intereses.
Estudio EPISEPSIS
Criterios de inclusión
- 1.
Hospitalizados en los servicios de urgencias, salas generales o UCI
- 2.
Edad igual o mayor a 18 años
- 3.
Registro en la historia clínica, en el día en que se hace la evaluación, de cualquiera de los siguientes problemas:
- a)
Sospecha o confirmación, por parte del médico tratante, de cualquier tipo de infección
- b)
Temperatura mayor de 38°C o menor de 36°C de causa no determinada
- c)
Hipotensión (presión arterial sistólica<90mmHg o una disminución>40mmHg en los valores previos) de causa no determinada
Como criterio definitivo de inclusión, los pacientes debían cumplir con al menos una definición estándar para infección de los Centros de Control y Prevención de Enfermedades de los Estados Unidos (CDC, Atlanta, EE. UU.)
Criterios de exclusión
- 1.
Negativa del paciente, sus familiares o del médico tratante para participar
- 2.
Para los pacientes seleccionados en los servicios de urgencias, hospitalización previa en otros centros por más de 48h inmediatamente antes del ingreso en la institución participante
- 3.
Decisión de alta hospitalaria para tratamiento ambulatorio o en otra institución en las primeras 24h posteriores al ingreso en el estudio
- 4.
Detección del paciente después de 24h de haber sido sospechada o confirmada la infección
- 5.
Cambio, durante la hospitalización actual, del diagnóstico inicial de infección según los criterios del CDC a una enfermedad no infecciosa
- 6.
Pacientes sin domicilio fijo o sin teléfono disponible para seguimiento
- 7.
Selección previa en la misma investigación
Se definió infección nosocomial o adquirida en el hospital como aquella que no estaba presente ni en incubación en el momento del ingreso en el hospital, es decir, que se manifestaba después de 48h de hospitalización.
Estudio DISEPSIS
Criterios de inclusión
- 1.
Hospitalizados por el Servicio de Urgencias de la institución dentro de las 24h anteriores al ingreso en el estudio
- 2.
Mayores de 18 años
- 3.
Con al menos uno de los siguientes diagnósticos registrado en la historia clínica como causa de admisión:
- a)
Cualquier tipo de infección
- b)
Síndrome febril
- c)
Síndrome mental orgánico o encefalopatía
- d)
Hipotensión aguda no explicada por pérdidas sanguíneas, por infarto de miocardio o por fallo cardiaco
- e)
Síndrome de dificultad respiratoria del adulto
- f)
Fallo multiorgánico
- a)
Criterios de exclusión
- 1.
Negativa del paciente, sus familiares o del médico responsable para participar en el estudio
- 2.
Remisión de otra institución en donde haya recibido algún tipo de tratamiento antimicrobiano
- 3.
Decisión de alta hospitalaria para tratamiento ambulatorio o en otra institución en las primeras 24h posteriores al ingreso en el estudio