Introducción
Los recientes cambios sociales están teniendo un profundo impacto en la práctica médica, en general, y quirúrgica, en particular. El cirujano ha perdido parte de su protagonismo y los resultados de la cirugía se toman en consideración y debaten no sólo en publicaciones especializadas, sino también diariamente en la prensa ordinaria. Esta situación ha llevado en las últimas décadas al desarrollo y a la aplicación de sistemas objetivos de auditoría en los que se puede establecer el margen de riesgo para un paciente y una intervención determinados y permitir de esta manera una evaluación más equilibrada del resultado final de la práctica quirúrgica.
Estos sistemas, que utilizan puntuaciones objetivas, pueden predecir el riesgo de la cirugía para una determinada población de pacientes. A su vez, permiten comparar los resultados quirúrgicos entre servicios o cirujanos dentro de una misma institución o entre diferentes instituciones a partir de la medida de morbilidad y mortalidad para situaciones parecidas.
Desde la introducción del sistema ASA de la Sociedad Americana de Anestesiología, se han desarrollado múltiples sistemas de evaluación quirúrgica y del riesgo general de los pacientes, y probablemente el sistema APACHE sea el más utilizado en la actualidad.
El sistema POSSUM (Physiological and Operative Severity Score for the enUmeration of Mortality and morbidity) lo desarrolló Copeland et al1 en 1991 como un método de estratificación de todos los tipos de pacientes quirúrgicos de acuerdo con su grado de riesgo, y en el que únicamente se utilizan hallazgos clínicos, exámenes de laboratorio y los datos del protocolo operatorio, de modo que puede utilizarse en una gran variedad de situaciones diferentes.
Se desarrolló a partir de un análisis aleatorizado, multivariado, de 62 variables diferentes, durante 6 meses en una etapa inicial y luego con 35 variables durante un período similar, antes de llegar a su actual formulación. Este índice permite evaluar los rangos esperados de morbilidad y mortalidad ajustadas por riesgo para una determinada situación, a partir de la consideración de 2 puntuaciones: una fisiológica, con 12 factores, y la otra de gravedad operatoria, que utiliza 6 factores.
Distintos estudios2-4 han validado este sistema, especialmente en el Reino Unido, y, en menor medida, en otros países europeos, que tanto consideran su versión original como la modificación metodológica realizada por Whiteley et al5 en Portsmouth (p-POSSUM).
Pacientes y método
Se estudiaron 2 series consecutivas de pacientes pertenecientes a 2 unidades quirúrgicas diferentes, entre febrero de 1998 y junio de 2000. La unidad 1 correspondió a un servicio de cirugía general de un Hospital público en el que se realiza docencia universitaria (Clínica Quirúrgica 2, Hospital Maciel). La unidad 2 correspondió a un servicio de cirugía general en un centro de asistencia de salud privado.
Se incluyó en el estudio a todos los pacientes mayores de 15 años, tanto los sometidos a procedimientos quirúrgicos de elección, como de urgencia. Su seguimiento se extendió hasta los 30 días del postoperatorio o hasta su muerte, si ésta ocurrió dentro de este período. Únicamente se excluyó a los pacientes a los que se operó de modo ambulatorio y a los que requirieron procedimientos muy complejos, con participación de equipos multidisciplinarios en su tratamiento.
La información se recolectó de modo prospectivo en una hoja de recogida de datos similar a la publicada por Copeland et al1. Se registraron datos demográficos, diagnóstico clínico e intraoperatorio, procedimientos quirúrgicos realizados y evolución final de los pacientes.
La muerte intrahospitalaria o dentro los primeros 30 días del postoperatorio se aceptó como definición de mortalidad. Se aceptaron las definiciones de complicación postoperatoria establecidas por Copeland en su publicación original.
A cada paciente se le asignó una puntuación fisiológica antes de la intervención quirúrgica y una puntuación de gravedad operatoria después de ella. Los datos de la puntuación fisiológica se recogieron al momento del ingreso del paciente, una vez que se contó con el resultado de los exámenes de laboratorio. La puntuación de gravedad operatoria se pudo completar una vez definidos todos los aspectos inherentes a la cirugía requeridos por ésta: entidad del sangrado, presencia o no de contaminación peritoneal, etc. No hubo diferencias entre las unidades respecto a la forma de preparación preoperatoria de los pacientes.
La puntuación fisiológica tomó en cuenta 12 factores (edad, estado cardíaco, estado respiratorio, presión arterial, pulso, escala de Glasgow, hemoglobina, leucocitosis, nitrógeno ureico en sangre, ionograma y electrocardiograma) y se establecieron 4 grados con asignación de puntuaciones de modo exponencial (1, 2, 4, 8) con el consiguiente rango entre 12 y 84 puntos (tabla 1). La puntuación de gravedad operatoria incluyó 6 factores (tipo y número de procedimientos, pérdida total estimada de sangre, contaminación peritoneal, presencia de malignidad y oportunidad de la cirugía).
En cuanto a la apreciación de la entidad del procedimiento quirúrgico efectuado (cirugía menor, moderada, mayor o mayor +), se utilizaron los criterios originales; de esta forma, la cirugía de moderada gravedad incluyó: apendicectomía, colecistectomía, mastectomía; ejemplos de cirugía mayor fueron: resección intestinal, colecistectomía con coledocotomía, cirugía vascular periférica o amputación mayor. Se consideró como "cirugía mayor+" la cirugía aórtica, la cirugía de resección rectal, la resección pancreática o hepática y la esofagectomía.
Se asignó una puntuación en escala exponencial similar a la puntuación fisiológica, resultando un rango de 6 a 44 puntos (tabla 2). La puntuación POSSUM total tuvo un rango de 18 a 128 puntos.
Toda la información fue recolectada manualmente en formularios impresos y posteriormente transferidos a una planilla de Microsoft Excel (Microsoft Corporation, Washington, District of Columbia, USA) para su análisis.
El riesgo individual de morbilidad se calculó a partir de la ecuación: Loge (R/ [1-R]) = -5,91 + (0,16 × puntuación fisiológica) + (0,19 × puntuación de gravedad operatoria) propuesto por Copeland et al y validado en publicaciones previas.
El riesgo individual de mortalidad se calculó a partir de la ecuación: Loge (R/ [1-R]) = -9,37 + (0,19 × puntuación fisiológica) + (0,15 × puntuación de gravedad operatoria), propuesto en p-POSSUM, que se ha considerado más seguro en las estudios ulteriores6.
Se compararon las tasas de morbilidad y mortalidad entre las unidades y se efectuó, además, mediante un análisis lineal, una estratificación en grupos de riesgo en la que para cada estrato se comparó la morbilidad y la mortalidad observadas/esperada.
Las comparaciones se ajustaron mediante el test χ2 para las variables cualitativas y mediante el test de la t de Student para las variables cuantitativas. Las diferencias de distribución de las puntuaciones entre ambas unidades quirúrgicas se ajustaron mediante el test de Kolmogorov-Smirnov. El nivel de significación utilizado fue del 5%.
Para evaluar la validez externa de los modelos ajustados hay que considerar 2 aspectos: la discriminación y la calibración. La discriminación es la capacidad del modelo para distinguir entre 2 individuos con resultados opuestos y puede cuantificarse mediante el área bajo la curva ROC7.
Puede demostrarse que cuanto mayor sea esta área, tanto mejor será la capacidad discriminatoria del modelo.
La calibración establece el grado de semejanza entre el resultado observado y el predicho por el modelo, tomando en cuenta la evaluación de las probabilidades de ocurrencia del fallo en las distintas categorías (deciles). Esto se cuantifica mediante la prueba de Hosmer y Lemeshow (HL)8, que tiene como resultado el valor de un coeficiente cuya significación puede ensayarse mediante una prueba de χ2. Cuanto mayor sea el valor de p en este test, tanto mejor será la calibración del modelo.
El área bajo la curva ROC se calculó a partir de la población total (ambas unidades) para analizar la capacidad de discriminación de los modelos de ajuste7. La calibración del modelo se evaluó mediante el test estadístico χ2 de HL8.
Resultados
Se estudió a un total de 815 pacientes, 471 pertenecientes a la unidad 1 y 344 a la unidad 2. La distribución por edad, sexo y oportunidad de la cirugía fue similar en ambas unidades (tabla 3). El tipo de cirugía realizada también era comparable en ambas, a pesar de un predominio de la cirugía colorrectal y mamaria en la unidad 2 y de la cirugía de trauma en la unidad 1 (tabla 4).
La mortalidad fue de 3,6% en la unidad 1 y de 2,9% en la unidad 2, diferencia no significativa (χ2 = 0,31, p > 0,05).
La morbilidad fue de 27,3% para la unidad 1 y de 30,5% para la unidad 2, diferencia que tampoco fue significativa (χ2 = 0,95, p > 0,05).
Como se ha expresado antes, la capacidad discriminante del modelo se evaluó mediante el cálculo del área bajo la curva ROC (tabla 5).
La distribución de las puntuaciones fisiológica y de gravedad operatoria presentó curvas similares en ambas poblaciones (tabla 6).
Si se considera la población total de pacientes estratificados de acuerdo con los deciles de probabilidad, el modelo en general predijo un número mayor de muertes esperadas en relación con las finalmente observadas, excepto en el segundo decil (tabla 7). De todas formas, el modelo fue un predictor aceptable de mortalidad (HL = 9,21 p = 0,10) pero un predictor menos seguro de morbilidad (HL = 82,5 p < 0,001) (tabla 8).
Un grupo importante de pacientes en ambas poblaciones se encontró dentro de puntuaciones bajas; es decir, pacientes de bajo riesgo, sometidos a operaciones de complejidad baja. La media de la puntuación fisiológica fue de 17,68 para la unidad 1 y de 17,89 para la unidad 2 (no significativa). La puntuación de gravedad operatoria fue igualmente similar: 11,55 y 11,47, respectivamente.
Sin embargo, si se tiene en cuenta la evolución final de los pacientes, se encontró una marcada diferencia en la media de la puntuación POSSUM para los pacientes que tuvieron una buena evolución postoperatoria y fueron dados de alta (unidad 1: 28,70; unidad 2: 28,90) comparados con los que murieron después de la intervención quirúrgica (unidad 1: 43,88; unidad 2: 44,40), sin diferencias significativas entre ambas unidades (p = 0,90).
El análisis lineal (tablas 9-12) de la morbilidad y la mortalidad observada/esperada mostró en ambas unidades resultados globales similares, y se confirmaron las predicciones de la ecuación POSSUM de morbilidad y p-POSSUM de mortalidad.
En la tabla 13 se muestra la relación de mortalidad estandarizada, que expresa la relación observado/esperado de la mortalidad total para cada unidad.
Discusión
Las tasas brutas de morbilidad y mortalidad son medidores poco fieles de los resultados de la intervención quirúrgica, ya que no consideran los caracteres particulares de la población, así como tampoco la complejidad del procedimiento a realizar. En los últimos años, han surgido como respuesta a esta deficiencia sistemas más adecuados para evaluar los resultados de la cirugía. En algunas revisiones se han analizado los diferentes sistemas de evaluación de riesgo y pronósticos, propuestos en las últimas décadas9. Pese a ser uno de los sistemas de aparición más reciente a principios de la década de los años noventa, el POSSUM ha sido validado como un instrumento muy útil y seguro de un muy amplio espectro de la actividad quirúrgica. Éste ofrece 3 ventajas en relación con el APACHE ll, probablemente el sistema más utilizado en los últimos años: la consideración tanto de la mortalidad como de la morbilidad quirúrgica, su capacidad para usarlo en todo tipo de pacientes, y no sólo en los internados en unidades de cuidados intensivos o similares, y su fácil accesibilidad, dado que requiere únicamente la recolección de datos clínicos y de laboratorio simples. Se ha considerado superior al APACHE ll incluso en pacientes internados en unidades de alta dependencia10. Pero, al igual que el POSSUM, la mayoría de los estudios de validación se ha diseñado en el Reino Unido y muy pocos en otros países europeos.
Una revisión en PubMed reveló únicamente un estudio publicado acerca de la aplicación del POSSUM en sistemas de control sanitario en países subdesarrollados, igualmente con muy buenos resultados11. Pero, como sus autores reconocen, la mayoría de los cirujanos en Malasia ha estudiado y obtenido sus títulos de posgrado en el Reino Unido y se rigen por el sistema británico de atención.
De este modo, hemos decidido evaluar la aplicabilidad y la validez del POSSUM en un país de Sudamérica, con una tradición diferente en el cuidado sanitario y en el entrenamiento quirúrgico, para así reafirmar la universalidad del sistema.
Algunos autores británicos12 han cuestionado la aplicabilidad del POSSUM en poblaciones quirúrgicas corrientes y han encontrado en su experiencia que sólo el 30% de los pacientes operados se han asignado adecuadamente a una puntuación POSSUM determinada. Nuestra experiencia ha sido totalmente distinta: los datos clínicos y operatorios, así como los estudios de laboratorio, forman parte de la información corrientemente requerida en la evaluación preoperatoria de todo paciente sometido a cirugía. En lo que respecta al cuestionamiento acerca de los estudios de laboratorio requeridos, quizás el ionograma pudo haberse excluido en la evaluación de pacientes de bajo riesgo, pero, en la actualidad, dado que la mayor parte de los estudios se realizan con máquinas automáticas, éste no supone un esfuerzo adicional ni aumenta significativamente los costes.
Desde el inicio seleccionamos la ecuación POSSUM original para el estudio de la morbilidad y la ecuación p-POSSUM para el estudio de la mortalidad. La aplicación de la ecuación POSSUM para analizar la mortalidad sistemáticamente sobrestima la mortalidad global, especialmente en el grupo de menor riesgo. A pesar de que esta sobrestimación puede prevenirse mediante el uso de un análisis exponencial, ello exigiría un trabajo matemático adicional que no estaría justificado.
El análisis de la población global reveló un ajuste mejor con la ecuación p-POSSUM para los datos de mortalidad (HL = 9,21), en comparición con la aplicación del POSSUM para la morbilidad (HL = 82,5).
También intentamos utilizar el POSSUM para establecer una comparación válida entre la evolución postoperatoria en 2 grupos diferentes de pacientes, en diferentes situaciones de atención sanitaria. En Uruguay, se ha expresado, y en general se acepta, aunque sin cifras que lo demuestren, que los resultados de la actividad quirúrgica desarrollada en los servicios universitarios son peores que los de la actividad privada. Esto obedecería a factores múltiples y bien conocidos: desnutrición y peor medio socioeconómico en los pacientes asistidos en medios universitarios, dificultades logísticas de la asistencia pública de Uruguay, gran número de intervenciones quirúrgicas llevadas a cabo por cirujanos en formación, etc. Todas estas variables contribuirían a generar esta supuesta diferencia. Hemos utilizado el POSSUM para determinar esta verdad asumida empíricamente de un modo científico y nuestros resultados no han confirmado esta hipótesis. La mortalidad esperada y la observada fueron similares entre ambas unidades, sin diferencias significativas a pesar de las ligeras diferencias entre ambos grupos, con un predominio de la cirugía mamaria y colorrectal en la unidad 2 y de la cirugía del trauma en la unidad 1 (tabla 4). Un aspecto interesante encontrado en el análisis de la mortalidad, y no mencionado en publicaciones previas, fue el hallazgo de una marcada diferencia en la puntuación POSSUM entre los pacientes que sobrevivieron y los que fallecieron después de la intervención quirúrgica. La puntuación fue inferior a 30 en los pacientes supervivientes y mayor de 40 en los fallecidos. A pesar de que POSSUM y p-POSSUM se elaboraron para auditar poblaciones y no para predecir evoluciones individuales13, esta diferencia podría ofrecer una orientación sobre la alta probabilidad de una evolución desfavorable en un paciente determinado.
Conclusiones
No hay antecedentes en Uruguay de la aplicación de sistemas objetivos de auditoría para evaluar y comparar los resultados de la práctica quirúrgica en diferentes circunstancias.
La utilización del sistema POSSUM con esta intención ha demostrado que es posible y razonablemente seguro dentro de un sistema asistencial muy diferente de aquél donde se creó. Por otra parte, su aplicación ha permitido a los autores mostrar que no hay diferencias significativas en los resultados entre 2 unidades diferentes de este sistema, contrariamente a lo ampliamente aceptado, pero que nunca se ha demostrado científicamente.
Agradecimientos
Los autores agradecen a Rafael Alonso, profesor adjunto de Bioestadística en la Unidad de Métodos Cuantitativos de la Facultad de Medicina de Montevideo, por su invalorable colaboración en este proyecto.
La Comisión Sectorial de Investigación Científica (CSIC) de la Universidad de la República ha financiado en parte este trabajo.
Correspondencia: Dr. C. Barberousse Carrara.
Simón Bolívar, 1359, apdo. 801. CP11300 Montevideo. Uruguay.
Correo electrónico: carbarbe@hotmail.com
Manuscrito recibido el 10-11-2005 y aceptado el 4-7-2006.