Los grupos de morbilidad ajustados (GMA) y los clinical risk groups (CRG) son herramientas de estratificación poblacional basada en la morbilidad que permiten clasificar a los pacientes en categorías mutuamente excluyentes.
ObjetivoComparar la estratificación, según niveles de complejidad, proporcionada por los GMA con la de los CRG y con la realizada ad-hoc por los evaluadores.
DiseñoMuestra aleatoria por estratos de riesgo de morbilidad.
EmplazamientoCataluña.
ParticipantesCuarenta médicos de atención primaria emparejados 2 a 2.
IntervencionesCada pareja de evaluadores tuvo que validar 25 historias.
Mediciones principalesSe evaluó la concordancia entre evaluadores, y entre los evaluadores y los resultados obtenidos por los 2 agrupadores de morbilidad con el índice kappa, la sensibilidad, la especificidad, el valor predictivo positivo y el negativo.
ResultadosLa concordancia entre evaluadores se situó alrededor del valor kappa 0,75 (valor medio=0,67), entre los GMA y los evaluadores fue similar (valor medio=0,63), y más elevada que para los CRG (valor medio=0,35). Los profesionales otorgaron una puntuación de 7,5 a la bondad de ambos agrupadores, aunque para los estratos de mayor complejidad, según asignación de los profesionales, los GMA obtuvieron mejores puntuaciones que los CRG. Los profesionales prefirieron mayoritariamente los GMA frente a los CRG. Estas diferencias se incrementaron con el aumento de la complejidad de los pacientes según el criterio clínico.
Globalmente, se encontró menos de un 2% de errores graves de clasificación proporcionada por ambos agrupadores.
ConclusiónLos profesionales consideraron que ambos agrupadores clasificaban adecuadamente a la población, aunque los GMA tienen un mejor comportamiento en los estratos que los profesionales identifican como de mayor complejidad. Además, en la mayoría de los casos, los evaluadores clínicos prefirieron los GMA.
Adjusted Morbidity Groups (GMAs) and the Clinical Risk Groups (CRGs) are population morbidity based stratification tools which classify patients into mutually exclusive categories.
ObjetiveTo compare the stratification provided by the GMAs, CRGs and that carried out by the evaluators according to the levels of complexity.
DesignRandom sample stratified by morbidity risk.
LocationCatalonia.
ParticipantsForty paired general practitioners in the primary care, matched pairs.
InterventionsEach pair of evaluators had to review 25 clinical records.
Main outputsThe concordance by evaluators, and between the evaluators and the results obtained by the 2 morbidity tools were evaluated according to the kappa index, sensitivity, specificity, and positive and negative predicted values.
ResultsThe concordance between general practitioners pairs was around the kappa value 0.75 (mean value=0.67), between the GMA and the evaluators was similar (mean value=0.63), and higher than for the CRG (mean value=0.35). The general practitioners gave a score of 7.5 over 10 to both tools, although for the most complex strata, according to the professionals’ assignment, the GMA obtained better scores than the CRGs. The professionals preferred the GMAs over the CRGs. These differences increased with the complexity level of the patients according to clinical criteria.
Overall, less than 2% of serious classification errors were found by both groupers.
ConclusionThe evaluators considered that both grouping systems classified the studied population satisfactorily, although the GMAs showed a better performance for more complex strata. In addition, the clinical raters preferred the GMAs in most cases.
Los grupos de morbilidad ajustados (GMA) y los clinical risk groups (CRG) son herramientas de estratificación poblacional que, a partir de los problemas de salud disponibles en los sistemas de información administrativos, permiten clasificar a la población en diferentes categorías mutuamente excluyentes1,2. Cabe destacar 2 diferencias importantes entre ambas clasificaciones: por un lado, los GMA se centran en la complejidad de la multimorbilidad, mientras que los CRG se focalizan en el gasto; y por otro lado, la variable «peso relativo» para los GMA es individual, y en los CRG es grupal, propia de cada categoría específica de CRG (1.000 categorías, aproximadamente).
La multimorbilidad es la norma y no la excepción3, cosa que preocupa a los profesionales de atención primaria (AP)4, y existe cierta dificultad para especificarla5,6. También hay dificultad para definir su complejidad y los factores o condiciones determinantes7,8.
Garantizar la fiabilidad y la concordancia de los instrumentos de medida son aspectos fundamentales en las ciencias de la salud9.Para medir la reproducibilidad, la concordancia interevaluador es importante en las validaciones clínicas10. El desarrollo de los GMA se llevó a cabo a partir de algoritmos estadísticos que han mostrado muy buenos resultados a nivel poblacional1, pero era necesaria una validación clínica para conocer la valoración de los profesionales sanitarios. La validación de estas herramientas se orientó, especialmente, al ámbito de AP para poder evaluar su utilidad. Actualmente, se dispone de la información que proporcionan los GMA en la mayoría de las historias clínicas electrónicas de AP ?eCAP? de Cataluña.
Los objetivos son: i) comparar las clasificaciones proporcionadas por los GMA y los CRG; ii) comparar la estratificación de los GMA y los CRG con la realizada ad-hoc por médicos de AP, y iii) encontrar posibles áreas de mejora de los GMA.
Material y métodosMuestreoSe estratificó con CRG y GMA la población de Cataluña que durante el año 2013 utilizó los servicios sanitarios (6.100.360 personas). Como las clasificaciones que proporcionan los CRG y los GMA no son idénticas, se optó por generar pirámides de riesgo, agrupando en 5 estratos (percentiles de riesgo 50, 85, 95 y 99). Se realizó una muestra aleatoria de 500 casos focalizada en las discrepancias de clasificación entre los agrupadores de morbilidad disponibles (GMA y CRG). Se emparejaron los evaluadores y cada uno analizó 25 casos, uno de cada casilla de la tabla obtenida al cruzar la estratificación proporcionada por ambas herramientas (T-1 Anexo B). De los 42 evaluadores iniciales, 2 se retiraron (resultando 19 parejas de evaluadores que revisaron simultáneamente 475 historias clínicas[HC] [950 cuestionarios completados] y 2 quedaron desparejados, los cuales revisaron 50 HC [50 cuestionarios]).
Aunque en el diseño de la muestra se priorizó el análisis de las discrepancias para poder ahondar en las diferencias, los siguientes resultados se presentan extrapolados a la población general en un ejercicio de contextualizar mejor los resultados obtenidos. Para ello, se ponderó cada sujeto evaluado en la muestra en función del número de casos poblacionales del estrato al que pertenecía.
EvaluadoresParticiparon 3 proveedores de AP con diferentes características en relación con HC (modelo propio-HP, OMI y eCAP), codificación de enfermedades (CIE-9-MC, CIAP-2, CIE-10) y diferentes experiencias en la utilización de agrupadores de morbilidad.
Se realizó un curso de formación en agrupadores de morbilidad gestionado por la Escuela de Administración Pública de Cataluña, con una parte teórica y otra práctica en la que cada profesional iniciaba la evaluación de sus casos.
Participaron 40 médicos de AP que asistieron a la formación y retornaron los formularios debidamente cumplimentados. Los formularios estaban divididos en 3 bloques: información clínica, resultados de la agrupación y las pirámides de riesgo, y preguntas relacionadas con la clasificación de los pacientes (T-2 Anexo B).
Tomando como referencia la complejidad otorgada por el evaluador, se consideró como error de clasificación del agrupador si clasificaba al paciente a más de un estrato de diferencia (T-3 Anexo B).
Métodos estadísticosSe utilizó el índice kappa11, la ponderación cuadrática que da más relevancia a las discrepancias graves, para evaluar la concordancia entre observadores y entre los resultados de los distintos agrupadores. Se analizó la sensibilidad, la especificidad, el valor predictivo positivo y el valor predictivo negativo analizando estratos dicotómicos y tomando como «gold standard» el criterio clínico. El tratamiento de datos se llevó a cabo con SPSS y R.
ResultadosEn cuanto a la concordancia de la clasificación entre profesionales, la mayoría de los resultados por parejas se encontraban entre 0,1 y 0,8, concentrados en torno al valor 0,75 (valor medio=0,67). Es decir, existía una elevada concordancia entre la mayoría de las parejas de evaluadores (Figura 1 Anexo B).
Se analizó la concordancia entre el estrato de complejidad asignado por los profesionales y el estrato obtenido por los 2 agrupadores. La concordancia entre el criterio clínico y la complejidad asignada por los CRG obtuvo un índice kappa entre 0,2 y 0,6 (valor medio=0,35), mientras que en el caso de los GMA, los valores oscilaban entre 0,5 y 0,8 (valor medio=0,63) (fig. 1), es decir, en los GMA la concordancia entre la complejidad asignada por el agrupador y la del evaluador era similar a la encontrada entre evaluadores, y claramente superior a la obtenida ente los CRG y el evaluador.
Analizando los datos extrapolados a la población, aunque se minimizaron las diferencias encontradas entre GMA y CRG, se mantuvieron los resultados encontrados con los datos muestrales.
Globalmente no se encontraron diferencias entre CRG y GMA, pero GMA clasifica mejor a los pacientes de niveles más complejos (fig. 2).
De la pregunta: «¿Qué clasificación considera más adecuada?», se obtuvo que, globalmente, en un 40% de los casos los clínicos preferían los GMA, en un 20% los CRG y en el 40% restante les era indiferente el agrupador. Estas diferencias se incrementaron en los niveles de mayor complejidad, según criterio clínico, llegando al 86% la preferencia por los GMA y a un 8% la predilección por los CRG (fig. 3). Mayoritariamente, cuando el agrupador preferido son los CRG, es debido a la existencia de la prescripción farmacéutica, que ofrece información complementaria a la de los diagnósticos, mientras que en el caso de preferir los GMA, lo más valorado fueron las etiquetas clínicas que proporcionan.
Globalmente, la clasificación de los agrupadores presenta menos de un 2% de errores. En el grupo de mayor riesgo, según el agrupador, los errores (falsos positivos) en los CRG fueron del 15% y del 5% para los GMA (fig. 4). Se evaluaron también los errores de clasificación desde la perspectiva de la clasificación del evaluador (falsos negativos). Los GMA presentan un porcentaje menor de falsos negativos que los CRG (fig. 5).
De las 1.000 HC revisadas, hubo errores de clasificación en el 29,5% de los CRG y en el 14,3% de los GMA. De las 475 HC emparejadas, 96 parejas de evaluadores estuvieron de acuerdo en el error de clasificación del CRG, mientras que en los GMA fueron 24.
Falsos positivosError en el estrato de máxima complejidad: para los CRG, coincidió el criterio de la pareja de evaluadores (26 parejas [52 HC] y 30 HC según criterio de un único evaluador), mientras que para los GMA, todos se basaron en el criterio de un único evaluador (12 HC). Según los evaluadores, más de la mitad de los errores de los CRG fue por sobrevalorar la información que aportan los fármacos (además de clasificar a muchos pacientes de esquizofrénicos sin serlo), mientras que los errores de los GMA, en su mayoría, fueron por sobrevalorar la enfermedad crónica, en algunos pacientes que habían hecho un bajo consumo de recursos sanitarios (posiblemente por haber fallecido en la primera parte del año o por estar ingresados en residencias) y que el clínico valoró como controlados o que habían dejado de tener riesgo. Las diferencias en el siguiente estrato, alto riesgo, fueron de un 7% en CRG y un 6% en GMA.
Falsos negativosEn el estrato de máxima complejidad según los evaluadores, en los CRG, en 12 de 43 errores coincidía el criterio de la pareja de evaluadores (6 parejas); según los evaluadores, los CRG consideraron sanos o de poca complejidad a pacientes terminales (28/43), la mayoría fallecieron o fueron ingresados en residencias el año de estudio, en algunos casos infravaloraron neoplasias activas (7/43) y diagnósticos (8/43). Por otra parte, en los de los GMA hubo 6 errores; todos afectaban solo al criterio de un único evaluador, y el problema fue la falta de diagnóstico en 3/6 casos, solo constaba información de farmacia (linfoma) o de procedimientos (respiración asistida y diálisis) no utilizada en la construcción del GMA, o por infravalorar el riesgo en algunos diagnósticos (2/6 tetraplejias y 1/6 neoplasia cerebral).
Se calculó la sensibilidad, la especificidad y los valores predictivos de los agrupadores (tabla 1); los resultados fueron muy buenos para ambos agrupadores, aunque los GMA obtuvieron mejores resultados que los CRG, sobre todo en lo que respecta al valor predictivo positivo.
Sensibilidad, especificidad, valor predictivo positivo y valor predictivo negativo
Complejidad | Sensibilidad | Especificidad | Valor predictivo + | Valor predictivo − | ||||
---|---|---|---|---|---|---|---|---|
CRG | GMA | CRG | GMA | CRG | GMA | CRG | GMA | |
1. Población de máxima complejidad | 0,972 | 0,993 | 0,998 | 0,999 | 0,848 | 0,949 | 1,000 | 1,000 |
2. Población de alto riesgo | 0,886 | 0,931 | 0,998 | 0,997 | 0,926 | 0,939 | 0,993 | 0,996 |
3. Población de riesgo moderado | 0,945 | 0,988 | 0,989 | 0,994 | 0,985 | 0,957 | 0,992 | 0,998 |
4. Población de bajo riesgo | 0,990 | 0,993 | 0,989 | 0,994 | 0,985 | 0,992 | 0,993 | 0,995 |
5. Población general | 0,996 | 0,985 | 0,991 | 0,998 | 0,986 | 0,997 | 0,997 | 0,991 |
Destacan:
- •
La importancia de notificar correctamente todas las enfermedades.
- •
Tener en cuenta también otros aspectos: gravedad de las enfermedades, edad y factores sociales.
- •
Falta información del nivel de desarrollo de las enfermedades, hecho que puede llevar a sobrevalorar o infravalorar la complejidad.
- •
Pacientes con problemas mentales no quedan bien clasificados con ninguno de los agrupadores. Además, los CRG, que utilizan la prescripción farmacéutica, suelen adjudicar un diagnóstico, generalmente esquizofrenia, que no es correcto.
- •
Los GMA infravaloran algunos casos en que no consta el diagnóstico, y no tienen en cuenta la prescripción farmacéutica ni los procedimientos, y en algunos, los CRG sobrevaloran la complejidad por dar demasiada importancia a la prescripción.
- •
Se valoran muy positivamente las etiquetas que proporcionan los GMA, pero se echaron en falta algunas afecciones que podrían ayudar a valorar la complejidad (sordera, ceguera, neoplasia reciente [anterior al año de estudio], hipotiroidismo, úlceras por presión, etc.).
- •
En pacientes fallecidos durante el año o que han comenzado con una enfermedad importante durante el período de análisis, los CRG no detectan adecuadamente su dolencia.
Es importante conocer la calidad de los procedimientos de medida y los errores de medida inherentes a la herramienta, entendiéndose que a mayor calidad de la medida menor magnitud de los errores y viceversa9. Los agrupadores analizados utilizan datos de morbilidad existentes en bases de datos clínicas o administrativas; la calidad de las mismas en relación con la precisión de la codificación, la validación y los diagnósticos secundarios va a ser fundamental12 para obtener una buena estratificación que refleje la realidad de la población estudiada. Algunos estudios muestran que los datos administrativos son mejores que los autoinformes13 y que son válidos para la obtención de datos poblacionales14; otros, que existe una infranotificación de enfermedades poco relevantes15–18. Si la recogida de información es prospectiva, precisa y verificada, es la mejor garantía para una buena calidad de la información19. En nuestro caso, las bases de datos administrativas se notifican de manera prospectiva, alguna de ellas de manera continuada, como es el caso de la actividad urgente, y han ido mejorando gracias a su mayor utilización y a los avances tecnológicos, que permiten una mejor comunicación entre los diferentes niveles asistenciales y unas HC compartidas, que facilitan que un paciente pueda ser atendido por diferentes profesionales con el máximo de información disponible sobre él. Además, existe una validación cruzada con los sistemas de facturación.
Se conoce que para la validación de una herramienta es necesario disponer también de un buen «gold standard»20,21, y en este estudio este es el criterio de los médicos de AP.
Al tratarse de una muestra con evaluadores emparejados, se ha podido analizar la reproducibilidad9 de las evaluaciones, que, en general, ha sido buena. Pero en relación con el análisis de los errores de clasificación según la pirámide de riesgo, no afectan por igual en todos los niveles de riesgo; en ambos agrupadores afectan especialmente a los pacientes clasificados como de máxima complejidad o alto riesgo y que los evaluadores no los consideran, o en aquellos que según los evaluadores sí estarían entre los pacientes más complejos y según los agrupadores no. El porcentaje de errores hallado es mayor en los CRG que en los GMA, sobre todo en los estratos de mayor riesgo. Este es un tema de gran relevancia, ya que los agrupadores han de ser capaces de proporcionar una adecuada estratificación poblacional según la complejidad de la población. Se ha encontrado un mayor grado de acuerdo intraevaluador para los errores de clasificación generados por los CRG que para los producidos por los GMA, es decir, los evaluadores mostraron menor acuerdo en los errores atribuidos a los GMA. En el ámbito de AP se utilizan diferentes metodologías para determinar pacientes lábiles, o con enfermedades específicas, como son los autocuestionarios, para realizar intervenciones preventivas o curativas22, los agrupadores actualmente se utilizan también para identificar poblaciones de pacientes crónicos complejos en los que llevar a cabo programas específicos de intervención1,23, por ello disminuir el porcentaje de errores en estos estratos es de gran importancia.
Existen algunas limitaciones para determinar la complejidad de un paciente a partir únicamente de la información diagnóstica, terapéutica y de prescripción que consta en una HC; es una tarea difícil y sujeta a un cierto grado de variabilidad según la experiencia personal de cada profesional, lo que puede explicar la falta de concordancia clínica24. Los agrupadores de morbilidad se elaboran básicamente a partir de los diagnósticos, que no suelen recoger la intensidad o fase de la evolución de la enfermedad, información que puede ser crucial para discriminar el estrato de morbilidad idóneo; algunos agrupadores mejoran su resultado porque utilizan otras fuentes de información como los procedimientos realizados a los pacientes o la prescripción farmacéutica. Los evaluadores manifiestan su interés por disponer de otros indicadores (sociales) que ayuden a discriminar mejor la complejidad de los pacientes, pero esta información actualmente no está disponible.
También comentan las limitaciones que presentan los agrupadores para clasificar correctamente a los pacientes con enfermedades mentales. Para solventar este problema se está trabajando en un nuevo agrupador GMA específico de problemas de salud mental y adicciones.
A partir de la validación clínica, se ha cambiado el criterio para considerar una neoplasia activa, que en el momento de la validación se refería exclusivamente a las neoplasias diagnosticadas en el año de estudio; en la versión actual se ha ampliado a 2 años (anterior y actual).
Este es el primer estudio de validación clínica de agrupadores de morbilidad poblacional; a pesar de que agrupadores como los CRG o los ACG ya llevan muchos años en el mercado, solo se ha encontrado una referencia a un estudio de validación clínica, en curso, de los ACG por el Servicio Andaluz Salud25. De los CRG existe alguna publicación en que se valida su aplicación en los sistemas de financiación2 u otras validaciones de los agrupadores centradas en la capacidad explicativa sobre el consumo de recursos26–29 o la capacidad predictiva diagnóstica o pronóstica30. Existe una validación clínica por médicos de AP de un listado de pacientes complejos proporcionado por un algoritmo creado con datos administrativos31,32.
Un estudio llevado a cabo en el ámbito de AP por la Comunidad de Madrid con pacientes crónicos consideró que a los médicos de familia, en la mayoría de los casos, el GMA les resultaba una herramienta útil como prueba de cribado de preselección en niveles de riesgo1,23.
En conclusión, los GMA presentan una estratificación de morbilidad comparable a la de los CRG, pero utilizando menos información (no incluyen procedimientos, prescripción farmacéutica, edad del paciente ni ámbito del diagnóstico28), y en los estratos de mayor riesgo obtienen mejores resultados. Los clínicos consideran que ambos agrupadores estratifican adecuadamente a la población, aunque en la mayoría de los casos prefieren la que proporciona los GMA.
Los agrupadores de morbilidad como los CRG y los GMA son herramientas de estratificación poblacional con gran poder explicativo.
Permiten ajustar variables clínicas e indicadores relacionados con la gestión sanitaria.
Son instrumentos útiles para identificar poblaciones de riesgo.
Qué aporta este estudioLa valoración, por parte de los médicos de AP, de la capacidad que tienen estas herramientas para estatificar a la población según carga de morbilidad.
Según el criterio clínico, los CRG y los GMA son instrumentos válidos para la estratificación de la población, pero, en general, los evaluadores prefieren los resultados obtenidos con los GMA.
Sugerencias, por parte de los evaluadores, de áreas de mejora de estas herramientas.
M. Clèries, D. Monterde y E. Vela son los desarrolladores de los grupos de morbilidad ajustados. El resto de los autores declaran no tener ningún conflicto de intereses.
Jordi Acezat Olivaf, Antonio Arevalo Geniciog, Joan Barrot de la Puenteh, Ander Burgaña Agoüesi, Sílvia Cárceles Juradoj, Joan Caselles i Reyh, Jordi Casanovas Fontk, Lourdes Cruz Cubellsl, Rafael Cubí i Monforth, Silvia Falcón Vivesi, Xavier Gallego Laredol, Marta Garcia Pastorm, Isabel Garcia Albasl, M. Carmen Garcia Lópezl, Montserrat Gavagnac Bellsolàn, Pau Hidalgo Vallsl, Milagros Iglesias Martínezo, Jordi Jiménez Giradop, Montserrat Llordes Llordesp, Xavier López Lupiónq, Carles López i Arpíh, Alfonso Martin Pascualr, Mireia Martínez Ortegar, J. Carlos Martínez Vindell, José M. Mercadé Salavertk, Àngels Moleiro Olivak, Cristina Molina Guaschl, Teresa Mur Martíp, Sílvia Narejos Pérezs, Leonor Navarrete Gonzálezq, Daniel Panyart Sánchezj, M. Dolores Ribero Genarh, Anna Ripoll Ramosn, Marta Serrarols Soldevilak, Mercè Soler Guerral, Laura Taberner i Pinsachh, Montserrat Teixidó Coletn, Ramon Vilatimó Pujals, Alicia Villanueva Hernándezk, M. Carmen Yuste Marcoo
f CAP Terrassa Nord, Consorcio Sanitario de Terrassa, Terrassa, Barcelona, España
g CAP Turó de can Mates, Mútua de Terrassa, Sant Cugat del Vallès, Barcelona, España
h CAP de Salt, Instituto Catalán de la Salud, Salt, Gerona, España
i CAP Sant Cugat, Mútua de Terrassa, Sant Cugat, Barcelona, España
j CAP Rambla, Mútua de Terrassa, Terrassa, Barcelona, España
k CAP El Remei, EAP Vic, SLP, Vic, Barcelona, España
l CAP Barberà del Vallès, Instituto Catalán de la Salud, Barberà del Vallès, Barcelona, España
m CAP Olesa de Montserrat, Mútua de Terrassa, Olesa de Montserrat, Barcelona, España
n CAP Valldoreix, Mútua de Terrassa, Valldoreix, Barcelona, España
o CAP Badia del Vallès, Instituto Catalán de la Salud, Badia del Vallès, Barcelona, España
p CAP Terrassa Sud, Mútua de Terrassa, Terrassa, Barcelona, España
q CAP Rubí, Mútua de Terrassa, Rubí, Barcelona, España
r CAP Terrassa Oest, Mútua de Terrassa, Terrassa, Barcelona, España
s CAP Centelles, EAP Osona Sud-Alt Congost, SLP, Centelles, Barcelona, España