Introducción
Cualquier profesional que inicia un estudio de investigación tiene como objetivo analizar la realidad e inferir conclusiones a partir de la observación sistemática de la misma. La recogida de datos es una fase fundamental, en la que es necesario garantizar la fiabilidad y validez de los datos que se obtengan. Para ello es preciso comprobar que el procedimiento que se vaya a emplear para la obtención de información produzca mediciones fiables. El análisis de la concordancia interobservador es una medida de la fiabilidad y un paso previo a la validación de un instrumento de medida. Es habitual medir esta concordancia para cuestionarios1,2, pero no es tan frecuente realizarlo sobre un instrumento más modesto, pero que podríamos afirmar que no falta en ningún estudio de campo: una hoja de vaciado de datos.
La elaboración de una hoja de recogida de datos es un proceso complejo, que pasa por diversas etapas hasta la redacción de una versión definitiva que satisfaga las expectativas del equipo investigador. Antes de su aplicación a la muestra, es conveniente realizar una prueba piloto y valorar su utilidad en cuanto a 2 criterios importantes: su fiabilidad y validez3. Si, como es habitual, varias personas intervienen en la recogida de la información, debe garantizarse que ésta se realiza de manera homogénea por parte de los distintos observadores.
En el contexto de un estudio multicéntrico de control de calidad de la atención a diabéticos tipo 2, y como paso previo a su elaboración definitiva, hemos evaluado la fiabilidad de la hoja utilizada para la extracción de datos de las historias clínicas.
El objetivo de este trabajo es medir la fiabilidad de una hoja de vaciado de datos a través del análisis de la concordancia interobservador, así como comprobar la eficacia de las medidas correctoras aplicadas para mejorarla.
Material y métodos
Se realizó un diseño pretest-postest, no controlado, con una intervención destinada a mejorar la concordancia entre 2 observadores independientes. En una etapa inicial se diseñó una hoja de recogida de datos sobre parámetros de calidad4 de la atención a diabéticos tipo 2 según los estándares aceptados para dicha enfermedad por el Grupo de Estudio de Diabetes en Atención Primaria de Salud (GEDAPS)5. Uno de los centros de salud participantes en el estudio multicéntrico, el correspondiente a la zona básica del Molino de la Vega, sirvió como centro piloto.
Se tomó una muestra aleatoria simple de 50 historias clínicas de la lista de diabéticos del archivo informatizado del centro. De ellas se seleccionaron 20 por muestreo sistemático, a las que se les aplicó la hoja de recogida de datos por 2 observadores diferentes e independientes.
Para evaluar los puntos de discrepancia hallados en el primer análisis, se reunió el equipo que debía cumplimentarlo, procesarlo y analizarlo. De esta forma se modificó el diseño inicial de la hoja de vaciado para mejorar la concordancia.
Partiendo de la misma muestra aleatoria inicial de 50 historias, aplicamos el nuevo diseño a otras 20 historias diferentes, extraídas por muestreo sistemático para eliminar el efecto debido a la repetición de las mismas. Se estudió de nuevo la concordancia entre ambos observadores, comparando finalmente los resultados de las 2 auditorías.
Para el análisis de la concordancia de la recogida de datos se usó el coeficiente kappa para variables cualitativas y los porcentajes de coincidencia para el caso de variables cuantitativas (número de valores coincidentes entre los observadores/total de observaciones). El coeficiente kappa elimina las diferencias debidas al azar. Se calcula mediante la fórmula: (concordancia observada-concordancia esperada)/1-concordancia esperada6.
La mínima concordancia exigida para ser considerada aceptable fue de un valor de kappa de 0,65 para las variables cualitativas. Para las cuantitativas exigimos un 100% de acuerdo entre ambos observadores. Las diferencias entre la concordancia (kappa) inicial y final en las variables cualitativas se evaluaron mediante el test de comparación de medias para muestras apareadas, una vez comprobada la normalidad de la distribución de las diferencias mediante el test de Shapiro-Wilks7. Para las variables cuantitativas se usó el test de McNemar, que permite la comparación entre 2 proporciones con muestras apareadas. Se empleó el paquete estadístico SPSS.
Resultados
En la primera auditoría se hallaron los datos de concordancia que figuran en la tabla 1. Para variables cualitativas observamos que en un total de 13 ítems se logró un kappa superior a 0,6. Se obtuvo un índice kappa inferior a 0,6 (baja concordancia) en 9 ítems.
Para variables cuantitativas (tabla 2), se alcanzó una concordancia del 100% en 6 apartados. Los 2 restantes oscilaron entre el 80% para la tensión arterial y el 85% de la hemoglobina A1c. De las 4 discrepancias encontradas en la tensión arterial, dos estaban causadas porque las determinaciones recogidas de la historia clínica correspondían a fechas diferentes, por lo que la concordancia corregida por este hecho se situaría en el 90%. Igual ocurre con la hemoglobina A1c: 2 de las 3 discrepancias estaban causadas por fechas diferentes, con lo que la concordancia corregida sería del 95%.
Tras estos resultados, el equipo se reunió, modificándose el diseño de la hoja original en su aspecto formal, corrigiendo aquellos elementos que pudieran causar distinta interpretación entre los observadores. Respecto al primer cuestionario, se introducen las siguientes mejoras: se marcan con espacios sombreados los campos de obligado cumplimiento, se incorporan hojas de información adicional para los observadores, se introducen notas aclaratorias en algunos ítems, se redactan enunciados más explícitos que no dejan lugar a la suposición de hechos por el observador y, por último, se simplifican algunos de los enunciados.
En la segunda auditoría encontramos la concordancia recogida en la tabla 1. Entre las variables cualitativas 19 apartados obtuvieron coeficiente kappa superior a 0,6. En 2 ítems (antecedentes cardiovasculares y pulsos periféricos) no pudo calcularse el índice kappa, pues la concordancia observada coincidió con la esperada entre los 2 observadores, siendo en ambos casos esta concordancia observada del 95%. En el apartado de cumplimiento de dieta se obtuvo un índice kappa de 0,45.
Para variables cuantitativas (tabla 2) en 5 apartados se obtuvo concordancia plena (100%). Los tres restantes oscilaron entre el 80% para el peso y la tensión arterial y el 85% para la talla. Las discrepancias se debieron a distintas fechas, en 4 ocasiones para el peso y en 3 para la tensión arterial, con lo que las concordancias corregidas pasaron a ser del 100 y del 95%, respectivamente.
El promedio de concordancia inicial para las variables cualitativas fue de 0,71, ascendiendo a 0,89 en la segunda auditoría. Apareando por cada ítem, y comprobada la normalidad de las diferencias (test de Shapiro-Wilks, p=0,57), se observó que el incremento fue estadísticamente significativo (p=0,019). Para las variables cuantitativas, los cambios en la concordancia, tanto directa como corregida, no fueron significativos (test de McNemar, p=1 en ambos casos).
Discusión
Este estudio pretende resaltar la importancia de la verificación de la fiabilidad de los instrumentos de medida. Algo tan habitual en cualquier investigación sanitaria como es el uso de datos procedentes de la historia clínica que se vuelcan en un formulario debe ser sometido también a dicho análisis. Nuestros resultados confirman esta preocupación: 2 observadores independientes no siempre obtienen la misma lectura de una misma fuente.
El hecho de que las 2 auditorías fueran realizadas por los mismos observadores puede suponer una debilidad de nuestro estudio, por el efecto de aprendizaje obtenido, que podría explicar parte de la ganancia en el acuerdo.
En la primera auditoría nos sorprendió encontrar una discrepancia superior a la esperada. Es conocida desde hace tiempo la falta de concordancia de 2 observadores al interpretar información clínica relativamente compleja, como imágenes, sintomatología, signos, etc.8,9. Pero no esperábamos que la lectura «objetiva» de datos escritos en la historia clínica presentase los mismos problemas. Analizando las deficiencias, encontramos algunos de los posibles motivos que condujeron a una diferente interpretación de los observadores: la desordenada disposición de la información en las historias, o la falta de precisión en el enunciado de algunos apartados de la hoja de recogida de datos. Las modificaciones introducidas en la hoja para la segunda auditoría fueron dirigidas a conseguir un mayor grado de adecuación a la forma en que está recogida la información en la historia clínica, y a proporcionar al observador instrucciones claras sobre los datos a recoger4.
Los dispares resultados observados en las variables cuantitativas resultaron ser achacables en parte a la recogida de datos que correspondían a fechas diferentes, interpretadas como la última medición disponible por cada observador. Pese a que la segunda hoja incorporaba criterios explícitos (reseñar la fecha de analítica; si es desconocida, la de la anotación en la historia), el problema continuó existiendo: en la segunda auditoría la divergencia de fechas provoca discordancias en el peso y la tensión arterial.
En cuanto a las variables cualitativas, con las modificaciones incorporadas en la hoja se obtiene una mejora significativa de la concordancia interobservador en la segunda auditoría, aumentando la fiabilidad de la nueva hoja de datos como instrumento de medida.
Aunque son habituales en la validación de cuestionarios, no hemos encontrado otros estudios de fiabilidad comparables a éste en la bibliografía consultada. Pensamos que se deberían realizar más estudios de este tipo en el marco de la realización de pruebas piloto. Nuestra sorpresa inicial al comprobar una concordancia inicial inferior a la prevista quizá fuera compartida por otros investigadores. Esto garantizaría una mayor fiabilidad de la recogida de datos, mejorando la calidad global de la investigación.