Introducción
En los últimos 30 años, se ha consolidado el área de investigación en los resultados percibidos por los pacientes, especialmente en el ámbito de la medida de la Calidad de Vida Relacionada con la Salud (CVRS)1. Gran parte de los esfuerzos se ha consagrado a la construcción de instrumentos de medida con propósitos diversos. Los más de 1.270 instrumentos de resultados percibidos por los pacientes identificados en el ámbito internacional y los más de 350 concebidos para su uso en población española varían notablemente en cuanto a su contenido, los métodos seguidos para su obtención, sus propiedades métricas, las necesidades para su aplicación y su uso efectivo2,3.
Se han realizado numerosas propuestas para sistematizar la evaluación de estos instrumentos tanto por parte de investigadores independientes4-8 como auspiciadas por sociedades científicas (Internacional Society for Quality of Life Research9), agencias gubernamentales (Agencia Europea para la Evaluación de Medicamentos10), una acción coordinada (proyecto ERIQA, European Regulatory Issues on Quality of Life Assessment Group11) o instituciones privadas (Medical Outcomes Trust12,13).
En el ámbito español, destaca la Red de Investigación en Resultados y Servicios Sanitarios (Red IRYSS)3, una de cuyas líneas de investigación incluye la evaluación sistemática de los instrumentos de medida de CVRS disponibles para su uso en España. Los autores de este artículo han tenido una participación muy activa en esta línea que se concreta en el proyecto ePRO (acrónimo en inglés, que corresponde a Evaluación de Resultados Percibidos por los Pacientes). El proyecto ePRO ha consistido en el desarrollo y aplicación de un procedimiento estandarizado de evaluación de instrumentos de medida.
Selección de la fuente principal de la lista de comprobación
Los criterios usados en el proyecto ePRO se basan casi totalmente en la propuesta del comité científico del Medical Outcomes Trust13. Esa propuesta ha sintetizado las propuestas previas y ha sistematizado los atributos y criterios pertinentes para la evaluación de un instrumento de CVRS. Esta síntesis destaca por su actualidad, el carácter sistemático y el suficiente detalle con que explicita cada criterio. Es por ello por lo que también en el presente artículo se propone seguir dicha guía.
La propuesta diferencia 8 atributos fundamentales, que incluyen el modelo conceptual y de medida, las características psicométricas clásicas (fiabilidad, validez y sensibilidad al cambio), la interpretabilidad de las puntuaciones, la carga que la administración del instrumento implica para el entrevistador y el entrevistado y la disponibilidad y las características de formatos alternativos al estándar. También se incluye el proceso de adaptación transcultural que se ha seguido, cuando el original se ha desarrollado en un medio distinto. A cada atributo le corresponde una serie de criterios que han de permitir su valoración precisa.
El procedimiento de construcción de un instrumento de medida de resultados percibidos por el paciente es complejo y de naturaleza iterativa. Ello hace que normalmente los atributos de un instrumento se evalúen en distintos artículos científicos. Por ello, el listado de comprobación se ha construido de forma modular, para que se pueda aplicar únicamente a los atributos que específicamente se pretenda evaluar en un momento dado. A continuación se define y comenta con mayor detalle cada uno de estos atributos que, junto con los criterios de evaluación, aparecen en la tabla 1.
Atributos de los instrumentos de resultados percibidos por los pacientes y criterios para su evaluación
Modelo conceptual y de medida
El modelo conceptual que subyace a la construcción y uso de un instrumento se puede entender como la descripción razonada de los conceptos y poblaciones que se pretende evaluar, así como de las relaciones entre esos conceptos. Este modelo conceptual, teórico, se materializa en la práctica mediante el modelo de medida, en el que se reflejan en la estructura general del instrumento y de cada escala los procedimientos que se siguen para la obtención de las puntuaciones globales y por escalas.
En relación con el modelo de medida, es necesario que cada escala mida un único constructo (unidimensionalidad), que las diversas escalas midan constructos distintos y que la escala represente adecuadamente la variabilidad observable. Para la evaluación de la dimensionalidad de las escalas y el modelo empírico de medida se puede utilizar aproximaciones basadas en la teoría clásica de los tests, como el análisis factorial y de componentes principales14. De forma alternativa, se puede aplicar métodos basados en la Teoría de Respuesta al Item (TRI) o en modelos de ecuaciones estructurales15-17.
Para la evaluación de la variabilidad, se suele emplear como indicadores el efecto techo (proporción de individuos que alcanzan la puntuación máxima) y el efecto suelo (proporción de individuos con la puntuación mínima); en ambos casos se recomiendan valores inferiores al 15%18. Finalmente, en ocasiones, los investigadores han realizado laboriosos ejercicios de ponderación para establecer el valor relativo de cada ítem o escala, pero lo más frecuente es que no se aplique ningún tipo de pesos, y se presume entonces de forma implícita su equivalencia8.
Fiabilidad
La fiabilidad se ha definido tradicionalmente como el grado en que un instrumento está libre de error aleatorio, una conceptualización complementaria a la que en epidemiología relaciona la validez con la ausencia de error sistemático.
Las fuentes de error aleatorio se han buscado en las respuestas proporcionadas a los diferentes ítems que componen una misma escala en una misma administración del instrumento (consistencia interna), entre las distintas administraciones de un mismo instrumento a la misma población (fiabilidad test-retest) o entre distintos observadores o administradores (fiabilidad interobservador)5,19.
Para la evaluación de la consistencia interna, el grado en que todos los ítems de una escala miden el mismo constructo, se ha empleado habitualmente el coeficiente alfa de Cronbach y, con menor frecuencia, el coeficiente de Kuder Richardson KR-20, para opciones de respuesta dicotómicas. Se han propuesto como estándares mínimos apropiados valores de alfa de Cronbach de 0,70 para realizar comparaciones entre grupos. Para comparaciones individuales, el estándar mínimo se fija en 0,90 e incluso 0,95, porque de otra forma el intervalo de confianza de las puntuaciones individuales resulta tan amplio que el uso del instrumento resultaría ineficaz19. En la aproximación según teoría de respuesta al ítem, la fiabilidad se mide para cada puntuación, pero es posible calcular un parámetro, la fiabilidad marginal, de significado análogo al coeficiente de fiabilidad clásico13.
Los otros dos tipos de fiabilidad se conocen también de forma general como reproducibilidad. La reproducibilidad test-re-test se evalúa mediante la administración repetida del instrumento de CVRS a una misma población que se haya mantenido estable en relación con el constructo objeto de medición. Con frecuencia, sólo es posible asegurar esta estabilidad entre administraciones inmediatas muy repetidas, por lo que en general se selecciona en un lapso que ronda las 2 semanas. En la evaluación de la reproducibilidad test-retest e interobservador se emplean medidas de la concordancia, habitualmente el coeficiente de correlación intraclase, por tratarse de medidas continuas20. Los estándares mínimos recomendados son los mismos que para la evolución de la consistencia interna7,19.
Validez
La definición más aceptada de validez la identifica con el grado en que un instrumento de CVRS efectivamente mide lo que se supone que mide. De una manera algo menos genérica se podría entender como el grado en que las puntuaciones obtenidas con el instrumento reflejan adecuadamente la CVRS del individuo o de las poblaciones a las que se aplica. Se consideran 3 tipos distintos de validez: a) contenido, b) constructo y c) criterio5,13.
La validez de contenido (a) se refiere a la demostración de su adecuación al propósito específico del instrumento, esto es al grado en que se incorpora el fenómeno que se pretende medir. Suele evaluarse mediante la participación de paneles de expertos y de pacientes. El estudio de la validez de constructo (b) se basa en la descripción de las complejas interrelaciones entre las medidas realizadas con el instrumento y la constelación de conceptos integrados en el modelo conceptual. Tradicionalmente se ha diferenciado entre validez de constructo convergente (b1) o estudio de la correlación con medidas similares, y validez de constructo divergente, orientado a la identificación de falta de asociación con medidas dispares o de diferencias en las puntuaciones entre grupos diferenciados o extremos según criterios clínicos o epidemiológicos. Las matrices multirrasgo-multimétodo suelen ser la técnica de elección para el estudio de las asociaciones, pero para su correcta interpretación resulta imprescindible la formulación de hipótesis a priori sobre los patrones de relación esperados21. Se ha propuesto que valores de correlación mayores o iguales que 0,60 se corresponderían con una asociación de elevada intensidad y que los menores de 0,30 indicarían falta de asociación22.
La validez de criterio (c), finalmente, se refiere al grado en que las medidas obtenidas con el instrumento de CVRS se asemejan a las obtenidas con un método de referencia. La falta de medidas de referencia ha hecho que, hasta la fecha, la evaluación de este tipo de validez se haya aplicado casi exclusivamente al estudio de versiones reducidas de instrumentos, empleando el instrumento original como estándar.
Sensibilidad al cambio
Este concepto se refiere a la capacidad del instrumento para detectar diferencias en la magnitud del constructo. En ocasiones también se ha definido como el cociente entre la señal, entendida como diferencia real entre medidas, y el ruido, entendido como variabilidad de la medida23.
En su evaluación se suele comparar las puntuaciones obtenidas antes y después de una intervención que se entiende que tendrá como efecto una modificación en la magnitud del constructo, cuantificada mediante estimaciones estandarizadas de las diferencias (tamaño del efecto)23. Para ello se han propuesto diversos índices estadísticos que ponen en relación las diferencias con una medida de variabilidad de la medida, todos ellos con fortuna variable y sin que ninguno haya resultado preferido a los demás24. Otros métodos habitualmente utilizados son la comparación de las puntuaciones con una pregunta general de cambio y el anclaje de las puntuaciones, esto es su relación con cambios en otras medidas, ya sea con carácter transversal o longitudinal, o con componentes de las propias medidas (p. ej., porcentaje de pacientes capaces de realizar una actividad contenida en el propio instrumento)25.
La clasificación de este concepto como característica independiente es, además, objeto de debate24. Por un lado, la capacidad de discriminación de cambios en la magnitud del constructo podría acomodarse sin problemas como forma de evaluación longitudinal de la validez. Por otra parte, también está claro que la fiabilidad del instrumento tiene un importante efecto en la cantidad de «ruido». Finalmente, las estimaciones del tamaño del efecto y la relación de las puntuaciones con otras medidas están íntimamente asociadas a la interpretación de las puntuaciones, como se verá en el siguiente apartado.
Interpretabilidad
Se entiende por interpretabilidad el grado en que es posible asignar un significado comprensible a las puntuaciones de un instrumento de CVRS y que se facilita por la posibilidad de relacionar las puntuaciones (o diferencias en esas puntuaciones) con otras medidas inteligibles. Como se deducirá, el mismo uso repetido del instrumento lo hace interpretable, por cuanto permite establecer esas relaciones, ya sea explícita o implícitamente26,27.
La supuesta falta de interpretabilidad de las medidas de CVRS es consecuencia directa de su novedad, más que una característica intrínseca de lo que se mide. Se han propuesto diversas maneras de incrementar las puntaciones, como la publicación de la distribución de las puntuaciones en muestras representativas de la población general, la realización de estudios que utilicen una gran variedad de medidas de CVRS y otras relacionadas, el estudio de la asociación entre las puntuaciones (o sus diferencias) con determinados diagnósticos con la necesidad de tratamiento o con el efecto de tratamientos bien establecidos y también su asociación o su capacidad de predicción de ciertos eventos vitales, entre otros1. Recientemente también se han formulado propuestas de interpretación según el contenido basadas en TRI, cuya relevancia reside en el hecho de que no precisan información externa al propio instrumento27.
Carga para el entrevistador y para el entrevistado
La carga de administración se define como el tiempo, el esfuerzo y las necesidades y exigencias derivadas de la administración de un instrumento que recaigan sobre la persona a quien se aplica (carga para el entrevistado) o sobre los terceros que intervienen (carga para el entrevistador).
Se mide en relación con consideraciones de índole operativa, como el tiempo que se tarda en administrar el cuestionario, pero también en relación con los requisitos mínimos para una administración efectiva, como la capacidad de lectura y comprensión necesaria por parte del entrevistado. Un aspecto complementario a éstos y en el que no se suele reparar lo suficiente es la aceptabilidad por parte del entrevistado de las áreas de evaluación y de las formulaciones específicas empleadas en el instrumento, como podría ser el caso de preguntas relacionadas con la actividad sexual13.
Formatos de administración
Las formas básicas de administración de los instrumentos de medida de CVRS incluyen la autoadministración (supervisada o no), la administración mediante personal entrenado (telefónica o en persona), ambas a su vez asistidas o no por ordenador y la administración a personas próximas distintas del paciente (padres, cuidadores u otros). Cada una de ellas presenta ventajas e inconvenientes que se debe tenerlos en cuenta a la hora de seleccionar un instrumento6. Para una descripción suficiente del instrumento es necesario señalar, además de la forma estándar, las formas alternativas de administración de que se dispone13.
Un reto específico para la estandarización: la comparabilidad transcultural
La adaptación cultural y lingüística es el octavo criterio propuesto por el comité científico del Medical Outcomes Trust. Este criterio es especialmente relevante para el ámbito español pues la mayoría de los instrumentos de medida de CVRS de que se dispone son adaptaciones de cuestionarios originalmente desarrollados en otros países. Además, buena parte de los artículos científicos en esta área describen ese proceso. Con el fin de garantizar la aplicabilidad de estos instrumentos a otras poblaciones en general, y a la española, en particular, es preciso alcanzar la equivalencia conceptual y lingüística con el original. Se establece la primera cuando los conceptos medidos son equivalentes en cuanto a significado y relevancia en la aplicación de los instrumentos a las poblaciones diana respectivas28,29.
La equivalencia lingüística se refiere, en cambio, a la formulación de esos conceptos de forma que las estructuras semánticas seleccionadas cumplan la misma función y posean el mismo significado, tanto para cada punto como para las opciones de respuesta y todos los otros aspectos del instrumento30,31. Repárese en que la equivalencia lingüística trasciende la simple traducción: un instrumento desarrollado en España en castellano no tendrá necesariamente aplicabilidad inmediata en cualquier otro país de habla hispana.
Para alcanzar los tipos de equivalencia descritos conviene seguir un proceso cuidadoso de adaptación transcultural, que ha sido objeto de sistematización repetida8,28,29,32 (tabla 2). En general se considera recomendable realizar al menos 2 traducciones independientes del instrumento del idioma original al de adaptación (preferentemente más) y al menos una traducción inversa (también llamada retrotraducción) de la anterior de nuevo al idioma original. Es muy conveniente la participación en los estudios de adaptación de población bilingüe en ambos idiomas y con un cierto grado de conocimiento de ambas culturas. Finalmente, cabe insistir en que, a los efectos de todas las características descritas a continuación, tanto psicométricas como de otra índole, se debe considerar de forma diferenciada el instrumento original y cada una de sus adaptaciones5,11,13,19.
Los criterios descritos en la tabla 2 deberían considerarse de mínimos. De hecho, las propuestas más detalladas32 exigen evidencia empírica de que la versión es aceptable y comprensible para la nueva cultura (lo que requiere la participación de individuos de la población general y grupos de pacientes), así como un esfuerzo específico de armonización internacional (es decir, con otras versiones culturales del mismo instrumento). Obviamente estos criterios ya se tienen en cuenta en los instrumentos que se desarrollan originalmente en diversos países de manera simultánea, como por ejemplo el WHOQOL33.
Conclusión
Este listado de comprobación se ha concebido como guía para autores en la elaboración de protocolos para la construcción de instrumentos de resultados percibidos por los pacientes, así como para orientar la presentación de los métodos empleados y de sus resultados, tanto a los autores como a los evaluadores de futuras publicaciones. Es de esperar que la adopción de unas guías comunes facilite la labor de todos los implicados y permita alcanzar el objetivo de disponer de mejores herramientas de medida de resultados percibidos por los pacientes.