Introducción
La comunicación precisa y transparente de la investigación se ha convertido en una cuestión cada vez más relevante a medida que se acumulan pruebas de que muchos de los estudios de investigación publicados no ofrecen información clave respecto a su metodología y sus resultados. A su vez, esta preocupación ha generado una serie de iniciativas para definir los aspectos que deben recogerse en la publicación de un estudio.
Hasta hace relativamente poco, las iniciativas para el establecimiento de recomendaciones respecto a la comunicación de los estudios de investigación se han referido, casi exclusivamente, a los ensayos clínicos efectuados con asignación aleatoria y control, sobre todo la Declaración CONSORT1. Sin embargo, la comunicación de los resultados de cualquier otro tipo de investigación médica presenta deficiencias similares, de manera que varios grupos de estudio han ampliado la idea del desarrollo de directrices de comunicación para abarcar también a estos otros tipos de estudio. En este artículo se describen las distintas iniciativas para la elaboración de directrices para la comunicación de los estudios relativos a la precisión de las pruebas diagnósticas (STARD) y a los marcadores pronósticos (REMARK)
Estudios relativos a la precisión de las pruebas diagnósticas
Contexto
Durante las últimas décadas, el número de pruebas médicas se ha incrementado de manera rápida, tanto en lo que se refiere a las nuevas pruebas como a la tecnología de las pruebas ya introducidas, que mejoran de manera continua. Las pruebas médicas no sólo se utilizan para facilitar el diagnóstico, sino también para la toma de decisiones respecto al tratamiento, a la respuesta a éste y a la detección de posibles trastornos subclínicos, así como para la determinación de la salud futura del paciente2,3.
Al igual que ocurre con las nuevas tecnologías médicas, las nuevas pruebas diagnósticas deben evaluarse con detalle antes de su introducción en la práctica clínica. El proceso riguroso de evaluación de las pruebas diagnósticas antes de su introducción no sólo reduce el número de consecuencias clínicas no deseadas, secundarias a las estimaciones erróneas de la precisión diagnóstica de la prueba, sino que también limita los costes sanitarios, ya que evita la realización de pruebas innecesarias.
Por desgracia, la evaluación de la precisión diagnóstica de las pruebas médicas va con retraso respecto a la evaluación de los tratamientos2,3. Los resultados exagerados y sesgados que se obtienen en estudios diagnósticos mal diseñados y pobremente comunicados dan lugar a una difusión anticipada del valor de las pruebas diagnósticas y hacen que los clínicos tomen decisiones terapéuticas incorrectas. Además, es necesario tener en cuenta que los fondos de financiación de la investigación no suelen cubrir la realización de estudios fundamentados en síntomas o pruebas diagnósticas.
En la evaluación de las pruebas médicas, tanto de las nuevas como de las ya existentes, un paso esencial es el establecimiento de la precisión de la prueba diagnóstica. En los estudios de precisión diagnóstica, se comparan los resultados de una o más pruebas con los obtenidos mediante la prueba diagnóstica de referencia sobre el mismo grupo de pacientes en los que se considera que hay un proceso patológico concreto.
El término prueba se refiere a cualquier método utilizado para obtener información adicional sobre el estado de salud de un paciente. Incluye la información conseguida a través de la historia clínica, la exploración física, las pruebas analíticas, de imagen, funcionales y el estudio anatomopatológico. La enfermedad objetivo o el proceso patológico de interés son un trastorno concreto, una fase de la enfermedad o cualquier otro proceso patológico identificable que obligue a acciones clínicas, como la realización de nuevas pruebas diagnósticas o el inicio, la modificación o la interrupción de un tratamiento. En este contexto, la prueba diagnóstica de referencia se considera el mejor método para establecer la presencia o la ausencia de un proceso patológico. La prueba de referencia puede ser un método único o una combinación de métodos, y permite establecer la presencia de la enfermedad objetivo. Puede ser una prueba analítica, un estudio de imagen o un estudio anatomopatológico, pero también un método concreto de seguimiento clínico de los pacientes. El término precisión se refiere al grado de concordancia entre la información ofrecida por la prueba diagnóstica evaluada (denominada prueba índice) y la ofrecida por la prueba de referencia. La precisión diagnóstica se puede expresar de muchas maneras, como los niveles de sensibilidad y especificidad, los cocientes de probabilidad, el cociente de posibilidades diagnósticas y el área bajo la curva de eficacia diagnóstica (ROC, receiver operator characteristic).
Hay varios factores que amenazan la validez interna y externa de los resultados obtenidos en un estudio de precisión diagnóstica de una prueba. Algunos de estos factores se relacionan con el diseño de este tipo de estudios, otros con la forma de selección de los pacientes, con el método de realización de las pruebas o con el análisis de los datos obtenidos4. Un estudio basado en varios metaanálisis ha demostrado que la apreciación excesivamente optimista de la precisión de las pruebas diagnósticas puede deberse a diversas deficiencias en el diseño de su estudio5.
El número de estudios relativos a la precisión de las pruebas diagnósticas publicados es cada vez mayor, pero la calidad es, en general, escasa. En una encuesta relativa a los estudios de precisión diagnóstica publicada entre 1978 y 1993 en cuatro importantes revistas de medicina se demostró que la calidad metodológica de esos estudios era, como mucho, mediocre6. En encuestas más recientes se han observado deficiencias similares7.
En esta revisión también se demostró que la publicación de los estudios no contenía información esencial sobre puntos clave, como su diseño, sus métodos de realización y los análisis de sus resultados. La ausencia de información clave respecto al diseño y a la realización de los estudios diagnósticos ha sido confirmada por los autores de diversas revisiones sistemáticas (metaanálisis). Éste es un problema importante, ya que la comunicación completa y precisa permitiría que el lector pudiera detectar los posibles sesgos que aquejan a un estudio, así como juzgar la posibilidad de generalización y aplicación de los resultados.
Desarrollo de directrices para la comunicación de los estudios relativos a la precisión de las pruebas diagnósticas (Declaración STARD)
En la reunión de la Colaboración Cochrane que tuvo lugar en 1999 en Roma, el grupo de trabajo sobre métodos diagnósticos y pruebas de detección (Screening Test Methods Working Group) de la propia Colaboración Cochrane expuso la escasa calidad metodológica y las deficiencias en la comunicación de estudios de este tipo. El grupo consideró que el primer paso para corregir estos problemas era mejorar la calidad de la comunicación de los estudios diagnósticos. Entonces se constituyeron los Estándares para el Informe de Estudios de Precisión Diagnóstica (STARD, Standards for Reporting of Diagnostic Accuracy), cuyo objetivo fue mejorar la calidad de la comunicación de los estudios de precisión de pruebas diagnósticas. Tras el éxito de la Declaración CONSORT, el grupo STARD se propuso como objetivo el desarrollo de una lista de puntos que se deberían abordar en cualquier estudio relativo a la precisión de las pruebas diagnósticas.
El Comité de dirección STARD realizó una búsqueda detallada de la bibliografía y elaboró una lista de 75 puntos posibles. Esta búsqueda se llevó a cabo en las bases de datos Medline, Embase y BIOSIS, y en la base de datos metodológica de la Colaboración Cochrane, hasta julio de 2000. Además, los miembros del comité de dirección STARD examinaron las listas de bibliografía de los artículos seleccionados, efectuaron búsquedas en sus archivos bibliográficos personales y establecieron contactos con otros expertos en el campo de la investigación diagnóstica. Revisaron todas las publicaciones relevantes y efectuaron una ampliación de la lista de posibles puntos.
Hay dos consideraciones generales que son útiles para determinar el contenido y el formato de la lista. En primer lugar, el grupo STARD considera que el uso de una sola lista tiene más posibilidades de ser conocida y aceptada por autores, revisores y editores de revistas médicas que el uso de varias listas distintas. A pesar de que la evaluación de una prueba de imagen es diferente de la evaluación de una prueba analítica, estas diferencias pueden ser más de forma que de fondo. La segunda consideración se refiere al desarrollo de una lista dirigida específicamente hacia los estudios sobre la precisión de las pruebas diagnósticas. El grupo STARD no incluyó aspectos generales en la comunicación de los resultados de los estudios de investigación, como las recomendaciones del documento de Requisitos de Uniformidad de los Originales Remitidos a las Revistas de Biomedicina (Uniform Requirements for Manuscripts submitted to Biomedical Journals).
Posteriormente, el comité de dirección STARD, en una reunión de consenso de 2 días de duración (16 y 17 de septiembre de 2001) en Amsterdam, y a la que fueron invitados expertos investigadores, editores, especialistas en metodología y organizaciones profesionales, evaluaron todos los temas propuestos y elaboraron una lista final de 25 puntos.
Además, el grupo STARD desarrolló un esfuerzo considerable para el establecimiento de un diagrama de flujo relativo a los estudios de precisión de las pruebas diagnósticas. Este diagrama de flujo informa sobre el método de selección de los pacientes, el orden de realización de las pruebas y el número de pacientes que deben evaluarse mediante la prueba índice y la prueba de referencia. El diagrama de flujo comunica de manera transparente información clave respecto al diseño de un estudio y el flujo de los participantes.
Fig. 1. Diagrama de flujo prototípico de un estudio de precisión diagnóstica. TCCR: tomografía computarizada con contraste renal.
Diversos grupos de usuarios potenciales evaluaron la primera versión de la lista y del diagrama de flujo. Esta lista se ofreció en el sitio web de CONSORT (www.consort-statement.org), con una solicitud de comentarios. El grupo STARD recibió comentarios y observaciones muy útiles durante las diversas fases de evaluación, y elaboró una lista final de puntos de una sola página. La tabla 1 muestra la lista de directrices STARD, y la figura 1, un diagrama de flujo prototípico relativo a un estudio de precisión diagnóstica.
Publicación
La Declaración STARD se publicó en los primeros ejemplares de 2003 de siete importantes revistas médicas generales y de especialidad, como Annals of Internal Medicine, Radiology, The British Medical Journal y Clinical Chemistry8, y posteriormente en algunas otras revistas biomédicas. La declaración y la lista se acompañaban de un documento explicativo9, en el que se exponían la significación y el fundamento de cada uno de los puntos, y se revisaba brevemente la evidencia respecto a estos. Los documentos también se recogieron en varios sitios web, como el de Clinical Chemistry y el del grupo CONSORT.
La publicación de los documentos STARD se acompañó de varios editoriales en los que se recomendaba su aceptación por parte de los editores de revistas y de los comités de revisión.
En un estudio de evaluación que ha finalizado recientemente y que se ha referido a los estudios sobre la precisión de las pruebas diagnósticas publicados en 2000 (antes de la Declaración STARD) y en 2004 (después de la Declaración STARD) en revistas de gran impacto, se demuestra que la calidad de la comunicación en los artículos relativos a la precisión diagnóstica ha mejorado tras la publicación de la Declaración STARD, pero queda todavía camino por recorrer10. Como promedio, en los artículos publicados en 2004 se han recogido 14 de los 25 puntos esenciales de la lista.
El grupo STARD tiene planificada la actualización de la Declaración STARD cuando aparezcan nuevas evidencias sobre el origen de los sesgos o de la variabilidad. Si las revistas médicas, los autores, los editores y los revisores adoptaran con mayor interés tanto la lista de puntos como el diagrama de flujo, mejoraría la calidad de la publicación de los estudios relativos a la precisión diagnóstica de las pruebas para beneficio tanto de los clínicos como de los investigadores, los revisores, las revistas y la sociedad en general.
Estudios sobre el valor pronóstico de los marcadores tumorales
Contexto
A lo largo de muchos años, la publicación de millares de estudios sobre marcadores tumorales en oncología ha culminado con la demostración de la utilidad clínica real para sólo unos pocos11. Los estudios iniciales sobre un marcador dan lugar, a menudo, a resultados muy prometedores, pero en los estudios siguientes sobre ese marcador o sobre otros marcadores relacionados se obtienen conclusiones contradictorias o claramente incongruentes con los prometedores resultados iniciales. Se han citado muchos problemas para explicar esta discrepancia, como las diferencias metodológicas, la baja calidad del diseño de los estudios, la variabilidad y la falta de definición de los criterios de participación de los pacientes, y la inexistencia de posibilidades de reproducibilidad del estudio efectuado. También puede haber un sesgo o una variabilidad importantes de manera inherente al uso de muchos métodos de determinación distintos12. Los análisis estadísticos inadecuados son habituales, como los estudios en los que la potencia estadística del método utilizado es insuficiente y en los que se obtienen resultados excesivamente optimistas respecto a la magnitud del efecto o el nivel de significación a consecuencia de la realización de múltiples pruebas, análisis de subgrupos u optimización de los valores umbral13-16.
Los lectores de las publicaciones de estos estudios necesitan saber con precisión qué es lo que se ha realizado, con objeto de que puedan juzgar la fiabilidad de los resultados. Por desgracia, los estudios sobre marcadores tumorales presentan una baja calidad de publicación; muchos de los artículos publicados carecen de la información suficiente como para que el lector pueda valorar de manera adecuada los métodos utilizados o la posibilidad de generalización de sus resultados. Las deficiencias en la publicación de los estudios de carácter pronóstico (así como su heterogeneidad metodológica) quedan en evidencia a través de las revisiones sistemáticas de la bibliografía sobre marcadores o tumores malignos concretos17-22. Incluso la presentación de los resultados reales tiene generalmente una calidad muy baja18.
Una recomendación importante de la NCI-EORTC First International Meeting on Cancer Diagnostics (From Discovery to Clinical Practice: Diagnostic Innovation, Implementation, and Evaluation), celebrada en Nyborg, Dinamarca, en julio de 2000, fue el desarrollo de directrices para la publicación de los estudios relativos a los marcadores tumorales. En esa reunión se consideró que algunas de las barreras principales para el progreso en esta área eran la baja calidad del diseño y el análisis de los estudios, la variabilidad en las pruebas utilizadas y la comunicación deficiente de los estudios.
El subcomité de estadística quedó encargado de abordar los problemas estadísticos relativos a las deficiencias en el diseño y en el análisis de los estudios sobre marcadores tumorales pronósticos. Se acordó que la prioridad debía ser la elaboración de un documento de directrices para la publicación.
Desarrollo de directrices para la comunicación de los resultados obtenidos en estudios sobre el valor pronóstico de los marcadores tumorales (REMARK)
Los 9 miembros del comité, pertenecientes a Estados Unidos y a Europa, constituían un grupo heterogéneo de clínicos, especialistas en estadística y científicos de laboratorio. Algunos de ellos realizaban editoriales para revistas de oncología, pero ninguno era editor.
Las ideas iniciales respecto a los puntos clave del documento de directrices se extrajeron a partir de la bibliografía sobre la evidencia empírica relativa a las deficiencias en la publicación o a los métodos de análisis problemáticos, las sugerencias previas relacionadas con la publicación de estos estudios y las diversas publicaciones de tipo educativo. También se generaron ideas a través de la revisión de las directrices de publicación similares elaboradas respecto a otros tipos de estudios de investigación médica, como los documentos CONSORT1, QUOROM23 y STARD9. Tres de los miembros de este grupo escribieron un primer borrador que sirvió como base para la discusión de todo el grupo. Los comentarios al borrador se realizaron a través de una videoconferencia de todo el grupo, y mediante numerosos intercambios por correo electrónico, pero no se llevó a cabo ninguna reunión presencial. Tras otras revisiones efectuadas por el grupo y por expertos externos, la versión de febrero de 2003 se remitió a todo el grupo para su comentario final.
El hecho de que hayan transcurrido dos años antes de su publicación puede atribuirse a varios factores. El principal, la intención frustrada de desarrollar un documento con una arquitectura similar a la de los documentos de las declaraciones CONSORT y STARD9,24. Finalmente, se decidió la publicación de las recomendaciones solas, antes de que ésta se retrasara todavía más. El documento explicativo va a incluir las justificaciones específicas de la necesidad de cada uno de los puntos contenidos en las recomendaciones. Actualmente, el documento conjunto está en fase de desarrollo y se espera que sea publicado en 2006.
La tabla 2 muestra la lista de directrices REMARK, relativa a las recomendaciones para la publicación de los estudios sobre marcadores tumorales. Los puntos específicos aparecen agrupados bajo epígrafes (Introducción, Materiales y métodos, Resultados y Discusión) que reflejan las secciones de los artículos científicos publicados.
Tal como se puede observar en el elemento 12, el diagrama debe ser útil para que sea posible determinar el número de participantes en cada una de las distintas fases de un estudio. Como mínimo, este diagrama debe incluir el número de pacientes de la muestra original, el número de pacientes que permanecen en el estudio tras la aplicación de los criterios de exclusión y el número de pacientes evaluados a través de los análisis uni y multivariados.
Las directrices REMARK están centradas, principalmente, en la publicación de los estudios de evaluación de un único marcador tumoral de interés, incluyendo a menudo su ajuste respecto a las variables pronósticas clínicas estándar. Estas directrices son especialmente relevantes para los estudios en los que se evalúa más de un marcador, pero no abordan las consideraciones estadísticas relativas al desarrollo de modelos pronósticos para un número elevado de marcadores candidato.
Publicación y otras cuestiones
Las recomendaciones REMARK se publicaron en septiembre de 2005 en cinco revistas de oncología: British Journal of Cancer, European Journal of Cancer, Journal of Clinical Oncology, Journal of the National Cancer Institute25 y Nature Clinical Practice Oncology. Como ya se ha señalado, en ese momento todavía no se había completado el documento explicativo complementario en el que se recogen la significación y el fundamento de cada uno de los puntos con una revisión breve de la evidencia respecto a éstos; no obstante, se espera que este documento se publique lo antes posible. La lista de directrices REMARK se puede conocer a través de internet en la dirección http://www.cancerdiagnosis.nci. nih.gov/assessment/progress/clinical.html
Las directrices REMARK se desarrollaron específicamente para su aplicación en los estudios pronósticos sobre marcadores tumorales, aunque la mayor parte de las recomendaciones se pueden aplicar de la misma manera a los estudios pronósticos de carácter general. Ciertamente, aunque estos estudios son especialmente frecuentes en el ámbito de la oncología, también son muy habituales en todas las ramas de la medicina; en ambos casos, hay pruebas de la escasa calidad de los estudios pronósticos26,27.
Comentarios
Los grupos STARD y REMARK se han fundamentado en los objetivos y procedimientos correspondientes al Grupo CONSORT. Sin embargo, ha habido algunas diferencias entre estos grupos, por ejemplo, en lo relativo a la falta de recursos o a la existencia de innovaciones de carácter genuino que podrían influir en la forma con que se lleve a cabo la próxima revisión CONSORT.
Es destacable el hecho de que las directrices de estos dos grupos, así como de CONSORT, QUOROM y otros, han necesitado años desde su inicio hasta su realización. Los intentos de mejora de la calidad de las publicaciones son importantes, pero a menudo son procesos lentos.
Como ya se ha señalado, las directrices de publicación como las señaladas en este artículo no representan algo fijo, sino que deben revisarse periódicamente a la vista de las nuevas evidencias. Esperamos que ambas directrices sean revisadas en los años venideros.
Agradecimientos
Las declaraciones STARD y REMARK no se podrían haber publicado sin el importante esfuerzo realizado por muchas personas, especialmente por las que aparecen en las listas de autores de las publicaciones.