El ejercicio de una práctica clínica basada en la evidencia exige unas competencias básicas para valorar e interpretar la literatura biomédica. En este artículo se revisan los puntos críticos para determinar la calidad de la evidencia global y formular recomendaciones.
Clinicians interested in evidence-based clinical practice need some basic competencies in critical appraisal of the biomedical literature. This article reviews key concepts for the assessment of the quality of the evidence and the strength of recommendations.
En la primera parte de esta serie1 se presentó el escenario de una mujer de 53 años con adenocarcinoma ductal infiltrante de mama subsidiario de cirugía conservadora, con 2/2 biopsias de ganglio centinela positivas, en la que se planteaba la opción de vaciamiento ganglionar frente a cirugía axilar conservadora. Una vez leído detenidamente el estudio, se concluía que el ensayo ACOSOG-Z0011 presenta debilidades metodológicas importantes (en especial las pérdidas en el seguimiento y el desequilibrio en las variables pronósticas basales) que le restan credibilidad.
Por otro lado, somos conscientes de que la calidad de la evidencia no se puede valorar con un único estudio, y hemos decidido examinar el cuerpo de evidencia disponible. En este punto, seguiremos los pasos de la aproximación Grading of Recommendations Assessment, Development and Evaluation (GRADE) para establecer el grado de evidencia y la fuerza de la recomendación sobre la seguridad de evitar la disección ganglionar en nuestra enferma.
La aproximación Grading of Recommendations Assessment, Development and EvaluationGRADE es un sistema formal de jerarquización del grado de evidencia y de la fuerza de la recomendación, que ha sido asumido por un gran número de organizaciones2.
El sistema GRADE define la calidad de la evidencia en el contexto de una revisión sistemática como la confianza que tenemos en que la estimación del efecto es correcta. GRADE clasifica la calidad de la evidencia en 4 grados: alta, moderada, baja o muy baja. En gran medida el grado de evidencia está condicionado por el tipo de diseño: así, los estudios aleatorizados parten de un nivel de evidencia alto, sin embargo la evidencia procedente de ensayos clínicos puede degradarse en uno o 2 niveles (a evidencia moderada o baja) en función de ciertas características que comprometen la credibilidad de los resultados. De igual forma, los estudios observacionales parten de nivel de evidencia bajo, pero este nivel puede aumentar (generalmente en un grado) o reducirse si concurren otras características.
Respecto al grado de recomendación a favor o en contra de una intervención, GRADE lo clasifica en 2 niveles (fuerte o débil), según el grado de confianza en que los efectos beneficiosos superan los efectos adversos, lo cual depende de la relación (trade-off) entre los efectos beneficiosos y los efectos adversos de la intervención, del nivel de evidencia, de las preferencias del paciente y, en ocasiones, de los costes.
En las páginas que siguen intentaremos seguir los pasos de la metodología GRADE para intentar resolver el escenario que nos planteábamos al principio del artículo.
Formulación de la pregunta y búsqueda de la evidenciaEl primer paso es formular correctamente la pregunta, según el formato PICO, especificando el tipo de Paciente, la Intervención, la alternativa de Comparación y desenlace clínico (Outcome en inglés). En el escenario que nos ocupa estos 4 elementos podrían definirse de la siguiente manera:
- •
Paciente: mujer con cáncer de mama sin indicaciones de mastectomía, en estadio T1-T2, sin adenopatías palpables, con metástasis en la biopsia del ganglio centinela.
- •
Intervención: biopsia de ganglio centinela sin disección de adenopatías axilares.
- •
Comparación: vaciamiento axilar.
- •
Desenlace clínico a evaluar: supervivencia global, supervivencia libre de enfermedad, recidivas locorregionales, linfedema, etc.
Estos desenlaces se jerarquizan en una escala de 9 grados, agrupados como desenlaces críticos para la decisión (niveles 7-9), desenlaces importantes pero no críticos para la decisión (niveles 4-6) y desenlaces poco importantes (niveles 1-3). Por razones de claridad expositiva, en nuestro escenario consideramos solo 3 desenlaces, que ordenamos de la siguiente forma: supervivencia global (9), recidivas locorregionales (7) y morbilidad quirúrgica (linfedema) (7).
Las preguntas que nos formulamos (una para cada desenlace) son preguntas de efectividad, por lo que inicialmente buscaremos para contestarlas ensayos aleatorizados o revisiones sistemáticas de ensayos aleatorizados. Afortunadamente encontramos un metaanálisis3 con 3 ensayos aleatorizados: el estudio ACOSOG-Z00114,5, el IBCSG 23-016 y el EORTC 10981-220237–9.
El siguiente paso es valorar la calidad de la evidencia, lo cual se establece a partir de 5 parámetros1: el riesgo de sesgo global2, inconsistencia3, imprecisión4, evidencia indirecta5 y sesgo de publicación.
Riesgo de sesgo del conjunto de los estudiosEl riesgo de sesgo de los 3 ensayos encontrados se resume mediante el instrumento de la colaboración Cochrane (fig. 1, tabla 1). Este instrumento nos muestra que, con la excepción del estudio ACOSOG-Z0011, la evidencia respecto a la mortalidad a los 5 años procede de estudios con bajo riesgo de sesgo. Es decir, el riesgo de sesgo de los estudios no constituiría por sí mismo una razón que nos haga dudar de la estimación del efecto.
Riesgo de sesgo
ACOSOG-Z0011 | IBCSG 23-01 | EORTC 10981-22023 | |
---|---|---|---|
Generación de la lista aleatoria | Bajo riesgo:Un artículo previo del grupo6 afirma: «a computer would randomly assign her to either group 1 (SLND_ALND; n_445) or group 2 (SLND alone; n_446) in a 1:1 ratio» | Bajo riesgo:«Randomisation was done with permuted blocks generated by a congruence algorithm» | Bajo riesgo:No se especifica |
Ocultación secuencia de aleatorización | Bajo riesgo:Asignación central6 | Bajo riesgo:«Participating centre staff accessed the central randomisation system» | Bajo riesgo:«Randomization was accomplished centrally by the EORTC headquarters» |
Enmascaramiento (participantes y personal) | Bajo riesgo:No enmascaramiento de pacientes/personal, pero es dudoso que esto influya en los resultados de mortalidad | Bajo riesgo:No enmascaramiento de pacientes/personal, pero es dudoso que esto influya en los resultados de mortalidad | Bajo riesgo:No enmascaramiento de pacientes/personal, pero es dudoso que esto influya en los resultados de mortalidad |
Enmascaramiento (evaluadores) | Bajo riesgo para mortalidad, dudoso para edema linfático o movilidad | Bajo riesgo para mortalidad, dudoso para edema linfático o movilidad | Bajo riesgo para mortalidad, dudoso para edema linfático o movilidad |
Manejo pérdidas | Alto riesgo:Número de pérdidas alto, capaz de condicionar sesgo de selección | Bajo riesgo (pocas pérdidas) | Riesgo dudoso (datos no disponibles) |
Notificación selectiva | Bajo riesgo:El artículo incluye todos los desenlaces esperables | Bajo riesgo:Registrado en clinicaltrials.gov (NCT00072293) | Bajo riesgo:Registrado en clinicaltrials.gov (NCT00014612) |
Otros | Grupos disbalanceados | No analiza por separado las metástasis>2mm | Datos no disponibles |
Pregunta: ¿Se debe realizar disección ganglionar axilar en el cáncer de mama (no avanzado)?
Bibliografía: Rao et al3.
La obtención de resultados parecidos en diferentes estudios aumenta la confianza en la estimación del efecto. La figura 2 muestra el diagrama de Forest correspondiente al riesgo relativo de mortalidad a los 5 años. La I2 —un indicador de la heterogeneidad relativa— es del 0%, lo cual indica que las diferencias observadas en la mortalidad se explican por error de muestreo. Por lo tanto, no tenemos argumentos de peso para degradar la calidad del estudio por inconsistencia. No obstante, si calculamos —mediante el software adecuado— el intervalo de confianza al 95% del I2 comprobamos que este se extiende entre el 0 y el 67%; por tanto, tampoco se puede afirmar en rigor que los estudios sean consistentes.
La consistencia de los estudios respecto a la recidiva ganglionar es similar a la encontrada para la supervivencia. En cambio, respecto al desenlace del linfedema, aunque los 3 estudios muestran resultados claramente favorables al tratamiento conservador, la I2 es del 70% (p=0,04), lo que indica que un porcentaje importante de la dispersión de efectos observados se debe a verdadera heterogeneidad, quizá por las diferentes definiciones operativas utilizadas por los diferentes estudios.
ImprecisiónAquí el punto crítico es valorar si el intervalo de confianza es suficientemente estrecho2. En el ámbito del escenario, en el que el interés final es establecer una recomendación sobre si se debe realizar disección ganglionar axilar, esto se traduce en comprobar si el límite superior del intervalo de confianza al 90% del riesgo relativo de mortalidad supera el umbral de decisión fijado en el estudio de Giuliano (un aumento relativo del riesgo del 30%). Como se muestra en las figuras 2 y 3, el límite superior del IC 90% es de 1,29, prácticamente en el límite de la no-inferioridad. Y si se excluye el estudio de Giuliano et al. (de mayor riesgo de sesgo) el límite superior del IC 90% se eleva hasta 1,45. Este intervalo de confianza cuestiona nuestra convicción de que el tratamiento conservador es no-inferior al vaciamiento ganglionar, por lo que los autores decidimos reducir el grado de evidencia en un escalón (desde evidencia alta a moderada).
Respecto a la recidiva axilar, en cambio, el límite superior del IC 95% es un aumento absoluto del riesgo de solo un 1%. Si consideramos que este nivel es aceptable para la mayoría de las pacientes (dado el mayor riesgo de linfedema asociado al vaciamiento ganglionar), entonces no habría razón para degradar el nivel de evidencia para este desenlace por imprecisión10.
Y respecto al riesgo de edema linfático, todos ellos presentan un aumento importante del riesgo en el grupo tratado con vaciamiento axilar. Por lo tanto, se debería degradar la evidencia respecto a este outcome por inconsistencia, pero no por imprecisión.
Volveremos sobre este tema al hablar de las recomendaciones.
Evidencia indirecta (indirectness)Cuando la población en estudio, la intervención o los desenlaces evaluados son distintos de los de la población de interés, la confianza en la estimación del efecto disminuye11. Sin embargo, hay que tener en cuenta que, habitualmente, las condiciones en que se realizan los ensayos difieren en importantes aspectos de las condiciones locales del paciente individual. Por tanto, la aplicación de la evidencia científica al paciente individual exige, además de competencias de lectura crítica, un adecuado conocimiento de las circunstancias locales y buen juicio clínico.
Por ejemplo, algunos autores12 han criticado que la población finalmente reclutada en el estudio de Giuliano et al.4 es una población de bajo riesgo, no representativa del espectro de pacientes con criterios de inclusión. Asimismo, el estudio de Galimberti6 incluye una muy baja proporción de pacientes con macrometástasis. Y el estudio AMAROS7,8 evalúa 2 estrategias (radioterapia versus vaciamiento axilar) que no coinciden exactamente con las del escenario (en el que las 2 alternativas incluyen la radioterapia). Por lo tanto, se podría considerar degradar un escalón el grado de evidencia debido a datos indirectos. En nuestro caso, esta posibilidad se desestimó al considerarse que existe un importante cuerpo de evidencia indirecta que sugiere que la presencia de metástasis en la biopsia del ganglio centinela no es más que un factor pronóstico13, y que el tratamiento coadyuvante actual garantiza una baja tasa de recaída axilar en pacientes con afectación ganglionar tratados de forma conservadora14.
Sesgo de publicaciónEs bien conocido que los estudios con resultados positivos tienen más probabilidad de ser publicados que los estudios con resultados menos favorables. Ello es especialmente frecuente en estudios pequeños, lo que se puede detectar mediante diversas herramientas gráficas y estadísticas. Como consecuencia se genera un sesgo de selección que favorece la sobreestimación del efecto. En el caso de metaanálisis de Rao et al.3 se hizo una búsqueda exhaustiva, y dado el escaso número de estudios las herramientas de diagnóstico no son de utilidad, por tanto se decidió no degradar la calidad de evidencia por este concepto.
Perfil de evidencia y calidad global de la evidencia (tabla 2)De forma general GRADE propone como grado de evidencia global el asignado al desenlace crítico de peor calidad (en nuestro caso, la mortalidad a los 5 años). Para la pregunta que nos formulábamos en el escenario, la calidad de la evidencia sería por tanto moderada. Ello significa que tenemos moderada confianza en que el tratamiento conservador no es inferior a la disección ganglionar en pacientes con cáncer de mama no avanzado con metástasis axilares con intención de tumorectomía y radioterapia..
Perfil de evidencia para los principales desenlaces clínicos
Valoración de la calidad | Efecto relativo (IC 95%) | Calidad | ||||||
---|---|---|---|---|---|---|---|---|
N.° de estudios | Diseño | Riesgo de sesgo | Inconsistencia | Datos indirectos | Imprecisión | Otras | ||
Supervivencia (mediana de seguimiento 5-6,3 años) | ||||||||
Ensayos aleatorizados | No serio riesgo de sesgoa | No seria inconsistencia | Nob | Seriac | Ninguna | RR 1,09 (0,78 a 1,53) | Moderada | |
Recidiva regional | ||||||||
Ensayos aleatorizados | No serio riesgo de sesgoa | No seria inconsistencia | Nob | No seria imprecisión | Ninguna | RR 2,27 (0,92 a 5,58)d | Alta | |
Edema linfático | ||||||||
Ensayos aleatorizados | No serio riesgo de sesgoa | Seriae | Nob | No seria imprecisión | Ninguna | RR 0,30 (0,12 a 0,72) | Moderada |
El siguiente paso consiste en determinar el grado de confianza en que los efectos beneficiosos del tratamiento conservador (la reducción de la morbilidad quirúrgica) superan a los efectos adversos (aumento de las recidivas axilares, posible reducción de la supervivencia) comparación con el vaciamiento ganglionar. Ello depende de la calidad de la evidencia de los efectos importantes, la valoración de los riesgos con respecto a los beneficios, las preferencias de los pacientes y, en ocasiones, los costes15.
Cuando el grado de evidencia no es alto, las preferencias del paciente desempeñan un papel importante. En efecto, Galper et al.16 entrevistaron cuidadosamente a un grupo de mujeres con cáncer de mama encontrando una gran variabilidad en las preferencias. Mientras que el grupo de mujeres con cáncer invasivo exigía una mejoría mínima de la supervivencia del 3% para someterse a una disección ganglionar axilar, en pacientes con carcinoma ductal in situ este porcentaje subía al 10%. Por lo tanto, la recomendación adecuada para una enferma con un umbral del 5% sería la de hacer tratamiento conservador, mientras que para una enferma con mayor aversión al riesgo de muerte o menor rechazo del edema linfático, la recomendación adecuada sería la de hacer vaciamiento ganglionar.
Cuando se puede asumir que la práctica totalidad de los pacientes bien informados elegirían una de las opciones, la recomendación sería fuerte. Si, como ocurre en nuestro caso, una parte sustancial de pacientes discrepa respecto a la decisión a elegir, entonces la recomendación sería débil. Ello obligaría al clínico a dedicar un mayor tiempo a la decisión compartida, para asegurarse que la recomendación final es coherente con los valores y preferencias de la enferma.
Con matices, esta recomendación es consistente con la de las guías más recientes. Así, las guías SIGN de 201317 afirman que «(las) pacientes tratadas con cirugía conservadora de mama y radioterapia para T1 o T2, ganglios axilares clínicamente negativos y con uno o 2 ganglios positivos en la biopsia del ganglio centinela se pueden considerar para no tratamiento axilar ulterior». Y de acuerdo con las guías ASCO de 201417 «(los) clínicos no deberían recomendar la disección ganglionar axilar en mujeres con cáncer de mama en estadio precoz y solo una o 2 metástasis del ganglio centinela programadas para cirugía conservadora de la mama con radioterapia mamaria fraccionada convencional».
ConclusionesAunque con limitaciones, el cuerpo de evidencia apoya la hipótesis del estudio ACOSOG Z0011, y sugiere que el beneficio de evitar la iatrogenia (linfedema) justifica la omisión del vaciamiento axilar en pacientes seleccionados con cáncer de mama no avanzado y metástasis en la biopsia del ganglio centinela.
La aproximación GRADE puede facilitar la valoración de la calidad del cuerpo de la evidencia científica, y establecer recomendaciones de acuerdo con dicha evidencia y las circunstancias locales.
Responsabilidades éticasProtección de personas y animalesLos autores declaran que para esta investigación no se han realizado experimentos en seres humanos ni en animales.
Confidencialidad de los datosLos autores declaran que en este artículo no aparecen datos de pacientes.
Derecho a la privacidad y consentimiento informadoLos autores declaran que en este artículo no aparecen datos de pacientes.
Conflicto de interesesLos autores declaran no tener ningún conflicto de intereses.