Una revisión sistemática (RS), es un artículo de «síntesis de la evidencia disponible», en el que se realiza una revisión de aspectos cuantitativos y cualitativos de estudios primarios, con el objetivo de resumir la información existente respecto de un tema en particular. Los investigadores luego de recolectar los artículos de interés; los analizan, y comparan la evidencia que aportan con la de otros similares. Las razones que justifican la realización de una RS son: cuando existe incertidumbre en relación al efecto de una intervención debido a que existe evidencia contrapuesta respecto de su real utilidad; cuando se desea conocer el tamaño del efecto de una intervención; y, cuando se desea analizar el comportamiento de una intervención en subgrupos de sujetos.
El objetivo de este manuscrito es realizar una puesta al día sobre los conceptos básicos, indicaciones, fortalezas y debilidades de las RS; así como del desarrollo de una RS, los potenciales sesgos más relevantes a ser tenidos en cuenta en este tipo de diseños, y los conceptos básicos referentes al metaanálisis. Se incluyen, además, dos ejemplos de RS; de utilidad para los cirujanos que con cierta frecuencia se encuentran con este tipo de diseño cuando realizan búsquedas de evidencia científica en bases de revistas biomédicas.
A systematic review (SR) is an article on the «synthesis of the available evidence», in which a review is performed on the quantitative and qualitative aspects of primary studies, with the aim of summarising the existing information on a particular topic. After collecting the articles of interest the researchers then analyse them and compare the evidence they provide with that from similar ones. The reasons for justifying performing an SR are: when there is uncertainty as regards the effect of an intervention due to there being existing evidence against its real usefulness; when it is desired to know the magnitude of the effect of an intervention; and, when it is desired to analyse the behaviour of an intervention in subject sub-groups.
The aim of this article is to perform an update on the basic concepts, indications, strengths and weaknesses of SRs, as well as the development of an SR, the most important potential biases to be taken into account in this type of design, and the basic concepts as regards the meta-analysis. Two examples of SR are also included, of use for surgeons, who often come across this type of design when searching for scientific evidence in biomedical journal bases.
Las revisiones sistemáticas (RS) nos permiten estar al día en diversos temas de interés sin invertir demasiado tiempo; sin embargo, no siempre este tipo de estudio se asocia a un nivel de evidencia 1, garantiza validez o veracidad, calidad metodológica, y confiabilidad o reproducibilidad de resultados1. Por otra parte, hay que recordar que existen RS cuya población a estudio son ensayos clínicos (EC) con asignación aleatoria, que posiblemente determinan nivel de evidencia 1a; sin embargo, existen también RS cuya población a estudio son EC de mala calidad, estudios de cohortes u otros estudios observacionales; en estos últimos casos el nivel de evidencia es obviamente menor; situación que puede confundir a los lectores si es que no consideran algunos de estos detalles en el momento de leer estos artículos1.
Las RS son estudios cuya población procede de artículos de casuística ya publicados; es decir, se trata de un estudio de estudios; y como tal, en una RS se recopila la información generada por investigaciones clínicas de un tema determinado, la cual, en ocasiones, es valorada de forma matemática con un metaanálisis; al final estos resultados se plasman en unas conclusiones a modo de resumen del efecto de una intervención sanitaria respecto de otra.
Se utilizan estrategias que limitan los sesgos y errores aleatorios. Estas se resumen en: búsqueda exhaustiva de todos los artículos relevantes, criterios reproducibles y explícitos de selección, valoración del diseño y características de los estudios y síntesis e interpretación de los resultados.
Por lo anteriormente expuesto, una RS debe realizarse de forma objetiva, rigurosa y meticulosa desde los puntos de vista cualitativo y cuantitativo; utilizando herramientas metodológicas y matemáticas que permitan combinar los datos recolectados a partir de los estudios primarios, manteniendo el efecto individual de cada estudio incluido, de tal forma que se pueda determinar el peso de cada cual en el cálculo del efecto combinado (dado por el tamaño de la muestra y calidad metodológica de cada estudio); y finalmente sintetizar la evidencia que se genera.
Como todo tipo de artículos, las RS deben ser valoradas en relación con la validez interna, magnitud de los resultados y validez externa. Para ello, existen guías de lectura crítica2,3; como el programa CASPe, que ha diseñado plantillas con puntos clave4; y herramientas para mejorar la precisión en la descripción de estos. En esta misma línea, existen también la iniciativa QUOROM, generada para metaanálisis (MA) de EC5,6; y la declaración PRISMA para el reporte de ítems seleccionados para RS y MA7.
Indicaciones para la realización de una RSLa gran producción de artículos de investigación (más de 2 millones al año)8 genera problemas para los clínicos, pues se calcula que para mantenerse al día se requiere leer alrededor de 17 artículos diarios9. Por otra parte, la calidad de estos no siempre es la mejor dando una visión a veces más contradictoria que aclaratoria. Por ello, las razones para realizar una RS son de índole práctica, necesitamos las RS para integrar la información y proporcionar una base racional para la toma de decisiones en salud10,11. Las razones para realizar una RS son las siguientes:
La existencia de incertidumbre con relación al efecto de una intervención debido a que existe evidencia contrapuesta respecto de su real utilidad.
El deseo de conocer el tamaño real del efecto de una intervención.
La necesidad de analizar el comportamiento de una intervención en subgrupos de sujetos; por ejemplo, en un EC para determinar la efectividad de omeprazol en la prevención de hemorragia digestiva alta por lesiones de estrés en pacientes críticos; este no podría responder a la pregunta si la intervención es particularmente efectiva en el subgrupo de sujetos en ventilación mecánica o de trauma cráneo encefálico.
El efecto moderado o pequeño de la intervención en estudio. Por ejemplo, si quisiéramos comparar el efecto de dos técnicas quirúrgicas mediante un EC; y estimamos que la diferencia de efectividad entre ambas es de 5%, para tener un 80% de probabilidad de obtener un valor de p<0,05, requeriríamos tratar 3.208 pacientes (1.604 con cada técnica)12. Tratamientos cuyo efecto es pequeño pueden resultar en valores de p significativos solo por azar; o por sesgos en los grupos comparados13–15.
Es un diseño de investigación eficiente. Permite incrementar el poder y la precisión de la estimación, así como la consistencia y generalización de los resultados; y hacer además una evaluación estricta de la información publicada9.
Al combinar la información de diversos estudios primarios o individuales, permiten analizar la consistencia de los resultados. Buena parte de los estudios primarios suelen ser pequeños en términos de muestra, es decir, tienen un poder estadístico insuficiente. Integrando estudios que buscan dar respuesta a una misma pregunta se consigue aumentar el tamaño de la muestra y, por ende, se incrementa el poder estadístico13.
Mientras hay quienes opinan que una RS es una «mezcla de peras con manzanas», otros piensan que esta característica permite incrementar la «validez externa» o «generalización» de los resultados. Es así como un efecto similar en diferentes ámbitos, con criterios de inclusión y exclusión diferentes para los sujetos en estudio, puede darnos una idea de cuan robustos y trasladables son los resultados de una RS a otros ambientes16.
DebilidadesSi se incluyen estudios de mala calidad metodológica, que no aseguran la minimización de hipotéticos sesgos, la RS producirá resultados que no serán acordes con la realidad (se debe recordar que los artículos son los individuos a estudio. Es decir, en el análisis, la cantidad total de artículos es el tamaño de la muestra)17.
Cuando los estudios primarios son EC, se ha de tener en consideración que una asignación aleatoria incorrecta o sin ocultación de la secuencia, un enmascaramiento incorrecto y la pérdida de sujetos que lleve a evaluar una población final diferente de la asignada, perturbarán notablemente los resultados9,15,16.
Existe además el problema de la interpretación de los resultados, que ha de ser cautelosa, entre otras cosas, debido a la heterogeneidad de los estudios primarios, no solo en términos de diferentes tipos de diseños utilizados, sino también con relación a la diversidad de la calidad metodológica de estos. De hecho hay quienes sostienen al respecto que las RS deberían considerarse más como una herramienta de generación de hipótesis que como prueba de alta calidad18.
Por otra parte, las RS y el MA son herramientas metodológicas, que requieren conocimientos, práctica y experiencia en los métodos de búsqueda y revisión, así como en la conducción, aplicación e interpretación de los resultados obtenidos19.
Otros problemas de la RS tienen que ver con los revisores. Por un lado, puede ocurrir que los autores no especifiquen el proceso de búsqueda y valoración de la información; y, por otro lado, que ante la hipotética situación de ausencia de información, que no sean capaces de repetir y verificar los resultados y conclusiones de la revisión20.
En los últimos años, se ha producido un gran aumento de RS en todos los ámbitos de la práctica clínica; sin embargo, la investigación respecto de la calidad de las RS ha demostrado que no todas son verdaderamente sistemáticas, la calidad metodológica es variable, presentan evidentes sesgos, etc.19. En otras palabras, así como las RS han aportado a la jerarquización y resumen del conocimiento en una serie de situaciones, también es justo mencionar que en las bases de datos de revistas biomédicas existen numerosos ejemplos de RS de mala calidad, tanto en lo metodológico como en lo temático, que sirven más de confusión que ayuda al clínico.
Uno de los múltiples ejemplos relacionados con los hechos antes descritos se puede apreciar en el artículo de McCulloch et al.21. Se trata de una RS cuyo objetivo es evaluar la supervivencia y mortalidad peroperatoria después de practicar una gastrectomía por cáncer gástrico asociada a linfadenectomía D1 vs. D2. En esta RS se pueden verificar problemas de tipo metodológico y técnicos. Entre los metodológicos se puede apreciar, que los autores trabajaron, con dos EC con asignación aleatoria, dos EC sin asignación aleatoria y 11 estudios de cohortes; sin embargo, al observar con detalle las características de los estudios incluidos, se puede constatar que hay EC, estudios de cohortes y series de casos retrospectivas (aparentemente confundidas con estudios de cohortes). Entre los problemas técnicos, se ha de mencionar que se incluyen solo estudios del siglo pasado, incluso una serie de casos publicada en 1975, junto a otros publicados entre 1993 y 1999; y es obvio como han cambiado los cuidados peroperatorios en los últimos 15 años; a lo que se ha de agregar, que el concepto de D2 en los últimos años es distinto al de otrora; situación que afecta directamente a la morbilidad postoperatoria y posiblemente a la mortalidad postoperatoria, y por ende, a la supervivencia de estos pacientes. Todo esto lleva a mirar con cautela los resultados y conclusiones, que sugieren ciertos beneficios con la práctica de D2, con un nivel de evidencia que se asume como 1a; cuando a la luz de los hallazgos de su lectura crítica debiera quedar como «no clasificable», pues en ninguna de las clasificaciones se consideran RS con distintos tipos de diseño.
Por todo lo anteriormente expuesto, una RS debe ser valorada de forma crítica, antes de decidir que las conclusiones se basan en una apropiada validez interna y externa.
Etapas en la conducción de una revisión sistemáticaFormulación del problemaComo es habitual en toda investigación, el primer paso es identificar el problema y formular una pregunta muy bien acotada al problema en cuestión. El uso de la nemotecnia «PICoR» es de utilidad para esto, donde «P» es el problema de salud o paciente en estudio; «I» la intervención a realizar; «Co» el comparador, es decir lo que se hace actualmente por el problema y con lo que se comparara la intervención en estudio y «R» el resultado.
Localización y selección de los estudios primariosPara esto deben definirse los criterios de selección de los artículos, las características de la población y la intervención realizada. Para esta búsqueda se deben seleccionar palabras clave, ya sean términos «MeSH» o términos libres; así como los «operadores boleanos» que se vayan a utilizar. Con estas palabras se inicia la búsqueda en los megabuscadores de RS como la Cochrane Library y la TripDatabase; para seguir luego en las bases de datos habituales (MEDLINE, EMBASE, SCIENCEDIRECT, SciELO, LILACS, etc.). Conviene no restringir la búsqueda solo a MEDLINE, ya que esta representa aproximadamente del 60% a 70% de todo el material publicado.
Además de lo publicado en estas y otras bases de datos, idealmente se debe incorporar la llamada «literatura gris», que corresponde a experiencias publicadas en revistas no incluidas en el Index Medicus u otras bases de datos (tesis, resúmenes de congresos, informes de la industria farmacéutica, etc.). Se estima que la «literatura gris» es aproximadamente el 10% de la información sobre un problema determinado.
Evaluación de la calidad metodológica de los estudiosSe refiere a la valoración de validez interna y posibles sesgos. Para ello existen guías como la estándar publicada por la Colaboración Cochrane10. Esta fase debe realizarse al menos por dos investigadores independientes y de forma enmascarada para evitar sesgos de evaluación22,23.
Extracción de datosConfeccionar una planilla con toda la información de los artículos primarios (año de publicación, autores, revista, resultados principales y secundarios de los estudios, y evaluación metodológica de estos)24.
Análisis y presentación de resultadosEl papel de los revisores es intentar explicar las posibles causas de las variaciones de los resultados de los artículos primarios, ya que estas pueden ser por causa del azar, diseño del estudio, tamaño de la muestra, cómo se midió la exposición o intervención y los resultados. Estos se pueden interpretar desde un punto de vista cualitativo y cuantitativo (realización de un MA)25.
Presentación de los resultadosAl redactar el informe se ha de considerar que la base de la revisión es la sistematización por lo cual deben estar incluidos de forma clara y detallada todos los pasos del proceso de desarrollo de la revisión, con el fin de que cualquier lector que desee repetir el estudio pueda realizarlo. Existen varias guías que permiten cumplir los pasos adecuados al escribir una RS, como la iniciativa QUORUM5,6 (RS con MA), MOOSE26 (RS de estudios observacionales con MA) o la declaración PRISMA7. Un diagrama de flujos de la selección de los artículos es fundamental, al igual que la representación grafica del resultado de los estudios incluidos y su MA8.
En los ejemplos de las figuras 2 y 3 se representan los resultados de cada artículo primario, como un punto cuyo tamaño es concordante con el tamaño de la muestra aportada por ese estudio. Este se encuentra sobre una línea horizontal que representa a su vez el intervalo de confianza de ese estudio y que está en relación con una línea vertical que divide el gráfico en dos zonas. De este modo, si el intervalo de confianza atraviesa la línea vertical, se considera que el artículo no es estadísticamente significativo. Los resultados a la izquierda de la línea vertical por acuerdo son positivos o beneficiosos, y los de la derecha son negativos o perjudiciales. En la parte inferior del gráfico se entrega el resultado del análisis estadístico aportando el grado de heterogeneidad de los estudios; y finalmente en un rombo, el resultado resumen del MA donde la longitud del rombo representa el intervalo de confianza y su ancho el valor del resultado del MA.
Metaanálisis de la revisión sistemática relacionada con el uso de antibióticos profilácticos vs. placebo en pacientes con colelitiasis intervenidos vía laparoscópica, en términos de la variable «infección del sitio operatorio»33.
Metaanálisis de la revisión sistemática relacionada con el uso de analgésicos opioides vs. placebo en el proceso diagnóstico terapéutico de pacientes con dolor abdominal agudo, en términos de la variable «error diagnóstico»34.
Debe existir enmascaramiento de los autores y centros que generaron los estudios primarios, que debe mantenerse hasta el final del estudio. Con esto se garantiza la privacidad de los autores y se minimiza el sesgo del observador. Por otra parte, al momento de la valoración de resultados es deseable que esta sea independiente, para evitar la manipulación indebida de la investigación27.
Sesgos de las revisiones sistemáticasSesgo de publicaciónEn ocasiones, los estudios en los que una intervención no demuestra ser efectiva no son publicados. Por ende, las RS que no son capaces de incluir estudios no publicados pueden sobrestimar el efecto real de una intervención17,22,33.
Sesgo de selecciónSe refiere a las diferencias sistemáticas entre los grupos de pacientes comparados en cuanto a su pronóstico o probabilidad de respuesta al tratamiento. Así, las diferencias halladas entre los grupos comparados no pueden atribuirse inequívocamente a la intervención en estudio sino que pueden ser debidas, en gran parte, a otras diferencias entre los grupos comparados. La asignación aleatoria con una ocultación adecuada protege frente al sesgo de selección, garantizando la comparación de ambos grupos excepto en cuanto a la intervención administrada17,20,23.
Sesgo del observadorEs poco considerado en el ámbito de las RS ya que es necesario reportar los artículos y los autores, sin embargo es posible realizar un enmascaramiento al momento de la selección de los estudios atingentes. Es imprescindible ya que podría ocurrir que alguno de los revisores tenga tendencia a favorecer o desfavorecer a autores conocidos20.
El metaanálisisDescrito en 1976 por Gene Glass, el MA proviene del griego ‘meta’ (después de) y ‘análisis’ (descripción o interpretación); por ende, consiste en el análisis estadístico de la recolección de resultados extraídos desde estudios primarios o individuales, con el propósito de integrar los hallazgos obtenidos20.
Tiene dos etapas. La primera consiste en calcular las medidas de efecto para cada estudio y su intervalo de confianza. La segunda es calcular el efecto global, resumen o combinado de la intervención como una media ponderada de los efectos obtenidos en los estudios individuales28.
El objetivo del MA es la integración de los estudios y la posterior obtención de información global de los resultados aportados por cada uno de ellos; para lo cual, lo primero que se ha de hacer, es definir a qué tipo de variable corresponde el o los resultados de interés. De este modo, si el resultado de interés es una variable de tipo continuo (días de hospitalización, supervivencia, etc.), deberemos calcular el tamaño del efecto (fig. 2); de este modo, se convierten los resultados de los estudios primarios en una unidad de medida común pudiendo compararse e integrarse20. Por otro lado, si el resultado de interés corresponde a una variable dicotómica (vivo o muerto, complicado o no complicado, etc.), corresponde utilizar medidas relativas como la razón de probabilidades u odds ratio (para lo que se requiere construir tablas de contingencia y la estimación del riesgo relativo); y medidas absolutas como la reducción absoluta de riesgo y el número necesario a tratar. Las medidas relativas expresan el efecto o resultado que se observa en un grupo en relación con el efecto en el otro grupo.
Sin embargo, existe un problema que se ha de tener en mente en esta etapa del MA: la heterogeneidad de los estudios primarios, hecho que de presentarse quita veracidad al resultado final. En estos casos, se recomienda realizar un análisis de subgrupos, utilizando para ello los artículos que tienen más semejanza entre sí para cada subgrupo en estudio. La heterogeneidad de los estudios primarios puede ocurrir a consecuencia de la aplicación de definiciones o al uso de criterios de selección disímiles entre los estudios originales29.
Existen dos modelos para obtener el estimador resumen del efecto en un grupo de estudios primarios. El modelo de efectos fijos y el de efectos aleatorios. El de efectos fijos solo incluye como fuente de variación aquella debida a la imprecisión de cada estudio. Por su parte, el de efectos aleatorios incluye dos componentes de variación: la imprecisión en la estimación de cada estudio y la variación de estudio a estudio. No obstante las diferencias antes señaladas, no hay acuerdo referente a cuál es el mejor modelo; pero, en lo que hay acuerdo, es en que si existe algo de heterogeneidad no parece razonable utilizar un modelo de efectos fijos28–30.
Hasta el momento, solo se ha explicado de forma resumida el formato del MA cuando lo que estudian son EC con o sin asignación aleatoria y eventualmente estudios de cohortes. No obstante ello, se han desarrollado metodologías alternativas que permiten realizar RS con diferente tipo de diseños (incluidas series de casos) y comparar ulteriormente los resultados de dos o más intervenciones metaanalizando la información. Para ello, se puede aplicar el «cálculo de promedios ponderados» de la calidad metodológica de cada estudio primario y para cada variable que se desee estudiar (fig. 1)31–33.
Cálculo de promedios ponderados (PP) para las variables estudiadas en los grupos de tratamiento (GT). Las abreviaciones Xi, ei y ei, representan el valor de la variable en el estudio i (para todas las variables), el escore obtenido por el estudio i, y la sumatoria de los escores de todos los estudios respectivamente.
Se realizó una RS para evaluar la efectividad del uso de antibióticos profilácticos en colecistectomía laparoscópica en relación con la incidencia de infección de sitio operatorio (ISO). Se analizaron EC y estudios de cohorte de pacientes mayores de 18 años, se revisaron las bases de datos de Cochrane, MEDLINE, SciELO y LILACS utilizando términos MeSH y libres. Se encontraron 77 artículos (17 cumplían criterios de inclusión y solo en 11 se obtuvo el artículo en extenso)33.
Al evaluar la calidad metodológica utilizando la metodología MINCIR y el cálculo de promedios ponderados23, se encontró un promedio de 18,5 puntos, la población de los estudios fue de 2.271 pacientes, 1.196 en la rama de profilaxis antibiótica y 1.077 en placebo.
El MA dio un odds ratio de 0,726 (IC 95% 0,429-1,226), quedando claramente definido que el uso de antibióticos profilácticos no es protector sobre el desarrollo de ISO en pacientes sometidos a colecistectomía laparoscópica (fig. 2). En la gráfica, se puede apreciar que existe una discreta heterogeneidad de los estudios primarios (p=0,09) y el rombo principal cruza el uno33.
Ejemplo 2Se diseñó y condujo una RS con el objetivo de determinar si el uso de analgésicos opiáceos (AO) en el proceso diagnóstico terapéutico de pacientes con dolor abdominal agudo (DAA) incrementa el riesgo de error diagnóstico respecto a la administración de placebo34.
Se realizó una búsqueda en las bases de datos Cochrane, MEDLINE y EMBASE, utilizando términos MeSH, boleanos y límites. Se consideraron solo EC con asignación aleatoria, sin restricción idiomática ni de fecha de publicación.
Se encontraron 322 artículos atingentes (solo 59 [18,3%], cumplían los criterios de selección en el resumen). De los 59 artículos seleccionados, 51 presentaban criterios de exclusión que fueron detectados en el extenso, por lo que se consideró para su ulterior análisis un total de 8 estudios, que aportaron al MA un total de 699 sujetos en estudio (363 con AO y 336con placebo).
El MA permitió verificar que no hay evidencia que permita sostener que el uso de opiáceos incrementa el diagnóstico incorrecto (fig. 3). En la gráfica, se puede apreciar que no existe heterogeneidad de los estudios primarios (p=0,23) y el rombo principal cruza el uno. Por otra parte, el MA de otras variables permitió verificar que el uso de AO en la etapa diagnóstica terapéutica de pacientes con DAA es útil en términos de confort para el paciente y no retarda la toma de decisiones34.
FinanciaciónParcialmente financiado por proyecto DI09-0060 de la Dirección de Investigación Universidad de La Frontera.
Conflicto de interesesLos autores declaran no tener ningún conflicto de interés.