Introducción
Resulta deperogrullo hacer observar a los lectores que laidentificación de un problema de salud conducenecesariamente a la instauración de medidas preventivas, sila enfermedad y/o los efectos nocivos todavía no hanaparecido, y a la aplicación de un tratamiento para paliarlos efectos activos de la enfermedad, en el caso de que éstaesté presente. Tanto las primeras como las segundas,persiguen obtener un efecto derivado de la aplicación de laintervención, considerándose que esta relaciónreúne criterios de causalidad.
SegúnJenicek1 cualquier intervención en el áreade la salud representa una causa en relación con el impactoesperado (efecto resultante) y ha de responder a cuatro cuestionesbásicas: 1) ¿está la acción propuestabien fundamentada, es decir, tiene sentido llevarla a cabo?, 2)¿es adecuada la estructura de la intervención(¿cómo se organiza?), 3) ¿el proceso esaceptable, sucede como deseamos? y 4) ¿cuál es elresultado o impacto del tratamiento? Dar respuesta a estas cuatrocuestiones implica poner en marcha un proceso evaluativo de laintervención a aplicar que, de llevarse a cabo de la formaoportuna, permitirá a los agentes de salud contar con lainformación suficiente y necesaria para optar por la medidaterapéutica más adecuada a cada caso.
Consideraremosla evaluación como la actividad que de una formasistematizada y objetiva pretende determinar la efectividad oimpacto de una determinada actividad o intervención enfunción de un objetivo determinado; siendo el objetivoúltimo de toda evaluación aportar evidenciaempírica que sea de utilidad en el proceso de toma dedecisiones. Como puede apreciarse, nuestra perspectiva de laevaluación terapéutica está más cercanaal positivismo metodológico que a las nuevas corrientespluralistas imperantes en el área de la evaluacióndonde se prioriza la emisión de juicios demérito/valor sobre la utilización de procedimientoscientíficos2. La aplicación de una medidaterapéutica persigue causar un efecto deseado, mejorar lacalidad de la salud del afectado y, sobre todo, hacer másbien que mal (primum non nocere), y para ello debemos tenerla máxima seguridad posible de la relacióncausa-efecto entre la intervención y el problema de saludpara el cual se aplica.
Desde mi puntode vista, o al menos desde mis intereses en la evaluación deresultados terapéuticos, existen tres objetivosbásicos en la evaluación sanitaria:
1. Determinarobjetivamente, y con base empírica, la pertinencia, efecto eimpacto de una actividad terapéutica respecto a undeterminado problema de salud (estimación de la eficacia dela intervención para su generalización como recursoterapéutico),
2. Estimar elcambio del estado de salud producido en el usuario objeto de laintervención para valorar el éxito/fracasoterapéutico individual (criterios de decisión para elalta o para la modificación del tratamiento), y
3. Analizar lasvariables predictivas de la adecuación terapéutica,es decir, examinar los factores exógenos y/oendógenos a los usuarios receptores de laintervención que puedan explicar el éxito o fracasoterapéutico (permitirá la selección de loscandidatos idóneos a un determinado tratamiento y lamodificación o búsqueda de nuevos recursos para loscasos fallidos).
Miintención en este artículo es desarrollar algunasconsideraciones metodológicas respecto al primer objetivoenunciado, dejando para ocasiones posteriores lapresentación de estrategias de evaluación para losdos objetivos restantes. Revisaremos, en esta primeraaproximación, conceptos fundamentales en la estructura deuna evaluación terapéutica, haciendo especialhincapié en aspectos relacionados con laprotocolización de la intervención, laelección del diseño deinvestigación/evaluación y la utilización detécnicas estadísticas como control secundario de lavalidez del estudio. No pretendo ser exhaustivo en el desarrollo deestos conceptos. Muchas publicaciones altamente especializadas yahan abordado este tema de forma meritoria, las cuales recogeremosen el epígrafe de bibliografía recomendada, para queel lector interesado pueda ahondar en el estudio de laevaluación terapéutica.
La evaluación deresultados terapéuticos: conceptos básicos
Cualquier evaluación de una intervenciónsanitaria es un proceso secuencial, paso a paso, que deberábasarse en un adecuado conocimiento de la patología diana,de la farmacología o técnica de intervención,así como de la metodología de investigaciónnecesaria para su evaluación. Asimismo, ha de tenerse encuenta que la evaluación de cualquier tipo detratamiento3 ha de considerar cinco tipos de datos: 1)la situación pretratamiento o, lo que es lo mismo, elmomento evolutivo y la gravedad del proceso a tratar; 2) laeficacia relativa de las posibles formas de intervenciónterapéutica; 3) el impacto del tratamiento sobre el pacienteen su conjunto y no sólo sobre la enfermedad; 4) lamonitorización de los procesos tras la intervención,y 5) la efectividad comparativa del tratamiento ointervención utilizada.
La figura 1representa de forma esquemática un modelo donde se pone enrelación el proceso de intervenciónterapéutica con tres fases diferenciadas (eldiagnóstico, la intervención en sí misma y elproceso de monitorización del seguimiento), cada una de lascuales puede ofrecer un conjunto de variables relacionadas con losresultados a obtener y cubrirían los objetivos de laevaluación terapéutica antes descritos. Para darrespuesta al primer objetivo propuesto (comprobar la eficacia deltratamiento), podríamos pensar que nuestro interés hade fijarse en la relación entre las variablesintervención/tratamiento y los efectos perseguidos(valoración de éxito o fracaso de dichaintervención). Pero la realidad asistencial, nos muestra quelos resultados son producto de todo un proceso terapéutico,y no de una de sus fases. Un buen diagnóstico nos permiteconocer las condiciones basales del sujeto a tratar, fijando unpunto de referencia a partir del cual poder evaluar sus progresos;nos permite, asimismo, identificar variables ajenas a laintervención que pudieran influir en los resultados finales;y, lo más importante, nos permite conocer lascaracterísticas de la enfermedad que se ajustan mejor a undeterminado tratamiento. Es decir, un buen diagnósticopermite una prescripción ajustada al problema; sin unadecuado diagnóstico podríamos estar haciendoindicaciones con menos probabilidades de éxito. Laintervención/tratamiento es por hipótesis la causa delos efectos perseguidos (resultados terapéuticos), y dondegeneralmente se ha focalizado toda la investigaciónevaluativa. Pero los resultados de una intervención suponen,en el ámbito sanitario, la recuperación de la salud oel mantenimiento de una situación menos dañinarespecto a la situación que motivo la demanda. Por ello, elverdadero resultado terapéutico no ha de evaluarseinmediatamente después de la intervención, sino amediano-largo plazo, haciéndose imprescindible lamonitorización del seguimiento postratamiento. Se estableceentre las tres fases una serie de relaciones de dependenciaintrínseca que tiene como consecuencia la apariciónde modelos multicausales que pueden dar explicación de losefectos obtenidos.
Figura 1. Fases y procesos implicados en laevaluación terapéutica.
En lapráctica investigadora, la búsqueda de relacionescausales entre variables se orienta, en la mayoría de loscasos, en función de tres criterios: 1) temporalidad:que la variable que se supone causa ha de preceder al supuestoefecto, 2) asociación: debe existir unarelación o covariación significativa entre lavariable independiente (VI) o exposición(intervención) y la variable dependiente (VD) o respuesta, y3) ausencia de espureidad: la relación entre estasvariables no ha de ser aparente, es decir, no han de existirvariables o factores que afecten la relación entre la(s)VI(s) y la(s) VD(s). El análisis de la validez interna de undiseño o investigación está directamenterelacionado con el establecimiento de este tipo de relacionescausales, de modo que si el diseño permite de un modoefectivo concluir inequívocamente que dos o másvariables están relacionadas o no, entonces dichodiseño tendrá validez interna.
Como se reflejaen la figura 1, las relaciones entre las fases del procesoterapéutico y sus resultados muchas veces estánafectadas por tres tipos de interferencias que conllevan problemasde validez: 1) los sesgos y amenazas a la validez del estudio(recogidas en la tabla I), 2) el error aleatorio: efectos debidosal azar y errores aleatorios de medición que afectan a lafiabilidad de las mediciones atenuando las relaciones causales, y3) la existencia de variables exógenas no controladas:variables que están relacionadas a la vez con laintervención, con otras variables explicativas controladas ycon los resultados, lo que supone una perturbación y faltade control de posibles explicaciones alternativas a los efectoshallados. El sistema para aumentar la validez interna de undiseño es precisamente transformar las posibles variablesperturbadoras en controladas o aleatorias. Pero para ello, elprimer paso ha de ser identificar esas posibles variablesperturbadoras. Esta tarea se podrá realizar con mayoréxito en la medida que se tenga un conocimiento exhaustivode las experiencias obtenidas en la investigación previasobre el tema (revisión de la teoría actualizada) yse cuente con una buena protocolización de la fase dediagnóstico. Esta primera aproximación nospermitirá orientar de una manera más acertada eldiseño oportuno para llevar a cabo nuestraevaluación. Es a través del diseño quepodremos conseguir un mayor control de las variables identificadasa través de estrategias tales como: 1) la utilizaciónde grupos de comparación y controles, conaleatorización de los sujetos participantes yasignación aleatoria a los grupos de tratamiento; 2) lautilización de diseños longitudinales que impliquenmedidas repetidas --un mayor número de estimaciones a lolargo del tiempo aumenta la constancia de la medida e incorpora elcontrol intragrupo--, 3) en caso de no poder utilizar laaleatorización es posible utilizar estrategias de controlconstruido como las técnicas de bloqueo o apareamiento(formar grupos equivalentes de comparación en funciónde variables relevantes) o la utilización de comparacionesnormativas (comparación de los resultados de laintervención con baremaciones o estándaresestablecidos previamente). Todo aquello que no pueda ser controladomediante estrategias de diseño, pero de lo cual se tengainformación identificada y recogida en el protocolo deevaluación, podrá ser controlado a través demétodos estadísticos (estratificación, modelosmultivariados, etc.); ello, claro está, a costa de aumentarel tamaño de las muestras. Por tanto, nuestro esfuerzo ha dedirigirse a construir buenos diseños de investigaciónmás que a confiar en exceso en las posibilidades de laestadística.
Tabla I. Amenazas a lavalidez de los diseños. | |
Amenazas | Características |
1. ValidezInterna | ¿Es el Diseñolo suficientemente sensible como para detectar relacionescausales? |
a) Historia | Sucesos externos altratamiento que pueden afectar a la(s) VD(s |
b)Maduración | Cambios biológicos ypsicológicos de los sujetos que afectarán a susrespuestas |
c) Administración depruebas | Los efectos del pre-testpueden alterar las respuestas en el postest independientemente deltratamiento |
d)Instrumentación | Cambios en lainstrumentación o en los observadores (dificultades decalibración) |
e) Regresiónestadística | Las puntuaciones extremastienden a acercarse a la media en el postest a pesar deltratamiento |
f)Selección | Diferencias en los sujetosanteriores al tratamiento |
g) Mortalidadexperimental | Pérdida selectiva desujetos a lo largo del estudio |
h) Desmoralización delos Controles | Los controles abandonan ointerfieren al no recibir tratamiento o percibirdiferenciación con los experimentales |
i) Ambigüedad sobre ladireccionalidad de la influencia causal | Problemas de interferencia enla dirección de la causalidad. Problema de laConfusión y/o Interacción |
j)Difusión/Imitación de tratamientos | Los miembros de los grupos detratamiento comparten las condiciones de tratamiento con cada unode los demás o intentan copiar el tratamiento |
k) Igualacióncompensatoria de tratamientos | Determinar que todos lossujetos, tanto del grupo experimental como del control, reciban untratamiento que les proporcione efectos beneficiosos |
l) Interacción detratamientos intrasujeto | Los sujetos forman partetambién de otros tratamientos (intrasujetos) |
m) Interacción deadministración de pruebas y tratamientos | La administración delas pruebas puede facilitar o inhibir el efecto del tratamiento.Efecto secuencial y/o de período |
n) Interferencia detratamientos múltiples | Interacción de lostratamientos anteriores con los posteriores |
2. ValidezExterna | ¿Puedengeneralizarse los efectos y causas de un estudio a otros sujetos,situaciones o contextos? |
a) Representatividad de lamuestra (validez de población) | Capacidad para generalizar eltratamiento a personas que no pertenezcan al grupoestudiado |
b) Representatividad de lostratamientos | La elección arbitrariade los niveles de la VI no siempre representan a todos los posiblesniveles que puede adoptar dicho valor |
c) Efectos reactivos de lasituación experimental (validezecológica) | La artificialidad de lasituación experimental puede llevar a los sujetos aresponder de forma diferente a como lo harían en la vidanormal. Capacidad de generalización del tratamiento asituaciones más allá de la estudiada |
d) InteracciónHistoria-tratamiento (validez histórica) | Capacidad para generalizar eltratamiento a otras ocasiones temporales (pasado ofuturo) |
3. Validez deconstructo | ¿Quévariables teóricas o implícitas están siendoestudiadas? |
a) Explicaciónpreoperacional inadecuada | Escasa definición delos constructos |
b) Empleo deoperacionalizaciones únicas | Medida de una sola VD y/omedida de la VD mediante un solo método |
c) Adivinación dehipótesis, Efecto Hawthorne | Los sujetos intentan adivinarla hipótesis experimental y actúan de la forma quecreen que el investigador quiere que actúen |
d) Recelo deevaluación | Los sujetos manifiestan ciertorecelo ante la situación de evaluación |
e) Expectativas delexperimentador Efecto Rosenthal | Los experimentadores producensesgos en el estudio a causa de sus expectativas en y durante elestudio |
f) Confusión entreconstructos y niveles de constructo | No se implementan todos losniveles del constructo y pueden presentarse de forma débil ono existir |
4. ValidezEstadística | ¿El estudio essensible para detectar si las variablescovarían? |
a) Baja potenciaestadística | El Error de Tipo II aumentacuando el valor de alfa es bajo y la muestrapequeña |
b) Violación de lossupuestos de las pruebas estadísticas | Todos los supuestos deben serconocidos y comprobados cuando sea necesario |
c) «Ir de pesca» yTasa de Error de Tipo I | Se incrementa, a menos que seajuste el número de contrastes posibles |
d) Fiabilidad demedición | Fiabilidad baja implicamás errores que constituyen un problema serio en losestadísticos inferenciales |
VD(s): Variable(s) Dependiente(s); VI(s): Variable(s)Independiente(s) | |
De una u otramanera, siempre existen variables que se escapan a nuestro control,y la única forma de «neutralizar» su efecto es através de una reflexión crítica de losresultados obtenidos que permitan la proposición de nuevashipótesis alternativas a contrastar en próximasevaluaciones/investigaciones.
Por otra parte,la evaluación terapéutica no ha de basarseexclusivamente en la evaluación de resultados;también ha de hacerse un esfuerzo por examinar laimplementación o el proceso terapéutico, dado queeste tipo de evaluaciones tiende a establecer protocolos deactuación cada vez más ajustados a las distintasmanifestaciones del problema de salud. Al igual que se sugiere laconveniencia de utilizar protocolos deinvestigación4 en los ensayos clínicos,sugerimos que de cara a la actividad evaluadora también seanutilizados. Parafraseando a J. Roca4, los protocolosfacilitan la planificación y organización de lainvestigación/evaluación de una forma lógica yeficiente, se constituye en un manual de operaciones que permite lacoordinación de todo el equipo y la estandarizaciónde las actividades y actuaciones a realizar en el procesoterapéutico. En la tabla II se reproduce un modelo deprotocolo como guía de las actividades a llevar acabo.
Tabla II. Componentes de un protocolo deevaluación. | |
Adaptado de Jenicek1, 1995. | |
Formulación del problema: | |
* | Antecedentes yestado actual del tema. |
* | Hipótesis a probar. |
* | Objetivogeneral del estudio (propuesta cualitativa). |
* | Objetivosespecíficos (propuesta cuantitativa). |
Definición clínica y en unidades cuantificablesde las variables dependientes (problema de salud / enfermedad) eindependientes (tipo de tratamiento, variables mediadoras, etc.),con criterios claros de inclusión yexclusión: | |
* | Definición de la enfermedad en términos de suespectro, gradiente y curso. |
* | Definición operativa de la modalidad de tratamientoexperimental. |
* | Definición operativa del tratamiento alternativo, decontrol o de referencia. |
* | Definición operativa y en unidades medibles de losefectos o resultados que se esperan de laintervención. |
* | Definición operativa y en unidades medibles de losefectos o resultados que se esperan de los tratamientosalternativos. |
Inclusión de los sujetos: | |
* | Población de pacientes, población de la queprovienen. |
* | Plan demuestreo y tamaño de la muestra. Características deacceso. |
* | Criteriosprecisos de inclusión y exclusión de lossujetos. |
Estructura del estudio/diseño: | |
* | Tipo dediseño. |
* | Descripción minuciosa de las estrategias de control:aleatorización, técnicas de ciego, apareado/bloqueo,estratificación. |
* | Descripción de los sesgos posibles del estudio o erroresposibles. Propuesta del tipo de control que se llevará acabo antes, durante y después de laimplementación. |
Aspectos éticos: | |
* | Consentimientoinformado. |
* | Obrarsegún: primum non nocere. |
Procedimiento para la evaluación: | |
* | Planificación de las fases de la evaluación:evaluación de implementación, del proceso, de losresultados y del impacto. |
* | Descripción de las técnicas de recogida yregistro de datos. |
* | Criterios deuniformidad en la recogida de datos. |
* | Estrategiaprogramada para el análisis de los datos. |
* | Realización de análisis intermedios para detectarresultados no esperados (efectos adversos, etc.). |
* | Normas yprocedimientos para interrumpir el tratamiento. |
* | Criterios parael manejo de las no respuestas, abandonos, etc. |
Datos de línea base: | |
* | Protocolización del diagnóstico. |
* | Información del estado inicial de lospacientes. |
* | Detección y registro de otros factores intervinientes(variables exógenas con carácter interactivo,confusor, predictivo, etc.). |
* | Otrainformación importante: comorbilidad, cotratamientos,etc. |
Protocolización de la intervención, de lasactividades terapéuticas: | |
* | Descripción detallada, cualitativa y cuantitativamente,de la intervención terapéutica a evaluar. |
* | Descripción detallada apoyada en experienciasdocumentadas de las modalidades de tratamiento de referencia(controles). |
* | Descripción del programa de tratamiento: fases deimplementación, temporalidad, etc. |
* | Planificación del seguimiento. |
Planificación de la comunicación de losresultados: | |
* | Distribución de responsabilidades en laelaboración del informe. |
* | Estructuración del informe según destinatario:pacientes, personal sanitario participante, gestores del centro desalud, responsables sanitarios de servicios centrales,etc. |
* | Presentación de resultados a la comunidadmédica/científica: planificación de lapublicación de resultados. |
La elección deldiseño
Según laclasificación de la FDA5 (Food and DrugAdministration) los estudios de evaluación encaminados acomprobar y demostrar la posible acción beneficiosa de unfármaco en humanos, y por extensión podríamosincluir a toda intervención terapéutica, se divide encuatro fases (tabla III).
Tabla III. Fases de la evaluación clínicade los medicamentos. | |||
Fase | Sujetos | Objetivo | Diseño |
I | Sanos(voluntarios) muestras pequeñas | Respuestabiológica al medicamento: tolerancia, seguridad,etc. | Descriptivo |
II | Enfermosseleccionados muestras pequeñas | Beneficiospotenciales | Observación de casos |
Efectossecundarios | Ensayoterapéutico piloto | ||
Definición dosis terapéuticas | |||
Estimación eficacia relativa | |||
III | Enfermosseleccionados muestras suficientes | Eficacia delmedicamento | EnsayoClínico Aleatorio |
IV | Enfermos Noseleccionados muestras amplias | Efectividad delmedicamento | Cuasi-experimentales |
Efectossecundarios tardíos | Naturalísticos | ||
Nuevosefectos/indicaciones | De casoúnico, etc. | ||
Adaptado de Jenicek1, 1995. | |||
Cuando unaintervención en el área de la salud es evaluada enuna fase III mediante un ensayo clínico aleatorio, es decir,es llevada a cabo por equipos estructurados, entrenados y consuficientes recursos humanos y materiales, con criterios deselección y exclusión de pacientes, y con unseguimiento riguroso del proceso terapéutico, se estáevaluando el procedimiento en condiciones óptimas, ideales ode laboratorio. Cuando se miden los efectos conseguidos en estascondiciones se está analizando la«eficacia» de la intervención, y puedeasegurarse que los resultados obtenidos son debidos al efecto de laaplicación terapéutica; es decir, se obtiene una altavalidez interna.
No obstante,cuando las técnicas terapéuticas avaladas por losresultados de un ensayo clínico se pretenden aplicar en lapráctica clínica o en forma de programa sanitario(fase IV), a veces no se consigue el mismo nivel de eficacia. Laexplicación es que pueden existir factores diferenciadoresimportantes de la población donde se intenta aplicar laintervención correspondiente en relación a la quesirvió de base para el estudio de eficacia original: elgrado de aceptación de la intervención por parte delas personas afectadas, la distribución de los factores deriesgo o de pronóstico implicados, el rendimiento de losprofesionales, los recursos tecnológicos y lasorganizaciones, etc., pueden obstaculizar la obtención delos mismos resultados que en las condiciones de estudio. Por ello,al impacto real conseguido al implantar una intervencióneficaz le llamamos «efectividad». Al realizarseen condiciones reales, la generalización de los resultadoses menos problemática que en el caso de la eficacia, pero apesar de ello, la efectividad en un centro puede ser distinta de laefectividad en otro centro. Con la efectividad alcanzamos una mayorvalidez externa, claro está que a costa de perder la validezinterna.
Nos encontramosante la disyuntiva de realizar una evaluación en condicionesideales frente a otras condiciones, llamaremos naturales,más próximas a nuestra realidad asistencial. Laposibilidad de evaluar nuestros resultados terapéuticosmediante la aplicación de estrategias de ensayoclínico no es factible en la mayoría de los casos ymucho menos de una forma generalizada al conjunto de casostratados. Por lo general, la evaluación mediante ensayoclínico es realizada en hospitales, dotados de mayornúmero de recursos y medidas de control de laintervención, y aplicados a muestras parciales del conjuntode casos potenciales. Efectivamente, es el mejor diseñoposible para establecer y demostrar la existencia de causalidadentre la intervención y el efecto (eficacia deltratamiento), pero su implementación no es generalizable alconjunto de los recursos asistenciales. Nuestra sugerencia es quesiempre que sea posible se realice la evaluaciónbasándose en un diseño aleatorizado. Seríaingenuo negar que, en muchos casos, estudios iniciados como ensayosaleatorizados acaban incumpliendo este criterio, debiéndoseanalizar los datos mediante ajustes estadísticos. Encualquier caso, suponemos que un diseño aleatorizado, pordegradado que esté, será más sólidopara inferir causalidad que otras posibles alternativaspre-experimentales (estudios postintervención,diseños pre-post sin grupo control, estudios retrospectivos,etc.) o cuasi-experimentales, ya que la asignación acondiciones prevalentes en el post-test final seguiránestando basadas en parte en la aleatorización.
No obstante,como ya hemos comentado, cuando la evaluación se realiza enla práctica clínica cotidiana nos vemos obligados aoptar por otras alternativas de diseño para laevaluación. Atendiendo a conceptos expresados previamente,dos consideraciones son de suma importancia a tener en cuenta; 1)para realizar una evaluación de resultadosterapéuticos es imprescindible considerar ladimensión temporal del proceso, de forma que estamosobligados a optar por diseños de tipo longitudinal,preferiblemente, de tipo prospectivo, 2) si buscamos la eficaciarelativa y efectividad de las posibles formas deintervención terapéutica, no podemos prescindir de lautilización de grupos de control o de intervencionesalternativas. Por tanto, los estudios basado en estrategiaspreexperimentales deberían ser utilizados con extremacautela, dada su gran vulnerabilidad a los problemas de validezinterna, y a ser posible no considerados en procesos deevaluación. Ahora bien, tampoco queremos ser inflexibles, yante la disyuntiva de evaluar o no evaluar, siempre es preferibleutilizar este tipo de diseños a no hacer nada. En cualquiercaso, si bien los resultados obtenidos con este tipo dediseños no serán en absoluto concluyentes, si puedenser base para generar hipótesis de trabajoterapéutico.
Existen diversasalternativas de diseños cuasiexperimentales (tabla IV) quepueden ser utilizados en la evaluación terapéutica,si bien existen algunos que, bajo nuestra perspectiva, sonsuperiores para aproximarse a inferencias causales y sonparticularmente adecuados para el propósito evaluativo. Acontinuación trataremos de exponer tres de estosdiseños: el cuasiexperimental de grupos no equivalentes, eldiseño de línea base no causal construida y losdiseños basados en series temporales.
Tabla IV. Tipos dediseño en la evaluaciónterapéutica. | |||
Pre-experimentales | Cuasi-experimentales | Experimentales | |
Características | |||
Grupo control | No | Sí | Sí |
Selección aleatoria desujetos a grupos | No | No | Sí |
Asignación aleatoria detratamientos | No | Sí | Sí |
Tipos deDiseños | * Postest de ungrupo | * Grupo noequivalente | * Ensayo clínicocon |
* Comparación postestcon un grupo estático | * Controlesapareados | grupos paralelos | |
* Pretest-postest de un grupoo Estudios antes-después | * Ensayosnaturales | * Ensayo clínicocruzado | |
* Casosclínicos | * Series de casosconsecutivos | * Ensayosecuencial | |
* Grupo de controlhistórico | * Diseñosintrasujeto, | ||
* Diseñoscompensados | N=1 | ||
* De línea base nocasual construida | * Diseñosfactoriales | ||
* Seriestemporales | |||
Grado de control sobre las amenazas a la validez interna yNivel de evidencia causal | Bajo | Moderado | Alto |
Diseñode grupo(s) no equivalente(s)6
Este tipo dediseño (figura 2) comprende un grupo experimental o deintervención y otro(s) control(es), de los cuales ambos hansido evaluados en un pretest y un postest, pero no poseenequivalencia de muestreo. Es decir, los grupos constituyenentidades formadas naturalmente, tan similares como ladisponibilidad lo permita. Esta situación reduce la potenciadel diseño para establecer una relación causal, yaque hay dudas acerca de la equivalencia de los grupos antes de quese inicie la intervención, de ahí que se denominediseño no equivalente. Por lo demás, el diseñopuede seguir las mismas guías de actuación que en unensayo clínico1,7-9: la asignación deltratamiento a uno u otro grupo se supone aleatoria y controlada porel experimentador, en ocasiones puede buscarse una mayorhomogeneización de los grupos mediante técnicas deboqueo, emparejamiento, etc., también en ocasiones puedenaplicarse pruebas de enmascaramiento (técnicas de ciego), elseguimiento del estudio y las estrategias de análisis ytratamiento de los casos perdidos son equivalentes, etc.
Figura 2. Esquema de un Diseño de Grupos NoEquivalentes.
La amenazamás seria para la validez interna de este diseño esla selección, puesto que los grupos podrían diferirinicialmente en cuanto a características que podríanestar relacionadas con la variable dependiente. Con lainclusión del pretest es posible comparar los puntajesobtenidos en dicha prueba y ver si los grupos son equivalentes. Silo son, no habrá que preocuparse tanto por su equivalencia,aunque sí un poco en tanto que podrían estar actuandootras variables no controladas que la aleatoriedad podríahaber neutralizado. La identificación en el pretest devariables intervinientes que producen la falta de equivalencia delos grupos nos permite su ajuste posterior mediante técnicasde control estadístico como la utilización deanálisis de covarianza, el MANOVA o la regresiónmúltiple.
El diseñode grupo control no equivalente es el diseño máscomúnmente utilizado cuando no es posible laaleatorización de los sujetos participantes. Funciona deforma adecuada porque hay cierto control sobre la influencia de lasvariables extrañas, gracias a la utilización de ungrupo control y al ajuste estadístico preprogramado. Aunqueno se asegura la equivalencia de los grupos, se aproxima en algunamedida, y es la alternativa de elección ante laimposibilidad de llevar a cabo un ensayo clínicoaleatorizado.
Diseñode línea base no causal construida
En ocasioneshemos de realizar una evaluación en una situación enla que no resulta disponible un grupo de control de sujetos noequivalentes. La imposibilidad de localizar o monitorizar un grupocontrol, la falta de recursos materiales y humanos para llevar acabo un ensayo clínico, la limitación de tiempo obien la incapacidad ética de negar a un grupo una terapiacon efectos de mejora son razones frecuentes para no contar con ungrupo control. Pero para realizar una evaluación adecuadahemos de encontrar un grupo de comparación alternativo yello lo podemos conseguir a través de una línea baseno causal basada en dos estrategias: 1) la utilización de undiseño de regresión-extrapolación, y 2) unacomparación baremada en la que los sujetos son sometidos apretest y postest y comparados con muestras tomadas de otrasfuentes de datos basadas en la población.
Diseñode Regresión-Extrapolación
Tambiénllamado análisis de discontinuidad de laregresión2,6, se basa en la comparación dela puntuación del grupo de tratamiento en el postest con supuntuación proyectada en el postest, basada en una tendenciamadurativa lineal durante el tiempo transcurrido entre el pretest yel postest. Este diseño analiza los efectos incrementalesdel tratamiento por encima de los efectos proyectados, establecidosa partir de la maduración habida durante el procesoterapéutico. Al aplicar este diseño es importantetener en cuenta que a fin de realizar una proyección de lapuntuación del postest, ha de quedar bien establecida latendencia madurativa a través del tiempo.
Se requiere, portanto, una medición de la variable dependiente (resultado)antes y después de la intervención y unamedición pre-intervención de otra variablerelacionada con la medida pretest que permita la formaciónde grupos, aunque éstos también se pueden constituira partir de la variable resultado pretest en función delestablecimiento de un punto de corte. Un requisito indispensable deeste diseño es que las variables a considerar han de sermedidas en una escala continua, dado que la hipótesis quesubyace a su aplicación se basa en modeloslineales.
Quizá lamejor forma de comprender este diseño sea dentro delcontexto de un ejemplo, aunque la propuesta la formulemos de unaforma hipotética. Supongamos que nuestro objetivo es evaluarla eficacia/efectividad de un programa de prevención deriesgos, educación para la salud y tratamientoanticuberculostático implementado en un Programa deMantenimiento con Metadona (PMM). Como variable dependiente se haconsiderado una estimación de la calidad de vida centrada enla salud. La revisión de la literatura nos muestra unaestrecha relación entre esta variable de resultado y eltiempo de tratamiento en el PMM. Tras administrar el pretest alconjunto de participantes del programa, donde se evalúa lavariable calidad de vida y se ha recogido el tiempo de permanenciaen el programa, se ha examinado el diagrama de dispersión(Fig. 3A) generado por ambas variables calculado a través deun modelo de regresión, mostrando condiciones de linealidad.A partir de estos datos, se toma la decisión de establecerun punto de corte en función de la permanencia en elprograma, estableciéndolo en los seis meses y que quedarepresentado por una línea vertical en la figura. Enfunción de este punto de corte se decide dar laintervención al grupo que queda a la izquierda (representadopor el signo *) y dejar como control al de la derecha (representadopor O).
La base deldiseño consiste en comparar las dos rectas deregresión, la de las * y las de O, y ver si larelación pre-post observada en el grupo que recibe laintervención es la misma o se diferencia de la encontrada enel grupo que no la recibe. Ello se realiza extrapolando laregresión obtenida entre los O sobre la presentada por los*. Si coinciden (Fig. 3B) es que el programa no ha tenido efecto,dado que la extrapolación de O sería lo queobtendríamos si no se hubiera aplicado el programa. Por elcontrario, si las proyecciones de las rectas de regresión nose igualan (Fig. 3C) estaremos ante un resultado positivoindicativo de que el programa ha funcionado. La diferenciaexpresada en la figura como 'a' es una estimación de laganancia debida a la intervención.
Figura 3. Diseño deRegresión-Extrapolación.
Asimismo, apartir de la ecuación de regresión estimada con losdatos del pretest se puede calcular para cada sujeto cuál esla ganancia en calidad de vida que se puede esperar por cada mes deestancia en el programa. Por otra parte, se calcula cuál esla ganancia en calidad de vida entre el pretest y postest debida alefecto de la aplicación del programa. A esta ganancia medidase resta la esperada, obteniéndose una aproximaciónmás ajustada a la ganancia real.
En el ejemplo seha utilizado un solo predictor, pero pueden analizarse situacionesen las que existan múltiples predictores. En estos casos,los datos y el fenómeno bajo estudio han de ser estables através del tiempo para que la predicción deregresión sea ajustada. Si los datos son inestables, ha dehaber una teoría muy sólida que explique lainestabilidad de los datos para que la predicción deregresión sea una técnica útil. Por otro lado,este tipo de diseño no sólo sirve para laevaluación de resultados, sino también para laevaluación del proceso terapéutico si se utilizadurante su implementación.
Diseños por comparaciónbaremada10
Este es otrotipo de diseño de línea base no causal construida quepuede utilizarse cuando no se dispone de un grupo control sintratamiento. El modelo de referencia baremada toma lapuntuación pretest media del grupo de tratamiento y lorefiere a tablas previamente baremadas, convirtiendo lapuntuación en el pretest en un indicador como percentil. Elpercentil en el pretest es sustraído posteriormente delpercentil en el postest, para obtener la evaluación delefecto del tratamiento.
Consideremosotro ejemplo. Supongamos que la respuesta a la intervenciónen un PMM hemos decidido medirla en unidades de calidad de vidautilizando, por ejemplo, una de las versiones del MOS-SF (MedicalOutcome Survey-Sort Form). Los sujetos participantes en laintervención fueron evaluados con este cuestionario en elmomento de iniciar el programa y tras 6 ó 12 meses depermanencia en el mismo. Para poder llevar a cabo este tipo dediseño, precisamos de una baremación de esecuestionario realizada con una población extensa de usuariosde PMM. Supongamos que en la comunidad donde se lleva a cabo elprograma se realizó un estudio de adaptación de estaescala a población toxicómana (en tratamiento o no,con consumos o abstinentes), para lo cual se utilizó unamuestra de 2.000 personas. A partir de los resultados de esteestudio se establecieron baremaciones de las puntuaciones encalidad de vida en función de diversas variables (sexo,edad, tiempo de consumo, tiempo de abstinencia, etc.). Una vez quecontamos con la baremación existen diferentes posibilidadesde evaluación. Una es la apuntada más arriba; setransforma la puntuación media en el pretest en unidadespercentiles equivalentes en la muestra baremada. Por ejemplo, lamedia obtenida en el pretest es de 50 sobre 100, equivalente a unpercentil 30 de la muestra baremada, lo que equivale a decir que lapuntuación media de los sujetos que inician un PMM nosuperan las puntuaciones obtenidas por al menos el 70% de lossujetos toxicómanos. Del mismo modo, la puntuación enel postest (65 puntos) es equiparada a su puntuación en elbaremo (percentil 85, por ejemplo), lo que equivale a decir que seha conseguido llegar a un nivel de calidad de vida equiparable aldel 85% de la población. Sustrayendo el percentil pretest alpostest obtenemos un efecto del tratamiento equivalente a unamejora del 55%. Obsérvese que se podría habercalculado la diferencia entre la puntuación media pre ypostest, indicando una ganancia de 15 puntos, lo cual es indicativode una mejora en calidad de vida, pero no nos ofrece una magnitudreal del efecto; una magnitud es grande o pequeña cuandopuede ser comparada con un patrón de referencia, yéste, en nuestro caso, es la baremación del gruponormativo.
Otra posibleutilización de la baremación es identificar sujetosen riesgo en función de la puntuación ofrecida.Teniendo en cuenta que puntuaciones bajas en la escala implicanpeor calidad de vida, tomaremos un punto de corte para diferenciarsujetos en riesgo. Este punto de corte viene dado como lapuntuación resultante de restar una desviacióntípica a la media de la distribución (equivalente auna proporción de la población de aproximadamente el16%), aunque también se pueden establecer criterios de tipoclínico. De esta forma, un sujeto con puntuacióninferior a la dada por el punto de corte estaría reflejandouna situación de riesgo que implicaría una respuestaurgente de intervención sobre el caso.
Este tipo dediseño conlleva ciertos supuestos (equivalencia en lasunidades de cambio, equivalencia de la población, ...) quepueden ser compensados, pero el más importante es que ha dedisponerse de una muestra de datos normativos, es decir, que existaun baremo. En algunas medidas de psiquiatría, por ejemplo,medidas de ansiedad y depresión, existen baremacionespublicadas como resultado de los estudios de adaptación delos instrumentos a la población española, pero enotros ámbitos de medida en toxicomanías (ASI, etc.)todavía no han sido publicados.
Diseños basados en series temporales
Como ya ha sidocomentado previamente, son dos básicamente las estrategiaspara aumentar la validez interna de un diseño: 1) buscargrupos controles lo más equivalentes posibles, y 2) producirobservaciones múltiples, es decir, medidas repetidas, demodo que aumentemos el control intragrupo y/o intrasujeto. Losdiseños basados en series temporales interrumpidas consistenen tomar una serie de medidas del criterio o respuesta a lo largode un determinado periodo de tiempo, interrumpir la serie con laaplicación del tratamiento y continuar con otra serie demedidas del criterio. El posible efecto del tratamiento puede serestimado en función de la discontinuidad que presentan lasmedidas tomadas antes y después de su aplicación, yaque las medidas previas y posteriores a la presencia de laintervención suelen presentar una tendencia o estructuraregular. Al analizar la discontinuidad de las series de medidas, yobservando la orientación de la nueva tendencia tras laintervención, se pueden llegar a conclusiones válidasacerca de su efecto. El hecho de realizar múltiples medidasde la respuesta no sustituye adecuadamente al control experimental,pero minimiza el efecto de algunas variables intervinientes quepueden afectar a la validez interna. Asimismo, pueden utilizarse deforma aditiva otras estrategias para aumentar dichavalidez6: 1) introducir un grupo de control noequivalente, 2) aumentar la frecuencia de las mediciones, 3)recoger en la serie temporal diferentes variables dependientes noequivalentes, 4) realizar series temporales con intervencionesalternantes, primero en un grupo y luego en otro, 5) contratamientos múltiples, o 6) con retirada del tratamiento.Según Campbell y Stanley6, con estosdiseños se pueden controlar la mayoría de las fuentesde invalidez interna (tabla I), y sugieren su utilización enaquellas situaciones en las que se lleva acabo un registroperiódico de las respuestas de los sujetos como parte de unprocedimiento regular de actuación (por ejemplo, lapráctica de registros de conducta propio de la terapiaconductual).
Relacionado coneste tipo de diseños, dada la aplicaciónmúltiple de medidas de resultado, queremos destacar por suidoneidad en la evaluación terapéutica losdiseños llamados intrasujeto o de sujeto único (N=1),que por sus características habría que clasificarlocomo diseño experimental11 y no en lalínea cuasi-experimental de los expuestos previamente. Elprocedimiento a seguir es el siguiente:
1. Especificarlas características del sujeto. Ha de tenerse en cuenta quela capacidad de generalización de los resultados de unestudio de N=1 dependerá del conocimiento exacto de lascaracterísticas del sujeto empleado. Por ello, es necesariorealizar una descripción lo más completa posible,tanto de la conducta o enfermedad en estudio en el momento de laintervención como de su historia ycircunstancias.
2. Medir laconducta o fenómeno antes del tratamiento. Los cambios debenser seguidos paso a paso utilizando medidas repetidas, lo queimplica el empleo de operaciones claramente especificadas yrepetibles por un mismo investigador y realizadas siempre bajo lasmismas condiciones. Con ello se establece una línea base queproporcionará un punto de comparación del cambioproducido tras la intervención, pero que para serválida ha de cumplir dos condiciones: que seasuficientemente larga y estable. Se considerará adecuadacuando emerja una tendencia clara.
3.Implementación del tratamiento y registro repetido posteriorde la conducta o fenómeno.
4. Con el fin deampliar la generalización de los resultados de unexperimento intrasujeto, éste debe repetirse, en primerlugar, con varios sujetos similares; a continuación convarios sujetos de otras características, y, finalmente, enotras situaciones o con otros terapeutas.
En laterminología del diseño intrasujeto, la líneabase se especifica como A, y el tratamiento como B. En el esquemapropuesto el diseño sería del tipo ABA, pero existenotras posibilidades de diseño en función de lacombinación de las condiciones A y B. Así, elmás sencillo sería el AB, donde se establece lalínea base y se aplica el tratamiento; el ABAB, donde sealternan las condiciones de línea base y tratamiento demanera secuencial; o el AB1AB2A, donde sealternan dos tratamientos diferentes entre tres fases demedición de la conducta.
El texto deArnau12 constituye una excelente referencia para unaaproximación más exhaustiva a estos diseños;asimismo Cajal13 realiza una descripcióndetallada de este tipo de diseño aplicado al área delas toxicomanías, aunque con datos ficticios, donde ellector interesado podrá ampliar información alrespecto.
Control mediantetécnicas estadísticas
En la figura 1,al hacer referencia a las etapas de control, además de fijarla correspondiente a la protocolización y diseño deestudio, se proponía una segunda etapa de controlestadístico para el ajuste de aquellas posiblesperturbaciones ocasionadas por variables intervinientesidentificadas pero que no se pudieron controlar en la fase dediseño.
Las disciplinasde la probabilidad y la estadística nos ofrecen herramientasútiles y efectivas para el tratamiento de los datos, perocomo herramientas al servicio de la evaluación tienen uncarácter funcional y no un sentido en sí mismas.Utilizar procedimientos estadísticos complejos que vanmás allá de lo que plantean las hipótesis, nosólo es ir en contra del principio de parsimonia, sinopretender cambiar el sentido de la evaluación. Unaevaluación no es mejor por utilizar las últimas ymás intrincadas técnicas estadísticas, sinopor dar respuesta de forma sencilla y clara a la(s)hipótesis propuesta(s). La eficacia de la estadísticadepende de la calidad de los datos a analizar y de la correctaaplicación e interpretación de las pruebas empleadas,y no de las filigranas que se pueden llegar a hacer conella.
A este respecto,quisiéramos hacer un comentario, ya apuntado por otrosautores7,14-15, sobre el sentido de laestadística. Es un error generalizado confundir lasignificación estadística con la significaciónclínica o científica. Un resultado puede serestadísticamente muy significativo y carecer por completo derelevancia clínica. En el análisisestadístico, un valor de p pequeño (p < 0,05)sólo informa de la existencia de una diferencia entre losgrupos o de una asociación entre variables, y de que muyprobablemente esta diferencia no es debida al azar. Es decir, laexpresión 'muy significativo' es un términoestadístico que se utiliza para indicar que lahipótesis nula es muy poco verosímil, y nada tieneque ver con la importancia clínica, biológica opsicológica de la hipótesis15. En nuestrocaso, la respuesta a la pregunta de si las diferencias halladas sondebidas al efecto de la intervención terapéuticadependerá del diseño correcto del estudio, y no de lasignificación estadística encontrada. El verdaderointerés de la «p» es el de permitir descartarque la diferencia observada es fruto de lacasualidad7.
Laexpresión muy significativo tampoco tiene nada que ver conla magnitud del efecto ni con la intensidad de la relaciónentre las variables. Un estudio en el que se obtenga una p <0,001 no quiere decir que la asociación encontrada seamás fuerte (o la diferencia más importante) que otroestudio en el que la «p» sea igual a 0,05; sóloquiere decir que es más improbable que su resultado seadebido al azar. Por ejemplo, en una muestra de 1000 sujetos se haencontrado una asociación entre dos variables de r = 0,104con un valor de p < 0,001, en cambio en una muestra de 10sujetos la correlación entre dos variables ha sido de r =0,497 y la probabilidad asociada de p > 0,10. En el caso deasociación entre variables la magnitud del efecto no vienedado por los valores de p, sino por el coeficien-te dedeterminación (R2-cuadrado de las correlaciones),que en el caso de la muestra de 1000 sujetos nos informa que lavarianza común entre las variables en estudio es del 0,01%(que era estadísticamente muy significativa) y en la muestrade 10 sujetos del 0,247% (cuya significaciónestadística estaba por encima del nivel de confianzaconvencionalmente admitido (* ¾ 0,05). En definitiva, los valores de p no son unamedida de la fuerza de la asociación.
Consecuencia deesta confusión es que los informes y publicacionescientíficas están cargados de pruebas que confirmanque los hallazgos son estadísticamente significativos, perosuele ser menos común que informen sobre el tamaño delos efectos obtenidos. Sobre las medidas del tamaño delefecto y las técnicas de estimación del cambioterapéutico entraremos en profundidad en un próximoartículo dedicado a dar respuesta al segundo de losobjetivos de la evaluación que propusimos en laintroducción, por lo que no entraré en detalles sobreel tema en estas líneas. No obstante, considero importantehacer notar a los lectores las siguientes observaciones. Un estudioque concluya que un efecto no es estadísticamentesignificativo puede estar cometiendo un error de tipo II oß, especialmente si faltapotencia a causa de trabajar con muestras pequeñas; esdecir, se dice que no hay efecto cuando en realidad si existe. Unmodo de solucionar esta deficiencia es presentar los hallazgosindicando un rango de valores del efecto que son creíbles apartir de los datos recogidos en el estudio, y este rango no esotra cosa que el intervalo de confianza expresado al nivel defiabilidad/confianza elegido (del 90, 95, 99%). Un intervalo deconfianza expresa mejor la precisión de los resultados;cuanto más estrecho sea el intervalo, más precisoserá el hallazgo. Por otra parte, el intervalo de confianzatambién nos ofrece información sobre lasignificación estadística del efecto, dado que si elintervalo no contiene el valor nulo, aquel propuesto por lahipótesis nula de no diferencias (µ1 = µ2) o no asociación (*1 = *1; RR = 1), nos está indicando que el rangode valores obtenidos corresponden a valores implícitos en lahipótesis alternativa. La indicación a losevaluadores terapéuticos es que en sus informes,además de presentar los resultados de las pruebasestadísticas, incorporen datos sobre la magnitud de losefectos, bien a partir de estimadores concretos (R2,Eta2, *2 deYules, * de Glass, 'd' de Cohen, laPuntuación de Cambio Precisa (PCP) de Jacobson y Truax,etc.) o bien a través de la presentación de losintervalos de confianza de los parámetrosestudiados.
Respecto a lastécnicas o pruebas estadísticas a utilizar en lainvestigación evaluativa, existe un amplio repertoriodesarrollado de forma profusa por un buen número demanuales15-16, por lo que no entraremos en ladescripción pormenorizada de las mismas. No obstante, nospermitimos recoger en la tabla 5 aquellas que serían deelección cuando hemos de optar por técnicasmultivariadas para el control de variables intervinientes endiseños cuasi-experimentales.
Tabla V.Técnicas estadísticas de análisismultivariado. | |||||
Técnica | N.o VD | Tipo de VD | N.o VI | Tipo VI | Objetivo |
Análisis de lacovarianza | 1 | Cuantitativa | q | Cualitativas | Determinar si las diferenciasentre las medias de la VD en los grupos establecidos por lascombinaciones de los valores de las VIs son estadísticamentesignificativas. |
MANOVA | p | Cuantitativa | q | Cualitativas | Determinar si las diferenciasentre las medias de las VDs en los grupos establecidos por lascombinaciones de los valores de las VIs son estadísticamentesignificativas. |
MANOVA de medidasrepetidas | p | Cuantitativas | -- | --- | Determinar si las diferenciasentre las medias de las VDs son estadísticamentesignificativas. |
MANOVA intra eintersujetos | p | Cuantitativas | 1 | Cualitativas | Determinar si las diferenciasentre las medias de las VDs en los grupos establecidos por losvalores de la VI son estadísticamentesignificativas. |
Regresiónlineal | 1 | Cuantitativa | q | Cuantitativas y Dummy(Ficticias) | Estimar, mediante unafunción lineal de las VIs, el valor de la VD. |
AnálisisDiscriminante | 1 | Cualitativa | Cuantitativas y Dummy(Ficticias) | Estimar, mediante funcioneslineales de las VIs, la probabilidad de que cada individuopertenezca a cada uno de los grupos establecidos por los valores dela VD. | |
RegresiónLogística | 1 | Cualitativa-Dicotómica | q | Cuantitativas yCualitativas | Estimar, mediante unafunción lineal de las VIs, la probabilidad de que cadaindividuo pertenezca a cada uno de los dos grupos establecidos porlos valores de la VD. |
Modelos de respuestaProbit | 1 | Cualitativa | q | Cuantitativas | Supuesto que los dos valoresde la VD corresponden a la presencia o ausencia de respuesta frentea uno o más estímulos (VIs), estimar, mediante unacombinación lineal de las VIs la probabilidad de larespuesta para los distintos niveles de las VIs. |
Métodos Actuarial y de Kaplan-Meier | 1 | Tiempo que transcurre hastaque ocurre un desenlace | -- | -- | Estimar, en función deltiempo, la probabilidad de que ocurra un desenlace. |
Regresión deCox | 1 | Tiempo que transcurre hastaque ocurre un desenlace | q | Cuantitativas y Dummy(Ficticias) | Estimar, en función deltiempo, y mediante una función lineal de las VIs, laprobabilidad de que ocurra un desenlace. |
ModelosLoglineales | -- | -- | q | Cualitativas | Obtener un modelo lineal paralos logaritmos de las frecuencias de la tabla de contingenciamúltiple correspondiente al cruce de los valores de las qvariables, con la finalidad de interpretar las relaciones entreellas. |
Series temporales, ModelosARIMA | Medidasmúltiples | Algún tipo deIndicador | -- | -- | Estudiar la evolucióndel indicador a lo largo del tiempo. Explicar la estructura de laserie y prever su evolución. |
VD:Variable(s) Dependiente(s); VI: Variable(s) Independiente(s);MANOVA: Análisis Múltiple de la Varianza. | |||||
No queremosconcluir este apartado sin hacer algunas observaciones queatañen a la elección de las pruebasestadísticas multivariadas a utilizar. Cada una de lastécnicas recogidas en la tabla 5 supone el cumplimiento deciertos requisitos que deben ser verificados antes de proceder conla prueba. El incumplimiento de esas exigencias conlleva unainadecuada indicación de la prueba obteniéndose deella resultados inestables. Por ejemplo, procedimientos como lacorrelación de Pearson o la regresión múltiplese basan en la linealidad de las relaciones entre variables; elincumplimiento de este supuesto forzaría a unatransformación de los datos en aras a obtener la linealidado bien a la elección de otras técnicas.
Por otro lado,existe una tendencia en las ciencias de la salud a utilizar datosde tipo nominal (éxito vs fracaso terapéutico,la asignación de los grupos a evaluar, etc.) o a dicotomizarvariables que en origen son de tipo continuo (escalas dedepresión, p.ej., categorizadas como depresión graveo leve-moderada), forzando a utilizar procedimientosestadísticos no paramétricos, menos potentes que losparamétricos. Efectivamente, existen variables que no puedenser medidas sino atendiendo a escalas nominales u ordinales, peroaconsejamos a los investigadores que en la medida de lo posibleconsideren variables, tanto de resultado como independientes, quepuedan ser medidas en una escala continua. Si los intereses de lainvestigación aconsejan establecer categorías,siempre será factible hacerlo desde una variable continuaatendiendo a puntos de corte que establezcan los límites delas categorías; el procedimiento inverso, pasar de unavariable nominal a una continua, es imposible. Asimismo, hemos deconsiderar que la categorización de las variables supone unapérdida de información que puede ser vital para laexplicación de determinados fenómenos. Unapérdida de información, siempre supone unapérdida de precisión.
Otracuestión importante a tener en cuenta cuando utilizamosdiseños cuasi-experimentales apoyados en pruebasmultivariadas como forma secundaria de control es el númerode variables que introducimos en los modelos. Un elevadonúmero de predictores o variables intervinientes tienden aincrementar la probabilidad de un hallazgo significativo que esfalso, es decir, a incurrir en el error de tipo I o error*. Una forma de controlar lainflación de *(nivel deconfianza) es atender a análisis multivariados quecontemplan interacciones entre variables o atendiendo acorrecciones como la de Bonferroni (dividir el valor«p» por el número de comparaciones realizadas).Sin embargo, estas estrategias son de utilidad limitada para lamayoría de las investigaciones clínicas ya que sebasan, en la mayoría de los casos, en un tamañomuestral inadecuado para estadísticas multivariadas (larecomendación de los metodólogos es incluir de 10 a20 sujetos por variable interviniente en el modelo), teniendo comoefecto una pérdida de poder dadas las drásticasreducciones de alfa. En estos casos, el control de lainflación de alfa nos impedirá identificar relacionespotencialmente importantes (error de tipo II). Consecuentemente,los investigadores interesados en la evaluación deresultados terapéuticos han de procurar contar con muestrassuficientemente amplias, y por ello sería convenienteconfluir en modelos comunes de evaluación que se realicen deforma multicéntrica, favoreciendo de este modo laampliación del tamaño muestral.
Recomendaciones para laevaluación de resultados terapéuticos
1. Dado que losprocesos terapéuticos están encuadrados dentro de unadimensión temporal, su evaluación no tiene por menosque basarse en estudios longitudinales si pretendemos queésta sea efectiva y fidedigna. Asimismo, en tanto aspiramosa que los resultados de la evaluación puedan serguías de actuación para intervenciones posteriores,los estudios que analizan esos resultados han de basarse en elmayor control posible de variables intervinientes y, porconsiguiente, han de elegirse los diseños de tipoprospectivo. En definitiva, la primera condición necesaria,aunque no suficiente, para llevar a cabo una evaluaciónterapéutica eficaz con intención de generalizar laintervención es que sea encuadrada en diseñoslongitudinales prospectivos.
2. Con laevaluación terapéutica buscamos datos que nospermitan tomar decisiones: ¿estamos llevando a cabo laindicación más adecuada a las característicade esta persona y su problema?, ¿actúa mejor estetratamiento que otros alterativos?, en definitiva,¿qué intervención es la másconveniente? Tomar una decisión para responder a estaspreguntas supone tener datos comparados de los diferentestratamientos alternativos para considerar aquél máseficaz, efectivo (útil) y/o eficiente en cada casoparticular. Si la decisión se basa en datos comparados,entonces no podemos prescindir de la utilización de gruposde tratamiento alternativo o controles. Sólo a travésde la comparación con éstos podremos estimar laeficacia relativa del tratamiento propuesto y la ganancia en saludobtenida con él. La segunda condición, tambiénnecesaria, es realizar nuestra evaluación considerandogrupos de control.
3. Uno de losobjetivos de la evaluación es obtener pruebas de la eficaciadel tratamiento implementado, para lo cual hemos de extremarnuestro cuidado en obtener el mayor grado de validez interna en elestudio de evaluación. Como ha sido comentado previamente,el diseño que más se acerca a este requisito es elensayo clínico aleatorio, y nuestra recomendaciónsería utilizarlo siempre que fuera posible. No obstante, laposibilidad de evaluar todas nuestras actuaciones a travésde este diseño es, en la mayoría de los casos,inviable. La alternativa, es considerar diseñoscuasiexperimentales, como algunos de los reseñadosmás arriba. La recomendación en el caso de utilizaresta vía, es replicar en la mayor medida posible el esquemade evaluación en distintos centros y contextos sanitarios.Un protocolo de evaluación bien programado que tenga encuenta el conjunto de variables intervinientes, donde elprocedimiento de actuación terapéutica estébien pautado y que las técnicas de recogida deinformación se lleve de forma metódica, aplicado deforma multicéntrica y en contextos socioculturales diversoscontribuirá no sólo a aumentar la validez externa opoder de generalización de los resultados, sinotambién a poder llevar a cabo un mayor control de la validezinterna a través de un mayor poder estadístico de loshallazgos. Por otra parte, al aumentar el número departicipantes podemos obtener muestras grandes que permitan labaremación de resultados como estándares decomparación, y además cabría esperarse unmayor impacto positivo en las actividades médicas de loscentros participantes.
4. Recordamos,en referencia a este último comentario, que laestadística no ha de utilizarse como herramienta al serviciode «nuestro» propósito de demostrar la bondad de«nuestra» actuación. La estadística esciega, pero quien interpreta los resultado no. Como dice eladagio, «hay quien utiliza la estadística comoel borracho la farola, más para apoyarse que parailuminarse». La estadística nos permite el control delas relaciones entre variables cuando se conoce la direcciónde las posibles interacciones, y el único dato que nosofrece es referente a la mayor o menor verosimilitud de losresultados hallados; nada nos dice sobre la relevanciaclínica o científica de esos resultados. Nuestrarecomendación a este respecto, es utilizar laestadística como lo que es: una herramienta que se pone alservicio de los objetivos preprogramados. Es decir, son nuestrosobjetivos e hipótesis los que determinan las técnicasestadísticas a emplear, y no la acomodación deéstas a los datos para verificar hipótesis aposteriori.
5. Porúltimo, y quizá por ello la recomendaciónmás importante. Una evaluación es un proceso querequiere ir de una fase a otra de una forma consecutiva. En primerlugar se precisa de un conocimiento sustantivo de lo que ahora seviene llamando el «estado del arte» del problema aevaluar. Este conocimiento orientará los objetivos ehipótesis del equipo investigador/evaluador, los cualesdeterminarán el conjunto de variables intervinientes en elfenómeno a estudiar. En primera instancia, el control deestas variables intervinientes vendrá determinado por lascaracterística del diseño a elegir; es decir, todoaquello que pueda ser controlado mediante técnicas dediseño deberá ser preferente a otro tipo detécnicas de control. Aquello que se escape al control deldiseño, se ajustará con la estadística. Laprioridad de actuaciones que debemos llevar a cabo ante unaevaluación es: conocimiento del problema, hipótesis,diseño y técnicas de análisis, y nootro.
«Para el conocimiento de la verdad es necesario elmétodo».
(Reglas para la dirección de la mente. R.Descartes.)