La forma de seleccionar la muestra y de calcularla es determinante para poder generalizar los resultados de nuestra investigación. Una mala elección de la técnica de muestreo y/o un cálculo erróneo del tamaño muestral puede provocar que los resultados obtenidos se limiten únicamente a los participantes que hemos incluido en nuestro estudio. Debido a que no podemos estudiar a toda la población diana al ser prácticamente inaccesible, debemos seleccionar una muestra que nos permita inferir, extrapolar y generalizar nuestros resultados a la población de referencia (más accesible bajo criterios de inclusión y exclusión definidos por el investigador). Esta muestra debe ser representativa de dicha población para que los resultados de nuestro estudio tengan validez externa y, además, debe ser de un tamaño adecuado. Sin embargo, la muestra debe ser lo suficiente grande para garantizar que representa a la población de referencia, y lo suficientemente pequeña para facilitar su análisis1–5. Por lo tanto, la representatividad de nuestra muestra estará condicionada por la técnica de muestreo que se emplee para seleccionarla (probabilísticas y no probabilísticas) y el tamaño que tenga dicha muestra.
Técnicas de muestreo probabilísticasLos participantes seleccionados mediante estas técnicas tienen una probabilidad conocida, distinta de cero, de ser incluidos en la muestra. De esta manera, evitan la posible parcialidad del investigador a la hora de seleccionarla. Por lo tanto, la muestra seleccionada tiende a ser más representativa de la población de referencia. Otra ventaja de estas técnicas consiste en que conllevan la aplicación de técnicas estadísticas capaces de cuantificar el error aleatorio que cometemos al seleccionar a la muestra debido al azar3–5. Sin embargo, cabe la posibilidad de que el propio azar provoque que la distribución de la variable obtenida en nuestra muestra no sea la misma que en la población de referencia6.
Las técnicas de muestreo probabilístico se dividen en3–5:
- •
Muestreo aleatorio simple: los participantes se seleccionan aleatoriamente utilizando tablas de números aleatorios o programas informáticos (disponibles gratuitamente en internet), por lo que todos tienen la misma probabilidad de ser seleccionados. Además de ser el método más rápido y fácil, al intervenir solamente el azar, se llegan a conseguir muestras más representativas. Sin embargo, requiere realizar un listado de toda la población de referencia, por lo que se utiliza poco, a menos que dicha población sea pequeña.
- •
Muestreo aleatorio estratificado: se trata de una variante de la anterior técnica que se utiliza cuando la variable que queremos estudiar no se distribuye de manera homogénea dentro de la población de referencia, pero sí que lo hace dentro de grupos o estratos de la misma que son mutuamente excluyentes. De esta manera, se intenta asegurar la misma distribución de dicha variable en la población de referencia. Es recomendable que estos estratos sean determinados en función de alguna variable confusora que pueda influir en los resultados. Posteriormente se selecciona una muestra aleatoria de cada estrato.
- •
Muestreo aleatorio sistemático: en esta técnica el primer participante es elegido aleatoriamente y los siguientes son seleccionados sumándose una constante de muestreo (k) previamente definida hasta completar el tamaño de la muestra.
- •
Muestreo en múltiples etapas: cuando la población de referencia es muy grande o dispersa y no se dispone de un listado completo de la población de referencia, en una primera etapa es conveniente seleccionar unidades de muestreo de la misma (unidades primarias) y, en etapas posteriores, seleccionar muestras de cada unidad seleccionada previamente (unidades secundarias). De esta manera, se selecciona la muestra en las etapas que se crean necesarias, pudiéndose aplicar más de una técnica de muestreo probabilístico (simple, estratificado, sistemático). Se puede usar el número de etapas que sean necesarias y, en cada una de ellas, aplicar un método diferente de muestreo. Si en el muestreo se incluyen a todas las unidades secundarias, se conoce como muestreo por conglomerados. Por lo tanto, aunque no dispongamos del listado de toda la población de referencia, sí que podemos disponer del listado de grupos o conglomerados de la misma.
En general, elegiremos una técnica de muestreo probabilístico cuando la población de referencia sea lo bastante accesible y esté bien diferenciada antes de iniciar nuestro estudio3–5. Pero, una vez optado por un muestreo probabilístico, ¿qué técnica es recomendable elegir dentro del mismo? Si la población de referencia es muy grande, dispersa y está agrupada por alguna característica, elegiremos una técnica de muestreo en múltiples etapas. Si no es así, y nos interesa controlar la distribución de alguna variable de confusión, lo más conveniente sería utilizar un muestreo estratificado. Dentro del mismo, si decidimos incluir a todos los grupos o conglomerados de la población de referencia, elegiremos un muestreo por conglomerados. Sin embargo, si no nos interesa controlar por ninguna variable confusora y la población de referencia es pequeña y la tenemos adecuadamente censada en un listado, lo más recomendable es elegir una técnica de muestreo aleatorio simple o sistemático3.
Técnicas de muestro no probabilísticasSi, por el contrario, la población de referencia no es fácilmente accesible y no está lo suficientemente diferenciada, lo más conveniente es utilizar técnicas de muestreo no probabilísticas3–5. En las mismas se desconoce la probabilidad que tiene cada participante de ser incluido en la muestra, siendo seleccionados mediante técnicas en las que no interviene el azar, no pudiéndose calcular el error aleatorio3–5. Por lo tanto, los participantes son seleccionados en gran medida en función del criterio o juicio del investigador, asumiéndose que las muestras seleccionadas están libres de sesgos, y que son representativas de la población de referencia3–5.
Las técnicas de muestro no probabilísticas más frecuentes son3–5:
- •
Muestreo consecutivo: se trata de la técnica más utilizada, especialmente en los ensayos clínicos. Consiste en seleccionar a los participantes que cumplen nuestros criterios de selección durante el período de reclutamiento en el que vamos a realizar el estudio. Habitualmente se utiliza para reclutar a pacientes que acuden a consulta y que son diagnosticados o que están ingresados en un tiempo determinado.
- •
Muestreo de conveniencia, accidental o casual: en este caso, los participantes son seleccionados al ser fácilmente accesibles para el investigador o porque deseen participar voluntariamente. De esta manera, el investigador elige a los participantes en función de su disponibilidad (por proximidad, amistad, etc.). Es recomendable que la distribución de la variable a estudio sea lo suficiente homogénea dentro de la población de referencia, ya que se corre un alto riesgo de que la muestra esté sesgada.
- •
Muestreo a criterio o intencional: es el propio investigador el que selecciona a los participantes que considera puedan contribuir en mayor medida a su estudio. De esta manera, se asegura que no se le escapen participantes importantes si eligiera una técnica aleatoria o de conveniencia. Esta técnica se emplea principalmente en estudios cualitativos o cuando se desea seleccionar una muestra de expertos.
- •
Muestreo por cuotas: en primer lugar, se determina la composición de la población de referencia en función de una característica o variable (frecuentemente el sexo o la edad) y, posteriormente, se determina la cuota o número de participantes que se desea participen y que cumplan esa característica o variable. Lo que se pretende conseguir es el número adecuado para completar cada una de las cuotas determinadas.
- •
Muestreo de avalancha, en bola de nieve (snowballing) o muestreo en cadena: esta técnica es especialmente útil y eficiente cuando es difícil acceder a los participantes, siendo más práctica que el muestreo por conveniencia, empleado principalmente en estudios cualitativos. Consiste en seleccionar a un participante que cumpla los criterios de selección y al que se le solicita que informe al investigador sobre otros participantes, y así sucesivamente hasta conseguir una muestra suficiente.
- •
Muestreo teórico: esta técnica se utiliza principalmente en estudios cualitativos cuyo marco teórico está basado en la teoría fundamentada. Mediante la misma se selecciona a los participantes gradualmente para captar todos los significados posibles que permitan desarrollar una teoría7.
Mediante el cálculo del tamaño muestral pretendemos definir un número aproximado de participantes que se necesitan incluir en la muestra, para que esta sea representativa de la población de referencia3,4. Si, por un lado, incluimos un número insuficiente de sujetos corremos el riesgo de no encontrar diferencias significativas cuando en realidad sí que existen (error tipo II o β). Por otro lado, si incluimos un número muy alto de participantes estaremos desperdiciando tiempo y recursos de nuestra investigación1,2,8,9.
Hay que señalar que generalmente no es necesario realizar el cálculo del tamaño muestral en estudios cualitativos, ya que lo que se pretende principalmente es conseguir la saturación de información que ocurre cuando la información recogida empieza a ser redundante, no recabándose información nueva de los participantes del estudio10.
Sin embargo, en los estudios cuantitativos sí es necesario realizar este cálculo y de manera muy cuidadosa, ya que del mismo va a depender el diseño del estudio (por ejemplo, si se necesita ampliar el período de reclutamiento de la muestra hasta conseguir el tamaño calculado)3,4. Para ello se emplean una serie de fórmulas basadas en el error estándar que pueden resultar engorrosas y que dependen de la prueba estadística que se vaya a emplear en el estudio. Afortunadamente, existen tablas y programas informáticos de acceso gratuito que facilitan su cálculo a partir de los parámetros estimados. Algunas de estas calculadoras epidemiológicas están disponibles online (como GRANMO o Powerandsamplesize.com), otras son softwares gratuitos que se pueden descargar en ordenadores personales (como Epidat, o G*Power), y otras incluso son aplicaciones para dispositivos móviles (n4Studies).
En función del objetivo de nuestra investigación, mediante la determinación del tamaño muestral es posible3,4:
- •
Estimar parámetros poblacionales: a partir de los valores recogidos en la muestra, los investigadores pretenden estimar el valor de un parámetro en la población de referencia. Dichos parámetros se infieren estadísticamente y pueden ser proporciones (por ejemplo, la proporción o porcentaje de pacientes críticos que presentan una determinada complicación) o medias (por ejemplo, la media de una variable fisiológica recogida en pacientes críticos). Para realizar la estimación de estos parámetros, los investigadores deben determinar los siguientes valores:
- ∘
La variabilidad del parámetro estimado: habitualmente se desconoce, por lo que el investigador debe tomar una aproximación de la misma realizando un estudio piloto o tomando los datos de investigaciones realizadas previamente.
- ∘
La precisión de la estimación: consiste en la amplitud del intervalo de confianza (IC), consiguiéndose una mayor precisión (i) cuanto más estrecho sea dicho intervalo, por lo que el tamaño muestral será mayor.
- ∘
El nivel de confianza o significación estadística de la estimación: como mínimo, y de forma habitual, se fija en el 95% (α = 0,05). Cuanto más nivel de confianza (Zα) deseemos, el valor de α será menor, por lo que será necesario un mayor número de muestra.
Para calcular el tamaño muestral en estos casos, solamente se necesita conocer la variabilidad del parámetro que se está investigando, ya que tanto la precisión como el nivel de confianza son fijados por el propio investigador en función de sus intereses.
- •
Contrastar hipótesis: lo que pretenden los investigadores es evaluar los resultados obtenidos en función de las hipótesis previamente establecidas (por ejemplo, evaluar cuál de dos intervenciones enfermeras o cuidados es más efectivo en pacientes críticos). Por lo tanto, este tipo de cálculo muestral se suele aplicar principalmente en los ensayos clínicos. Para ello, los investigadores pueden comparar si las proporciones o medias obtenidas son diferentes, de acuerdo con la intervención aplicada. En este caso, los investigadores deben determinar los siguientes valores:
- ∘
Dirección de la hipótesis alternativa (unilateral o bilateral): en general, se recomienda que la hipótesis sea bilateral, ya que es más conservadora.
- ∘
Riesgo aceptado de cometer el error tipo I o α: es decir, de rechazar la hipótesis nula, cuando no se debería haber rechazado al ser verdadera en la población. Generalmente, se acepta un riesgo del 5% (α = 0,05).
- ∘
Riesgo aceptado de cometer el error tipo II (β): es decir, de no rechazar la hipótesis nula, cuando sí debería haber rechazado al ser falsa en la población. Generalmente, se fija entre el 5 y el 20%. Sin embargo, es más fácil tomar esta decisión con base en el poder o potencia estadística (1 – β), ya que aceptar un error β del 20% implica que nuestro estudio tiene un 80% de probabilidades de detectar la diferencia si existe en la realidad.
- ∘
Magnitud de la diferencia, efecto o asociación esperados: la estimación de lo que esperamos obtener en nuestra investigación debe ser realista y basarse en estudios realizados previamente.
- ∘
Variabilidad de la variable de respuesta en la población de referencia: debe tomarse una aproximación de la misma, con base en la literatura existente e investigaciones previas.
De estos cinco valores, para calcular el tamaño muestral solamente se necesita conocer el último, ya que todos los demás son fijados por el propio investigador en función de sus intereses.
Tamaño muestral ajustado a las pérdidasPor último, se deben ampliar todos los cálculos anteriores para incluir las posibles pérdidas que se pueden producir durante la realización de nuestra investigación. Así nos aseguramos de que el estudio finalizará con la muestra calculada. Para ello se define la proporción de esperada de pérdidas (R) y se aplica la fórmula Na = N [1/(1-R)], siendo N el número de participantes teórico sin pérdidas y Na el número de participantes ajustado3.
FinanciaciónEl autor declara no tener ninguna fuente de financiación.
Conflicto de interesesEl autor declara no tener ningún conflicto de intereses.