Actualmente, y por fortuna, ya resulta raro encontrar errores toscos en la aplicación de pruebas estadísticas convencionales en los artículos de una revista médica. Sin embargo, el trabajo de Ferrer et al1, recientemente publicado en su revista, muestra uno de estos ejemplos. Los autores estudian el efecto de la cirugía bariátrica sobre la esteatosis hepática y, para esto, toman biopsias de esta glándula en la intervención, y de nuevo, pasado un tiempo. Recogen, pues, datos relacionados sobre un mismo paciente y, sin embargo, aplican pruebas diseñadas para datos independientes, por ejemplo, la prueba de Mann-Whitney o una chi-cuadrado convencional.
No cabe duda de que las pruebas indicadas aquí hubiesen sido, por ejemplo, la t de Student para datos relacionados, la prueba de Wilcoxon en lugar de una Mann-Whitney y una chi-cuadrado de McNemar en lugar de su versión convencional. Los resultados de las estimaciones puntuales serían los mismos y quizás también el sentido de los resultados y de la interpretación de la inferencia, pero no la magnitud concreta de los valores p. Alguien podría aducir que tal cosa tampoco es importante en exceso, pero el rigor de una publicación sí que se resiente ante tal problema. Esto afectaría a la tabla 1 del artículo, pero es que en la tabla 2 vuelve a aparecer el mismo error cuando se calculan las odds ratios de esteatosis leves y graves. Lo que debería haberse hecho es obtener una odds ratio de medidas relacionadas, que sería el apropiado para el caso. Como se podrán imaginar, el resultado va a ser distinto.
Ignoro por qué motivo todavía ocurren estas cosas y cómo ha sido posible que un error así haya pasado el filtro de la revisión por pares. Tampoco escapan revistas de nivel internacional bien acreditado. Recientemente, apareció uno similar en el British Journal of Surgery2. Los revisores suelen ser colegas con un alto perfil profesional, pero puede que en conocimientos de análisis estadístico de datos no haya buen paralelismo, o que quizás den poca importancia relativa al rigor estadístico, en parte, por el mismo motivo. La amplia disponibilidad de ordenadores con potentes programas estadísticos, en los que sólo se necesita señalar y aceptar entre un abanico enorme de pruebas, puede favorecer el fallo, siempre que no se tengan claros algunos conceptos básicos.
No quisiera que se interpretara esta carta como una crítica destructiva o agresiva. Esta postura en temas científicos no conduce a nada útil. Además, el artículo en cuestión, a pesar de alguna limitación que los propios autores comentan, y salvo este fallo, me parece un trabajo muy digno e interesante, con información muy llamativa. Por esto, rogaría a los autores, si es que hacen uso de su derecho de réplica, que nos brinden las cifras correctas que se echan en falta.