Recibimos con agrado las observaciones referentes a nuestro artículo, ya que celebramos la discusión académica de alto nivel y esto nos da la oportunidad de ahondar sobre las motivaciones subyacentes de escribirlo, las cuales son las siguientes:
- a)
Coadyuvar en la mejora continua de la calidad de la investigación en México.
- b)
Promover el uso de listas de cotejo para mejorar el diseño, la metodología y la calidad de reporte de las publicaciones nacionales.
- c)
Llamar la atención sobre el impacto que tiene la calidad del manuscrito, en el juicio subjetivo de que los clínicos podemos emitir sobre la utilidad de un método diagnóstico o terapéutico.
Existe una preocupación mundial sobre la reproducibilidad, confiabilidad y validez de la investigación publicada y los sesgos a los que está expuesta, que ha llevado a la creación de distintas estrategias para reducirlos1.
Una de estas estrategias, apoyada por la Organización Mundial de la Salud (OMS) y la Organización Panamericana de la Salud (OPS) por lo eficiente y económico de su implementación, es la utilización de guías de reporte que nos sirvan de orientación para realizar investigaciones y publicaciones de mayor calidad metodológica. Entre ellas encontramos CONSORT para diseños experimentales, STROBE para observacionales, y STARD para validaciones, por mencionar algunos ejemplos. Estas guías son agrupadas para su fácil consulta en la página de la iniciativa EQUATOR Network (Enhancing the QUAlity and Transparency Of health Research)2.
La publicación de nuestro artículo es guiada por este espíritu, y por ello su objetivo es “comparar la calidad del reporte de validación publicado y el riesgo de sesgo entre las pruebas de tamiz desarrolladas y validadas en México3” Por esto, no se emiten opiniones sobre la utilidad comparativa de las pruebas -lo que requeriría invariablemente un diseño experimental-, sino sobre el contenido de los reportes de validación, así como un juicio subjetivo basado en listas de cotejo validadas y reconocidas mundialmente sobre el riesgo de sesgo que los datos presentados tienen.
Brevemente nos permitimos responder a las observaciones emitidas:
- 1.
Se menciona: “En la tabla 1. Descripción general de las pruebas de tamiz comparadas en el estudio, en la columna “Aspectos evaluados…”. En respuesta a ello agradecemos el señalamiento del error, ya que debe decir en dicha columna “Aspectos variados sin agrupar por áreas del desarrollo”.
- 2.
Con respecto al señalamiento del rango de edad en la misma tabla, este fue obtenido de la lectura del artículo de la validación en su página 1384: “Los INDIPCD-R quedaron integrados inicialmente en dos formatos: el formato “A” con 44 reactivos (que se utiliza con niños de 0 a 2 años) y el “B” con 41 reactivos (para niños de 2 a 4 años)”, lo que resulta confuso con la posterior descripción de seis rangos de edad y de una normalización realizada con una muestra completamente distinta a la que se refiere el artículo. Por lo tanto, en el análisis comparativo, en la columna de rango de edad debería decir “De seis a 48 meses (Evaluados en 6 grupos)”. Consideramos de importancia que la autora corrija las contradicciones que originan el malentendido en su artículo de validación.
- 3.
Con respecto al señalamiento de los errores contenidos en la tabla 2, estos datos se obtienen íntegros del articulo analizado4, donde en el resumen se especifica: “Materiales y métodos: estudio transversal comparativo con 145 infantes provenientes de una clínica y dos estancias infantiles (CENDI…”. Si bien se menciona en renglones posteriores la normalización de la escala con 347 niños, dicha normalización no es la validación publicada y por tanto no es sujeto del artículo de revisión que los autores escribieron. Posteriormente se observa que la muestra total a la que se le aplicaron las dos pruebas y que por tanto fue analizada para la validación es de 83 niños4.
- 4.
En cuanto a: “La aseveración que establecen en la tabla 4: “Cuestionario para evaluar riesgo de sesgos en estudios de precisión diagnóstica QUADAS, que menciona que el INDIPCD-R presenta un alto riesgo de sesgo, es errónea”3, estamos en desacuerdo, ya que lo confuso y contradictorio del escrito analizado4 refiere una muestra de validación de 145 niños, pero después menciona que los datos de sensibilidad y especificidad se obtuvieron de solo 83 niños; después menciona una normalización de la cual no se publican datos de 347 niños, lo cual fue parte de lo que nos llevó a afirmar que existe un alto riesgo de sesgo en cuanto a la selección de su muestra, basándonos solo en la calidad del reporte de validación. En este sentido, la única afirmación categórica en la que coincidimos que podría haber duda es la que se refiere a la validez del estándar de referencia, pues PCD-R fue validada contra una prueba completamente independiente y creada por otro grupo de personas, ampliamente reconocida como estandar de oro en el medio5.
- 5.
Con respecto al cuestionamiento “el INDIPCD-R no puede compararse contra sí mismo, los expertos no consideraron que la escala de desarrollo Perfil de Conductas de Desarrollo (PCD-R), que fue utilizada como estándar de oro, es una prueba independiente de los INDPCD-R”, consideramos que la aseveración hecha por nosotros: “La INDIPCD-R presenta un alto riesgo de sesgo de su prueba índice y estándar de oro, ya que se valida contra sí misma”3 es exagerada y debía haber sido fraseada como: “La INDIPCD-R presenta un alto riesgo de sesgo de su prueba índice y estándar de oro, ya que se valida tomando como estándar de oro una prueba de la cual se deriva y es fruto del trabajo de los mismos autores”.
- 6.
En respuesta a la afirmación: “Decidimos utilizar el PCD-R como estándar de oro por ser una prueba que cuenta con estudios de validez y confiabilidad en población abierta mexicana” y al ejemplo mencionado de Bailey como estándar de oro en la validación de BINSS6, consideramos que el prestigio de un grupo de investigadores no los exenta de cuestionamientos, y que en ambos casos existe un claro conflicto de interés, que si bien no es malo per se, debió haber sido reportado.
- 7.
Por último, se afirma que nuestro escrito utiliza de forma indistinta las palabras “diagnóstico y tamizaje”. Esta aseveración no tiene fundamento, pues el título especifica que en el artículo sólo se comparan pruebas de tamizaje y no de diagnóstico, incluyéndose en el comparativo solo las primeras. Los autores tenemos muy clara la diferencia entre los dos conceptos.
El uso de la frase: “listas de cotejo de calidad de reporte de estudios de validación de precisión diagnostica” está completamente justificado debido a que si bien los instrumentos de tamizaje y diagnóstico son distintos en su objetivo, constructo, creación y uso clínico, no son diferentes en su metodología de validación. Así, reportan exactamente las mismas áreas de concordancia entre la prueba evaluada y el estándar de oro que los autores hayan elegido (sensibilidad, especificidad, valor predictivo negativo, valor predictivo positivo) y están expuestos a los mismos errores y limitaciones metodológicas que pueden inducir sesgos.
Agradecemos la lectura cuidadosa de nuestro artículo y, en un espíritu de colaboración donde todos pugnamos por la mejoría de la calidad de la investigación en México, esperamos que esta carta impulse a la autora a realizar las correcciones en la redacción del artículo usado en la comparación y que inducen al malentendido, con la finalidad de que el INDIPCD-R alcance el reconocimiento, el impacto y la utilización que justamente se merece.