El Cuestionario de salud del paciente-9 (PHQ-9) es uno de los instrumentos de autoinforme más utilizado en Atención Primaria (AP). No existe validez de criterio del PHQ-9 en Colombia. El objetivo fue realizar la validez de criterio del PHQ-9 como instrumento de cribado en AP. Se realizó un estudio trasversal de validez de criterio de una escala usando como criterio de referencia la minientrevista neuropsiquiátrica (MINI) en usuarios adultos de centros de AP de ambos sexos. Se calcularon la consistencia interna y la validez convergente y de criterio del PHQ-9 mediante el análisis de las características operativas del receptor (COR) y el área bajo la curva (ABC). Participaron 243 pacientes, 184 (75,7%) fueron de sexo femenino. El promedio de edad fue 34,05 (mediana 31 y DE = 12,47). El α de Cronbach fue 0,80 y ω de McDonald, 0,81. La rho de Spearman fue 0,64 para HADS-D (p < 0,010) y 0,70 para PHQ-2 (p < 0,010). El ABC fue 0,92 (IC del 95%, 0,880-0,963). El punto de corte óptimo del PHQ-9 fue ≥ 7: sensibilidad de 90,38 (IC del 95%: 81,41-99,36); especificidad de 81,68 (IC del 95%: 75,93-87,42); el VPP 57,32 (IC del 95%: 46,00-68,63); el VPN 96,89 (IC del 95%: 93,90-99,88); índice de Youden 0,72 (IC del 95%: 0,62-0,82; LR+ 4,93 (IC del 95%: 3,61-6,74); LR– 0,12 (IC del 95%: 0,005-0,270). En conclusión, la versión colombiana del PHQ-9 es un instrumento válido y confiable para el cribado de depresión en AP de Bucaramanga, con un punto de corte ≥ 7.
The patient health questionnaire-9 (PHQ-9) is one of the most widely used self-report instruments in primary care. There is no criterion validity of the PHQ-9 in Colombia. The objective was to validate the PHQ-9 as a screening tool in primary care. A cross-sectional, scale criterion validity study was performed using as reference criterion the mini neuropsychiatric interview (MINI) in male and female adult users of primary care centres. We calculated the internal consistency and convergent and criterion validity of the PHQ-9 by analysing the receiver operating characteristics (ROC) and the area under the curve (AUC). We analysed 243 participants; 184 (75.7%) were female. The average age was 34.05 (median of 31 and SD = 12.47). Cronbach's α was 0.80 and McDonald's ω was 0.81. Spearman's Rho was 0.64 for HADS-D (P <0.010) and 0.70 for PHQ-2 (P <0.010). The AUC was 0.92 (95% CI 0.880-0.963). The optimal cut-off point of PHQ-9 was ≥7: sensitivity of 90.38 (95% CI: 81.41-99.36); specificity of 81.68 (95% CI: 75.93-87.42); PPV 57.32 (95% CI: 46.00-68.63); NPV 96.89 (95% CI: 93.90-99.88); Youden index 0.72 (95% CI: 0.62-0.82); LR+ 4.93 (95% CI: 3.61-6.74); LR– 0.12 (95% CI: 0.005-0.270). In sum, the Colombian version of PHQ-9 is a valid and reliable instrument for depression screening in primary care in Bucaramanga, with a cut-off point ≥7.
La depresión es un problema mayor de salud pública a nivel mundial1 y tiene un impacto significativo sobre la calidad de vida2, produce altos niveles de morbilidad3, disminución de la expectativa de vida4 y exceso de mortalidad5. La prevalencia de episodio depresivo mayor (EDM) a lo largo de la vida es del 11,2%6. Las prevalencias tienden a ser más altas países de bajos y medianos ingresos como Pakistán, en donde se han informado prevalencias de depresión del 45,9%7. En Atención Primaria (AP), la prevalencia de EDM presenta significativas variaciones ubicándose en el rango entre el 4,5 y el 47,8%8.
En la Encuesta de salud mental de Colombia 2015, la prevalencia de depresión mayor en la población general fue de 5,4 (IC del 95%: 4,6-6,4), 2,3 (IC del 95%: 1,8-2,9) y 0,8 (IC del 95%: 0,5-1,3) a lo largo de la vida, en el último y en último mes, respectivamente9. En Bucaramanga, la prevalencia de síntomas depresivos con importancia clínica (SDIC) fue del 22,3% (IC del 95%: 20,0-24,6) y de TDM del 11,2% (IC del 95%: 9,7-12,9%)10. Un estudio poblacional posterior en adultos residentes de Bucaramanga (N = 266), mediante entrevista estructurada del eje I (SCID-I), informó una prevalencia del 16,5% (IC del 95%: 12,3-21,6)11, lo que confirma la alta prevalencia de depresión en esta región.
A pesar de su alta carga, cronicidad y carácter recurrente, la depresión es subdiagnosticada en AP, ya que aproximadamente el 50% de los pacientes que presentan depresión no serían detectados12. Esta brecha diagnóstica podría explicarse por el hecho de que más del 75% de los pacientes con depresión consultan inicialmente a su médico familiar o de AP con escaso entrenamiento en la identificación de trastornos depresivos13, las limitaciones de tiempo en entornos congestionados de AP14 y la escasez de instrumentos de cribado validados en países de bajos y medianos ingresos15.
Por lo anterior, se han desarrollado programas para el reconocimiento de la depresión16,17 que recomiendan instrumentos estandarizados. Existen diversos instrumentos para identificar casos de depresión; sin embargo, sus beneficios no se han determinado plenamente y la literatura muestra resultados contradictorios18. Una revisión sistemática reciente sugiere que dentro de los instrumentos de cribado, solo el Cuestionario de salud del paciente-9 (PHQ-9) satisface el nivel óptimo de exactitud para depresión19. El PHQ-9 es una escala de tipo adjetival derivada de la Primary Care Evaluation of Mental Disorders (PRIME-MD) para evaluar síntomas depresivos con los criterios del DSM-IV20. El PHQ-9 es más corto que la mayoría de las escalas de cribado de depresión21,22 y se considera como el mejor instrumento de cribado para depresión en AP por su exactitud, brevedad, ser de domino público y multipropósito, facilidad de aplicación, puntuación e interpretación19,23. El PHQ-9 cuenta con traducción en más de 20 idiomas y se ha utilizado en muchos países y contextos24. En AP, la sensibilidad del PHQ-9 estuvo entre 0,71 a 0,84 (media de 0,77) y la especificidad entre 0,90 y 0,97 (media de 0,94)25, lo que confirma un adecuado desempeño psicométrico en AP, aunque con algunas variaciones en el punto de corte (PC) y los parámetros psicométricos que se explican por la influencia de aspectos culturales en el patrón de respuesta23. Su uso extendido se sustenta además por los hallazgos de Williams et al., quienes concluyeron, en un análisis de más de 38 estudios con más de 32.000 pacientes de AP, que el PHQ-9 fue igual o superior a otras mediciones de depresión22. Además, el grupo de trabajo para TDM del DSM-5 y las guías NICE consideran el PHQ-9 como la medición preferida para evaluar la presencia de depresión y cuantificar su severidad21,22,26.
El PHQ-9 se ha evaluado en Colombia en estudiantes universitarios27; sin embargo, no se comparó con patrón de oro, por lo tanto es necesario realizar la validez de criterio del PHQ-9 en AP en Colombia empleando un patrón de oro, sobre todo por la oportunidad que representan los servicios de AP en la detección temprana de la depresión28. Por consiguiente, el objetivo de este estudio fue evaluar validez de criterio del PHQ-9, comparado con la Minientrevista Estructurada Neuropsiquiátrica (MINI) para el cribado de sintomatología depresiva en adultos usuarios de AP del área metropolitana de Bucaramanga.
Materiales y métodosDiseñoEste estudio fue diseñado y analizado siguiendo las recomendaciones de la declaración Quality Assessment of Diagnostic Accuracy Studies (QUADAS-2)29. Se realizó un estudio observacional analítico de validez de criterio de una escala usando criterio de referencia.
ParticipantesSe incluyó a usuarios de AP de la localidad de ambos sexos de 18 a 65 años. Los centros de AP pertenecen al Instituto de Salud de Bucaramanga (ISABU), que es una empresa social del Estado que coordina la prestación de servicios primarios de salud del área metropolitana de Bucaramanga.
Se excluyó a los sujetos con síntomas psicóticos, con deterioro cognitivo, delirium o discapacidad intelectual que impidiera responder los instrumentos, estar bajo efectos de sustancias psicoactivas, con alteración funcional de la visión o audición que impidiera comprender el contenido de la encuesta, y aquellos que no comprendieran el idioma español. Se calculó el tamaño de muestra para evaluar hipótesis sobre características de una prueba diagnóstica30:
donde, π1 es la sensibilidad del estándar (0,96) y π2 es la sensibilidad esperada del PHQ-9 (0,88); Z1-α/2 estableció en 1,96 y Z1-B en 1,28; δ se fijó en 0,08 (π1-π2). Su resultado fue 214. Se seleccionó a los participantes de manera consecutiva a medida que acudían a los centros de salud hasta encuestar el número máximo de sujetos por encima de 214.
ProcedimientosEl estudio fue aprobado por el comité de ética del ISABU y de la Universidad de Santander teniendo en cuenta las normas internacionales31 y nacionales32, vigentes para investigación en humanos.
El PHQ-9 fue traducido siguiendo las recomendaciones para la adaptación de pruebas de autoinforme33. Se realizó la traducción directa a partir de la escala original por 2 traductores bilingües certificados independientes; se discutieron los puntos discordantes de las 2 traducciones, luego se hizo la retrotraducción al inglés, que fue revisada por el equipo investigador para evaluar la coincidencia con la escala original. Posteriormente, la escala traducida fue revisada por 10 psiquiatras expertos en investigación o experiencia clínica para verificar si los ítems eran coherentes con el constructo de depresión y ellos, además, realizaron observaciones sobre la comprensión y la redacción de los ítems. Diez personas de la población general con antecedentes de depresión también opinaron sobre la comprensión de las preguntas. El grupo investigador analizó e incorporó las observaciones de los pacientes y los expertos para la obtención de la nueva versión colombiana (fig. 1). Con la nueva versión de la escala, se realizó una prueba piloto con 21 sujetos con características similares a los sujetos de estudio pero en otros centros, los que respondieron las preguntas sin dificultades y no fueron necesarios ajustes en la estructura gramatical.
Se hizo un entrenamiento del equipo investigador en entrevista psiquiátrica estructurada (MINI) y heteroaplicación del PHQ-9. Las personas encargadas de aplicar las escalas y las entrevistas estructuradas eran profesionales con experiencia clínica (4 psicólogos, 2 residentes de medicina familiar y un psiquiatra), los cuales recibieron un entrenamiento de 8h a cargo del primer autor, con sesiones teórico-prácticas, juego de roles y observación de entrevistas piloto con retroalimentación. Los participantes del estudio fueron contactados en la sala de espera a medida que llegaban a consulta externa de cualquier causa con médico general. Uno de los integrantes del grupo investigador explicó la naturaleza del estudio y les entregó el consentimiento informado. Las escalas de cribado fueron leídas por miembros entrenados del equipo investigador. Después de completar el PHQ-9, el mismo día, cada participante era evaluado en otro consultorio por otro miembro del equipo (psicólogo o psiquiatra) entrenado y sin conocimiento del resultado del PHQ-9, para aplicar el módulo de depresión de la MINI. Las encuestas fueron revisadas por 2 revisores independientes y almacenadas en un formato generado en Excel.
InstrumentosPHQ-9El PHQ-9 es una escala de cribado que mide la presencia y severidad de síntomas depresivos34. El PHQ-935 está constituido por los 9 síntomas del criterio A de EDM del DSM-IV20. Estos 9 ítems están dispuestos en forma de una escala de tipo adjetival que evalúa la presencia del síntoma en las 2 últimas semanas («nada en absoluto», «varios días», «más de la mitad de los días» y «casi todos los días»), que se puntúan de 0 a 3, llegando a una puntuación de entre 0 a 2736.
Puede ser auto o heteroadministrado y se usa ya sea de manera algorítmica para realizar un diagnóstico probable de un EDM o como una medida continua de puntajes que van de 0 a 27, y puntos de corte (PC) de 5, 10, 15 y 20, representando los niveles de síntomas depresivos como leve, moderado, moderadamente severo y severo34. Estos puntajes también se pueden usar de manera dicotómica a partir de un PC y clasifica a los sujetos con o sin SDIC37. Las características psicométricas del PHQ-9, según Kroenke et al., presentan una sensibilidad del 88% y una especificidad del 88%, una consistencia interna adecuada (α de Cronbach de 0,86-0,89), un puntaje prueba-reprueba de 0,84, una concordancia entre el test autoadministrado y el realizado por el evaluador del 84% y un área bajo la curva (ABC) de 0,9534. Para la identificación de casos de SDIC, en este estudio se utilizó el PC de 8 o más basados en el metaanálisis de Manea et al.23 y el estudio de Rancans et al. en AP38.
Minientrevista estructurada neuropsiquiátricaLa MINI es una entrevista diagnóstica estructurada breve, que explora las categorías diagnosticas del DSM-IV y la CIE-1039. Su versión original fue desarrollada por Sheehan et al.39 y Lecrubier et al.40 en Estados Unidos y Francia. Contiene 130 preguntas organizadas en módulos que evalúan 16 trastornos del eje i del DSM-IV y un trastorno de personalidad. La versión original en inglés mostró un rango de sensibilidad entre 0,46 y 0,94 y de especificidad entre 0,72 y 0,9739,40, una excelente confiabilidad interevaluador (kappa 0,70) y prueba-reprueba, y una moderada validez de criterio comparada con la CIDI y la SCID-P39,40. La MINI ganó rápida aceptación internacional41-43, cuenta con versiones traducidas en 43 idiomas39 y su confiabilidad y validez han sido exploradas en las versiones italiana44, japonesa45, noruega46, marroquí47 y portuguesa48. El tiempo de administración promedio es 18,7 ± 11,6min, con una media de 15 min39. La MINI junto con CIDI y SCID-I son considerados patrones de oro mundialmente aceptados para el diagnóstico de trastornos mentales en ámbitos clínicos y de investigación49.
Escala hospitalaria de ansiedad y depresiónLa Escala hospitalaria de ansiedad y depresión (HADS) fue diseñada por Zigmond y Snaith en 198350, para la detección de trastornos afectivos, sobre todo asociados con síntomas somáticos. Consta de 14 ítems, con una subescala de ansiedad (ítems impares) y una subescala de depresión (ítems pares). Cada ítem es valorado según una escala de 4 puntos de frecuencia que va desde 0 hasta 3. La HADS ha sido traducida a la mayoría de las lenguas europeas, al árabe, al israelí, al urdu, al japonés y al chino51, y ha demostrado fiabilidad y validez en numerosos estudios52. En Colombia, fue validada en pacientes oncológicos, mostrando una adecuada consistencia interna (α de Cronbach 0,85), un PC de 8 para la subescala de ansiedad y de 9 para la subescala de depresión53. Estas propiedades psicométricas fueron confirmadas en una muestra poblacional (n = 1.500) en varias ciudades de Colombia54. En esta investigación se utilizó la versión adaptada de Rico et al.53.
Cuestionario de salud del paciente-2El Cuestionario de salud del paciente-2 (PHQ-2) se compone de los 2 primeros ítems del PHQ-9, necesarios para sospechar la presencia de depresión según criterios DSM-IV55. La forma de puntuación es igual a la del PHQ-9 y el rango de puntaje es de 0 a 6. El PC de 3 es el óptimo para cribado, pero un metaanálisis reciente sugiere que un PC de 2 podría aumentar la sensibilidad56. Los pacientes que puntúen positivo para SDIC deben ser evaluados con el PHQ-9 para determinar si reúnen criterios para EDM57. Su utilidad clínica radica en que reduce el tiempo de en las consultas regulares de AP, que usualmente están congestionadas58. El PHQ-2ha mostrado un desempeño psicométrico comparable con el PHQ-9, con buena confiabilidad, validez y sensibilidad al cambio56. En este trabajo, se consideró el PC de 2 o más para identificar a pacientes con SDIC59.
Análisis estadísticoLos datos fueron analizados en SPSS versión 20.060, cuidadosamente verificados y revisados en 2 ocasiones. Se realizó un análisis descriptivo de las variables cualitativas y cuantitativas. Para evaluar la consistencia interna se calcularon los coeficientes α de Cronbach y ω de McDonald; para la validez concurrente se estimaron las correlaciones de Spearman o Pearson según la distribución de las variables. Para evaluar la exactitud del PHQ-9 como instrumento de cribado comparado con la MINI, se realizó el análisis de las características operativas del receptor (COR) y el ABC. Para la determinación del PC óptimo del PHQ-9 se tuvieron en cuenta los índices de validez: sensibilidad, especificidad, valores predictivos positivos (VPP) y negativos (VPN), razones de verosimilitud (LR, en inglés) positivas y negativas, el índice de Youden y el análisis de la curva COR/ABC.
ResultadosCaracterísticas de los participantesFueron contactados 384 usuarios, de los cuales 95 se negaron a participar. De las encuestas realizadas, 46 fueron descartadas por datos faltantes e inconsistentes; por lo tanto, en el análisis se incluyó a 243 participantes, de los cuales 184 (75,7%) fueron de sexo femenino. El promedio de edad fue de 34,05 años, con una DE = 12,47 años. Para los hombres, el promedio de edad fue 33,59 años, con una DE = 12,89 años y para las mujeres, 34,20 años, con una DE = 12,37 años. Las características sociodemográficas de la muestra pueden verse en la tabla 1.
Descripción de características sociodemográficas de pacientes con o sin síntomas depresivos menores atendidos en centros de Atención Primaria en salud
Variables | N.° | % |
---|---|---|
Sexo | ||
Masculino | 59 | 24,30 |
Femenino | 184 | 75,72 |
Procedencia | ||
Urbana | 210 | 86,42 |
Rural | 33 | 13,58 |
Estado civil | ||
Soltero | 98 | 40,33 |
Casado | 53 | 21,88 |
Unión libre | 83 | 34,16 |
Divorciado | 5 | 2,06 |
Viudo | 4 | 1,65 |
Escolaridad | ||
Primaria incompleta | 14 | 5,75 |
Primaria completa | 60 | 24,69 |
Secundaria incompleta | 36 | 14,81 |
Secundaria completa | 88 | 36,21 |
Técnica incompleta | 18 | 7,41 |
Técnica completa | 1 | 0,41 |
Tecnología completa | 3 | 1,23 |
Universidad incompleta | 3 | 1,23 |
Universidad completa | 20 | 8,23 |
Estrato socioeconómico | ||
Estrato 1 | 103 | 42,39 |
Estrato 2 | 84 | 34,57 |
Estrato 3 | 47 | 19,34 |
Estrato 4 | 6 | 2,47 |
Estrato 5 | 3 | 1,23 |
La prevalencia de SDIC según los resultados del PHQ-9 fue del 27,2% y del 21,8% según la entrevista estructurada MINI.
Consistencia internaSe obtuvo un coeficiente α de Cronbach de 0,80 y un coeficiente ω de 0,81. En la tabla 2 se presenta la consistencia interna global de la escala si cada ítem es eliminado.
Validez convergenteSe usó la prueba de Kolmogorov-Smirnov para establecer la normalidad de las variables, con el propósito de decidir el tipo de prueba para el análisis de la validez concurrente del PHQ-9 comparado con el PHQ-2, y la subescala de depresión de HADS (HADS-D). Estas variables no mostraron una distribución normal, por lo que se utilizó la rho de Spearman. La rho de Spearman fue de 0,646 para HADS-D (p < 0,010) y 0,701 para PHQ-2 (p < 0,010).
Validez de criterioLa curva de COR (fig. 2) y los índices de exactitud del PHQ-9 arrojaron los resultados que se observan en la tabla 3. El ABC fue de 0,92 (IC del 95%: 0,88-0,963).
Descripción de los diferentes puntos de corte del PHQ-9 versión colombiana y coeficientes de validez
Punto de corte | Sensibilidad | Especificidad | Índice de Youden | Correctamente clasificados % | VP+ | VP– | LR+ | LR– |
---|---|---|---|---|---|---|---|---|
≥ 3 | 0,98 | 0,43 | 0,42 | 55,14 | 0,25 | 0,99 | 1,73 | 0,04 |
≥ 4 | 0,96 | 0,58 | 0,54 | 65,84 | 0,30 | 0,99 | 2,27 | 0,07 |
≥ 5 | 0,96 | 0,71 | 0,67 | 76,54 | 0,39 | 0,99 | 3,34 | 0,05 |
≥ 6 | 0,94 | 0,77 | 0,71 | 80,66 | 0,44 | 0,99 | 4,09 | 0,07 |
≥ 7* | 0,90* | 0,82* | 0,72* | 83,54* | 0,48* | 0,98* | 4,93* | 0,12* |
≥ 8 | 0,83 | 0,88 | 0,71 | 86,83 | 0,57 | 0,96 | 6,87 | 0,20 |
≥ 9 | 0,75 | 0,91 | 0,66 | 87,24 | 0,60 | 0,95 | 7,96 | 0,28 |
≥ 10 | 0,67 | 0,93 | 0,60 | 87,24 | 0,64 | 0,94 | 9,18 | 0,35 |
≥ 11 | 0,60 | 0,94 | 0,54 | 86,83 | 0,66 | 0,92 | 10,35 | 0,43 |
≥ 12 | 0,56 | 0,97 | 0,53 | 88,07 | 0,77 | 0,92 | 17,75 | 0,46 |
≥ 13 | 0,46 | 0,97 | 0,43 | 86,01 | 0,74 | 0,90 | 14,69 | 0,56 |
≥ 14 | 0,31 | 0,99 | 0,30 | 84,36 | 0,85 | 0,88 | 29,38 | 0,70 |
≥ 15 | 0,27 | 0,99 | 0,26 | 83,95 | 0,91 | 0,88 | 51,42 | 0,73 |
El PC óptimo coincide un puntaje del PHQ-9 ≥ 7 (sensibilidad de 90,38 [IC del 95%, 81,41-99,36]; especificidad de 81,68 [IC del 95%: 75,93-87,42]; VPP 57,32 [IC del 95%: 46,00-68,63]; VPN 96,89 [IC del 95%: 93,90-99,88]; índice de Youden 0,72 [IC del 95%: 0,62-0,82]; LR+ 4,93 [IC del 95%: 3,61-6,74]; LR– 0,12 [IC del 95%: 0,005-0,270]).
DiscusiónHasta donde sabemos, este es el primer estudio sobre validez de criterio del PHQ-9 en AP en Colombia. La prevalencia de EDM en este estudio fue del 21,8%. La versión colombiana del PHQ-9 mostró un excelente desempeño diagnóstico como instrumento de cribado de depresión, como lo demostraron el resultado de la curva COR y el ABC. El PHQ-9 también mostró un adecuado balance de sensibilidad y especificidad al PC ≥ 7 al compararlo con la MINI como patrón de referencia, lo cual estableció una adecuada validez de criterio del PHQ-9. La comparación de los puntajes del PHQ-9 con los de la HADS-D y los coeficientes α y ω demostraron una buena validez convergente y una adecuada consistencia interna.
El porcentaje de sujetos clasificados con SDIC de acuerdo con el PHQ-9 al PC prestablecido fue del 27,2% (IC del 95%: 26,3-28,9), mayor a la prevalencia encontrada en Bucaramanga, del 22,3% (IC del 95%: 20,0-24,6) con la escala de Zung10, diferencia que se puede explicar por el bajo rendimiento diagnóstico de la escala de Zung en la población colombiana61. En cuanto a la prevalencia de EDM con la MINI, en esta muestra fue de 21,8 (IC del 95%: 20,8-23,5), que la ubica dentro del rango esperado de acuerdo con un metaanálisis de 41 estudios en AP con prevalencia global ajustada del 19,5% (IC del 95%: 15,7-23,7)62. Sin embargo, la prevalencia de EDM en este estudio es un poco más alta que lo informado en estudios previos en población general de Bucaramanga del 16,5% (IC del 95%: 12,3-21,6)11, lo que puede explicarse por el hecho de que este estudio fue realizado en personas que consultan a centros de AP, en donde la prevalencia de depresión es mayor que en la población general63 y por el predominio de mujeres64.
El coeficiente α de Cronbach fue 0,80 y la ω de McDonald fue de 0,81, lo que indica una buena consistencia interna65,66. Para que un instrumento de autoinforme sea confiable, el α de Cronbach y la ω de McDonald deben ser al menos de 0,7067. La consistencia interna encontrada en este estudio concuerda con un estudio previo en Colombia37 y con otros realizados en diferentes lenguas, cuyos coeficientes oscilaban entre 0,79 y 0,8968,70,71.
Estudios previos han mostrado que el PHQ-9 tiene adecuada validez concurrente con varias medidas, como el inventario de depresión de Hamilton (HAMD), los formularios cortos de evaluación en salud e incluso el PHQ-272. En nuestro estudio, los puntajes totales del PHQ-9 mostraron una correlación positiva estadísticamente significativa con los puntajes de la HADS-D y el PHQ-2 (rho de Spearman 0,64 [p < 0,01] y 0,70 PHQ-2 [p < 0,01], respectivamente), consistente con estudios previos en los que los coeficientes de Pearson para el PHQ-9 con HAMD/BDI estuvieron entre 0,52 y 0,7668,73-75, mientras que en un estudio de pacientes con enfermedad de Parkinson mostró que el PHQ-9 se correlacionó positivamente con la Self Depression Scale y la escala de depresión geriátrica de 15 ítems, con un coeficiente de Spearman de 0,63 para ambas escalas76. Los coeficientes de correlación encontrados en este estudio confirman la validez convergente del PHQ-9, ya que coeficientes de correlación de Spearman entre 0,60 y 0,80 indican una correlación positiva buena o considerable77.
Con respecto al PC, un PC de 10 en el PHQ-9ha sido recomendado para la identificación de EDM en varios estudios34. Por ejemplo, en un estudio de usuarios de AP en la China, un PC óptimo de 10 arrojó una sensibilidad de 0,87 y una especificidad de 0,869. Sin embargo, un reciente metaanálisis de 18 estudios demostró que el PC óptimo del PHQ-9 puede variar entre 8 y 11, dependiendo de la población estudiada; no obstante, el balance de sensibilidad y especificidad se mantiene aún para el PC de 7 (5 de los 18 estudios incluidos)23. En nuestro estudio, el PC de 7 parece haber tenido el óptimo balance de sensibilidad y especificidad, lo cual se confirmó con una medida de exactitud adicional: el índice de Youden78, definido como la máxima distancia vertical entre la curva COR y la línea de 45 grados, como un indicador de que tan lejos la curva está de un test no informativo79. El índice de Youden es una función de la sensibilidad y la especificidad; se calcula como (Se + Es-1)80 y debe ser considerado en adicción a la curva COR, ya que usualmente están correlacionados81. El rango es de 0 a 100 cuando se convierte en porcentaje. Los valores > 50% son generalmente considerados aceptables para exactitud diagnóstica82.
Los valores asociados al PC de nuestro estudio son consistentes con un estudio en adultos mayores de AP, en los cuales la validez de criterio del PHQ-9 se evaluó mediante la administración de la MINI, en donde un PC óptimo ≥ 7 (sensibilidad 0,92; especificidad 0,78) mostró las mejores características psicométricas83. No obstante, este PC de 7 es más bajo que lo encontrado en la mayoría de estudios con el PHQ-9 en otras poblaciones. La características culturales y demográficas de la muestra pueden ser la razón de esta diferencia84. El estigma es un aspecto importante que también puede influir en el patrón de respuesta de las personas a las escalas de cribado de depresión en nuestra población, causando vergüenza en personas con enfermedades mentales que limita la identificación de sus fenómenos psicopatológicos85,86. Llama la atención que los PC para el PHQ-9 tienden a ser más bajos en países de medianos y bajos ingresos87-89 en comparación con los de altos ingresos75,90,91. Sin embargo, no existen estudios que estudien este fenómeno. Esta diferencia en el PC óptimo resalta la importancia de validar instrumentos de cribado en diferentes contextos sociales y culturales92.
Para el PC ≥ 7, la sensibilidad y la especificidad del PHQ-9 en esta muestra fueron del 90 y el 83%, respectivamente. Estos hallazgos son consistentes con el estudio de Wang et al., donde el PC ≥ 7 permitió un abalance adecuado de la sensibilidad y la especificidad (sensibilidad del 85%; especificidad del 86%)93. Por lo tanto, los índices de exactitud en nuestro estudio se consideran apropiados, ya que un instrumento de cribado es considerado bueno cuando su sensibilidad se ubica entre el 79 y el 97%; y la especificidad entre el 63 y el 86%94. Wittkampf et al. revisaron sistemáticamente las propiedades psicométricas del PHQ-9 y encontraron una sensibilidad del 77% (71-84%) y una especificidad del 94% (90-97%), incluyendo estudios en subgrupos de alta prevalencia de depresión, como usuarios de AP25.
La LR+ y la LR– del PHQ-9 en nuestra muestra, para el PC ≥ 7, fueron de 4,93 y 0,12, respectivamente. Esto quiere decir que en un contexto clínico similar, un resultado positivo en el PHQ-9 (PC ≥ 7) es 5 veces más frecuente en un paciente con depresión que en uno sin depresión y un que un sujeto con una prueba negativa tendría una posibilidad menor del 2% de tener depresión95. Estos resultados son comparables con los obtenidos en la versión china del PHQ-9, que con el PC ≥ 7 tuvo unas LR+ y LR– de 5,99 y 0,17, respectivamente93.
El ABC de esta versión colombiana para AP del PHQ-9 fue de 0,92, lo cual demuestra una alta exactitud96 y es consistente con estudios previos en AP y otras poblaciones69,71,93.
Las principales fortalezas de este estudio incluyen el uso de un criterio de referencia clínico para evaluar la validez de criterio del PHQ-9, la adecuada proporción de respuesta de los participantes (75,3%), el entrenamiento adecuado de los entrevistadores, la adherencia a los lineamientos de QUADAS-229 y la ejecución de un plan analítico riguroso. Además, la traducción del PHQ-9 se realizó de acuerdo con los lineamientos estandarizados para la adaptación transcultural de escalas. La participación de un grupo de expertos apoyó la adaptación lingüística y garantizó una apropiada validez de contenido.
Existen varias limitaciones en este estudio. Primero, nuestro estudio fue realizado en el contexto de AP, por lo tanto, los resultados no pueden generalizarse a la población general, cuyas características determinan un patrón de respuesta diferente84. Segundo, el estudio fue limitado a adultos. Existe creciente evidencia que los adolescentes están particularmente afectados por los trastornos depresivos97, por lo que futuros estudios en Colombia deberían evaluar el desempeño psicométrico del PHQ-9 en esa población. En tercer lugar, este fue un estudio transversal, por consiguiente, debería considerarse, en el futuro, diseñar estudios longitudinales para establecer la sensibilidad al cambio del PHQ-9 en población colombiana, ya que existen trabajos que lo han utilizado para evaluar la respuesta al tratamiento de la depresión98. Cuarto, el hecho de que en la muestra hubiera un predominio de mujeres (75%) podría afectar a la estimación de los índices de exactitud, ya que la prevalencia de depresión en mujeres es mayor que en hombres, obteniéndose un número mayor de casos positivos de depresión99. En quinto lugar, una debilidad relativa es el tamaño muestral, que se calculó siguiendo las recomendaciones de Sanchez et al. para comparar la sensibilidad de la prueba tamiz con el patrón de referencia30. Sin embargo, otros autores, como Buderer100 y Obuchowski101, exigen tamaños de muestra mayores. No obstante, si se siguen los criterios de Bean para comparar la sensibilidad o la especificidad de 2 pruebas diagnósticas se obtienen tamaños de muestra similares al nuestro102.
De acuerdo con los resultados globales, la versión colombiana del PHQ-9 para AP tiene un desempeño psicométrico excelente como prueba de cribado, lo que garantiza que pueda ser usada en contextos de escasos recursos y con debilidades en el sistema de salud, donde la disponibilidad de psiquiatras es limitada103. Dentro de las estrategias para limitar la carga de trastornos mentales en países de bajos y medianos ingresos está la integración de la salud mental en la AP104. Una de las principales barreras para alcanzar esta meta es la falta de instrumentos de cribado válidos y fáciles de administrar para detectar depresión. La validación de instrumentos como el PHQ-9 en estos contextos puede ayudar a solucionar este problema105. Se sabe que solo el cribado de depresión es insuficiente para suplir las crecientes necesidades de atención de trastornos mentales en países de bajos y medianos ingresos; sin embargo, dado que la depresión contribuye significativamente a la carga de enfermedad, el tener instrumentos de cribado válidos es la primera etapa hacia la resolución de este problema106. En algunos países de bajos ingresos existen programas costo-efectivos de intervención en depresión, en los cuales los instrumentos de cribado pueden ser usados para identificar los participantes apropiados107. Uno de los principales componentes de las intervenciones efectivas en salud mental en AP es la monitorización de síntomas depresivos usando cuestionarios simples, breves y fáciles de administrar, como el PHQ-9108.
Con la validación de esta versión del PHQ-9, los investigadores en Colombia disponen ahora de información psicométrica válida y confiable sobre el cribado de depresión en AP, que permitirá que el PHQ-9 sea utilizado en estudios en donde se requiera identificar sintomatología depresiva con un PC apropiado.
En conclusión, los resultados de este estudio indican que la versión colombiana del PHQ-9 es un instrumento válido y confiable para el cribado de depresión en el contexto de AP en Bucaramanga, con un PC de 7 o más. Se necesita evaluar las propiedades psicométricas de esta versión del PHQ-9 en poblaciones diferentes y otras regiones del país. Futuros estudios en Colombia deberían evaluar la sensibilidad al cambio del PHQ-9.
FinanciaciónEste trabajo fue financiado por la facultad de medicina de la universidad de Santander (UDES) y el Instituto de Salud de Bucaramanga (ISABU). Código del proyecto: PIFE0118020041816EJ.
AutoríaCarlos Arturo Cassiani-Miranda: diseño, ajuste de la escala, entrenamiento de encuestadores y entrevistadores, recolección de información, análisis estadístico, digitación, redacción y revisión del artículo.
Angy Karina Cuadros-Cruz: diseño, ajuste de la escala, recolección de información y redacción del artículo.
Harold Torres Pinzón: diseño, ajuste de la escala, análisis estadístico, digitación, redacción y revisión del artículo.
Orlando Scoppetta: ajuste de la escala, análisis estadístico, redacción y revisión del artículo.
Jhon Henrry Pinzón-Tarrazona: recolección de información, digitación y redacción del artículo.
Wendy Yulieth López-Fuentes: recolección de información, digitación y redacción del artículo.
Andrea Paez: recolección de información y redacción del artículo.
Diego Fernando Cabanzo-Arenas: digitación, redacción y revisión del artículo.
Sergio Ribero-Marulanda: recolección de información, redacción y revisión del artículo.
Elkin René Llanes-Amaya: recolección de información y redacción del artículo.
Conflicto de interesesNinguno.
Al panel de expertos por sus aportes en validez de apariencia y contenido: Astrid I. Arrieta, Jaider A. Barros, Adalberto Campo-Arias, Mauricio Castaño, Jenny García, Luis A. Montenegro, Jorge A. Niño, Heidi C. Oviedo, Andrés M. Rangel, Jorge J. Téllez-Vargas.