metricas
covid
Buscar en
Revista Colombiana de Psiquiatría
Toda la web
Inicio Revista Colombiana de Psiquiatría Automatic Speech Recognition in Psychiatric Interviews: A Rocket to Diagnostic S...
Información de la revista
Compartir
Compartir
Descargar PDF
Más opciones de artículo
Original Article
Disponible online el 8 de febrero de 2024
Automatic Speech Recognition in Psychiatric Interviews: A Rocket to Diagnostic Support in Psychosis
Reconocimiento automático del habla en entrevistas psiquiátricas: un impulso al soporte diagnóstico en psicosis
José Tomás García Molinaa,b,
Autor para correspondencia
josegarcia@ug.uchile.cl

Corresponding author.
, Pablo A. Gaspara,b,c, Alicia Figueroa-Barraa,b,c
a Department of Psychiatry and Mental Health, Faculty of Medicine, Universidad de Chile, Santiago, Chile
b Translational Psychiatry Laboratory-Psiquislab, Faculty of Medicine, Universidad de Chile, Santiago, Chile
c Millennium Nucleus to Improve the Mental Health of Adolescents and Youths (IMHAY), Santiago, Chile
Recibido 15 Septiembre 2023. Aceptado 28 Diciembre 2023
Información del artículo
Resumen
Texto completo
Bibliografía
Descargar PDF
Estadísticas
Figuras (4)
Mostrar másMostrar menos
Abstract

Speech analysis is a crucial tool in discerning the complex cognitive and emotional subtleties of individuals. It holds a significant role in psychiatric research, particularly in the detection and understanding of psychopathological conditions such as psychosis. The process involves computational analysis of speech using natural language processing (NLP) tools, which necessitates a transcription of the speech. However, the manual transcription process is both time-consuming and costly, posing a substantial challenge to large-scale investigations. To address this, we explore the use of “Whisper”, an automated speech recognition (ASR) tool developed by OpenAI©, for transcribing psychiatric interviews in Spanish in heterogeneous environmental conditions. The specific objectives are to compare the transcription accuracy of Whisper with a manual transcription, determine and compare linguistic elements (noun phrases, determiners, and type–token ratio), and examine environmental elements that could alter the quality of the transcription. Sixteen interviews were transcribed using Whisper, and all of them had a manual reference transcription to be compared. A word error ratio (WER, which measures the insertions, deletions, and substitutions that are required to change one word for another) of 7.80% was obtained, with no significant differences by gender. Furthermore, no differences were found in the count and proportionality of nominal phrases, use of determiners, and the type–token ratio (TTR). The findings indicate that Whisper is a precise instrument for transcribing clinical interviews in Spanish. It has a minimal error rate and negligible loss of linguistic data, even in adverse conditions. This could streamline large-scale research endeavors in speech analysis within the clinical domain.

Keywords:
Speech recognition software
Psychotic disorder
Natural language processing
Resumen

El estudio de la producción lingüística es una vía clave para conocer el complejo mundo cognitivo y emocional de las personas, particularmente dentro de la investigación en psiquiatría, donde guarda un rol crucial en la definición de condiciones psicopatológicas como, por ejemplo, la psicosis. Sin embargo, el estudio del lenguaje mediante técnicas de procesamiento de lenguaje natural (NLP) posee una limitante asociada a la transcripción, hasta hoy en día realizada principalmente a mano, significando un desafío temporal y económico, que limita la investigación en este ámbito. Por aquello en este estudio exploramos el uso de «Whisper», una herramienta de reconocimiento automático del habla (ASR) desarrollada por OpenAI©, para transcribir entrevistas fenomenológicas en español en condiciones ambientales heterogéneas. Los objetivos específicos son comparar la precisión de la transcripción de Whisper con una transcripción manual, determinar y comparar los elementos lingüísticos (frases nominales, determinantes y relación tipo-token), y examinar los elementos ambientales que podrían alterar la calidad de la transcripción. Se transcribieron dieciséis entrevistas utilizando Whisper, todas ellas tenían una transcripción de referencia manual para comparar. Se obtuvo una tasa palabra-error (WER, que comprende la medición de inserciones, deleciones y sustituciones necesarias para cambiar una palabra por otra) de 7,80%, sin diferencias significativas por género. Además, no se encontraron diferencias en el recuento y proporcionalidad de las frases nominales, el uso de determinantes y la relación tipo-token (TTR). Los hallazgos indican que Whisper es un instrumento preciso para transcribir entrevistas clínicas en español. Tiene una tasa de error mínima y una pérdida despreciable de datos lingüísticos, incluso en condiciones adversas. Esto podría facilitar la investigación a gran escala en el análisis del habla dentro del dominio clínico.

Artículo

Opciones para acceder a los textos completos de la publicación Revista Colombiana de Psiquiatría
Suscriptor
Suscriptor de la revista

Si ya tiene sus datos de acceso, clique aquí.

Si olvidó su clave de acceso puede recuperarla clicando aquí y seleccionando la opción "He olvidado mi contraseña".
Comprar
Comprar acceso al artículo

Comprando el artículo el PDF del mismo podrá ser descargado

Precio 19,34 €

Comprar ahora
Contactar
Teléfono para suscripciones e incidencias
De lunes a viernes de 9h a 18h (GMT+1) excepto los meses de julio y agosto que será de 9 a 15h
Llamadas desde España
932 415 960
Llamadas desde fuera de España
+34 932 415 960
E-mail
Opciones de artículo
Herramientas