Speech analysis is a crucial tool in discerning the complex cognitive and emotional subtleties of individuals. It holds a significant role in psychiatric research, particularly in the detection and understanding of psychopathological conditions such as psychosis. The process involves computational analysis of speech using natural language processing (NLP) tools, which necessitates a transcription of the speech. However, the manual transcription process is both time-consuming and costly, posing a substantial challenge to large-scale investigations. To address this, we explore the use of “Whisper”, an automated speech recognition (ASR) tool developed by OpenAI©, for transcribing psychiatric interviews in Spanish in heterogeneous environmental conditions. The specific objectives are to compare the transcription accuracy of Whisper with a manual transcription, determine and compare linguistic elements (noun phrases, determiners, and type–token ratio), and examine environmental elements that could alter the quality of the transcription. Sixteen interviews were transcribed using Whisper, and all of them had a manual reference transcription to be compared. A word error ratio (WER, which measures the insertions, deletions, and substitutions that are required to change one word for another) of 7.80% was obtained, with no significant differences by gender. Furthermore, no differences were found in the count and proportionality of nominal phrases, use of determiners, and the type–token ratio (TTR). The findings indicate that Whisper is a precise instrument for transcribing clinical interviews in Spanish. It has a minimal error rate and negligible loss of linguistic data, even in adverse conditions. This could streamline large-scale research endeavors in speech analysis within the clinical domain.
El estudio de la producción lingüística es una vía clave para conocer el complejo mundo cognitivo y emocional de las personas, particularmente dentro de la investigación en psiquiatría, donde guarda un rol crucial en la definición de condiciones psicopatológicas como, por ejemplo, la psicosis. Sin embargo, el estudio del lenguaje mediante técnicas de procesamiento de lenguaje natural (NLP) posee una limitante asociada a la transcripción, hasta hoy en día realizada principalmente a mano, significando un desafío temporal y económico, que limita la investigación en este ámbito. Por aquello en este estudio exploramos el uso de «Whisper», una herramienta de reconocimiento automático del habla (ASR) desarrollada por OpenAI©, para transcribir entrevistas fenomenológicas en español en condiciones ambientales heterogéneas. Los objetivos específicos son comparar la precisión de la transcripción de Whisper con una transcripción manual, determinar y comparar los elementos lingüísticos (frases nominales, determinantes y relación tipo-token), y examinar los elementos ambientales que podrían alterar la calidad de la transcripción. Se transcribieron dieciséis entrevistas utilizando Whisper, todas ellas tenían una transcripción de referencia manual para comparar. Se obtuvo una tasa palabra-error (WER, que comprende la medición de inserciones, deleciones y sustituciones necesarias para cambiar una palabra por otra) de 7,80%, sin diferencias significativas por género. Además, no se encontraron diferencias en el recuento y proporcionalidad de las frases nominales, el uso de determinantes y la relación tipo-token (TTR). Los hallazgos indican que Whisper es un instrumento preciso para transcribir entrevistas clínicas en español. Tiene una tasa de error mínima y una pérdida despreciable de datos lingüísticos, incluso en condiciones adversas. Esto podría facilitar la investigación a gran escala en el análisis del habla dentro del dominio clínico.