Estudio comparativo de la capacidad de aprendizaje de ChatGPT en la resolución de preguntas de especialización médica

Fuentes-Martín, Álvaro; Cilleruelo-Ramos, Ángel; Segura-Méndez, Bárbara; Mayol, Julio

doi:10.1016/j.opresp.2024.100340

ISSN: 2659-6636

Open Respiratory Archives is one of the official publications from the Spanish Respiratory Society of Pulmonology and Thoracic Surgery (SEPAR) and a companion title to the highly-regarded Archivos de Bronconeumología.

Open Respiratory Archives is a new online only, open access, peer reviewed journal that publishes original studies whose content is based upon results dealing with several aspects of respiratory diseases such as epidemiology, pathophysiology, clinics, surgery and basic investigation. Other types of articles such as reviews, editorials, clinical images, scientific letters, and letters to the Editor are also published in the Journal. In addition, the Journal may also publish society documents such as guidelines, position documents, statements, and consensus reports as long as redundancy with previous publications in other society journals does not exist or the degree of similarity is low. Authors of this type of society documents must prove scientific accreditation in the target areas.

All the manuscripts received in the Journal are sent to peer-review and are handled by the Editor or an Associate Editor from the team. The official languages of the Journal are English and Spanish. Therefore, manuscripts can be submitted in either language.

The areas covered in the Journal are of general interest to the average clinician dealing with respiratory patients, especially pulmonologists and thoracic surgeons. Other types of professionals may also find the contents published in the Journal of interest for their clinical practice: internists, radiologists, immunologists, physiotherapists, rehabilitators, primary care doctors, nurses, and other professionals.

Ver más Opción Open Access

Indexada en:

Scopus, Directory of Open Access Journals (DOAJ), PubMed Central (PMC), SCImago Journal Rank (SJR), SNIP

El reciente estudio «Can an Artificial Intelligence Model Pass an Examination for Medical Specialists?»1 publicado en la revista Archivos de Bronconeumología, refleja la capacidad de ChatGPT (OpenAI, San Francisco, EE. UU.), un modelo del Procesamiento del Lenguaje Natural (PLN) entrenado mediante algoritmos de aprendizaje automático, en la resolución de preguntas de medicina especializada mediante la superación de una fase opositiva de cirugía torácica.

El objetivo de esta carta es realizar una reflexión sobre la capacidad actual de aprendizaje de dichos modelos de Inteligencia Artificial Generativa (IAG). Para ello, hemos evaluado su capacidad de mejora en la resolución de dichas preguntas de temática médica en un intervalo de 90 días.

Se ha realizado un análisis descriptivo de la capacidad de resolución de ChatGPT-3.5 frente a ChatGPT-4 respecto al mismo examen de oposición de la especialidad de cirugía torácica en la convocatoria de 2022 del Servicio Andaluz de Salud.

La resolución de preguntas por ChatGPT se realizó a través de su plataforma online en dos intervalos: 10/02/2023-15/02/2023 y 11/05/2023-13/05/2023, utilizando el siguiente prompt: «RESPONDE LA SIGUIENTE PREGUNTA TEST:». Se utilizaron sesiones independientes para cada pregunta del cuestionario teórico, utilizándose la misma sesión para las series de preguntas basadas en el mismo escenario, aumentando el rendimiento del modelo mediante la utilización del sesgo de retención de memoria del mismo. Se utilizó como patrón de respuesta la plantilla oficial definitiva publicada por la administración pública. El examen contó con 146 preguntas (cuestionario teórico: 98/cuestionario práctico: 48).

ChatGPT-3.5 alcanzó una tasa de acierto global del 58,9% (86), desglosada en un 63,2% (62) en el cuestionario teórico y un 50% (24) en el práctico. Por otro lado, ChatGPT-4 obtuvo una tasa de acierto global del 65,7% (96), con un 71,43% (70) en el cuestionario teórico y un 54,16% (26) en el práctico. Aplicando los criterios de puntuación, ChatGPT-4, como ya consiguió ChatGPT-3.5, aprobaría este examen de oposición; sin embargo, el análisis inferencial no reveló diferencias estadísticamente significativas (p> 0.05) con respecto a la tasa de respuestas correctas entre ambas versiones.

Nuestro estudio contrasta con otras publicaciones que han evaluado de forma reciente la capacidad de aprendizaje de dichos modelos de IAG respecto a la resolución de escenarios específicos dentro del ámbito de la medicina, entre ellos, por ejemplo, se ha evidenciado una mejoría en la capacidad de resolución de ChatGPT-3.5 frente a ChatGPT-4 en el ámbito de la oncología radioterápica2 o de la oftalmología3,4.

Estos hallazgos nos deben hacer reflexionar sobre la magnitud del progreso de los modelos de IAG al enfrentarse a áreas de razonamiento crítico complejo. Es crucial puntualizar que la precisión y la validez de la información generada por estos modelos de IAG dependen no solo de los algoritmos aplicados y su capacidad computacional, sino también de forma directa de la veracidad de los datos de los que aprenden estos modelos5,6.

Como conclusión, la capacidad de aprendizaje en los modelos de IAG puede ser significativa y de valor para la práctica médica en contextos específicos. Los autores consideramos imperativo que la comunidad científica desempeñe un papel activo en garantizar la precisión y validez de la información generada y de los datos utilizados en el entrenamiento de este tipo de modelos de IAG, así como en la evaluación del progreso y en la aplicación de estos al ámbito de la medicina.

Financiación

Este trabajo no ha recibido ningún tipo de financiación.

Contribuciones de los autores

Todos los autores participaron en la concepción y diseño del trabajo. Todos los autores creen que el manuscrito representa un trabajo válido, lo han leído y lo han aprobado completamente. Los autores garantizan que el artículo es original y no ha sido enviado a otra revista para su publicación.

Conflictos de interés

Los autores declaran no tener ningún conflicto de intereses.

Bibliografía

[1]

Á. Fuentes-Martín, Á. Cilleruelo-Ramos, B. Segura-Méndez, J. Mayol.

Can an Artificial Intelligence Model Pass an Examination for Medical Specialists?.

Arch Bronconeumol., 59 (2023), pp. 534-536

http://dx.doi.org/10.1016/j.arbres.2023.03.017 | Medline

[2]

Y. Huang, A. Gomaa, S. Semrau, M. Haderlein, S. Lettmaier, T. Weissmann, et al.

Benchmarking ChatGPT-4 on a radiation oncology in-training exam and Red Journal Gray Zone cases: potentials and challenges for ai-assisted medical education and decision making in radiation oncology.

Front Oncol., 13 (2023), pp. 1265024

http://dx.doi.org/10.3389/fonc.2023.1265024 | Medline

[3]

Z.W. Lim, K. Pushpanathan, S.M.E. Yew, Y. Lai, C.H. Sun, J.S.H. Lam, et al.

Benchmarking large language models’ performances for myopia care: a comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Google Bard.

EBioMedicine., 95 (2023), pp. 104770

http://dx.doi.org/10.1016/j.ebiom.2023.104770 | Medline

[4]

R. Raimondi, N. Tzoumas, T. Salisbury, S. Di Simplicio, M.R. Romano, North East Trainee Research in Ophthalmology Network (NETRiON).

Comparative analysis of large language models in the Royal College of Ophthalmologists fellowship exams.

Eye (Lond)., 37 (2023), pp. 3530-3533

http://dx.doi.org/10.1038/s41433-023-02563-3 | Medline

[5]

T. Lukoianova, V. Rubin.

Veracity Roadmap: Is Big Data Objective, Truthful and Credible?.

Advances in Classification Research Online., 24 (2014),

http://dx.doi.org/10.7152/ACRO.V24I1.14671

[6]

T.H. Kung, M. Cheatham, A. Medenilla, C. Sillos, L. De Leon, C. Elepaño, et al.

Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models.

PLOS Digit Health., 2 (2023), pp. e0000198

http://dx.doi.org/10.1371/journal.pdig.0000198 | Medline

Descargar PDF

Indexada en:

Síguenos:

Suscríbase a la newsletter