Exploring the potential of Artificial Intelligence in Traumatology: Conversational answers to specific questions

ISSN: 1888-4415

Revista Española de Cirugía Ortopédica y Traumatología es el Órgano Oficial de la Sociedad Española de Cirugía Ortopédica y Traumatología que aglutina a 7300 miembros y es la principal revista española de la especialidad.
En el contenido de la revista se da prioridad a la publicación de artículos originales de investigación sobre la especialidad, siendo ésta su finalidad principal: la publicación de los mejores artículos originales de investigación en español. Además, se publican uno o dos casos clínicos por número, que son de gran interés para los lectores, ya que suelen exponer casos excepcionales, de dificultad diagnóstica o terapéutica. Las secciones de Actualización y Trabajos de Investigación tienen gran interés para los especialistas, gracias a una cuidadosa selección de los temas.
El Comité Editorial está formado por 10 miembros independientes, especialistas de reconocido prestigio que no forman parte de los órganos de gobierno de la Sociedad. Todos los trabajos son evaluados de manera ciega por al menos 3 pares, cuyo criterio es finalmente supervisado por el Editor del área de conocimiento y por el Director de la Revista. La Revista está incluida en las principales bases de datos: MEDLINE/PubMed, IME, EMBASE, Bibliomed, SCOPUS e IBECS.

Ver más Opción Open Access

Indexada en:

MEDLINE/PubMed, IME, EMBASE, Bibliomed, SCOPUS, IBECS

Antecedentes y objetivo La inteligencia artificial generativa es una tecnología que ofrece su mayor conectividad con las personas gracias a los bots conversacionales («chatbot»). Estos pueden mantener un diálogo con un lenguaje natural indistinguible del humano y son una fuente potencial de información para los pacientes. El objetivo de este trabajo es estudiar el rendimiento de estos bots en la resolución de cuestiones específicas de cirugía ortopédica y traumatología empleando las preguntas del examen MIR español entre 2008 y 2023.

Material y métodos Se analizaron 3 modelos de «chatbots» (ChatGPT, Bard y Perplexity) respondiendo a 114 preguntas del MIR. Se compararon aciertos, se valoró la legibilidad de las respuestas y se examinó su dependencia con el razonamiento lógico y la información interna y externa. En los fallos también se evaluó el tipo de error.

Resultados ChatGPT obtuvo un 72,81% de aciertos, seguido por Perplexity (67,54%) y Bard (60,53%). Las respuestas más legibles y completas las ofrece Bard. Las respuestas demostraron un razonamiento lógico y el uso de información interna de los enunciados de preguntas. En 16 preguntas (14%) las 3 aplicaciones fallaron simultáneamente. Se identificaron errores, que incluían fallos lógicos y de información.

Conclusiones Aunque los bots conversacionales pueden ser útiles en la resolución de preguntas médicas, se señala la necesidad de precaución debido a la posibilidad de errores. Actualmente deben considerarse como una herramienta en desarrollo y la opinión humana debe prevalecer sobre la inteligencia artificial generativa.

Palabras clave:

Inteligencia artificial generativa

Robot conversacional

Respuesta a preguntas de opción múltiple

ChatGPT

Bard

Perplexity

Abstract

Introduction Generative Artificial Intelligence is a technology that provides greater connectivity with people through conversational bots («chatbots»). These bots can engage in dialogue using natural language indistinguishable from humans and are a potential source of information for patients. The aim of this study is to examine the performance of these bots in solving specific issues related to orthopedic surgery and traumatology using questions from the Spanish MIR exam between 2008 and 2023.

Material and methods Three «chatbot» models (ChatGPT, Bard and Perplexity) were analyzed by answering 114 questions from the MIR. Their accuracy was compared, the readability of their responses was evaluated, and their dependence on logical reasoning and internal and external information was examined. The type of error was also evaluated in the failures.

Results ChatGPT obtained 72.81% correct answers, followed by Perplexity (67.54%) and Bard (60.53%). Bard provides the most readable and comprehensive responses. The responses demonstrated logical reasoning and the use of internal information from the question prompts. In 16 questions (14%), all 3 applications failed simultaneously. Errors were identified, including logical and information failures.

Conclusions While conversational bots can be useful in resolving medical questions, caution is advised due to the possibility of errors. Currently, they should be considered as a developing tool, and human opinion should prevail over Generative Artificial Intelligence.

Keywords:

Generative Artificial Intelligence

Chatbot

Multi-choice question answering

ChatGPT

Bard

Perplexity

El Texto completo está disponible en PDF

Publique en

Revista Española de Cirugía Ortopédica y Traumatología

Revista Española de Cirugía Ortopédica y Traumatología se adhiere a los principios y procedimientos dictados por el Committee on Publication Ethics (COPE)
www.publicationethics.org.

Descargar PDF

Indexada en:

Síguenos:

Suscríbase a la newsletter