Nos gustaría debatir la publicación «Explorar el potencial de la inteligencia artificial en traumatología: respuestas conversacionales a preguntas específicas»1. Al tratarse de responder preguntas médicas, ChatGPT reflejó la mejor precisión (72,81%), seguida de Perplexity (67,54%) y Bard (60,53%) en un estudio que comparó los 3 modelos de chatbot. Aunque Bard ofreció las respuestas más accesibles y completas, en el 14% de las preguntas los 3 modelos fallaron al mismo tiempo. La incapacidad conversacional de los bots para manejar con efectividad las preguntas médicas se demostró mediante la identificación de errores en términos de información y razonamiento lógico en las respuestas.
El estudio encontró que una de las debilidades de los modelos de chatbot fue su dependencia de la precisión como principal indicador del desempeño. Al evaluar la eficacia de los bots, deberán tenerse en cuenta la legibilidad, el razonamiento lógico y la utilización de los datos externos, además de la precisión. Además, la amplitud de la evaluación puede haberse visto restringida por la técnica utilizada para evaluar los chatbots, que se limitó a responder a preguntas médicas particulares en lugar de mantener un diálogo más amplio u ofrecer respuestas basadas en el contexto.
El estudio futuro en este campo deberá centrarse en la creación de modelos mejores de chatbot que otorguen prioridad a la recuperación externa de información y el razonamiento lógico en sus respuestas. Además, la investigación de métodos para incorporar supervisión y aportación humanos a los intercambios del chatbot puede ayudar a reducir errores y garantizar la precisión de los datos retornados. A fin de evaluar el avance continuo y la eficacia de los bots conversacionales en el sector sanitario deberán realizarse también estudios longitudinales, incorporando comentarios de los usuarios y ajustando los modelos de acuerdo con los escenarios actuales de uso.
Nivel de evidenciaNivel de evidencia v.
AutoríaHP aportó el 50% de las ideas, redacción, análisis y aprobación.
VW aportó el 50% de las ideas, supervisión y aprobación.
Declaración de aprobación éticaNo aplicable.
Declaración de consentimiento del pacienteNo aplicable.
Permiso para reproducir material de otras fuentesNo aplicable.
Registro de ensayos clínicosNo aplicable.
FinanciaciónNo ha existido financiación.
Conflicto de interesesLos autores declaran la ausencia de conflicto de intereses.
Disponibilidad de datosNo existe generación de nuevos datos.