Quality of information about urologic pathology in English and Spanish from ChatGPT, BARD, and Copilot

Szczesniewski, J.J.; Ramos Alba, A.; Rodríguez Castro, P.M.; Lorenzo Gómez, M.F.; Sainz González, J.; Llanes González, L.

doi:10.1016/j.acuroe.2024.02.009

Información del artículo

Resumen

Texto completo

Bibliografía

Descargar PDF

Estadísticas

Tablas (4)

Table 1. Scoring of responses provided by ChatGPT on DISCERN test and Likert scale for information appropriacy. Appropriacy is defined as no score <3 on the Likert scale.

Table 2. Scoring of responses provided by BARD on DISCERN test and Likert scale for information appropriacy. Appropriacy is defined as no score <3 on the Likert scale.

Table 3. Scoring of responses provided by Copilot on DISCERN test and Likert scale for information appropriacy. Appropriacy is defined as no score <3 on the Likert scale.

Table 4. Score on the informed consent questionnaire developed by Spatz et al. 15

Mostrar másMostrar menos

Material adicional (1)

Abstract

Introduction and objective

Generative artificial intelligence makes it possible to ask about medical pathologies in dialog boxes. Our objective was to analyze the quality of information about the most common urological pathologies provided by ChatGPT (OpenIA), BARD (Google), and Copilot (Microsoft).

Methods

We analyzed information on the following pathologies and their treatments as provided by AI: prostate cancer, kidney cancer, bladder cancer, urinary lithiasis, and benign prostatic hypertrophy (BPH). Questions in English and Spanish were posed in dialog boxes; the answers were collected and analyzed with DISCERN questionnaires and the overall appropriateness of the response. Surgical procedures were performed with an informed consent questionnaire.

Results

The responses from the three chatbots explained the pathology, detailed risk factors, and described treatments. The difference is that BARD and Copilot provide external information citations, which ChatGPT does not. The highest DISCERN scores, in absolute numbers, were obtained in Copilot; however, on the appropriacy scale it was noted that their responses were not the most appropriate. The best surgical treatment scores were obtained by BARD, followed by ChatGPT, and finally Copilot.

Conclusions

The answers obtained from generative AI on urological diseases depended on the formulation of the question. The information provided had significant biases, depending on pathology, language, and above all, the dialog box consulted.

Keywords:

Artificial intelligence

Information quality

ChatGPT

Copilot

BARD

Urology

Resumen

Introducción y objetivo

La inteligencia artificial (IA) generativa permite preguntar, a través de los cuadros de diálogo, sobre patologías médicas. Nuestro objetivo fue analizar la calidad de la información acerca de las patologías urológicas más comunes en los chatbots ChatGPT de OpenIA, BARD de Google y Copilot de Microsoft.

Material y método

Se realizó un análisis de la información aportada por IA sobre las siguientes patologías y sus tratamientos: cáncer de próstata, cáncer renal, cáncer de vejiga, litiasis urinarias e hipertrofia benigna de próstata (HBP). A través de cuadros de diálogo se formularon preguntas estructuradas en inglés y en español, recopilando las respuestas para analizarlas posteriormente con cuestionarios DISCERN y sobre la idoneidad global de la respuesta. Los tratamientos quirúrgicos se realizaron con cuestionario de consentimiento informado.

Resultados

Las respuestas obtenidas a través de los tres chatbots explicaron la patología, detallaron los factores de riesgo y describieron los tratamientos. La diferencia radica en que BARD y Copilot aportan citas de información externa, algo que ChatGPT no realiza. Las puntuaciones DISCERN más altas, en números absolutos, se obtuvieron en Copilot; sin embargo, en la escala de idoneidad se objetivó que sus respuestas no fueron las más apropiadas. Las mejores puntuaciones de tratamientos quirúrgicos fueron obtenidas por BARD, seguido de ChatGPT y finalmente de Copilot.

Conclusiones

Las respuestas obtenidas de la IA generativa sobre enfermedades urológicas dependieron de la formulación de la pregunta. La información proporcionada presentó sesgos importantes, dependiendo de la patología, del idioma y, sobre todo, del cuadro de diálogo consultado.

Palabras clave:

Inteligencia artificial

Calidad de información

ChatGPT

Copilot

BARD

Urología

Artículo

Opciones para acceder a los textos completos de la publicación Actas Urológicas Españolas (English Edition)

Suscriptor

Suscriptor de la revista

Si ya tiene sus datos de acceso, clique aquí.

Si olvidó su clave de acceso puede recuperarla clicando aquí y seleccionando la opción "He olvidado mi contraseña".

Suscribirse a:

Actas Urológicas Españolas (English Edition)

Más información

Comprar

Comprar acceso al artículo

Comprando el artículo el PDF del mismo podrá ser descargado

Comprar ahora

Contactar

Teléfono para suscripciones e incidencias

De lunes a viernes de 9h a 18h (GMT+1) excepto los meses de julio y agosto que será de 9 a 15h

Llamadas desde España

932 415 960

Llamadas desde fuera de España

+34 932 415 960

E-mail

atencionalcliente@elsevier.com

Indexada en:

Síguenos:

Suscribirse:

Artículo

Indexada en:

Síguenos:

Suscribirse:

Artículo

Suscríbase a la newsletter