metricas
covid
Buscar en
Educación Médica
Toda la web
Inicio Educación Médica Evidencias de validez de las preguntas de opción múltiple diseñadas por Micro...
Journal Information
Vol. 25. Issue 6. (In progress)
(November - December 2024)
Share
Share
Download PDF
More article options
Visits
182
Vol. 25. Issue 6. (In progress)
(November - December 2024)
Original breve
Full text access
Evidencias de validez de las preguntas de opción múltiple diseñadas por Microsoft Bing (Copilot)
Evidence validity of multiple-choice questions designed with Microsoft Bing (Copilot)
Visits
182
Javier A. Flores-Cohailaa,b,
Corresponding author
javierfloresmed@gmail.com

Autor para correspondencia.
, Ramón Ruesta-Bermejoa, Carlos Gutierrez-Riosc, Carlos Ramos-Godoya, Brayan Miranda-Chávezd, Cesar Copaja-Corzoe,f
a Departamento Académico, Medical Education Services USAMEDIC, Lima, Perú
b Carrera de Medicina Humana, Universidad Científica del Sur, Lima, Perú
c Escuela Profesional de Medicina Humana, Universidad Privada San Juan Bautista, Lima, Perú
d Centro de Investigación de Educación Médica y Bioética - EDUCAB-UPT, Facultad de Ciencias de la Salud, Universidad Privada de Tacna, Tacna, Perú
e Unidad de Investigación para la Generación y Síntesis de Evidencias en Salud, Universidad San Ignacio de Loyola, Lima, Perú
f Servicio de infectología, Hospital Nacional Edgardo Rebagliati Martins, EsSalud, Lima, Perú
This item has received
Article information
Abstract
Full Text
Bibliography
Download PDF
Statistics
Figures (2)
Resumen
Introducción

diseñar preguntas de opción múltiple (POM) con Microsoft Bing (Copilot) para evaluar su calidad e índices psicométricos en educación médica.

Material y métodos

se diseñó un examen de 180 preguntas con Microsoft Bing. Este fue evaluado por educadores médicos en términos de relevancia y calidad de distractores. Luego, tras administrarse a estudiantes, se calcularon los índices de dificultad y discriminación.

Resultados

la mayoría de preguntas fueron de alta relevancia y los distractores de alta calidad. Los índices de discriminación y dificultad de las preguntas fueron aceptables en la mayoría de preguntas.

Conclusión

Microsoft Bing (Copilot) podría usarse como sustituto de ChatGPT para el diseño de POM dadas las evidencias de validez recolectadas en el estudio.

Palabras clave:
Educación médica
Evaluación
Inteligencia artificial
ChatGPT
Preguntas de opción múltiple
Perú
Abstract
Introduction

To design multiple-choice questions (MCQs) using Microsoft Bing (Copilot) and evaluate their quality and psychometric indices in medical education.

Materials and methods

A 180-question exam was designed using Microsoft Bing. It was evaluated by medical educators in terms of relevance and distractor quality. After administering the exam to students, difficulty and discrimination indices were calculated.

Results

Most questions were highly relevant, and the distractors were of high quality. The discrimination and difficulty indices were acceptable for the majority of the questions.

Conclusion

Microsoft Bing (Copilot) could be used as a substitute for ChatGPT in designing MCQs, given the evidence of validity collected in the study.

Keywords:
Medical education
Assessment
Artificial Intelligence
ChatGPT
Multiple-choice questions
Peru
Full Text
Introducción

Las preguntas de opción múltiple (POM) son ampliamente usadas para la evaluación en educación médica. Sin embargo, su diseño es costoso y trabajoso1. Con la introducción de modelos de lenguaje largos (LLM, por sus siglas en inglés), distintos autores los han propuesto como solución para cerrar estas brechas2. Una reciente revisión sistemática ha explorado su uso en el diseño de POM, encontrando resultados alentadores. Sin embargo, también encontró que los estudios solo se han centrado en GPT-3.5 y GPT-4 3.

Debido a que ChatGPT-4 es de paga y no es accesible para todos los educadores, existe la necesidad de usar otros LLM. Dentro de las potenciales alternativas, Microsoft Bing (ahora Copilot) emerge como el principal candidato. Este LLM es de acceso abierto y es potenciado por GPT-4. Teniendo esto en cuenta, en este estudio diseñamos POM con Microsoft Bing (Copilot) para luego evaluar su calidad e índices psicométricos.

Materiales y métodos

Se realizó un estudio transversal analítico para recolectar evidencias de validez en POM diseñadas por Microsoft Bing (Copilot).

Procedimientos

Se usó la tabla de especificaciones del Examen Nacional de Medicina (ENAM) de Perú para el diseño del examen. Se diseñó un prompt con base en experiencias previas y buenas prácticas de diseño de POM4. El prompt tuvo 4 componentes: 1) rol; 2) tarea; 3) formato de entrega y 4) reglas (fig. 1). Luego, 3 educadores médicos (Carlos Gutierrez-Rios, Carlos Ramos-Godoy y Ramón Ruesta-Bermejo) evaluaron las preguntas bajo 3 criterios: relevancia, calidad de distractores y posible uso en el ENAM. Culminada la evaluación por los educadores, el examen fue administrado de forma voluntaria y no sumativa a un grupo de 36 estudiantes en un curso preparatorio para el ENAM.

Figura 1.

Prompt y ejemplo de pregunta diseñada por Microsoft Bing (Copilot).

(0.23MB).
Análisis estadístico

Se describieron las variables categóricas en frecuencia absoluta y relativa. Se utilizó la teoría clásica de test para estimar los índices de dificultad y discriminación de cada pregunta. De acuerdo al índice de dificultad, se consideró moderada entre 0,3 y 0,7, baja mayor de0,7 y alta menor de0,3. Se consideró una discriminación adecuada si el índice era mayor o igual a 0,3. Todos los análisis fueron realizados en RStudio (Versión 4.1.2).

Resultados

La evaluación realizada por los educadores médicos se muestra en la figura 2. La mayoría de preguntas (n=164; 91%) fueron de alta relevancia. El área con más preguntas de relevancia baja fue el de ciencias básicas (n=18; 10%). Con respecto a la calidad de distractores, la mayoría fueron de calidad alta (n=160; 89%), el área con mejores distractores fue emergencia (n=169, 94%), mientras que el área con peores distractores fue el de salud pública (n=20, 11%).

Figura 2.

Relevancia, calidad e indices psicométricos de distractores de preguntas diseñadas por Microsoft Bing (Copilot).

(0.66MB).

El índice de dificultad y discriminación de las preguntas se muestra en la figura 2. En general, las preguntas tuvieron una dificultad variable, siendo la mayoría de moderada dificultad (n=110; 61%), seguidas por preguntas de dificultad baja (n=45; 25%) y alta (n=25; 14%). Con respecto a la discriminación, en la mayoría de preguntas fue buena (n=121; 67%). Las preguntas diseñadas por Microsoft Bing con mejores índices de discriminación correspondieron a las áreas de obstetricia y ginecología, salud pública y ciencias básicas.

DiscusiónResumen de resultados

En este estudio diseñamos 180 POM con Microsoft Bing (Copilot). Nuestros resultados principales fueron: 1) la mayoría de preguntas diseñadas tuvieron una calidad de distractores alta y 2) los índices psicométricos de la prueba son adecuados.

Implicancias

De nuestro conocimiento, este es el primer estudio que evalúa la validez de las preguntas diseñadas por un LLM distinto a ChatGPT. Los resultados son similares a los de Coskun et al., donde se encontró un índice de discriminación adecuado en 6 de cada 10 preguntas5. Con respecto a la relevancia de las preguntas, nuestros resultados son similares a los de Rivera-Rosas6, que encontró que 9 de cada 10 preguntas hechas por LLM eran concisas y comprensibles. Cabe destacar que ambos trabajos previos se hicieron con ChatGPT (3.5 y 4), y aunque no es el mismo LLM que usamos, parece existir una tendencia en el desempeño de los LLM para el diseño de POM. Por lo tanto, el uso de Microsoft Bing (Copilot) es factible para el diseño de POM con supervisión y revisión de educadores.

Futuras direcciones

Distintas direcciones para futuras investigaciones emergen de este estudio. Aunque ofrecemos un prompt, Microsoft Bing esun LLM genérico, lo cual limita el potencial de estas tecnologías para diseño de POM. Por lo tanto, se requieren LLM específicos para la educación médica. Aunque hayamos recolectado evidencias de validez, no pudimos realizar la comparación con preguntas diseñadas por expertos, ni la evaluación de la calidad de preguntas por parte de los estudiantes, ni el efecto que las preguntas diseñadas por LLM tienen como herramientas de evaluación formativa. Esta es una potencial dirección para futuras investigaciones que podra enriquecer nuestra comprensión del campo. Finalmente, vemos necesario una expansión en el uso de estos LLM para el diseño de otros instrumentos de evaluación como casos clínicos, escenarios para ECOE, pruebas de concordancia de guión y más.

Nuestros resultados sugieren que Microsoft Bing (Copilot) puede ser usado como alternativa a ChatGPT para el diseño de POM. Sin embargo, es necesaria una evaluación de estas por parte de los educadores.

Responsabilidades éticas

Los autores declaran que para este estudio no se han realizado experimentos en seres humanos ni en animales. Los autores declaran que en este artículo no aparecen datos de pacientes ni estudiantes.

Financiación

Este estudio fue financiado por USAMEDIC Medical Education Services.

Conflicto de intereses

Los autores declaran no tener ningún conflicto de intereses.

Bibliografía
[1.]
M.J. Gierl, H. Lai, V. Tanygin.
Advanced Methods in Automatic Item Generation [Internet].
[2.]
A.K. Khilnani.
Potential of Large Language Model (ChatGPT) in Constructing Multiple Choice Questions.
[3.]
Y. Artsi, V. Sorin, E. Konen, B.S. Glicksberg, G. Nadkarni, E. Klang.
Large language models for generating medical examinations: systematic review.
BMC Med Educ, 24 (2024), pp. 354
[4.]
K. Masters, J. Benjamin, A. Agrawal, H. MacNeill, M.T. Pillow, N. Mehta.
Twelve tips on creating and using custom GPTs to enhance health professions education.
Med Teach, 1-5 (2024),
[5.]
Ö. Coşkun, Y.S. Kıyak, I.İ. Budakoğlu.
ChatGPT to generate clinical vignettes for teaching and multiple-choice questions for assessment: a randomized controlled experiment.
Med Teach, 0 (2024), pp. 1-7
[6.]
C.N. Rivera-Rosas, J.R.T. Calleja-López, E. Ruibal-Tavares, A. Villanueva-Neri, C.M. Flores-Felix, S. Trujillo-López.
Exploring the potential of ChatGPT to create multiple-choice question exams.
Copyright © 2024. The Authors
Article options
es en pt

¿Es usted profesional sanitario apto para prescribir o dispensar medicamentos?

Are you a health professional able to prescribe or dispense drugs?

Você é um profissional de saúde habilitado a prescrever ou dispensar medicamentos

Quizás le interese:
10.1016/j.edumed.2024.100939
No mostrar más