Conocer si el uso de la rúbrica para el examen oral de Traumatología y Ortopedia aporta información sobre competencias transversales.
Tipo de estudioExperimental con un grupo control.
Material y métodosGrupo control: 67 alumnos calificados globalmente mediante examen oral. Grupo intervención: 68 alumnos valorados con rúbrica que contiene las dimensiones: conocimiento teórico, precisión en la terminología, concreción en el lenguaje y uso de fuentes adicionales de información.
ResultadosExiste diferencia entre las calificaciones del grupo control (mediana 9, RIC: 9, 9) y el experimental (mediana 7,63, RIC: 6,48, 8,54). En el grupo experimental, la calificación más alta se obtiene en la pregunta propuesta por el profesor y la más baja en la elegida por el alumno. Precisión y concreción han alcanzado un 72 y un 70% del máximo posible. El conocimiento teórico ha conseguido el 76,26%. Se observa un efecto monotonía de las calificaciones del grupo control a partir del alumno evaluado en décimo lugar.
ConclusionesUtilizar rúbrica influye en la calificación final del alumno. La precisión y la concreción en la exposición alcanzan un mínimo del 70% de la valoración adscrita.
To find out if the use of the rubric for the oral examination of Traumatology and orthopaedics provides information on cross-disciplinary skills.
Study typeExperimental with a control group.
Material and methodsControl Group: 67 students globally qualified by oral examination. Intervention Group: 68 students evaluated with a scoring rubric that comprises the dimensions: Theoretical knowledge, precision in the terminology, accuracy in the language, and the use of additional information sources.
ResultsThere was a significant difference between the results of the control group (median 9, IQR: 9.9) and the experimental group (median 7.63, 95% CI: 6.48 - 8.54). In the experimental group, the higher qualification is obtained in the question proposed by the teacher and the lower one in the question chosen by the student. Precision and specificity were 72% and 70% of the maximum, respectively. Theoretical knowledge achieved 76.26%. A monotony effect is observed in the scores of the control group after the tenth evaluated student.
ConclusionsThe use of a rubric influences the final assessment of the student. The precision and accuracy achieved a minimum of 70% of the assigned valuation.
La evaluación es una parte sustantiva del proceso de enseñanza-aprendizaje. Para este fin, la prueba más extendida es el examen tipo test multirrespuesta que no está libre de matices en cuanto al planteamiento de las preguntas y la interpretación de estas1.
El examen oral puede abarcar otras consideraciones que la evaluación del conocimiento teórico, a la vez que da opción a la interacción entre examinador y examinado para esclarecer dificultades en la exposición y profundización en temas. Así, el examen oral está considerado la forma de evaluación más completa en la taxonomía de Bloom2. De hecho, permite evaluar otras dimensiones como el razonamiento clínico, el tiempo empleado en estudiar o la forma de comunicar las ideas3. Además, es reconocida como una oportunidad de aprendizaje por el propio alumno4.
Las mayores dificultades de este tipo de evaluación tienen que ver con la falta de confiabilidad y de validez5.
Para explotar correctamente las ventajas del examen oral, este debe diseñarse previamente como también la ponderación a otorgar a otros aspectos. Para controlar la subjetividad es necesario que queden recogidos en un documento, la rúbrica, y publicados con anterioridad.
Hipótesis de investigaciónLa introducción de la rúbrica en el examen oral de Traumatología y Ortopedia mejora la objetivación del proceso de aprendizaje sin minusvalorar la calificación del conocimiento.
Objetivo principalConocer la información adicional que la rúbrica supone en la evaluación del examen oral de Traumatología y Ortopedia.
Objetivos específicos- –
Saber si el uso de rúbrica supone un detrimento en la valoración del conocimiento teórico.
- –
Conocer el nivel de precisión en la terminología.
- –
Analizar el grado de concreción en el uso del lenguaje.
- –
Estimar el uso de fuentes adicionales.
- –
Valorar si el uso de una rúbrica durante un examen oral es de utilidad en la objetivación de este.
Estudio experimental con grupo control.
Ámbito de estudioAlumnos matriculados en la asignatura de Enfermedades del Aparato Locomotor del 5.° año del grado de Medicina.
Grupos de estudio- –
Control: alumnos evaluados mediante prueba oral. Evaluación: 0 a 10. Aprobado en 5.
- –
Intervención: alumnos evaluados mediante prueba oral con rúbrica. Evaluación: 0 a 10. Aprobado en 5.
Correlativamente, sorteando el alumno por el que iniciar la prueba. Posteriormente y en grupo de 3, asignación a un grupo u otro de forma consecutiva.
Cálculo del tamaño muestralPara el objetivo principal. Potencia del 80%. Diferencias en el contraste de la hipótesis nula para H0: μ1=μ2 mediante prueba de la t de Student bilateral para muestras independientes. Nivel de significación 5%. Asumiendo media del grupo control de 6,77 puntos y de 5,77 el de intervención. Desviación típica de ambos: 2,11 unidades; 61 individuos en el grupo control y 63 en el de intervención. Por posibles pérdidas, se incrementó un 10%.
DesarrolloHan participado 2 profesores. Cada uno ha evaluado de forma independiente y en su totalidad a uno de los grupos.
Grupo control: mediante batería de preguntas a criterio del profesor dentro del programa. Grupo intervención: utilización de rúbrica estructurada con 3 preguntas:
- 1.
Nuclear. Elegida por el profesor y considerada esencial. Valoración: 50% del examen.
- 2.
Propuesta por el alumno. Valoración: 30% del total.
- 3.
Adicional. A elección del profesor. De tipo general y conocimiento accesorio. Valor: 20%. En cada pregunta se valoran 4 dimensiones con 5 grados de exhaustividad.
Dimensiones: contenido. Valor: 75% del total de la pregunta cuando es respondida en el mayor grado de exhaustividad.
- 1.
Precisión. Valor: 20%
- 2.
Concreción. Calificación: 3%.
- 3.
Información adicional. Total: 2%.
Exhaustividad:
- 1.
No respuesta.
- 2.
Faltan bastantes contenidos importantes.
- 3.
Falta algún contenido importante.
- 4.
Presente el contenido importante, falta algún contenido no básico.
- 5.
Incluye todo el contenido.
Para responder al último objetivo específico, se ha utilizado examen tipo test multirrespuesta con una sola correcta y cebo de 0,33.
Análisis estadísticoAnálisis descriptivo. Las variables continuas se resumieron en medias y desviación estándar o medianas según la distribución. Rango de valores: máximo y mínimo.
Para analizar las diferencias entre variables cuantitativas continuas, prueba de la t de Student para 2 muestras independientes en caso de normalidad, comprobado mediante el test de Shapiro-Wilk. En caso de no normalidad, prueba no paramétrica U de Mann-Whitney y prueba consistente de Welch.
ResultadosDescripción de la muestraLa muestra la componen 135 alumnos (67 en el grupo de control y 68 en el de intervención) (tabla 1).
Descripción de la muestra
Grupo control | Grupo intervención | |||
---|---|---|---|---|
Hombres | 31 | 26 | ||
Mujeres | 36 | 42 | ||
Ex oral | Test | Rúbrica | Test | |
Nota máxima | 9 | 10 | 10 | 9,8 |
Nota mínima | 3 | 2,4 | 3,25 | 3,4 |
Suspensos | 2 | 14 | 5 | 12 |
Sobresalientes | 47 | 3 | 16 | 2 |
Media | 8,3 | 6,5 | 7,48 | 6,2 |
Desviación estándar | 1,3 | 1,7 | 1,59 | 1,4 |
Curtosis | 5,9 | −0,2 | −0,12 | −0,2 |
Coeficiente asimetría | −2,4 | −0,6 | −0,57 | −0,2 |
Mediana | 9 | 6,6 | 7,63 | 6,3 |
1 cuartil | 8 | 5,5 | 6,48 | 5,5 |
2 cuartil | 9 | 6,6 | 7,63 | 6,3 |
3 cuartil | 9 | 7,6 | 8,54 | 7,3 |
4 cuartil | 9 | 10 | 10 | 9,8 |
La distribución de la variable principal, nota media (grupos control, intervención), no presentó una distribución normal, Shapiro-Wilk (W=0,94353, p=0,003979; W=0,58516, p=1,81E-012, respectivamente) (fig. 1).
ContrastePara saber si el uso de rúbrica supuso un detrimento en la valoración se ha realizado una comparación con la calificación alcanzada en el examen oral frente a la obtenida en el examen tipo test. La diferencia fue estadísticamente significativa (t=5,1572 [Welch], df=128,59, p valor= 9,228E-07).
Se contrastó si la calificación obtenida por los alumnos en los grupos control y de intervención fue diferente. Esta diferencia es estadísticamente significativa (t=–3,3117 [Welch]), df=126,24, p=0,00121; IC [–1,347193, 0,339374]).
Dentro del grupo de intervención, se deseó conocer, de no haber considerado otras dimensiones, cuál habría sido la calificación final obtenida. Una vez ponderadas las calificaciones, considerando solo la dimensión teoría, habría sido de 7,75 (RIC: 6.45, 8.75). Esta diferencia no se demostró estadísticamente significativa (W=–2.139,5, p=0,4538).
Análisis de la rúbrica (tabla 2)Dimensión «conocimiento teoría»El valor asignado al conjunto de las 3 preguntas fue del 75% de la calificación total. La calificación ponderada habría sido de 7,60 (RIC: 6,51, 7,67). Esta diferencia no ha sido significativa en su comparación con la calificación original (t=–1,1014 [Welch], df=92713, p=02736 [IC: –0,9510108, 0,2724394]). Tampoco ha sido diferente la comparación con la valoración del examen sin rúbrica (t=–1,7887 [Welch], df=76,631, p=0,07762). También se ha comparado la nota obtenida en el test de conocimientos teóricos con la obtenida en la dimensión de teoría del examen oral realizado con rúbrica, no encontrándose significación estadística (t=–1,9445 [Welch], df=124,7, p valor=0,05409).
Valores alcanzados en cada una de las preguntas y sus diferentes dimensiones
Teoría (7,5 p) | Precisión (2 p) | Concreción (0,3 p) | Inf. adic. (0,2 p) | Total | % aprov. | |
---|---|---|---|---|---|---|
Nuclear (5 p) | 2,4 | 0,7 | 0,1 | 0,05 | 3,8 | 76,8 |
Alumno (3 p) | 1,6 | 0,4 | 0,1 | 0,03 | 2,1 | 71,7 |
Rescate (2 p) | 1,1 | 0,3 | 0,04 | 0,02 | 1,5 | 74 |
Total | 5,7 | 1,4 | 0,2 | 0,1 | ||
% aprov. | 76,3 | 72 | 70 | 50 |
La calificación del conocimiento teórico tuvo un valor sumatorio de las 3 preguntas de 5,72, con un aprovechamiento del 76,26% del máximo asignado. Para la pregunta propuesta por el profesor alcanzó un 78% del valor total asignado, el 75% para la pregunta adicional y el 73% para aquella que fue elegida por el alumno.
Conjunto otras dimensionesPara este apartado se propuso un 25% de la calificación global; el 20% para el concepto precisión, el 3% para concreción y el 2% para uso de fuentes adicionales. Finalmente, este total añadido tuvo un valor máximo de 2,5 puntos sobre 10 y un mínimo de 0,65 con una mediana de 1,45, lo que supone un peso del 15% de la calificación global con un aprovechamiento de oportunidad de un 58%.
PrecisiónEl nivel de precisión fue de 1,44 (RIC 1,2-1,65) con un aprovechamiento del 72% del peso decidido previamente, un total del 19,34 de la calificación final absoluta. El nivel más bajo correspondió a la pregunta elegida por el alumno (68,33%) y el mejor en la pregunta nuclear (74%).
ConcreciónAlcanzó una mediana de 0,2175 (RIC 0,1875-0,24) y un peso de 0,0286 del porcentaje de la nota final. Se aprovechó un 70% de la oportunidad. La concreción fue mayor en la pregunta formulada por el profesor (73%). Las otras 2 preguntas alcanzaron el 66,66%.
Uso de fuentes adicionalesCon un peso del 2% de la calificación global, llegó al 0,1 en las 3 preguntas (RIC: 0,063-0,13), un aprovechamiento del 50% de la oportunidad. No se observó diferencias entre las 3 preguntas (fig. 2).
Otros hallazgosSe realizó una valoración de la evolución de las calificaciones conforme avanzaba la prueba. Se encontró un efecto modulación en la variación en las calificaciones del grupo control a partir del alumno evaluado en décima posición. Los 9 primeros obtuvieron una mediana de 6,5 (RIC: 5, 7,5) y los posteriores 9 (RIC: 9, 9). En el grupo de intervención, no se encontró este efecto.
Cuando se comparan las calificaciones de los 2 subgrupos del grupo control con las obtenidas en el grupo de intervención, no se encuentra significación estadística en la comparación de los alumnos evaluados al principio de la prueba (hasta el alumno 10) (t=1,2982 [Welch], df = 9,3509, p valor=0,2253), y sí en la comparación entre el segundo subgrupo del grupo control y el de intervención (t=–4,2242 [Welch], df = 104,67, p valor=5,132E-05) (fig. 3).
DiscusiónLa capacidad del examen oral para la interacción y la empatía con el alumno ha hecho que algunos autores la consideren como la prueba ideal para evaluar a alumnos que precisen una valoración personalizada; singularmente aquellos que opten a calificación brillante, o los considerados «en el límite»6.
El uso de la rúbrica puede ayudar en su aplicación7. Aunque el empleo de esta tiene una gran implantación en la actualidad8, su utilización comenzó a extenderse a finales del siglo xx9.
La rúbrica es considerada por los alumnos como una excelente guía de orientación formacional. No obstante, sus declaradas ventajas, y aunque entre el profesorado también se reconoce como una herramienta útil para dirigir la evaluación formativa10, existe una resistencia para su uso entre los evaluadores11. En ocasiones, esta se debe a una falta de reconocimiento de sus ventajas12 y en otras por el innegable consumo de tiempo en la preparación y por precisar de formación específica13.
El uso de la rúbrica tiene como reto mejorar la validez y la reproducibilidad de las pruebas orales. Si bien la reproducibilidad alcanza niveles aceptables (70%)14, su validez es más difícil de apreciar debido a los múltiples aspectos que se deben considerar (constructo, apariencia, etc.)15.
Es esencial definir con anterioridad el peso de las diferentes dimensiones a considerar; conocimiento teórico y otras competencias transversales. De esta manera, mientras el profesor establece los criterios de evaluación de una forma objetiva, el alumno obtiene una guía para diseñar el autoaprendizaje16.
La rúbrica debe ser diseñada con criterios de coherencia con el objetivo a evaluar, apropiada para el nivel que se examina y ser diseñada con anterioridad17.
La rúbrica empleada en este estudio ha sido de tipo analítico, mediante la cual se ha pretendido conocer las dimensiones en las que los alumnos han basado la estructuración de su conocimiento y en qué medida se ha profundizado.
En el presente estudio se ha utilizado el contraste de las calificaciones obtenidas mediante examen tipo test. La calificación alcanzada en el examen oral se ha encontrado estadísticamente significativa y en términos absolutos superior en 1,34 puntos. No obstante, cuando se han comparado la calificación ponderada del componente «conocimiento de la teoría» con la prueba escrita, la diferencia no se ha encontrado significativa. Esto nos permite inferir que la discrepancia en calificaciones se debe a una cuantificación adicional de las competencias transversales definidas.
En la exploración de las competencias transversales, los alumnos han alcanzado valores que se sitúan en un aprovechamiento de la oportunidad del 70-75% de la puntuación máxima asignada.
Una vez ponderada la calificación obtenida en las 3 preguntas, la calificación alcanzada ha sido similar, un 70% del máximo, no encontrándose diferencia en la calificación ponderada de las 3 preguntas.
La evaluación mediante rúbrica para valorar competencias transversales ha demostrado su correlación con el examen oral estructurado, aunque tiene poca relación con la apreciación del conocimiento teórico18. En nuestra investigación no existe correlación con la evaluación del conocimiento teórico pero existe diferencia estadísticamente significativa con la calificación final obtenida. Esto implica a la par que la calificación global del alumno no se ve minorada con la utilización de una rúbrica y que es capaz de premiar la incorporación de otras habilidades.
Algunos autores consideran que no existe correlación entre las calificaciones tras examen escrito u oral19. Nosotros hemos encontrado una diferencia entre las calificaciones de la prueba escrita y la oral, no así entre la prueba escrita y su comparación con la medida exclusivamente de la dimensión teórica del examen oral.
Se ha recomendado realizar examen tipo test como complemento al oral por no ser capaz este de valorar correctamente la dimensión de conocimiento teórico20. Lejos de considerarse excluyentes, examen oral y escrito pueden ser entendidos como complementarios, aunque la calificación de los contenidos teóricos se ha reflejado correctamente con la evaluación del examen oral atendiendo a la elaboración previa de una rúbrica, en algunos alumnos pueden encontrarse un efecto techo.
Hallazgos incidentalesLas pruebas orales deben ser sometidas un escrutinio para mejorar su validez, reproducibilidad y justicia15. De entre las exigencias para las pruebas orales, las condiciones del examinador son reconocidas como una de las 6 dimensiones a considerar21. Si bien el propósito de excelencia es reconocido en el evaluador, este puede verse afectado por circunstancias como el efecto saturación22.
Hemos encontrado un efecto modulación en las calificaciones dentro del grupo control. En este, las puntuaciones desde el alumno evaluado en posición décima en adelante han presentado pocas variaciones, mientras que en la serie intervención se ha mantenido la dinámica anterior.
La exigencia de que todos los alumnos puedan beneficiarse de las ventajas que aporta la prueba oral exige que todos sean evaluados en las mismas condiciones. La necesidad de tener que usar un tiempo limitado para evaluar a un número alto de alumnos es una dificultad añadida. Esto solo es solucionable con la programación a lo largo de varias clases, consumiendo así un tiempo del que generalmente el alumno no dispone23.
ConclusionesEl empleo de rúbrica en el examen oral enriquece significativamente la valoración de otras dimensiones del proceso de aprendizaje.
La precisión y la concreción alcanzan valores de un mínimo del 70% de la valoración adscrita.
El uso de fuentes de información adicional es la dimensión más débil dentro de la calificación final.
Ni la selección de preguntas de obligado conocimiento, ni de otras ya sean consideradas accesorias o libremente elegidas por el alumno, consiguen una valoración diferencial.
Conflicto de interesesLos autores declaran no tener ningún conflicto de intereses.