<?xml version="1.0" encoding="UTF-8"?><?xml-model type="application/xml-dtd" href="https://jats.nlm.nih.gov/publishing/1.3/JATS-journalpublishing1-3.dtd"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "https://jats.nlm.nih.gov/publishing/1.3/JATS-journalpublishing1-3.dtd">
<article xmlns:ali="http://www.niso.org/schemas/ali/1.0/" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" specific-use="Marcalyc 1.3" dtd-version="1.3" article-type="research-article" xml:lang="es">
<front>
<journal-meta>
<journal-id journal-id-type="index">3314</journal-id>
<journal-title-group>
<journal-title specific-use="original" xml:lang="en">RIED-Revista Iberoamericana de Educación a Distancia</journal-title>
<abbrev-journal-title abbrev-type="publisher" xml:lang="en">RIED</abbrev-journal-title>
</journal-title-group>
<issn pub-type="ppub">1138-2783</issn>
<issn pub-type="epub">1390-3306</issn>
<publisher>
<publisher-name>Asociación Iberoamericana de Educación Superior a Distancia</publisher-name>
<publisher-loc>
<country>España</country>
<email>ried@edu.uned.es</email>
</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="art-access-id" specific-use="redalyc">331483192025</article-id>
<article-id pub-id-type="doi">10.5944/ried.45541</article-id>
<article-categories>
<subj-group subj-group-type="heading">
<subject>Estudios e investigaciones</subject>
</subj-group>
</article-categories>
<title-group>
<article-title xml:lang="es">Recomendador de evaluación para preguntas cortas utilizando modelos de lenguaje en propiedad intelectual</article-title>
<trans-title-group>
<trans-title xml:lang="en">
<bold>A language model-based recommender assessment system for short-answer questions in the intellectual property domain</bold>
</trans-title>
</trans-title-group>
</title-group>
<contrib-group>
<contrib contrib-type="author" corresp="no">
<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-0380-1319</contrib-id>
<name name-style="western">
<surname>Bañeres Besora</surname>
<given-names>David</given-names>
</name>
<xref ref-type="aff" rid="aff1"/>
</contrib>
<contrib contrib-type="author" corresp="no">
<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0001-7073-7233</contrib-id>
<name name-style="western">
<surname>Guerrerro Roldán</surname>
<given-names>Ana-Elena</given-names>
</name>
<xref ref-type="aff" rid="aff2"/>
</contrib>
<contrib contrib-type="author" corresp="no">
<contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-8698-4615</contrib-id>
<name name-style="western">
<surname>Rodríguez González</surname>
<given-names>M. Elena</given-names>
</name>
<xref ref-type="aff" rid="aff3"/>
</contrib>
</contrib-group>
<aff id="aff1">
<institution content-type="original">Universitat Oberta de Catalunya, UOC</institution>
<country country="ES">España</country>
<institution-wrap>
<institution content-type="orgname">Universitat Oberta de Catalunya, UOC</institution>
<institution-id institution-id-type="crossref">https://api.crossref.org/funders/501100013774</institution-id>
</institution-wrap>
</aff>
<aff id="aff2">
<institution content-type="original">Universitat Autónoma de Barcelona, UAB</institution>
<country country="ES">España</country>
<institution-wrap>
<institution content-type="orgname">Universitat Autónoma de Barcelona, UAB</institution>
<institution-id institution-id-type="crossref">https://api.crossref.org/funders/501100013774</institution-id>
</institution-wrap>
</aff>
<aff id="aff3">
<institution content-type="original">Universitat Oberta de Catalunya, UOC</institution>
<country country="ES">España</country>
<institution-wrap>
<institution content-type="orgname">Universitat Oberta de Catalunya, UOC</institution>
<institution-id institution-id-type="crossref">https://api.crossref.org/funders/501100013774</institution-id>
</institution-wrap>
</aff>
<pub-date pub-type="epub-ppub">
<season>January-June</season>
<year>2026</year>
</pub-date>
<volume>29</volume>
<issue>1</issue>
<fpage>321</fpage>
<lpage>352</lpage>
<history>
<date date-type="received" publication-format="dd mes yyyy">
<day>01</day>
<month>06</month>
<year>2025</year>
</date>
<date date-type="accepted" publication-format="dd mes yyyy">
<day>06</day>
<month>08</month>
<year>2025</year>
</date>
</history>
<permissions>
<copyright-year>2026</copyright-year>
<copyright-holder>Asociación Iberoamericana de Educación a Distancia (AIESAD)</copyright-holder>
<ali:free_to_read/>
<license xlink:href="https://creativecommons.org/licenses/by-nc/4.0/">
<ali:license_ref>https://creativecommons.org/licenses/by-nc/4.0/</ali:license_ref>
<license-p>Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial 4.0 Internacional.</license-p>
</license>
</permissions>
<abstract xml:lang="es">
<title>Resumen</title>
<p>El uso de la Inteligencia Artificial (IA) en educación está creciendo rápidamente, transformando el proceso de enseñanza-aprendizaje y también el proceso de evaluación. Este trabajo presenta SLASys, una herramienta para recomendar al profesorado la evaluación de preguntas cortas mediante técnicas de IA semántica, difiriendo de otros trabajos basados en IA generativa por el uso del modelo de lenguaje BERT que es más ligero, comprende mejor los conceptos en un contexto específico, mejora la eficiencia computacional y reduce los problemas éticos y de privacidad. SLASys implementa comparación semántica y modelos predictivos de clasificación de respuestas basados en BERT. Se ha seguido una metodología de investigación mixta, combinando investigación de acción con un enfoque de diseño y creación, para desarrollar y perfeccionar SLASys a lo largo de cuatro ediciones de un curso de nivel de máster sobre examen de patentes en el contexto de la propiedad intelectual. SLASys se ha integrado en Moodle, permitiendo su uso por parte de profesorado sin conocimientos técnicos, y ha sido probada por 120 estudiantes. Los resultados muestran su efectividad, tanto en el marco de la experiencia descrita como según la literatura existente, incluso con conjuntos de datos reducidos y un número limitado de participantes, y ha sido valorada positivamente por el profesorado y el estudiantado. Este trabajo contribuye a mostrar la viabilidad del uso de la IA en la educación superior, tanto en entornos híbridos como en línea, ofreciendo una solución para mejorar la evaluación y el <italic>feedback</italic> en preguntas cortas en contextos reales de aprendizaje.</p>
</abstract>
<trans-abstract xml:lang="en">
<title>Abstract</title>
<p>The use of Artificial Intelligence (AI) in education is growing rapidly, transforming the teaching-learning process as well as the assessment process. This work introduces SLASys, a tool to recommend the assessment of short-answer questions using semantic AI techniques. Unlike other works based on generative AI, SLASys uses the lightweight BERT language model, which better understands specific domain language concepts, improves computational efficiency, and reduces ethical and privacy concerns. SLASys implements semantic comparison and predictive classification models based on BERT. A mixed research methodology was followed, combining action research with a design and creation approach, to develop and refine SLASys over four editions of a master's-level course on patent examination within the intellectual property domain. SLASys has been integrated into Moodle, enabling its use by teachers without technical expertise, and has been tested by 120 students. The results demonstrate its effectiveness even with small datasets and limited participants within the described experience and according to existing literature. Additionally, it has been positively evaluated by both teachers and students. This work shows the feasibility of using AI in higher education, in both hybrid and online environments, offering a practical solution to improve assessment and feedback for short-answer questions in real learning contexts.</p>
</trans-abstract>
<kwd-group xml:lang="es">
<title>Palabras clave</title>
<kwd>evaluación</kwd>
<kwd>
<italic>feedback</italic>
</kwd>
<kwd>Moodle</kwd>
<kwd>test</kwd>
<kwd>preguntas cortas</kwd>
<kwd>inteligencia artificial</kwd>
</kwd-group>
<kwd-group xml:lang="en">
<title>Keywords</title>
<kwd>assessment</kwd>
<kwd>feedback</kwd>
<kwd>Moodle</kwd>
<kwd>test</kwd>
<kwd>short-answer</kwd>
<kwd>artificial intelligence</kwd>
</kwd-group>
<counts>
<fig-count count="9"/>
<table-count count="3"/>
<equation-count count="1"/>
<ref-count count="76"/>
</counts>
<custom-meta-group>
<custom-meta>
<meta-name>Cómo citar</meta-name>
<meta-value>Bañeres Besora, D., Guerrero Roldán, A.-E., &amp; Rodríguez González, M. E. (2026). A language model-based recommender assessment system for short-answer questions in the intellectual property domain [Recomendador de evaluación para preguntas cortas utilizando modelos de lenguaje en propiedad intelectual]. <italic>RIED-Revista Iberoamericana de Educación a Distancia, 29</italic>(1). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5944/ried.45541">https://doi.org/10.5944/ried.45541</ext-link>
</meta-value>
</custom-meta>
</custom-meta-group>
<custom-meta-group>
<custom-meta>
<meta-name>redalyc-journal-id</meta-name>
<meta-value>3314</meta-value>
</custom-meta>
</custom-meta-group>
</article-meta>
</front>
<body>
<sec>
<title>
<bold>INTRODUCCIÓN</bold>
</title>
<p>Hoy en día, las instituciones educativas (incluidas las tradicionales y las en línea) generalmente adoptan las tecnologías de la información y la comunicación para apoyar a su profesorado y estudiantado. La automatización de la tarea de calificación es una tendencia seguida por muchos Sistemas de Gestión del Aprendizaje (SGA) para evaluar de manera eficiente las actividades y proporcionar un <italic>feedback</italic> oportuno en el momento adecuado con finalidad formativa (<xref ref-type="bibr" rid="redalyc_331483192025_ref28">György y Vajda, 2007</xref>). Sin embargo, muchos SGA limitan el tipo de preguntas que se califican automáticamente a aquellas basadas en la selección de opciones o texto simple, debido a la complejidad de evaluar preguntas cortas o de tipo ensayo.</p>
<p>Aunque la Calificación Automática de Preguntas de Respuesta Corta (CAPRC) ha sido ampliamente explorada en la literatura (<xref ref-type="bibr" rid="redalyc_331483192025_ref11">Burrows et al., 2015</xref>), las contribuciones se han limitado a explorar su precisión en conjuntos de datos públicos sin considerar su efectividad en entornos educativos reales. Además, el renacimiento de la Inteligencia Artificial (IA) debido al acceso a recursos computacionales y a herramientas específicas para aplicar técnicas de IA, han permitido que los SGA clásicos evolucionen. Los algoritmos de IA pueden reforzar los SGA para apoyar el proceso de aprendizaje. Las recomendaciones, el <italic>feedback</italic> inmediato o la CAPRC son ejemplos de tareas que la IA puede mejorar.</p>
<p>Esta investigación tiene como objetivo proporcionar un punto de partida para un sistema de aprendizaje inteligente capaz de recomendar la evaluación y el <italic>feedback</italic> para preguntas cortas utilizando técnicas de IA. Este trabajo también muestra cómo se utiliza el sistema en un entorno educativo híbrido y presenta los resultados obtenidos. A pesar de que los modelos de lenguaje extenso -más conocidos por su denominación en inglés <italic>Large Language Models</italic> (LLM)- y las herramientas generativas derivadas, como ChatGPT (<xref ref-type="bibr" rid="redalyc_331483192025_ref47">OpenAI, 2024</xref>), muestran actualmente su gran potencial en cualquier tarea académica, siguen teniendo limitaciones para tareas o dominios específicos como es el caso de la Propiedad Intelectual.</p>
<p>Por lo tanto, este trabajo propone una solución alternativa, utilizando BERT, un Modelo de Lenguaje (ML) ligero que comprende el significado de las respuestas. En lugar de delegar la decisión de la evaluación de una pregunta de respuesta corta en una herramienta de IA Generativa (IAGen) mediante la definición de criterios expresados como un conjunto complejo de instrucciones (<italic>prompt</italic>), se utiliza BERT. Este modelo comprende el significado de cualquier respuesta correcta e incorrecta, siendo más preciso para fines evaluativos. Al ser menos extenso, contribuye a un uso computacional más eficiente y sostenible, gestionable en instancias privadas (es decir, no se necesitan soluciones empresariales), reduciendo también los problemas éticos y de privacidad. Por lo tanto, este trabajo ha integrado esta solución de IA en un SGA (concretamente, Moodle) para que el profesorado pudiera proporcionar una evaluación significativa al estudiantado.</p>
<p>Se sigue una metodología de investigación de acción combinada con un enfoque de diseño y creación para crear el sistema automatizado de aprendizaje inteligente (denominado <italic>Smart Learning Automated System</italic>, SLASys), explícitamente adaptado a un curso de formación en Propiedad Intelectual, para definir un sistema de aprendizaje que facilite el éxito del estudiantado mediante el uso de técnicas de IA aplicadas a la enseñanza de la Propiedad Intelectual. El estudio se ha llevado a cabo en el área educativa de la Oficina Europea de Patentes (OEP).</p>
<p>Este trabajo se estructura de la siguiente manera. En primer lugar, se presentan los antecedentes teóricos de los modelos de lenguaje y sus usos educativos, centrándose en la CAPRC. A continuación, se detalla el diseño de la investigación, incluyendo la metodología, las preguntas de investigación, la herramienta SLASys y el análisis de datos. La sección de resultados destaca los principales hallazgos. El trabajo concluye con la discusión, limitaciones, contribuciones e investigación futura.</p>
</sec>
<sec>
<title>
<bold>REVISIÓN DE LA LITERATURA</bold>
</title>
<sec>
<title>
<bold>Modelos de Lenguaje Extenso, BERT y su aplicación en educación</bold>
</title>
<p>Los LLM han surgido como una tecnología transformadora en los últimos años, demostrando capacidades notables en diversas tareas de Procesamiento del Lenguaje Natural (PLN). Su rápido progreso ha propiciado avances significativos en la traducción automática, la síntesis de textos e incluso la generación de código (<xref ref-type="bibr" rid="redalyc_331483192025_ref31">Husein et al., 2025</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref49">Pang et al., 2025</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref73">Zhang et al., 2025</xref>). A pesar de su impresionante rendimiento, los LLM se enfrentan a limitaciones y desafíos en entornos educativos reales, como interpretaciones erróneas en lenguajes específicos de dominio (<xref ref-type="bibr" rid="redalyc_331483192025_ref6">Arefeen et al., 2024</xref>) o su interpretabilidad y explicabilidad (<xref ref-type="bibr" rid="redalyc_331483192025_ref75">Zhao et al., 2024</xref>). Las innovaciones recientes en computación han mejorado su rendimiento, permitiendo alcanzar el nivel de las herramientas de IAGen de última generación, como GPT-4o (<xref ref-type="bibr" rid="redalyc_331483192025_ref47">OpenAI, 2024</xref>). Estas herramientas demuestran capacidades impresionantes de aprendizaje, aplicabilidad a tareas de razonamiento limitadas y capacidad de generalización en diversos dominios.</p>
<p>BERT (<italic>Bidirectional Encoder Representations from Transformers</italic>) es un modelo de PLN de última generación desarrollado por Google en 2018 (<xref ref-type="bibr" rid="redalyc_331483192025_ref17">Devlin et al., 2019</xref>). BERT es un ML basado en transformadores previamente entrenado con una gran colección de documentos de texto. BERT se consideró inicialmente un LLM, pero actualmente se considera un ML en comparación con sus sucesores de IAGen. Su arquitectura se fundamenta en la representación del texto. Una frase está codificada de una manera especial (denominada <italic>embeddings</italic>) que almacena su significado (es decir, su semántica), lo que permite la aplicación directa en tareas de PLN. Su desarrollo y aplicación continuados en múltiples dominios de conocimiento demuestran su versatilidad y potencial para impulsar nuevos avances en IA y en la comprensión del lenguaje. BERT se ha utilizado para la clasificación de documentos (<xref ref-type="bibr" rid="redalyc_331483192025_ref2">Adhikari et al., 2019</xref>), el reconocimiento de categorías gramaticales (<xref ref-type="bibr" rid="redalyc_331483192025_ref60">Souza et al., 2019</xref>), la implicación lógica entre pares de oraciones (<xref ref-type="bibr" rid="redalyc_331483192025_ref64">Wang et al., 2018</xref>) o la síntesis de textos (<xref ref-type="bibr" rid="redalyc_331483192025_ref72">Zhang, Cai et al., 2019</xref>).</p>
<p>Tanto BERT como las herramientas de IAGen se utilizan en educación afrontando desafíos similares. La escalabilidad y la integración con las infraestructuras existentes requieren de una inversión significativa y de conocimiento técnico (<xref ref-type="bibr" rid="redalyc_331483192025_ref71">Xu y Zhu, 2023</xref>). Además, deben considerarse principios relacionados con la ética, la seguridad y la alineación con los objetivos educativos fundamentales (<xref ref-type="bibr" rid="redalyc_331483192025_ref25">García-Peñalvo et al., 2024</xref>), y desarrollar la alfabetización en IA entre el profesorado es esencial para fomentar un uso crítico (<xref ref-type="bibr" rid="redalyc_331483192025_ref50">Petridou y Lao, 2024</xref>). Asimismo, aunque parecen aplicables a cualquier tarea, las herramientas de IAGen son principalmente aplicables a la generación y el análisis de texto, la definición de conceptos, la creación de ejercicios o la mejora del estilo de escritura; mientras que BERT es válido para la clasificación de texto, el análisis de sentimientos, la comprensión de las dudas del estudiantado o la provisión de explicaciones detalladas (<xref ref-type="bibr" rid="redalyc_331483192025_ref51">Qiu y Jin, 2024</xref>).</p>
<p>La evaluación también es una tarea relevante en ambos modelos. Por un lado, las herramientas de IAGen han empezado a explorarse en la evaluación como “cajas negras”, es decir, sin saber cómo funcionan internamente. Se han utilizado para producir <italic>feedback</italic>, pero también para la evaluación automática. La evaluación automática beneficia a algunos dominios, como el aprendizaje de idiomas (<xref ref-type="bibr" rid="redalyc_331483192025_ref19">Escalante et al., 2023</xref>), la adquisición de habilidades de escritura (<xref ref-type="bibr" rid="redalyc_331483192025_ref8">Banihashem et al., 2024</xref>) o el diseño multimedia (<xref ref-type="bibr" rid="redalyc_331483192025_ref5">Almasre, 2024</xref>). Por otro lado, BERT se puede utilizar en tareas de evaluación específicas. El profesorado puede generar preguntas a partir de textos existentes, que se pueden utilizar en tests y exámenes (<xref ref-type="bibr" rid="redalyc_331483192025_ref43">Nguyen et al., 2022</xref>). Los modelos basados en BERT también pueden evaluar la coherencia, la relevancia y la gramática de los ensayos del estudiantado, lo que ayuda a que este pueda mejorar sus habilidades de escritura (<xref ref-type="bibr" rid="redalyc_331483192025_ref66">Wang et al., 2022</xref>). También se han diseñado aplicaciones basadas en BERT para comprender expresiones lingüísticas y matices culturales (<xref ref-type="bibr" rid="redalyc_331483192025_ref7">Bahdanau et al., 2015</xref>), y recomendadores específicos que pueden ayudar al estudiantado a practicar la expresión oral y la comprensión de nuevos idiomas (<xref ref-type="bibr" rid="redalyc_331483192025_ref74">Zhang, Zhang et al., 2019</xref>).</p>
<p>Aunque la evaluación automatizada parece ser una de las características futuras de la IAGen en educación, actualmente no está recomendada por las políticas institucionales ni gubernamentales (<xref ref-type="bibr" rid="redalyc_331483192025_ref20">European Commission, 2024</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref14">Dai et al., 2025</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref26">González Fernández et al., 2025</xref>), porque las herramientas de IAGen son propensas a errores debido a alucinaciones (<xref ref-type="bibr" rid="redalyc_331483192025_ref33">Jia et al., 2024</xref>) y su utilización podría plantear dilemas éticos. Además, las herramientas de IAGen pueden fallar en dominios con un lenguaje específico. Por ejemplo, algunas preguntas relacionadas con conceptos específicos en el examen de patentes dentro del dominio de la Propiedad Intelectual, como Novedad y Claridad, a veces son interpretadas por una herramienta de IAGen como si se tratara de evaluar si la respuesta es nueva y clara en lenguaje natural. Sin embargo, dichos conceptos especializados en Propiedad Intelectual se refieren a cuán novedosa y clara está descrita una invención en una solicitud de patente (<italic>reivindicación</italic>). Las herramientas de IAGen podrían analizar la respuesta mejorando el contexto anterior (es decir, su <italic>contextualización</italic>), pero a veces mezclan directrices de patentes de diferentes fuentes con información obsoleta. Por lo tanto, se requiere añadir documentos específicos al modelo (es decir, es necesario realizar un <italic>ajuste fino</italic>) para mejorar la calidad de un modelo propietario de IAGen, lo que implica algunas preocupaciones acerca de la privacidad, y un debate sobre si es una solución rentable. En cambio, una aplicación basada en BERT aborda la tarea de evaluación comprendiendo las respuestas proporcionadas a una pregunta. BERT podría utilizarse para realizar una <italic>comparación semántica</italic> para evaluar lo cerca que está el significado de dos frases (la respuesta de un estudiante en comparación con la respuesta correcta del profesorado) o entrenar un modelo de IA de <italic>clasificación de respuestas</italic> para predecir si el significado de una frase se acerca a un conjunto correcto o incorrecto de frases (es decir, decidir si la respuesta de un estudiante es correcta o incorrecta en base a un conjunto de respuestas correctas e incorrectas). Estos enfoques evitan, además, el inconveniente de la variabilidad que las herramientas de IAGen exhiben actualmente.</p>
</sec>
<sec>
<title>
<bold>Calificación automática de preguntas cortas y provisión de feedback</bold>
</title>
<p>El <italic>feedback</italic> constituye uno de los componentes esenciales tanto del proceso de aprendizaje (<xref ref-type="bibr" rid="redalyc_331483192025_ref21">Evans, 2013</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref29">Hattie y Timperley, 2007</xref>) como de la evaluación de la adquisición de conocimientos, habilidades y competencias. El <italic>feedback</italic> también es un elemento clave para fomentar la implicación del estudiantado y mejorar su aprendizaje (<xref ref-type="bibr" rid="redalyc_331483192025_ref68">Winstone et al., 2017</xref>). Su objetivo es proporcionar información específica vinculada a una actividad de aprendizaje, con el fin de reducir la brecha entre la comprensión deseada y la real (<xref ref-type="bibr" rid="redalyc_331483192025_ref53">Sadler, 1989</xref>). Además, el <italic>feedback</italic> es crucial en entornos en línea para garantizar un proceso de aprendizaje significativo y oportuno (<xref ref-type="bibr" rid="redalyc_331483192025_ref44">Nicol y Macfarlane-Dick, 2006</xref>). La elaboración y entrega de <italic>feedback</italic> útil requiere de un esfuerzo considerable por parte del profesorado, lo que restringe su nivel de personalización cuando existen restricciones de tiempo o un gran número de estudiantes matriculados (<xref ref-type="bibr" rid="redalyc_331483192025_ref18">Dhananjaya et al., 2024</xref>). Sin embargo, el <italic>feedback</italic> personalizado motiva al estudiantado en mayor medida, regula mejor su comportamiento, contribuye a una mejor adquisición de conocimientos y mejora el compromiso con los materiales de aprendizaje (<xref ref-type="bibr" rid="redalyc_331483192025_ref34">Kim, 2023</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref65">Wang y Lehman, 2021</xref>).</p>
<p>La automatización de la generación de <italic>feedback</italic> se ha planteado como una solución tentativa para apoyar al profesorado. Aunque en la literatura se ha utilizado una terminología diversa para referirse a estas herramientas -por ejemplo, sistemas de tutoría inteligente, plataforma de enseñanza, sistema automatizado de <italic>feedback</italic>, herramientas de <italic>feedback</italic> en línea- todas ellas se centran en mejorar la eficiencia del profesorado mientras ayudan al estudiantado durante su proceso de aprendizaje (<xref ref-type="bibr" rid="redalyc_331483192025_ref70">Xie y Li, 2018</xref>). Trabajos previos han presentado las técnicas aplicables en diferentes contextos, como sería la generación de <italic>feedback</italic> para ensayos (<xref ref-type="bibr" rid="redalyc_331483192025_ref4">Akçapinar, 2015</xref>), ejercicios de programación (<xref ref-type="bibr" rid="redalyc_331483192025_ref41">Messer et al., 2024</xref>) o tareas colaborativas (<xref ref-type="bibr" rid="redalyc_331483192025_ref76">Zheng et al., 2023</xref>).</p>
<p>La calificación automatizada de tests también ha sido ampliamente investigada debido a sus beneficios, tanto para proporcionar una evaluación automática como para facilitar los procesos de evaluación formativa (<xref ref-type="bibr" rid="redalyc_331483192025_ref11">Burrows et al., 2015</xref>), así como su impacto positivo en el aprendizaje debido a la provisión de <italic>feedback</italic> (<xref ref-type="bibr" rid="redalyc_331483192025_ref24">Gaona et al., 2018</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref52">Rezaei, 2015</xref>). Para simplificar su implementación, los tests han recurrido principalmente a preguntas de opción múltiple, mientras que las preguntas cortas y de ensayo han sido usualmente evitadas, ya que requieren de un mayor esfuerzo e intervención del profesorado durante la fase de evaluación, o bien se han utilizado métodos alternativos como la evaluación por pares (<xref ref-type="bibr" rid="redalyc_331483192025_ref30">Huisman et al., 2017</xref>). A pesar de ello, existe trabajo previo relacionado con la CAPRC. Se ha utilizado la comparación de respuestas con una frase (<xref ref-type="bibr" rid="redalyc_331483192025_ref58">Siddiqi y Harrison, 2008</xref>), con un conjunto de frases con un vocabulario similar (<xref ref-type="bibr" rid="redalyc_331483192025_ref35">Klein et al., 2011</xref>) o con palabras clave principales (<xref ref-type="bibr" rid="redalyc_331483192025_ref54">Saha et al., 2018</xref>) para detectar respuestas correctas. Aunque estas técnicas han demostrado buenos resultados, presentan algunas deficiencias, ya que no consideran la semántica (un patrón, un vocabulario similar o un conjunto de palabras clave pueden no abarcar todas las posibles respuestas correctas). Algunos autores han investigado la aplicabilidad de herramientas de IAGen para la CAPRC (<xref ref-type="bibr" rid="redalyc_331483192025_ref3">Aggarwal et al., 2025</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref27">Grévisse, 2024</xref>). Aunque su aplicabilidad para la calificación de ensayos parece prometedora (<xref ref-type="bibr" rid="redalyc_331483192025_ref57">Senthilnathan et al., 2025</xref>), los resultados para la CAPRC no son concluyentes para apoyar la evaluación del estudiantado. Las alucinaciones, la descontextualización, la información obsoleta y las limitaciones en el pensamiento crítico siguen afectando a su utilización (<xref ref-type="bibr" rid="redalyc_331483192025_ref16">De La Cruz et al., 2024</xref>).</p>
<p>Dado que el PLN y los ML semánticos siguen siendo técnicas de vanguardia para la CAPRC, se utiliza BERT debido a sus capacidades, a su potencial precisión y a su mejor adaptación a entornos educativos reales. En la literatura se han explorado dos tipos de modelos. Algunos buscan predecir si la respuesta del estudiantado es correcta (<xref ref-type="bibr" rid="redalyc_331483192025_ref13">Camus y Filighera, 2020</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref38">Liu et al., 2019</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref39">Lun et al., 2020</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref48">Padó et al., 2024</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref56">Schneider et al., 2023</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref61">Sung et al., 2019</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref67">Wang et al., 2019</xref>), mientras que otros van más allá al predecir la calificación, demostrando su potencial en conjuntos de datos públicos (<xref ref-type="bibr" rid="redalyc_331483192025_ref9">Baral et al., 2021</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref15">del Gobbo et al., 2023</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref22">Gaddipati et al., 2020</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref42">Metzler et al., 2024</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref59">Soulimani et al., 2024</xref>). Sin embargo, hasta donde llega el conocimiento de los autores de esta investigación, ningún trabajo previo ha probado estas herramientas en entornos educativos reales debido a los problemas de aceptabilidad o a la necesidad de intervención humana para su uso (<xref ref-type="bibr" rid="redalyc_331483192025_ref32">Hustad y Arntzen, 2013</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref69">Xavier et al., 2025</xref>). Por lo tanto, este trabajo propone SLASys como herramienta de recomendación para la CAPRC, la cual ha sido probada en un entorno educativo híbrido durante cuatro ediciones de un curso fundamental de examen de patentes a lo largo de un año, con 120 estudiantes, con el fin de obtener conocimiento sobre su uso. Así, el objetivo es responder a las siguientes preguntas de investigación:</p>
<p>PI1.   ¿Cómo de precisa es la clasificación de respuestas con respecto con la comparación semántica para la recomendación en la CAPRC?</p>
<p>PI2.  ¿Cómo de preciso es SLASys en un entorno educativo real?</p>
<p>PI3.  ¿Puede utilizarse SLASys sin respuestas previas del estudiantado?</p>
<p>PI4.  ¿Cuál es la opinión del estudiantado y del profesorado?</p>
</sec>
</sec>
<sec>
<title>
<bold>METODOLOGÍA</bold>
</title>
<sec>
<title>
<bold>Diseño de la investigación</bold>
</title>
<p>SLASys sigue una metodología de investigación mixta que combina investigación de acción (<xref ref-type="bibr" rid="redalyc_331483192025_ref46">Oates, 2006</xref>) con un enfoque de diseño y creación (<xref ref-type="bibr" rid="redalyc_331483192025_ref36">Kuechler y Vaishnavi, 2012</xref>). La investigación de acción es adecuada porque el sistema se desarrolla y se prueba en entornos educativos reales, con el objetivo de abordar desafíos prácticos en la enseñanza y el aprendizaje. Esta metodología enfatiza la resolución de problemas del mundo real a través de un ciclo colaborativo e iterativo de planificación, acción y reflexión, al tiempo que recopila datos para evaluar los resultados. El enfoque de diseño y creación complementa dicha metodología, al centrarse en el desarrollo de artefactos tecnológicos innovadores, siguiendo un proceso iterativo de resolución de problemas de cinco pasos (<xref ref-type="bibr" rid="redalyc_331483192025_ref36">Kuechler y Vaishnavi, 2012</xref>) para guiar la creación y el perfeccionamiento del sistema.</p>
<p>Este trabajo se centra en las dos primeras iteraciones del desarrollo del recomendador para la CAPRC. La primera consistió en la creación del primer artefacto y la evaluación de la solución técnica, mientras que la segunda evaluó su integración en el proceso de enseñanza-aprendizaje. Esta última iteración implicó probar el artefacto en un curso fundamental de examen de patentes en el dominio de la Propiedad Intelectual. Este curso, con una duración de 6 semanas, forma parte de los cursos orientados a la formación del estudiantado como examinador de patentes, que, a su vez, consta de seis cursos con una duración total de 2 años. Existen requisitos específicos para ser elegible para esta capacitación. El estudiantado debe tener un máster en física, química, ingeniería o ciencias naturales, ya que se requiere conocimiento de campos técnicos específicos para examinar las propuestas de solicitud de patentes.</p>
<p>El objetivo del curso es preparar al estudiantado para el examen de patentes, introduciendo los conceptos fundamentales, las directrices de la Convención Europea de Patentes (CEP), los sistemas disponibles para dicha tarea y los ejercicios relacionados con el examen de patentes. La metodología de aprendizaje combina una estrategia de clase invertida (<xref ref-type="bibr" rid="redalyc_331483192025_ref10">Bergmann y Sams, 2012</xref>) con aprendizaje justo a tiempo (<xref ref-type="bibr" rid="redalyc_331483192025_ref45">Novak, 2012</xref>). Las actividades de autoaprendizaje y la lectura de recursos de aprendizaje se realizan de forma asíncrona. También hay sesiones en línea síncronas con la participación del estudiantado y del profesorado, donde se debaten las actividades individuales realizadas previamente de forma asíncrona y se realizan ejercicios prácticos, preguntas y actividades grupales.</p>
<p>El profesorado informó de dificultades al aplicar la estrategia de aprendizaje de justo a tiempo, ya que no disponían de tiempo suficiente para evaluar las actividades de respuesta corta del estudiantado y proporcionar un <italic>feedback</italic> significativo antes de las sesiones en línea. Por lo tanto, SLASys responde a estas necesidades proporcionando una solución para evaluar y proporcionar <italic>feedback</italic> a cada estudiante de manera eficiente.</p>
<p>
<fig id="gf1">
<label>Figura 1</label>
<caption>
<title>
<italic>Diseño de la investigación</italic>
</title>
</caption>
<alt-text>Figura 1 Diseño de la investigación</alt-text>
<graphic xlink:href="331483192025_gf8.png" position="anchor" orientation="portrait">
<alt-text>Figura 1 Diseño de la investigación</alt-text>
</graphic>
</fig>
</p>
<p>La <xref ref-type="fig" rid="gf1">Figura 1</xref> muestra el diseño de la investigación. En primer lugar, los enfoques diseñados se comparan para ver su precisión para responder a la PI1. En segundo lugar, durante cuatro ediciones del curso, se probó el enfoque de clasificación de respuestas en un test relacionado con el concepto de Claridad de patentes para responder a la PI2. En total, 120 estudiantes realizaron el test. En tercer lugar, se diseñó un nuevo test sobre el concepto de Novedad en las dos últimas ediciones sin datos de entrenamiento (es decir, sin respuestas del estudiantado de ediciones anteriores). En este caso, se utilizaron los dos enfoques diseñados para evaluar el rendimiento del recomendador y responder a la PI3. Un total de 70 estudiantes respondieron este segundo test. Además, se recopilaron las opiniones del estudiantado y las experiencias del profesorado en todas las ediciones para responder a la PI4.</p>
<p>Las pruebas con estudiantado real se realizaron en línea de forma síncrona usando un Moodle adaptado como SGA que integraba SLASys para recomendar los resultados de la evaluación. Los tests de Claridad y Novedad incorporaron 8 y 11 preguntas, respectivamente, y el estudiantado dispuso de una hora para responderlos. Su objetivo fue mejorar su conocimiento, pero no sus calificaciones. El estudiantado es evaluado en dos ocasiones durante su formación mediante exámenes presenciales.</p>
</sec>
<sec>
<title>
<bold>SLASys: un recomendador para la CAPRC</bold>
</title>
<p>SLASys se diseñó para determinar si la respuesta de cada estudiante a una pregunta de respuesta corta es correcta, dependiendo de la información disponible relacionada con la pregunta. La <xref ref-type="fig" rid="gf2">Figura 2</xref> muestra las dos técnicas utilizadas para detectar si una respuesta es correcta. La pregunta es sobre el concepto de Novedad en el dominio de la Propiedad Intelectual, preguntando por qué la reivindicación de la patente no es novedosa. La comparación se efectúa utilizando <italic>embeddings</italic> de BERT. Aunque un <italic>embedding</italic> es una matriz matemática compleja, se podría ver como una codificación del significado de la frase mediante un conjunto de símbolos que definen su significado.</p>
<p>
<fig id="gf2">
<label>
<bold>Figura 2</bold>
</label>
<caption>
<title>
<italic>Ejemplo de pregunta sobre Novedad</italic>
</title>
</caption>
<alt-text>Figura 2 Ejemplo de pregunta sobre Novedad</alt-text>
<graphic xlink:href="331483192025_gf9.png" position="anchor" orientation="portrait">
<alt-text>Figura 2 Ejemplo de pregunta sobre Novedad</alt-text>
</graphic>
</fig>
</p>
<p>La primera técnica usa el <italic>embedding</italic> de la respuesta correcta proporcionada por el profesorado (denominada <italic>respuesta modelo</italic>), para compararla con las respuestas proporcionadas por el estudiantado. Para evaluar lo similar que es la respuesta de cada estudiante con respecto a la respuesta modelo del profesorado (es decir, cuántos símbolos son iguales en ambos <italic>embeddings</italic>) se utiliza la métrica de <italic>similitud del coseno</italic>. El resultado de la comparación (es decir, la <italic>puntuación de la métrica</italic>) es una probabilidad de la similitud, donde el 100 % indica que el significado es el mismo que el de la respuesta modelo del profesorado. La <xref ref-type="fig" rid="gf2">Figura 2</xref> muestra que este método falla para la respuesta correcta, ya que hay diferentes respuestas correctas y la respuesta modelo del profesorado no cubre todas ellas.</p>
<p>Sin embargo, este proceso podría mejorarse comparando las respuestas del estudiantado con un conjunto de respuestas correctas e incorrectas (extraídas del estudiantado real de ediciones anteriores del curso después de ser evaluadas por el profesorado), denominadas <italic>respuestas anotadas</italic>. Cada respuesta puede ser anotada como correcta o incorrecta. Aunque la comparación puede realizarse usando la similitud del coseno para cada respuesta anotada, existe una técnica más eficiente que implica el entrenamiento de un clasificador de IA mediante un <italic>ajuste fino</italic> basado en los <italic>embeddings</italic> de la información anotada. Dicho ajuste especializa el clasificador para centrarse en las respuestas específicas anotadas y recopiladas para una pregunta. El resultado del modelo es la probabilidad de que el <italic>embedding</italic> se clasifique como una respuesta correcta, donde un valor del 100 % significa que el modelo tiene una alta confianza en que la respuesta sea correcta.</p>
<p>Dado que una pregunta de respuesta corta puede crearse desde cero (es decir, se trata de una pregunta nueva) o reutilizarse de otros contextos de aprendizaje, el sistema considera estos dos posibles escenarios (<xref ref-type="fig" rid="gf3">Figura 3</xref>). La comparación semántica se utiliza cuando se crea la pregunta y no hay datos disponibles del estudiantado anterior. La comparación semántica utiliza la similitud del coseno con un conjunto de respuestas modelo correctas proporcionadas por el profesorado. La clasificación de respuestas entrena un clasificador de IA cuando hay respuestas anteriores disponibles, proporcionando una predicción sobre si la respuesta es correcta. Como ambas métricas se expresan en porcentajes, la identificación del umbral de calidad para decidir si la respuesta enviada por el estudiante es correcta se resolvió como un problema de optimización, ya que el objetivo es maximizar el umbral mientras que la clasificación correcta no empeora significativamente. Después de algunos experimentos y de la validación con profesorado experto en el dominio, se concluyó que un umbral superior al 60 % identificó principalmente respuestas correctas.</p>
<p>
<fig id="gf3">
<label>Figura 3</label>
<caption>
<title>
<italic>Diseño técnico de SLASys</italic>
</title>
</caption>
<alt-text>Figura 3 Diseño técnico de SLASys</alt-text>
<graphic xlink:href="331483192025_gf10.png" position="anchor" orientation="portrait">
<alt-text>Figura 3 Diseño técnico de SLASys</alt-text>
</graphic>
</fig>
</p>
</sec>
<sec>
<title>
<bold>Integración de SLASys con Moodle para la evaluación y provisión de <italic>feedback </italic>
</bold>
</title>
<p>Dado que SLASys ofrece un proceso automático para recomendar la evaluación, el proceso de evaluación podría mejorarse proporcionando <italic>feedback</italic> automatizado. La <xref ref-type="fig" rid="gf4">Figura 4</xref> muestra un ejemplo del <italic>feedback</italic> suministrado sobre la pregunta asociada a la reivindicación de la <xref ref-type="fig" rid="gf2">Figura 2</xref>. Es posible definir dos tipos de preguntas: preguntas de respuesta corta simple o preguntas de opción con una justificación. Este segundo tipo de pregunta es relevante para el profesorado en el examen de patentes, ya que las preguntas suelen plantear alguna reivindicación relacionada con la definición de una patente, y el estudiantado debe examinar si la reivindicación cumple con las directrices de la CEP, como la novedad o la claridad. La <xref ref-type="fig" rid="gf4">Figura 4</xref> muestra un ejemplo del segundo tipo de pregunta con el <italic>feedback</italic> proporcionado y el enlace a las directrices de la CEP según el resultado de la evaluación. El <italic>feedback</italic> está predefinido para cada opción y se ha configurado en el diseño de la pregunta, proporcionando información significativa para que el estudiantado comprenda el resultado de la evaluación y mejore su aprendizaje.</p>
<p>
<fig id="gf4">
<label>Figura 4</label>
<caption>
<title>
<italic>Ejemplo de feedback de una pregunta sobre Novedad</italic>
</title>
</caption>
<alt-text>Figura 4 Ejemplo de feedback de una pregunta sobre Novedad</alt-text>
<graphic xlink:href="331483192025_gf11.png" position="anchor" orientation="portrait">
<alt-text>Figura 4 Ejemplo de feedback de una pregunta sobre Novedad</alt-text>
</graphic>
</fig>
</p>
<p>SLASys incorpora una API con diferentes servicios que se pueden integrar en cualquier SGA. En concreto, se utilizó una integración con Moodle mediante el desarrollo de un complemento (<italic>plugin</italic>) adaptado para acceder a las capacidades de SLASys. Esto permitió ocultar los aspectos más complejos, proporcionando una interfaz fácil de usar y de gestionar por el profesorado. Se integraron los nuevos tipos de pregunta en Moodle, adaptando la configuración de preguntas y la interfaz de evaluación para el profesorado, así como la interfaz del estudiantado para enviar las respuestas y revisar los resultados de la evaluación. El diseño minimiza la carga de trabajo del profesorado con una curva de aprendizaje extremadamente baja.</p>
<p>Se puede añadir una nueva pregunta a un test, proporcionando la información obligatoria siguiente: el tipo de pregunta, el enunciado y el conjunto de respuestas modelo del profesorado. Opcionalmente, se pueden agregar o recuperar las respuestas anotadas del estudiantado de ediciones anteriores del curso. Cuando no se proporciona esta última información, SLASys utiliza el enfoque de comparación semántica. En el caso contrario, el clasificador de IA de respuestas correspondiente se entrena automáticamente sin intervención técnica (<xref ref-type="fig" rid="gf3">Figura 3</xref>).</p>
<p>La particularidad más destacada está en la configuración de la evaluación y el <italic>feedback</italic>. La pregunta incorpora una rúbrica (un elemento no disponible para preguntas de respuesta corta en Moodle), permitiendo unificar los criterios de evaluación entre el profesorado y ofrecer el <italic>feedback</italic> correspondiente según los resultados de la evaluación.</p>
<p>La <xref ref-type="fig" rid="gf5">Figura 5.a)</xref> ilustra la interfaz del estudiantado para enviar una respuesta a una pregunta de opción habilitada. La figura también muestra los diferentes niveles de la rúbrica y las calificaciones asociadas. La respuesta entregada se envía a SLASys, y la recomendación de evaluación se devuelve a Moodle cuando se ha procesado. La recomendación se muestra en la interfaz de evaluación (<xref ref-type="fig" rid="gf6">Figura 6</xref>). El profesorado puede visualizar las respuestas modelo, la recomendación de SLASys, la información interpretable del modelo de clasificación de respuestas y la puntuación de la métrica. La información interpretable utiliza colores para indicar qué palabras impactan positiva o negativamente en las decisiones del clasificador. Aunque a veces se incluyen palabras irrelevantes, el profesorado aún puede identificar las palabras incorrectas que afectan la forma en que se clasifican las respuestas del estudiantado. La interfaz también sugiere la calificación, así como el <italic>feedback </italic>según la rúbrica que se selecciona automáticamente dependiendo de la recomendación. El profesorado debe revisar toda esta información y seleccionar el nivel de rúbrica correcto.</p>
<p>Después de ser evaluados, los resultados del test se pueden revisar en la interfaz del estudiantado (<xref ref-type="fig" rid="gf5">Figura 5.b</xref>), de manera que cada estudiante puede ver su calificación y el <italic>feedback</italic> con base en la opción de rúbrica seleccionada, validada por el profesorado.</p>
<p>
<fig id="gf5">
<label>Figura 5</label>
<caption>
<title>
<bold/>
<italic>Interfaz de la pregunta en Moodle para el estudiantado</italic>
</title>
</caption>
<alt-text>Figura 5 Interfaz de la pregunta en Moodle para el estudiantado</alt-text>
<graphic xlink:href="331483192025_gf12.png" position="anchor" orientation="portrait">
<alt-text>Figura 5 Interfaz de la pregunta en Moodle para el estudiantado</alt-text>
</graphic>
</fig>
</p>
<p>
<fig id="gf6">
<label>
<bold>Figura 6</bold>
</label>
<caption>
<title>
<italic>Interfaz de evaluación en Moodle para el profesorado</italic>
</title>
</caption>
<alt-text>Figura 6 Interfaz de evaluación en Moodle para el profesorado</alt-text>
<graphic xlink:href="331483192025_gf13.png" position="anchor" orientation="portrait">
<alt-text>Figura 6 Interfaz de evaluación en Moodle para el profesorado</alt-text>
</graphic>
</fig>
</p>
</sec>
<sec>
<title>
<bold>Análisis de datos </bold>
</title>
<p>Para responder a las preguntas de investigación se han utilizado dos fuentes de datos. En primer lugar, la información de SLASys se ha empleado para analizar el número de evaluaciones correctas sobre las respuestas utilizadas para el entrenamiento (<italic>rendimiento</italic>) (PI1). A continuación, usando el complemento de Moodle, se recuperaron las recomendaciones proporcionadas por SLASys y la evaluación realizada por el profesorado para analizar las recomendaciones correctas durante la prueba con los estudiantes (PI2 y PI3). El rendimiento durante la fase de entrenamiento y prueba con el estudiantado se puede calcular a partir de las siguientes <xref ref-type="disp-formula" rid="e1">métricas</xref>:</p>
<p>
<disp-formula id="e1">
<label/>
<graphic xlink:href="331483192025_ee2.png" position="anchor" orientation="portrait">
<alt-text/>
</graphic>
</disp-formula>
</p>
<p>Donde TP denota el número de respuestas correctas correctamente identificadas, TN el número de respuestas incorrectas correctamente identificadas, FP el número de respuestas incorrectas no identificadas correctamente y FN el número de respuestas correctas no identificadas correctamente. Estas cuatro métricas permiten calcular la precisión en la detección de respuestas correctas e incorrectas (ACC), la precisión en la detección de respuestas correctas (<italic>True Positive Rate</italic>—TPR), la precisión en la detección de respuestas incorrectas (<italic>True Negative Rate</italic>—TNR) y el porcentaje de respuestas correctas con penalización por las identificaciones incorrectas (<italic>F score</italic> - F1,5). Estas métricas se utilizan para evaluar el rendimiento de los enfoques de comparación semántica y de clasificación de respuestas (PI1) y para determinar si SLASys recomienda la evaluación esperada por el profesorado en un entorno educativo real (PI2 y PI3).</p>
<p>Por último, se recopiló el tiempo medio de acceso del estudiantado a la interfaz de <italic>feedback</italic> y sus valoraciones sobre los resultados proporcionados. Para ello, el complemento de Moodle añadió una escala Likert para recopilar las valoraciones del estudiantado en la interfaz de <italic>feedback</italic>. La escala osciló entre 1 y 5 (donde 5 significa que el <italic>feedback</italic> se considera muy útil). En cuanto a la experiencia del profesorado, solo se recopilaron sus comentarios sobre el uso del sistema porque únicamente estuvieron implicados tres profesores (PI4).</p>
</sec>
</sec>
<sec>
<title>
<bold>RESULTADOS</bold>
</title>
<sec>
<title>
<bold>PI1: ¿Cómo de precisa es la clasificación de respuestas con respecto a la comparación semántica para la recomendación en la CAPRC?</bold>
</title>
<p>Conocer la precisión de SLASys antes del primer piloto con el estudiantado es crucial para analizar la aplicabilidad del sistema en un entorno educativo real. Los resultados se detallan en la <xref ref-type="table" rid="gt2">Tabla 1</xref>, donde se analizaron las ocho preguntas del test de Claridad.</p>
<p>
<table-wrap id="gt2">
<label>Tabla 1</label>
<caption>
<title>
<italic>Métricas de rendimiento en el test de Claridad con los datos de entramiento</italic>
</title>
</caption>
<alt-text>Tabla 1 Métricas de rendimiento en el test de Claridad con los datos de entramiento</alt-text>
<alternatives>
<graphic xlink:href="331483192025_gt2.png" position="anchor" orientation="portrait"/>
<table style="width:460.45pt;border-collapse:collapse;border:none" id="gt2-526564616c7963">
<thead style="display:none;">
<tr style="display:none;">
<th style="display:none;"/>
</tr>
</thead>
<tbody>
<tr style="height:17.0pt">
<td style="width:2.0cm;border-top:solid windowtext 1.0pt;border-left:   none;border-bottom:solid windowtext 1.0pt;border-right:none;padding:0cm 5.4pt 0cm 5.4pt;   height:17.0pt"/>
<td style="width:56.45pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>Correcto</bold>
</td>
<td style="width:2.0cm;border-top:solid windowtext 1.0pt;border-left:   none;border-bottom:solid windowtext 1.0pt;border-right:none;padding:0cm 5.4pt 0cm 5.4pt;   height:17.0pt">
<bold>Incorrecto</bold>
</td>
<td style="width:146.8pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt" colspan="4">
<bold>Comparación semántica</bold>
</td>
<td style="width:143.8pt;border-top:solid windowtext 1.0pt;   border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt" colspan="4">
<bold>Clasificación de respuestas</bold>
</td>
</tr>
<tr style="height:17.0pt">
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>Ejercicio</bold>
</td>
<td style="width:56.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>Entren. / </bold>
<bold>Valid.</bold>
</td>
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>Entren. / Valid.</bold>
</td>
<td style="width:35.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>ACC</bold>
</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>TPR</bold>
</td>
<td style="width:35.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>TNR</bold>
</td>
<td style="width:33.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>F<sub>1,5</sub>
</bold>
</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>ACC</bold>
</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>TPR</bold>
</td>
<td style="width:35.65pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>TNR</bold>
</td>
<td style="width:38.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>F<sub>1,5</sub>
</bold>
</td>
</tr>
<tr style="height:11.9pt">
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">Pregunta 1</td>
<td style="width:56.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">36 / 8</td>
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">107 / 22</td>
<td style="width:35.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">37 %</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">100 %</td>
<td style="width:35.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">14 %</td>
<td style="width:33.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">58 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">87 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">88 %</td>
<td style="width:35.65pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">86 %</td>
<td style="width:38.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">81 %</td>
</tr>
<tr style="height:11.9pt">
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">Pregunta 2</td>
<td style="width:56.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">47 / 10</td>
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">7 / 2</td>
<td style="width:35.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">67 %</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">70 %</td>
<td style="width:35.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">50 %</td>
<td style="width:33.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">75 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">100 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">100 %</td>
<td style="width:35.65pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">100 %</td>
<td style="width:38.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">100 %</td>
</tr>
<tr style="height:11.9pt">
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">Pregunta 3</td>
<td style="width:56.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">3 / 2</td>
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">46 / 4</td>
<td style="width:35.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">42 %</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">100 %</td>
<td style="width:35.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">30 %</td>
<td style="width:33.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">48 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">83 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">0 %</td>
<td style="width:35.65pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">100 %</td>
<td style="width:38.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">0 %</td>
</tr>
<tr style="height:11.9pt">
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">Pregunta 4</td>
<td style="width:56.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">34 / 7</td>
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">17 / 20</td>
<td style="width:35.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">27 %</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">0 %</td>
<td style="width:35.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">75 %</td>
<td style="width:33.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">0 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">64 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">86 %</td>
<td style="width:35.65pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">25 %</td>
<td style="width:38.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">79 %</td>
</tr>
<tr style="height:11.9pt">
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">Pregunta 5</td>
<td style="width:56.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">67 / 14</td>
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">100 / 20</td>
<td style="width:35.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">53 %</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">100 %</td>
<td style="width:35.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">20 %</td>
<td style="width:33.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">74 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">82 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">71 %</td>
<td style="width:35.65pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">90 %</td>
<td style="width:38.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">75 %</td>
</tr>
<tr style="height:11.9pt">
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">Pregunta 6</td>
<td style="width:56.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">82 / 17</td>
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">36 / 8</td>
<td style="width:35.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">84 %</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">94 %</td>
<td style="width:35.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">63 %</td>
<td style="width:33.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">91 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">88 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">100 %</td>
<td style="width:35.65pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">63 %</td>
<td style="width:38.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">95 %</td>
</tr>
<tr style="height:11.9pt">
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">Pregunta 7</td>
<td style="width:56.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">33 / 7</td>
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">33 / 7</td>
<td style="width:35.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">57 %</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">86 %</td>
<td style="width:35.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">29 %</td>
<td style="width:33.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">73 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">79 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">71 %</td>
<td style="width:35.65pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">86 %</td>
<td style="width:38.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">75 %</td>
</tr>
<tr style="height:11.9pt">
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">Pregunta 8</td>
<td style="width:56.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">68 / 14</td>
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">19 / 4</td>
<td style="width:35.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">83 %</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">93 %</td>
<td style="width:35.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">50 %</td>
<td style="width:33.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">91 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">83 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">100 %</td>
<td style="width:35.65pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">25 %</td>
<td style="width:38.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:11.9pt">94 %</td>
</tr>
<tr style="height:17.0pt">
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>Promedio</bold>
</td>
<td style="width:56.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt"/>
<td style="width:2.0cm;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt"/>
<td style="width:35.45pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">56 %</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>80 %</bold>
</td>
<td style="width:35.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">41 %</td>
<td style="width:33.4pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">64 %</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>83 %</bold>
</td>
<td style="width:34.8pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">77 %</td>
<td style="width:35.65pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>72 %</bold>
</td>
<td style="width:38.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt">
<bold>75 %</bold>
</td>
</tr>
</tbody>
</table>
</alternatives>
</table-wrap>
</p>
<p>La tabla resume el número de respuestas anotadas utilizadas para el ajuste fino de los clasificadores de IA (es decir, el <italic>conjunto de datos de entrenamiento, entren. </italic>en la tabla), para evaluar su precisión (es decir, el <italic>conjunto de datos de validación, valid. </italic>en la tabla) y los resultados de las métricas. Los clasificadores de IA se ajustaron usando el 80 % de las respuestas anotadas (nótese que existe un clasificador para cada pregunta). El 20 % restante se utilizó para realizar la validación y obtener los resultados de la tabla. El proceso de división de los datos considera respuestas correctas e incorrectas en ambos conjuntos de datos. Cabe destacar que no hay fase de ajuste de la precisión en el enfoque de comparación semántica. En este caso, se compararon tres respuestas correctas seleccionadas de forma aleatoria con las respuestas de validación.</p>
<p>La clasificación de respuestas supera a la comparación semántica porque las respuestas anotadas proporcionan ejemplos de respuestas correctas e incorrectas. La comparación semántica suele fallar cuando existen múltiples formas de responder a una pregunta, y las respuestas están semánticamente alejadas de las respuestas modelo del profesorado. Con respecto a las métricas para detectar respuestas correctas e incorrectas (es decir, el TPR y el TNR), la calidad de los resultados depende en gran medida del número de respuestas proporcionadas por el profesorado para el entrenamiento y del equilibrio entre respuestas correctas e incorrectas. Los clasificadores con pocas respuestas tienen dificultades para realizar recomendaciones. Se puede observar que la comparación semántica puede detectar más respuestas correctas en promedio (un 80 % en comparación con el 77 %). Sin embargo, este incremento se debe a que muchas respuestas incorrectas se identificaron incorrectamente como correctas (un 41 % en comparación con el 72 %).</p>
<p>Para comprender mejor el comportamiento de las técnicas, se analizaron las predicciones individuales. La <xref ref-type="fig" rid="gf7">Figura 7</xref> muestra el análisis del conjunto de datos de validación para la Pregunta 5. Las métricas respectivas, la similitud del coseno y la probabilidad de que se predigan como correctas, se utilizan para la comparación semántica y la clasificación de respuestas, respectivamente. Se han utilizado colores diferentes para identificar qué predicciones son correctas utilizando ambas métricas (verde), cuáles se predicen incorrectamente mediante la comparación semántica (morado), cuáles se predicen incorrectamente mediante la clasificación de respuestas (amarillo) y cuáles no se pueden predecir por ninguno de los dos métodos (rojo).</p>
<p>
<fig id="gf7">
<label>
<bold>Figura 7</bold>
</label>
<caption>
<title>
<italic>Comparación del rendimiento de las métricas para la Pregunta 5</italic>
</title>
</caption>
<alt-text>Figura 7 Comparación del rendimiento de las métricas para la Pregunta 5</alt-text>
<graphic xlink:href="331483192025_gf14.png" position="anchor" orientation="portrait">
<alt-text>Figura 7 Comparación del rendimiento de las métricas para la Pregunta 5</alt-text>
</graphic>
</fig>
</p>
<p>La mayoría de los errores aparecen en la comparación semántica. Las respuestas de buena parte del estudiantado se consideran correctas (es decir, semánticamente similares a la respuesta modelo proporcionada por el profesorado), con un rango del 60 % al 85 %, pero son incorrectas. Por lo tanto, pequeños cambios en el significado de la frase pueden generar predicciones incorrectas. La clasificación de respuestas también proporciona algunas predicciones erróneas en la detección de respuestas correctas, pero en menos casos. Además, existen casos en los que ambos métodos fallan. El profesorado observó que algunas de estas respuestas se predijeron incorrectamente porque no se cubrieron en las respuestas utilizadas para el ajuste fino ni en las respuestas modelo del profesorado.</p>
</sec>
<sec>
<title>
<bold>PI2: ¿Cómo de preciso es SLASys en un entorno educativo real?</bold>
</title>
<p>La <xref ref-type="fig" rid="gf7">Figura 7</xref> muestra algunos casos erróneos. Añadir dichas respuestas a los clasificadores de IA podría mejorar la identificación en nuevas ediciones del curso. Esta es la idea fundamental para mejorar los clasificadores: estos se reentrenan, incluyendo los resultados de la evaluación realizados en las ediciones anteriores. De este modo, se perfeccionan con nuevas respuestas anotadas que mejoran la identificación. La PI2 analiza si la clasificación de evaluación de respuestas que SLASys recomienda al profesorado durante las cuatro ediciones del curso mejora, teniendo en cuenta el ajuste fino efectuado en cada edición. Los resultados agregados de las distintas métricas se han resumido en el gráfico de la <xref ref-type="fig" rid="gf8">Figura 8</xref> para el test de Claridad. Los resultados de todas las preguntas se han agregado para simplificar la evaluación.</p>
<p>
<fig id="gf8">
<label>Figura 8</label>
<caption>
<title>
<italic>Rendimiento de las métricas en el test de Claridad</italic>
</title>
</caption>
<alt-text>Figura 8 Rendimiento de las métricas en el test de Claridad</alt-text>
<graphic xlink:href="331483192025_gf15.png" position="anchor" orientation="portrait">
<alt-text>Figura 8 Rendimiento de las métricas en el test de Claridad</alt-text>
</graphic>
</fig>
</p>
<p>Se puede observar una mejora significativa en la segunda edición debido a las nuevas respuestas anotadas de la primera edición, que mejoraron la precisión en las preguntas con un número desequilibrado de respuestas correctas e incorrectas (es decir, las preguntas 2, 4 y 8 de la <xref ref-type="table" rid="gt2">Tabla 1</xref>). Aunque hay una ligera reducción en la detección correcta de las respuestas correctas (es decir, el TPR), esto se debe al proceso de refinamiento.</p>
<p>Las siguientes ediciones del curso contribuyeron a mejorar la precisión general, alcanzando valores superiores al 88 % en la última edición. Por lo tanto, incluir nuevos datos puede mejorar de forma eficaz la calidad del recomendador, lo que implica que puede utilizarse de forma efectiva con fines de evaluación. Una mayor precisión significa disponer de un recomendador con menos errores en el que el profesorado puede confiar durante el proceso de evaluación.</p>
</sec>
<sec>
<title>
<bold>PI3: ¿Puede utilizarse SLASys sin respuestas previas del estudiantado?</bold>
</title>
<p>Los buenos resultados mostrados en la sección anterior se obtuvieron porque el profesorado realizó una tarea inicial de anotación de las respuestas proporcionadas por el estudiantado anterior, lo que contribuyó a generar los clasificadores iniciales.</p>
<p>Sin embargo, se desea saber cómo funciona SLASys ante nuevas preguntas para las que no se dispone de respuestas anteriores. En este caso, solo se puede utilizar la comparación semántica con las respuestas modelo proporcionadas por el profesorado en la primera edición (se incluyeron tres respuestas modelo por pregunta). Sin embargo, en la segunda edición, la clasificación de respuestas puede aplicarse utilizando la evaluación realizada en la primera edición. El experimento con estudiantes reales se llevó a cabo en las dos últimas ediciones, es decir, en el primer y segundo trimestre de 2024, donde se diseñó un nuevo test para el concepto de Novedad. La <xref ref-type="fig" rid="gf9">Figura 9</xref> muestra la mejora de SLASys al cambiar de la comparación semántica a la clasificación de respuestas en un entorno educativo real.</p>
<p>
<fig id="gf9">
<label>Figura 9</label>
<caption>
<title>
<italic>Rendimiento de las métricas en el test de Novedad</italic>
</title>
</caption>
<alt-text>Figura 9 Rendimiento de las métricas en el test de Novedad</alt-text>
<graphic xlink:href="331483192025_gf16.png" position="anchor" orientation="portrait">
<alt-text>Figura 9 Rendimiento de las métricas en el test de Novedad</alt-text>
</graphic>
</fig>
</p>
<p>Se puede observar una diferencia significativa entre ambos enfoques. La precisión global (es decir, el ACC) mejora del 48,86 % al 62,01 %. Esta mejora se debe al incremento significativo en la detección de respuestas incorrectas (el TNR aumentó del 32,81 % al 71,88 %). Sin embargo, la detección de respuestas correctas disminuye. La comparación semántica tiende a recomendar que la mayoría de las respuestas del estudiantado son correctas, ya que no puede distinguir las ligeras diferencias semánticas. Esto produce el efecto no deseado de que la comparación semántica no puede detectar correctamente la mayoría de las respuestas incorrectas. Por lo tanto, el cambio de la comparación semántica a la clasificación de respuestas tiene un impacto positivo en el recomendador.</p>
<p>El hallazgo relevante de este experimento es que los modelos de clasificación de respuestas pueden producir recomendaciones de alta calidad en pocas ediciones, incluso comenzando desde cero con un enfoque basado en comparación semántica.</p>
</sec>
<sec>
<title>
<bold>PI4: ¿Cuál es la opinión del estudiantado y del profesorado?</bold>
</title>
<p>Finalmente, se desea determinar si los nuevos tests y el <italic>feedback</italic> fueron útiles. La <xref ref-type="table" rid="gt3">Tabla 2</xref> resume la información recopilada del estudiantado, incluyendo el número de estudiantes que accedió al <italic>feedback</italic>, el tiempo promedio dedicado a la página y la valoración final otorgada al <italic>feedback</italic> recibido. No todo el estudiantado accedió al <italic>feedback</italic>, probablemente porque los tests no afectaron a la superación del curso. Además, el tiempo promedio de dedicación es relativamente bajo. Al comprobar el tiempo de acceso individual, se observa que este se correlaciona en gran medida con el número de respuestas incorrectas. En consecuencia, el estudiantado con respuestas incorrectas dedicó más tiempo a leer el <italic>feedback</italic>. Por lo tanto, se puede deducir que comprobó lo que debe aprender para mejorar. Por último, la valoración promedio es significativamente alta (superior al 70 %) en todas las ediciones y tests.</p>
<p>
<table-wrap id="gt3">
<label>Tabla 2</label>
<caption>
<title>
<italic>Tiempo de acceso al feedback y valoración del estudiantado</italic>
</title>
</caption>
<alt-text>Tabla 2 Tiempo de acceso al feedback y valoración del estudiantado</alt-text>
<alternatives>
<graphic xlink:href="331483192025_gt3.png" position="anchor" orientation="portrait"/>
<table style="width:16.0cm;border-collapse:collapse;border:none" id="gt3-526564616c7963">
<thead style="display:none;">
<tr style="display:none;">
<th style="display:none;"/>
</tr>
</thead>
<tbody>
<tr style="height:17.0pt">
<td style="width:127.6pt;border-top:solid #7F7F7F 1.0pt;border-left:   none;border-bottom:solid #7F7F7F 1.0pt;border-right:none;padding:0cm 5.4pt 0cm 5.4pt;   height:17.0pt">
<bold>Test</bold>
</td>
<td style="width:212.95pt;border-top:solid #7F7F7F 1.0pt;   border-left:none;border-bottom:solid #7F7F7F 1.0pt;border-right:none;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt" colspan="4">
<bold>Claridad</bold>
</td>
<td style="width:113.05pt;border-top:solid #7F7F7F 1.0pt;   border-left:none;border-bottom:solid #7F7F7F 1.0pt;border-right:none;   padding:0cm 5.4pt 0cm 5.4pt;height:17.0pt" colspan="2">
<bold>Novedad</bold>
</td>
</tr>
<tr style="height:41.45pt">
<td style="width:127.6pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:41.45pt">
<bold>Edición</bold>
</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:41.45pt">
<bold>Segundo Semestre 2023</bold>
</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:41.45pt">
<bold>Tercer Semestre 2023</bold>
</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:41.45pt">
<bold>Primer Semestre 2024</bold>
</td>
<td style="width:53.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:41.45pt">
<bold>Segundo Semestre 2024</bold>
</td>
<td style="width:56.1pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:41.45pt">
<bold>Primer Semestre 2024</bold>
</td>
<td style="width:56.95pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:41.45pt">
<bold>Segundo Semestre 2024</bold>
</td>
</tr>
<tr style="height:13.65pt">
<td style="width:127.6pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:13.65pt">Acceso estudiantado (%)</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:13.65pt">83,33</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:13.65pt">84,62</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:13.65pt">88,89</td>
<td style="width:53.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:13.65pt">80,00</td>
<td style="width:56.1pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:13.65pt">77,78</td>
<td style="width:56.95pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:13.65pt">76,00</td>
</tr>
<tr style="height:28.85pt">
<td style="width:127.6pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:28.85pt">Tiempo medio de acceso (minutos)</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:28.85pt">2,33</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:28.85pt">1,73</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:28.85pt">3,51</td>
<td style="width:53.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:28.85pt">2,91</td>
<td style="width:56.1pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:28.85pt">4,74</td>
<td style="width:56.95pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:28.85pt">4,68</td>
</tr>
<tr style="height:12.9pt">
<td style="width:127.6pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.9pt">Valoración (1-5)</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.9pt">3,94</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.9pt">3,84</td>
<td style="width:53.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.9pt">3,63</td>
<td style="width:53.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.9pt">3,85</td>
<td style="width:56.1pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.9pt">3,55</td>
<td style="width:56.95pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.9pt">3,77</td>
</tr>
</tbody>
</table>
</alternatives>
</table-wrap>
</p>
<p>
<table-wrap id="gt4">
<label>Tabla 3</label>
<caption>
<title>
<italic>Tiempo de acceso al feedback y valoración del estudiantado</italic>
</title>
</caption>
<alt-text>Tabla 3 Tiempo de acceso al feedback y valoración del estudiantado</alt-text>
<alternatives>
<graphic xlink:href="331483192025_gt4.png" position="anchor" orientation="portrait"/>
<table style="border-collapse:collapse;border:none" id="gt4-526564616c7963">
<thead style="display:none;">
<tr style="display:none;">
<th style="display:none;"/>
</tr>
</thead>
<tbody>
<tr style="height:16.85pt">
<td style="width:141.5pt;border-top:solid windowtext 1.0pt;    border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;    padding:0cm 5.4pt 0cm 5.4pt;height:16.85pt">
<bold>Referencia</bold>
</td>
<td style="width:92.15pt;border-top:solid windowtext 1.0pt;    border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;    padding:0cm 5.4pt 0cm 5.4pt;height:16.85pt">
<bold>Técnica</bold>
</td>
<td style="width:99.25pt;border-top:solid windowtext 1.0pt;    border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;    padding:0cm 5.4pt 0cm 5.4pt;height:16.85pt">
<bold>Predicción</bold>
</td>
<td style="width:70.85pt;border-top:solid windowtext 1.0pt;    border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;    padding:0cm 5.4pt 0cm 5.4pt;height:16.85pt">
<bold>
<italic>Feedback</italic>
</bold>
</td>
<td style="width:42.55pt;border-top:solid windowtext 1.0pt;    border-left:none;border-bottom:solid windowtext 1.0pt;border-right:none;    padding:0cm 5.4pt 0cm 5.4pt;height:16.85pt">
<bold>ACC</bold>
</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">(<xref ref-type="bibr" rid="redalyc_331483192025_ref54">Saha et al., 2018</xref>)</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">PLN</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Corrección</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">No</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">66 %</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">(<xref ref-type="bibr" rid="redalyc_331483192025_ref59">Soulimani et al., 2024</xref>)</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Clasif. BERT</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Calificación (0-4)*</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">No</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">71 %</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">(<xref ref-type="bibr" rid="redalyc_331483192025_ref48">Padó et al., 2024</xref>)</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Clasif. BERT</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Corrección</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">No</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">72 %</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">(<xref ref-type="bibr" rid="redalyc_331483192025_ref67">Wang et al., 2019</xref>)</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Clasif. BERT</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Corrección</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">No</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">80 %</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">(<xref ref-type="bibr" rid="redalyc_331483192025_ref13">Camus y Filighera, 2020</xref>)</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Clasif. BERT</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Corrección</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">No</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">80 %</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">(<xref ref-type="bibr" rid="redalyc_331483192025_ref39">Lun et al., 2020</xref>)</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Clasif. BERT</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Corrección</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">No</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">82 %</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">(<xref ref-type="bibr" rid="redalyc_331483192025_ref61">Sung et al., 2019</xref>)</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Clasif. BERT</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Corrección</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">No</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">84 %</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">(<xref ref-type="bibr" rid="redalyc_331483192025_ref56">Schneider et al., 2023</xref>)</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Clasif. BERT</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Corrección</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">No</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">86 %</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">(<xref ref-type="bibr" rid="redalyc_331483192025_ref38">Liu et al., 2019</xref>)</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Clasif. BERT</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Corrección</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">No</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">89 %</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">(<xref ref-type="bibr" rid="redalyc_331483192025_ref27">Grévisse, 2024</xref>)</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">IAGen (GPT4)</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Calificación (0-10)*</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Generado</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">64 %</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">(<xref ref-type="bibr" rid="redalyc_331483192025_ref3">Aggarwal et al., 2025</xref>)</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">IAGen (Mistral)</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Corrección</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Generado</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">75 %</td>
</tr>
<tr style="height:12.95pt">
<td style="width:141.5pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">SLASys</td>
<td style="width:92.15pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Clasif. BERT</td>
<td style="width:99.25pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Corrección</td>
<td style="width:70.85pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">Predefinido</td>
<td style="width:42.55pt;border:none;border-bottom:solid windowtext 1.0pt;   padding:0cm 5.4pt 0cm 5.4pt;height:12.95pt">83 %</td>
</tr>
</tbody>
</table>
</alternatives>
<table-wrap-foot>
<fn id="fn4" fn-type="other">
<label>(*)</label>
<p>La precisión se calcula asumiendo como correcto cuando la calificación es superior a la mitad de los puntos máximos.</p>
</fn>
</table-wrap-foot>
</table-wrap>
</p>
<p>Además, el profesorado recopiló algunas opiniones durante las sesiones en línea. El estudiantado estuvo de acuerdo en que la calificación de la evaluación, el <italic>feedback</italic> sobre las respuestas y las directrices de la CEP a revisar fueron muy valiosos. Además, obtenerlos casi de forma inmediata fue positivo. Sin embargo, el estudiantado se quejó de que el <italic>feedback</italic> debería ser más personalizado, describiendo por qué su respuesta era incorrecta.</p>
<p>El profesorado también compartió su experiencia con el recomendador. Inicialmente, era reacio a usarlo, argumentando que confiar en la calificación automática podría dar lugar a evaluaciones erróneas. Sin embargo, la herramienta fue altamente aceptada como recomendador, puesto que la revisión final del profesorado era obligatoria. Después de evaluar las diferentes ediciones, el profesorado coincidió en que ganó eficiencia, ya que también adquirió experiencia con el tiempo. Con relación al experimento con el test de Novedad sin respuestas anotadas, se quejó en la primera edición (es decir, en el primer trimestre de 2024) puesto que no observó ninguna mejora en la reducción de su carga de trabajo, ya que el recomendador produjo muchas recomendaciones incorrectas. Sin embargo, constató el beneficio en la última edición cuando se pudo utilizar la clasificación de respuestas.</p>
</sec>
</sec>
<sec>
<title>
<bold>DISCUSIÓN</bold>
</title>
<p>Los resultados obtenidos permiten responder a las preguntas de investigación. En relación con la PI1, como señalan otros trabajos (<xref ref-type="bibr" rid="redalyc_331483192025_ref11">Burrows et al., 2015</xref>), los clasificadores de IA de BERT (es decir, la clasificación de respuestas) muestran una mayor precisión con respecto a la comparación semántica, y obtienen resultados similares a otros sistemas de CAPRC. La <xref ref-type="table" rid="gt4">Tabla 3</xref> compara SLASys con otros sistemas que usan conjuntos de datos públicos y que han sido reportados en la literatura. En concreto, se resume la técnica utilizada, el objetivo de predicción, el tipo de <italic>feedback</italic> proporcionado y la precisión obtenida. La clasificación de respuestas de SLASys alcanza una precisión similar a la obtenida por los trabajos relacionados que se centran en predecir la correctitud de respuestas, con una precisión que oscila entre el 71 % y el 89 %. Sin embargo, no es posible comparar SLASys con trabajos centrados en la predicción de calificaciones, ya que emplean métricas distintas para evaluar lo cerca que está la calificación predecida de la correcta (concretamente, se usa la <italic>raíz cuadrada del error cuadrático medio</italic>). Tales técnicas tienen tasas de error que oscilan entre moderadas y altas, con valores que van desde el 0,57 (<xref ref-type="bibr" rid="redalyc_331483192025_ref9">Baral et al., 2021</xref>) hasta valores mayores que 1 (<xref ref-type="bibr" rid="redalyc_331483192025_ref22">Gaddipati et al., 2020</xref>; <xref ref-type="bibr" rid="redalyc_331483192025_ref42">Metzler et al., 2024</xref>), lo que dificulta su uso en un entorno educativo real. Cabe señalar que predecir la calificación es una tarea más compleja, ya que existe más variabilidad en el resultado (<xref ref-type="bibr" rid="redalyc_331483192025_ref15">del Gobbo et al., 2023</xref>). Por lo tanto, el método propuesto en este trabajo simplifica el proceso, al proporcionar el resultado de la evaluación al profesorado, que decide la calificación en función de una rúbrica. Además, los resultados experimentales ofrecen información sobre el tamaño reducido del conjunto de datos necesario para obtener un clasificador ajustado para preguntas de respuesta corta (<xref ref-type="bibr" rid="redalyc_331483192025_ref40">Mehrafarin et al., 2022</xref>). Por lo general, se recomienda tener un mínimo de 500 respuestas (es decir, <italic>instancias</italic>) para disponer de un clasificador adecuado. Sin embargo, la <xref ref-type="table" rid="gt2">Tabla 1</xref> muestra que se puede entrenar un buen clasificador incluso con menos respuestas. Además, se han comparado los métodos de clasificación semántica y de clasificación de preguntas, y sus métricas asociadas, para una pregunta específica (<xref ref-type="fig" rid="gf7">Figura 7</xref>). El profesorado puede acceder a esta información en Moodle para comprender mejor qué respuestas no están bien clasificadas. Cabe recordar que la interpretabilidad de la IA es una de las recomendaciones para las herramientas de IA (<xref ref-type="bibr" rid="redalyc_331483192025_ref75">Zhao et al., 2024</xref>). La <xref ref-type="table" rid="gt4">Tabla 3</xref> también compara SLASys con trabajos basados en IAGen, que actualmente muestran un rendimiento inferior que los modelos basados en BERT. Aunque las herramientas IAGen generan un gran entusiasmo, todavía tienen algunos inconvenientes en el ámbito de la evaluación. Pueden incurrir en alucinaciones (<xref ref-type="bibr" rid="redalyc_331483192025_ref33">Jia et al., 2024</xref>) o mostrar limitaciones conceptuales en dominios específicos (<xref ref-type="bibr" rid="redalyc_331483192025_ref16">De La Cruz et al., 2024</xref>), lo que puede disminuir su eficacia para evaluar. Algunos de estos modelos de IAGen se pueden utilizar localmente. Sin embargo, las soluciones empresariales son ampliamente utilizadas. Estas operan de forma remota, ofreciendo una mayor capacidad de procesamiento, pero a mayores costes y con problemas de sostenibilidad (<xref ref-type="bibr" rid="redalyc_331483192025_ref62">van Wynsberghe, 2021</xref>). Además, requieren de un análisis de cuestiones éticas y el replanteamiento de las políticas educativas y de protección de datos. Es importante que las instituciones de educación superior revisen el manifiesto propuesto por <xref ref-type="bibr" rid="redalyc_331483192025_ref25">García-Peñalvo et al. (2024</xref>) para obtener un sistema seguro y ético. SLASys opera localmente, reduciendo los costes de procesamiento, manteniendo su funcionalidad y no proporcionando datos a terceros. Además, no recopila datos confidenciales del estudiantado, dado que estos se mantienen seguros dentro del SGA.</p>
<p>Con respecto a la PI2, se ha mostrado la progresión de SLASys a lo largo de cuatro ediciones del curso. Como afirma la pregunta de investigación anterior, los conjuntos de respuestas anotadas (aunque sean reducidos) producen clasificadores de alta precisión, lo que hace disponible SLASys para su uso en un entorno educativo real. Al generar clasificadores precisos, SLASys es un ejemplo de una herramienta de IA que puede beneficiar a ambas partes. Por un lado, el profesorado puede beneficiarse de un recomendador para la CAPRC, lo que aumenta la eficiencia de la evaluación y unifica los criterios de evaluación (<xref ref-type="bibr" rid="redalyc_331483192025_ref69">Xavier et al., 2025</xref>). Además, los beneficios para el profesorado son más claros a medida que se reduce su carga de trabajo, lo que le permite dedicar más tiempo a otras tareas cualitativas como la revisión del <italic>feedback</italic>, el diseño de nuevas preguntas o actividades de aprendizaje mejor diseñadas. Debido a la integración con Moodle, SLASys proporciona <italic>feedback</italic> formativo al estudiantado en comparación con los trabajos relacionados descritos en la <xref ref-type="table" rid="gt4">Tabla 3</xref>. Estos trabajos únicamente proporcionan una recomendación sin <italic>feedback</italic>, que, en el caso de su aplicación en un entorno real, necesitaría de métodos adicionales para proporcionarlo. Según <xref ref-type="bibr" rid="redalyc_331483192025_ref23">Gaddipati et al. (2021</xref>), una opción podría ser utilizar herramientas IAGen que muestran potencial para la generación de <italic>feedback</italic>. Por otro lado, con SLASys, el estudiantado obtiene <italic>feedback</italic> de calidad cuando se le hacen preguntas de razonamiento (<xref ref-type="bibr" rid="redalyc_331483192025_ref12">Calimeris y Kosack, 2020</xref>). Con este <italic>feedback</italic>, el estudiantado puede aprender mejor con información más completa y detallada sobre su tarea de evaluación. En última instancia, este <italic>feedback</italic> se convierte en un componente personalizado que mejora el conocimiento del estudiantado (<xref ref-type="bibr" rid="redalyc_331483192025_ref1">Abu Khurma et al., 2024</xref>).</p>
<p>En relación con la PI3, los resultados demuestran que SLASys se puede utilizar incluso sin datos de entrenamiento. En la primera edición que se proponga una nueva pregunta, el profesorado necesitará prestar más atención debido a las recomendaciones de baja precisión. Sin embargo, el clasificador de IA estará listo para su uso en la próxima edición. Es importante destacar también la simplicidad técnica del sistema. SLASys sigue las buenas prácticas de evaluación descritas en <xref ref-type="bibr" rid="redalyc_331483192025_ref50">Petridou y Lao (2024</xref>).</p>
<p>Por último, en relación con la PI4, las opiniones y los resultados indican que las predicciones erróneas del recomendador no afectan al estudiantado, ya que este obtiene la evaluación revisada por el profesorado. En este sentido, la supervisión humana es obligatoria porque los errores en la evaluación pueden tener efectos negativos en el estudiantado (<xref ref-type="bibr" rid="redalyc_331483192025_ref37">Li et al., 2023</xref>). Al igual que en <xref ref-type="bibr" rid="redalyc_331483192025_ref55">Sangapu (2018</xref>), las opiniones son principalmente positivas con la introducción de herramientas de IA en la educación. El profesorado no se siente abrumado por los problemas técnicos, ya que SLASys está integrado en Moodle. De forma similar, SLASys cambiará automáticamente de una técnica a otra sin la intervención del profesorado. Igualmente relevante, SLASys se ha diseñado como un recomendador de evaluación siguiendo las recomendaciones de la Ley Europea de IA (<xref ref-type="bibr" rid="redalyc_331483192025_ref20">European Commission, 2024</xref>), evitando su uso como calificador automático basado en IA.</p>
<p>Este estudio presenta limitaciones relacionadas con el tamaño de la muestra y el muestreo no probabilístico que afectan a la validez externa. Debido a su aplicación en un entorno educativo real, se utilizó un conjunto de datos reducido de un dominio específico, lo que restringe la generalización de los hallazgos y puede generar sesgo muestral. Esto se puede observar principalmente en la PI3, donde el tamaño de la muestra para la última edición del curso es de solo 25 estudiantes. Sin embargo, los hallazgos que se derivan de la PI2 demuestran que SLASys mejora su precisión y sigue siendo aplicable y eficaz a lo largo del tiempo (es decir, en las cuatro ediciones del curso) incluso cuando los clasificadores de IA se entrenan con datos limitados. En cuanto al muestreo no probabilístico, todo el estudiantado participó en el estudio, lo que hizo inviable el análisis de adquisición de conocimientos con los nuevos tests. Cabe señalar que el primer examen dentro de la formación completa se realiza después del segundo curso. Un análisis longitudinal hasta ese examen enriquecería la comprensión del impacto de los nuevos tests sobre el conocimiento adquirido. El tamaño de la muestra también afecta a la PI4. Las opiniones positivas del estudiantado podrían estar sesgadas debido al tamaño de la muestra. Además, las opiniones del profesorado se recopilaron con entrevistas semiestructuradas simples. Un análisis cualitativo con grupos focales proporcionaría una visión más detallada y profunda.</p>
<p>Aunque los resultados experimentales obtenidos no se pueden generalizar, se destaca la facilidad de transferencia a distintos dominios con un lenguaje especializado, como Derecho, Historia, Filosofía o Ciencias Sociales. La transferibilidad dependería de la carga de trabajo inicial para diseñar las preguntas, añadir las respuestas modelo del profesorado correspondientes, y el esfuerzo de recopilar y revisar las respuestas anotadas. SLASys permite la creación de preguntas en las que el estudiantado debe aplicar el conocimiento adquirido, en lugar de responder basándose en conceptos teóricos, lo que conduce a una evaluación auténtica (<xref ref-type="bibr" rid="redalyc_331483192025_ref63">Villarroel et al., 2018</xref>).</p>
</sec>
<sec>
<title>
<bold>CONCLUSIONES</bold>
</title>
<p>Esta investigación ofrece tres contribuciones principales. En primer lugar, se desarrolla un sistema de recomendación para la evaluación de preguntas de respuesta corta (SLASys) guiado por tres principios fundamentales: uso de técnicas gratuitas (BERT) y adecuadas para implementaciones privadas, ejecución en servidores con recursos limitados y facilidad de uso sin necesidad de conocimientos técnicos en IA. En segundo lugar, una característica destacada es la integración con Moodle, que permite el seguimiento del estudiantado, la calificación y la visualización de los resultados de aprendizaje a través de SLASys. Los resultados han demostrado que, aunque no puedan generalizarse, la clasificación de respuestas puede conducir a mejores recomendaciones. Asimismo, SLASys permite refinar el recomendador para producir mejores resultados con nuevas cohortes de estudiantado. En tercer lugar, el trabajo subraya el papel de la IA como herramienta de apoyo en la educación, empoderando al profesorado para utilizar una herramienta diseñada para recomendar las evaluaciones y el <italic>feedback</italic> que puede aplicarse en diversos dominios. El profesorado puede emplear estrategias integradoras, destacando la convergencia de la tecnología y la pedagogía para mejorar la experiencia de aprendizaje del estudiantado.</p>
<p>Como trabajo futuro, se plantea extender la utilización del recomendador en otros tests del mismo curso fundamental de examen de patentes en el dominio de la Propiedad Intelectual. Esto permitirá evaluar la capacidad del sistema para abordar otros conceptos. Asimismo, se propone explorar cómo se puede personalizar el <italic>feedback</italic> en función de las respuestas incorrectas del estudiantado y de los recursos de aprendizaje disponibles. BERT se puede emplear para crear herramientas de búsqueda semántica basadas en los materiales del curso, capaces de identificar automáticamente los recursos necesarios para una pregunta específica, lo que podría contribuir a optimizar el esfuerzo del profesorado en la generación del <italic>feedback</italic>.</p>
</sec>
</body>
<back>
<ack>
<title>Agradecimientos</title>
<p>Este trabajo forma parte del proyecto PID2023-147592OB-I00 financiado por MCIU/AEI/10.13039/501100011033/ FEDER, UE, y del Programa de Investigación Académica de la Oficina Europea de Patentes, Acuerdo de Subvención Nº 2021/8404.</p>
</ack>
<ref-list>
<title>
<bold>REFERENCIAS </bold>
</title>
<ref id="redalyc_331483192025_ref1">
<mixed-citation publication-type="journal">Abu Khurma, O., Albahti, F., Ali, N. y Bustanji, A. (2024). AI ChatGPT and student engagement: Unraveling dimensions through PRISMA analysis for enhanced learning experiences. <italic>Contemporary Educational Technology, 16</italic>(2). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.30935/cedtech/14334">https://doi.org/10.30935/cedtech/14334</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Abu Khurma</surname>
<given-names>O.</given-names>
</name>
<name>
<surname>Albahti</surname>
<given-names>F.</given-names>
</name>
<name>
<surname>Ali</surname>
<given-names>N.</given-names>
</name>
<name>
<surname>Bustanji</surname>
<given-names>A.</given-names>
</name>
</person-group>
<article-title>AI ChatGPT and student engagement: Unraveling dimensions through PRISMA analysis for enhanced learning experiences</article-title>
<source>Contemporary Educational Technology</source>
<year>2024</year>
<volume>16</volume>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.30935/cedtech/14334">https://doi.org/10.30935/cedtech/14334</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref2">
<mixed-citation publication-type="book">Adhikari, A., Ram, A., Tang, R. y Lin, J. (2019). DocBERT: BERT for document classification. <italic>arXiv</italic>. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48550/arXiv.1904.08398">https://doi.org/10.48550/arXiv.1904.08398</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Adhikari</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Ram</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Tang</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Lin</surname>
<given-names>J.</given-names>
</name>
</person-group>
<source>DocBERT: BERT for document classification</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48550/arXiv.1904.08398">https://doi.org/10.48550/arXiv.1904.08398</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref3">
<mixed-citation publication-type="book">Aggarwal, D., Sil, P., Raman, B. y Bhattacharyya, P. (2025). “I understand why I got this grade”: Automatic short answer grading with feedback. En <italic>Lecture Notes in Computer Science</italic>. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-3-031-98420-4_22">https://doi.org/10.1007/978-3-031-98420-4_22</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Aggarwal</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Sil</surname>
<given-names>P.</given-names>
</name>
<name>
<surname>Raman</surname>
<given-names>B.</given-names>
</name>
<name>
<surname>Bhattacharyya</surname>
<given-names>P.</given-names>
</name>
</person-group>
<source>Lecture Notes in Computer Science</source>
<year>2025</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-3-031-98420-4_22">https://doi.org/10.1007/978-3-031-98420-4_22</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref4">
<mixed-citation publication-type="journal">Akçapınar, G. (2015). How automated feedback through text mining changes plagiaristic behavior in online assignments. <italic>Computers &amp; Education, 87</italic>, 123-130. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.compedu.2015.04.007">https://doi.org/10.1016/j.compedu.2015.04.007</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Akçapınar</surname>
<given-names>G.</given-names>
</name>
</person-group>
<article-title>How automated feedback through text mining changes plagiaristic behavior in online assignments</article-title>
<source>Computers &amp; Education</source>
<year>2015</year>
<volume>87</volume>
<fpage>123</fpage>
<lpage>130</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.compedu.2015.04.007">https://doi.org/10.1016/j.compedu.2015.04.007</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref5">
<mixed-citation publication-type="journal">Almasre, M. (2024). Development and evaluation of a custom GPT for the assessment of students’ designs in a typography course. <italic>Education Sciences, 14</italic>(2), Article 148. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3390/educsci14020148">https://doi.org/10.3390/educsci14020148</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Almasre</surname>
<given-names>M.</given-names>
</name>
</person-group>
<article-title>Development and evaluation of a custom GPT for the assessment of students’ designs in a typography course</article-title>
<source>Education Sciences</source>
<year>2024</year>
<volume>14</volume>
<issue>2</issue>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3390/educsci14020148">https://doi.org/10.3390/educsci14020148</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref6">
<mixed-citation publication-type="journal">Arefeen, M. A., Debnath, B. y Chakradhar, S. (2024). LeanContext: Cost-efficient domain-specific question answering using LLMs. <italic>Natural Language Processing Journal, 7</italic>, 100065. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.nlp.2024.100065">https://doi.org/10.1016/j.nlp.2024.100065</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Arefeen</surname>
<given-names>M. A.</given-names>
</name>
<name>
<surname>Debnath</surname>
<given-names>B.</given-names>
</name>
<name>
<surname>Chakradhar</surname>
<given-names>S.</given-names>
</name>
</person-group>
<article-title>LeanContext: Cost-efficient domain-specific question answering using LLMs</article-title>
<source>Natural Language Processing Journal</source>
<year>2024</year>
<volume>7</volume>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.nlp.2024.100065">https://doi.org/10.1016/j.nlp.2024.100065</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref7">
<mixed-citation publication-type="database">Bahdanau, D., Cho, K. y Bengio, Y. (2016). Neural machine translation by jointly learning to align and translate. <italic>arXiv</italic>. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48550/arXiv.1409.0473">https://doi.org/10.48550/arXiv.1409.0473</ext-link>
</mixed-citation>
<element-citation publication-type="database">
<person-group person-group-type="author">
<name>
<surname>Bahdanau</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Cho</surname>
<given-names>K.</given-names>
</name>
<name>
<surname>Bengio</surname>
<given-names>Y.</given-names>
</name>
</person-group>
<article-title>Neural machine translation by jointly learning to align and translate</article-title>
<source>arXiv</source>
<year>2016</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48550/arXiv.1409.0473">https://doi.org/10.48550/arXiv.1409.0473</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref8">
<mixed-citation publication-type="journal">Banihashem, S. K., Kerman, N. T., Noroozi, O., Moon, J. y Drachsler, H. (2024). Feedback sources in essay writing: Peer-generated or AI-generated feedback? <italic>International Journal of Educational Technology in Higher Education, 21</italic>(1), 23. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1186/s41239-024-00455-4">https://doi.org/10.1186/s41239-024-00455-4</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Banihashem</surname>
<given-names>S. K.</given-names>
</name>
<name>
<surname>Kerman</surname>
<given-names>N. T.</given-names>
</name>
<name>
<surname>Noroozi</surname>
<given-names>O.</given-names>
</name>
<name>
<surname>Moon</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Drachsler</surname>
<given-names>H.</given-names>
</name>
</person-group>
<article-title>Feedback sources in essay writing: Peer-generated or AI-generated feedback?</article-title>
<source>International Journal of Educational Technology in Higher Education</source>
<year>2024</year>
<volume>21</volume>
<issue>1</issue>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1186/s41239-024-00455-4">https://doi.org/10.1186/s41239-024-00455-4</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref9">
<mixed-citation publication-type="confproc">Baral, S., Botelho, A. F., Erickson, J. A., Benachamardi, P. y Heffernan, N. T. (2021). Improving automated scoring of student open responses in mathematics. En <italic>Proceedings of the 14th International Conference on Educational Data Mining (EDM 2021)</italic>.</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Baral</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Botelho</surname>
<given-names>A. F.</given-names>
</name>
<name>
<surname>Erickson</surname>
<given-names>J. A.</given-names>
</name>
<name>
<surname>Benachamardi</surname>
<given-names>P.</given-names>
</name>
<name>
<surname>Heffernan</surname>
<given-names>N. T.</given-names>
</name>
</person-group>
<source>Proceedings of the 14th International Conference on Educational Data Mining (EDM 2021)</source>
<year>2021</year>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref10">
<mixed-citation publication-type="book">Bergmann, J. y Sams, A. (2012). <italic>Flip your classroom: Reach every student in every class every day</italic>. International Society for Technology in Education.</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Bergmann</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Sams</surname>
<given-names>A.</given-names>
</name>
</person-group>
<source>Flip your classroom: Reach every student in every class every day</source>
<year>2012</year>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref11">
<mixed-citation publication-type="journal">Burrows, S., Gurevych, I. y Stein, B. (2015). The eras and trends of automatic short answer grading. <italic>International Journal of Artificial Intelligence in Education, 25</italic>(1), 60-117. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s40593-014-0026-8">https://doi.org/10.1007/s40593-014-0026-8</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Burrows</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Gurevych</surname>
<given-names>I.</given-names>
</name>
<name>
<surname>Stein</surname>
<given-names>B.</given-names>
</name>
</person-group>
<article-title>The eras and trends of automatic short answer grading</article-title>
<source>International Journal of Artificial Intelligence in Education</source>
<year>2015</year>
<volume>25</volume>
<issue>1</issue>
<fpage>60</fpage>
<lpage>117</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s40593-014-0026-8">https://doi.org/10.1007/s40593-014-0026-8</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref12">
<mixed-citation publication-type="journal">Calimeris, L. y Kosack, E. (2020). Immediate feedback assessment technique (IF-AT) quizzes and student performance in microeconomic principles courses. <italic>Journal of Economic Education, 51</italic>(3–4), 304-319. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/00220485.2020.1804501">https://doi.org/10.1080/00220485.2020.1804501</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Calimeris</surname>
<given-names>L.</given-names>
</name>
<name>
<surname>Kosack</surname>
<given-names>E.</given-names>
</name>
</person-group>
<article-title>Immediate feedback assessment technique (IF-AT) quizzes and student performance in microeconomic principles courses</article-title>
<source>Journal of Economic Education</source>
<year>2020</year>
<volume>51</volume>
<fpage>304</fpage>
<lpage>319</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/00220485.2020.1804501">https://doi.org/10.1080/00220485.2020.1804501</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref13">
<mixed-citation publication-type="book">Camus, L. y Filighera, A. (2020). Investigating transformers for automatic short answer grading. En I. I. Bittencourt, M. Cukurova, K. Muldner, R. Luckin y E. Millán (Eds.), <italic>Artificial intelligence in education</italic> (Lecture Notes in Computer Science, Vol. 12164, pp. 43-48). Springer. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-3-030-52240-7_8">https://doi.org/10.1007/978-3-030-52240-7_8</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Camus</surname>
<given-names>L.</given-names>
</name>
<name>
<surname>Filighera</surname>
<given-names>A.</given-names>
</name>
</person-group>
<source>Artificial intelligence in education</source>
<year>2020</year>
<volume>12164</volume>
<fpage>43</fpage>
<lpage>48</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-3-030-52240-7_8">https://doi.org/10.1007/978-3-030-52240-7_8</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref14">
<mixed-citation publication-type="journal">Dai, Y., Lai, S., Lim, C. P. y Liu, A. (2025). University policies on generative AI in Asia: Promising practices, gaps, and future directions. <italic>Journal of Asian Public Policy, 18</italic>(2), 260-281. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/17516234.2024.2379070">https://doi.org/10.1080/17516234.2024.2379070</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Dai</surname>
<given-names>Y.</given-names>
</name>
<name>
<surname>Lai</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Lim</surname>
<given-names>C. P.</given-names>
</name>
<name>
<surname>Liu</surname>
<given-names>A.</given-names>
</name>
</person-group>
<article-title>University policies on generative AI in Asia: Promising practices, gaps, and future directions</article-title>
<source>Journal of Asian Public Policy</source>
<year>2025</year>
<volume>18</volume>
<issue>2</issue>
<fpage>260</fpage>
<lpage>281</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/17516234.2024.2379070">https://doi.org/10.1080/17516234.2024.2379070</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref15">
<mixed-citation publication-type="journal">del Gobbo, E., Guarino, A., Cafarelli, B. y Grilli, L. (2023). GradeAid: A framework for automatic short answers grading in educational contexts-Design, implementation and evaluation. <italic>Knowledge and Information Systems, 65</italic>(10), 4479-4507. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s10115-023-01892-9">https://doi.org/10.1007/s10115-023-01892-9</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>del Gobbo</surname>
<given-names>E.</given-names>
</name>
<name>
<surname>Guarino</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Cafarelli</surname>
<given-names>B.</given-names>
</name>
<name>
<surname>Grilli</surname>
<given-names>L.</given-names>
</name>
</person-group>
<article-title>GradeAid: A framework for automatic short answers grading in educational contexts-Design, implementation and evaluation</article-title>
<source>Knowledge and Information Systems</source>
<year>2023</year>
<volume>65</volume>
<issue>10</issue>
<fpage>4479</fpage>
<lpage>4507</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s10115-023-01892-9">https://doi.org/10.1007/s10115-023-01892-9</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref16">
<mixed-citation publication-type="confproc">De La Cruz Martínez, G., Eslava-Cervantes, A.-L. y Ramírez, S. (2024, July 1). <italic>Analysis of solutions of ChatGPT to logic problems based on critical thinking</italic>
<italic>. </italic>En<italic> Proceedings of the 16th International Conference on Education and New Learning Technologies (EDULEARN24)</italic> (pp. 10324-10331). IATED. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.21125/edulearn.2024.2525">https://doi.org/10.21125/edulearn.2024.2525</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>De La Cruz Martínez</surname>
<given-names>G.</given-names>
</name>
<name>
<surname>Eslava-Cervantes</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Ramírez</surname>
<given-names>S.</given-names>
</name>
</person-group>
<source>Proceedings of the 16th International Conference on Education and New Learning Technologies (EDULEARN24)</source>
<year>2024</year>
<fpage>10324</fpage>
<lpage>10331</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.21125/edulearn.2024.2525">https://doi.org/10.21125/edulearn.2024.2525</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref17">
<mixed-citation publication-type="book">Devlin, J., Chang, M.-W., Lee, K. y Toutanova, K. (2019). <italic>BERT: Pre-training of deep bidirectional transformers for language understanding.</italic> En J. Burstein, C. Doran y T. Solorio (Eds.), <italic>Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies</italic> (pp. 4171-4186). Association for Computational Linguistics. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/N19-1423">https://doi.org/10.18653/v1/N19-1423</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Devlin</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Chang</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Lee</surname>
<given-names>K.</given-names>
</name>
<name>
<surname>Toutanova</surname>
<given-names>K.</given-names>
</name>
</person-group>
<source>BERT: Pre-training of deep bidirectional transformers for language understanding.</source>
<year>2019</year>
<fpage>4171</fpage>
<lpage>4186</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/N19-1423">https://doi.org/10.18653/v1/N19-1423</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref18">
<mixed-citation publication-type="journal">Dhananjaya, G. M., Goudar, R. H., Kulkarni, A. A., Rathod, V. N. y Hukkeri, G. S. (2024). A digital recommendation system for personalized learning to enhance online education: A review. <italic>IEEE Access, 12</italic>, 33591–33615. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2024.3369901">https://doi.org/10.1109/ACCESS.2024.3369901</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Dhananjaya</surname>
<given-names>G. M.</given-names>
</name>
<name>
<surname>Goudar</surname>
<given-names>R. H.</given-names>
</name>
<name>
<surname>Kulkarni</surname>
<given-names>A. A.</given-names>
</name>
<name>
<surname>Rathod</surname>
<given-names>V. N.</given-names>
</name>
<name>
<surname>Hukkeri</surname>
<given-names>G. S.</given-names>
</name>
</person-group>
<article-title>A digital recommendation system for personalized learning to enhance online education: A review</article-title>
<source>IEEE Access</source>
<year>2024</year>
<volume>12</volume>
<fpage>33591</fpage>
<lpage>33615</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2024.3369901">https://doi.org/10.1109/ACCESS.2024.3369901</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref19">
<mixed-citation publication-type="journal">Escalante, J., Pack, A. y Barrett, A. (2023). AI-generated feedback on writing: Insights into efficacy and ENL student preference. <italic>International Journal of Educational Technology in Higher Education, 20</italic>(1), 40. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1186/s41239-023-00425-2">https://doi.org/10.1186/s41239-023-00425-2</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Escalante</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Pack</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Barrett</surname>
<given-names>A.</given-names>
</name>
</person-group>
<article-title>AI-generated feedback on writing: Insights into efficacy and ENL student preference</article-title>
<source>International Journal of Educational Technology in Higher Education</source>
<year>2023</year>
<volume>20</volume>
<issue>1</issue>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1186/s41239-023-00425-2">https://doi.org/10.1186/s41239-023-00425-2</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref20">
<mixed-citation publication-type="legal-doc">European Commission. (2024). <italic>Regulation (EU) 2024/1689 of the European Parliament and of the Council</italic>. <ext-link ext-link-type="uri" xlink:href="https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A32024R1689">https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A32024R1689</ext-link>
</mixed-citation>
<element-citation publication-type="legal-doc">
<person-group person-group-type="author">
<collab>European Commission</collab>
</person-group>
<source>Regulation (EU) 2024/1689 of the European Parliament and of the Council</source>
<year>2024</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A32024R1689">https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A32024R1689</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref21">
<mixed-citation publication-type="journal">Evans, C. (2013). Making sense of assessment feedback in higher education. <italic>Review of Educational Research, 83</italic>(1), 70–120. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3102/0034654312474350">https://doi.org/10.3102/0034654312474350</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Evans</surname>
<given-names>C.</given-names>
</name>
</person-group>
<article-title>Making sense of assessment feedback in higher education</article-title>
<source>Review of Educational Research</source>
<year>2013</year>
<volume>83</volume>
<issue>1</issue>
<fpage>70</fpage>
<lpage>120</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3102/0034654312474350">https://doi.org/10.3102/0034654312474350</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref22">
<mixed-citation publication-type="database">Gaddipati, S. K., Nair, D. y Plöger, P. G. (2020). Comparative evaluation of pretrained transfer learning models on automatic short answer grading. <italic>arXiv</italic>. <ext-link ext-link-type="uri" xlink:href="https://arxiv.org/abs/2009.01303">https://arxiv.org/abs/2009.01303</ext-link>
</mixed-citation>
<element-citation publication-type="database">
<person-group person-group-type="author">
<name>
<surname>Gaddipati</surname>
<given-names>S. K.</given-names>
</name>
<name>
<surname>Nair</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Plöger</surname>
<given-names>P. G.</given-names>
</name>
</person-group>
<article-title>Comparative evaluation of pretrained transfer learning models on automatic short answer grading</article-title>
<source>arXiv</source>
<year>2020</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://arxiv.org/abs/2009.01303">https://arxiv.org/abs/2009.01303</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref23">
<mixed-citation publication-type="thesis">Gaddipati, S. K., Plöger, P., Hochgeschwender, N. y Metzler, M. (2021, April 5). <italic>Automatic formative assessment for students’ short text answers through feature extraction</italic> [Doctoral dissertation, Hochschule Bonn-Rhein-Sieg].</mixed-citation>
<element-citation publication-type="thesis">
<person-group person-group-type="author">
<name>
<surname>Gaddipati</surname>
<given-names>S. K.</given-names>
</name>
<name>
<surname>Plöger</surname>
<given-names>P.</given-names>
</name>
<name>
<surname>Hochgeschwender</surname>
<given-names>N.</given-names>
</name>
<name>
<surname>Metzler</surname>
<given-names>M.</given-names>
</name>
</person-group>
<source>Automatic formative assessment for students’ short text answers through feature extraction</source>
<year>2021</year>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref24">
<mixed-citation publication-type="journal">Gaona, J., Reguant, M., Valdivia, I., Vásquez, M. y Sancho-Vinuesa, T. (2018). Feedback by automatic assessment systems used in mathematics homework in the engineering field. <italic>Computer Applications in Engineering Education, 26</italic>(4), 921-934. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1002/cae.21950">https://doi.org/10.1002/cae.21950</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Gaona</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Reguant</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Valdivia</surname>
<given-names>I.</given-names>
</name>
<name>
<surname>Vásquez</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Sancho-Vinuesa</surname>
<given-names>T.</given-names>
</name>
</person-group>
<article-title>Feedback by automatic assessment systems used in mathematics homework in the engineering field</article-title>
<source>Computer Applications in Engineering Education</source>
<year>2018</year>
<volume>26</volume>
<issue>4</issue>
<fpage>921</fpage>
<lpage>934</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1002/cae.21950">https://doi.org/10.1002/cae.21950</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref25">
<mixed-citation publication-type="journal">García-Peñalvo, F. J., Alier, M., Pereira, J. y Casany, M. J. (2024). Safe, transparent, and ethical artificial intelligence: Keys to quality sustainable education (SDG4). <italic>International Journal of Educational Research and Innovation, 22</italic>, 1–21. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.46661/ijeri.11036">https://doi.org/10.46661/ijeri.11036</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>García-Peñalvo</surname>
<given-names>F. J.</given-names>
</name>
<name>
<surname>Alier</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Pereira</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Casany</surname>
<given-names>M. J.</given-names>
</name>
</person-group>
<article-title>Safe, transparent, and ethical artificial intelligence: Keys to quality sustainable education (SDG4)</article-title>
<source>International Journal of Educational Research and Innovation</source>
<year>2024</year>
<volume>22</volume>
<fpage>1</fpage>
<lpage>21</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.46661/ijeri.11036">https://doi.org/10.46661/ijeri.11036</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref26">
<mixed-citation publication-type="journal">González Fernández, M. O., Romero-López, M. A., Sgreccia, N. F. y Latorre Medina, M. J. (2025). Marcos normativos para una IA ética y confiable en la educación superior: Estado de la cuestión. <italic>RIED-Revista Iberoamericana de Educación a Distancia, 28</italic>(2), 181-208. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5944/ried.28.2.43511">https://doi.org/10.5944/ried.28.2.43511</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>González Fernández</surname>
<given-names>M. O.</given-names>
</name>
<name>
<surname>Romero-López</surname>
<given-names>M. A.</given-names>
</name>
<name>
<surname>Sgreccia</surname>
<given-names>N. F.</given-names>
</name>
<name>
<surname>Latorre Medina</surname>
<given-names>M. J.</given-names>
</name>
</person-group>
<article-title>Marcos normativos para una IA ética y confiable en la educación superior: Estado de la cuestión</article-title>
<source>RIED-Revista Iberoamericana de Educación a Distancia</source>
<year>2025</year>
<volume>28</volume>
<issue>2</issue>
<fpage>181</fpage>
<lpage>208</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5944/ried.28.2.43511">https://doi.org/10.5944/ried.28.2.43511</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref27">
<mixed-citation publication-type="journal">Grévisse, C. (2024). LLM-based automatic short answer grading in undergraduate medical education. <italic>BMC Medical Education, 24</italic>(1), 1060. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1186/s12909-024-06026-5">https://doi.org/10.1186/s12909-024-06026-5</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Grévisse</surname>
<given-names>C.</given-names>
</name>
</person-group>
<article-title>LLM-based automatic short answer grading in undergraduate medical education</article-title>
<source>BMC Medical Education</source>
<year>2024</year>
<volume>24</volume>
<issue>1</issue>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1186/s12909-024-06026-5">https://doi.org/10.1186/s12909-024-06026-5</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref28">
<mixed-citation publication-type="confproc">György, A. y Vajda, I. (2007). Intelligent mathematics assessment in eMax. En <italic>IEEE AFRICON Conference</italic> (pp. 1-7). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/AFRCON.2007.4401512">https://doi.org/10.1109/AFRCON.2007.4401512</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>György</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Vajda</surname>
<given-names>I.</given-names>
</name>
</person-group>
<source>IEEE AFRICON Conference</source>
<year>2007</year>
<fpage>1</fpage>
<lpage>7</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/AFRCON.2007.4401512">https://doi.org/10.1109/AFRCON.2007.4401512</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref29">
<mixed-citation publication-type="journal">Hattie, J. y Timperley, H. (2007). The power of feedback. <italic>Review of Educational Research, 77</italic>(1), 81–112. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3102/003465430298487">https://doi.org/10.3102/003465430298487</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Hattie</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Timperley</surname>
<given-names>H.</given-names>
</name>
</person-group>
<article-title>The power of feedback</article-title>
<source>Review of Educational Research</source>
<year>2007</year>
<volume>77</volume>
<issue>1</issue>
<fpage>81</fpage>
<lpage>112</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3102/003465430298487">https://doi.org/10.3102/003465430298487</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref30">
<mixed-citation publication-type="journal">Huisman, B., Saab, N., van Driel, J. y van den Broek, P. (2017). Peer feedback on college students’ writing: Exploring the relation between students’ ability match, feedback quality and essay performance. <italic>Higher Education Research &amp; Development, 36</italic>(7), 1433-1446. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/07294360.2017.1325854">https://doi.org/10.1080/07294360.2017.1325854</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Huisman</surname>
<given-names>B.</given-names>
</name>
<name>
<surname>Saab</surname>
<given-names>N.</given-names>
</name>
<name>
<surname>van Driel</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>van den Broek</surname>
<given-names>P.</given-names>
</name>
</person-group>
<article-title>Peer feedback on college students’ writing: Exploring the relation between students’ ability match, feedback quality and essay performance</article-title>
<source>Higher Education Research &amp; Development</source>
<year>2017</year>
<volume>36</volume>
<issue>7</issue>
<fpage>1433</fpage>
<lpage>1446</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/07294360.2017.1325854">https://doi.org/10.1080/07294360.2017.1325854</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref31">
<mixed-citation publication-type="journal">Husein, R. A., Aburajouh, H. y Catal, C. (2025). Large language models for code completion: A systematic literature review. <italic>Computer Standards &amp; Interfaces, 92</italic>, 103917. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.csi.2024.103917">https://doi.org/10.1016/j.csi.2024.103917</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Husein</surname>
<given-names>R. A.</given-names>
</name>
<name>
<surname>Aburajouh</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Catal</surname>
<given-names>C.</given-names>
</name>
</person-group>
<article-title>Large language models for code completion: A systematic literature review</article-title>
<source>Computer Standards &amp; Interfaces</source>
<year>2025</year>
<volume>92</volume>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.csi.2024.103917">https://doi.org/10.1016/j.csi.2024.103917</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref32">
<mixed-citation publication-type="journal">Hustad, E. y Arntzen, A. A. B. (2013). Facilitating teaching and learning capabilities in social learning management systems: Challenges, issues, and implications for design. <italic>Journal of Integrated Design and Process Science, 17</italic>(1), 33-46. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3233/JID-2013-0003">https://doi.org/10.3233/JID-2013-0003</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Hustad</surname>
<given-names>E.</given-names>
</name>
<name>
<surname>Arntzen</surname>
<given-names>A. A. B.</given-names>
</name>
</person-group>
<article-title>Facilitating teaching and learning capabilities in social learning management systems: Challenges, issues, and implications for design</article-title>
<source>Journal of Integrated Design and Process Science</source>
<year>2013</year>
<volume>17</volume>
<issue>1</issue>
<fpage>33</fpage>
<lpage>46</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3233/JID-2013-0003">https://doi.org/10.3233/JID-2013-0003</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref33">
<mixed-citation publication-type="confproc">Jia, Q., Cui, J., Xi, R., Liu, C., Rashid, P., Li, R. y Gehringer, E. (2024). On assessing the faithfulness of LLM-generated feedback on student assignments. En B. Paaßen y C. D. Epp (Eds.), <italic>Proceedings of the 17th International Conference on Educational Data Mining</italic> (pp. 491-499). International Educational Data Mining Society. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5281/zenodo.12729868">https://doi.org/10.5281/zenodo.12729868</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Jia</surname>
<given-names>Q.</given-names>
</name>
<name>
<surname>Cui</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Xi</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Liu</surname>
<given-names>C.</given-names>
</name>
<name>
<surname>Rashid</surname>
<given-names>P.</given-names>
</name>
<name>
<surname>Li</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Gehringer</surname>
<given-names>E.</given-names>
</name>
</person-group>
<source>Proceedings of the 17th International Conference on Educational Data Mining</source>
<year>2024</year>
<fpage>491</fpage>
<lpage>499</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5281/zenodo.12729868">https://doi.org/10.5281/zenodo.12729868</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref34">
<mixed-citation publication-type="journal">Kim, T. W. (2023). Application of artificial intelligence chatbots, including ChatGPT, in education, scholarly work, programming, and content generation and its prospects: A narrative review. <italic>Journal of Educational Evaluation for Health Professions, 20</italic>, 38. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3352/jeehp.2023.20.38">https://doi.org/10.3352/jeehp.2023.20.38</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Kim</surname>
<given-names>T. W.</given-names>
</name>
</person-group>
<article-title>Application of artificial intelligence chatbots, including ChatGPT, in education, scholarly work, programming, and content generation and its prospects: A narrative review</article-title>
<source>Journal of Educational Evaluation for Health Professions</source>
<year>2023</year>
<volume>20</volume>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3352/jeehp.2023.20.38">https://doi.org/10.3352/jeehp.2023.20.38</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref35">
<mixed-citation publication-type="confproc">Klein, R., Kyrilov, A. y Tokman, M. (2011). Automated assessment of short free-text responses in computer science using latent semantic analysis. En <italic>Proceedings of ITiCSE ’11: The 16th Annual Conference on Innovation and Technology in Computer Science Education</italic> (pp. 158-162). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/1999747.1999793">https://doi.org/10.1145/1999747.1999793</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Klein</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Kyrilov</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Tokman</surname>
<given-names>M.</given-names>
</name>
</person-group>
<source>Proceedings of ITiCSE ’11: The 16th Annual Conference on Innovation and Technology in Computer Science Education</source>
<year>2011</year>
<fpage>158</fpage>
<lpage>162</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/1999747.1999793">https://doi.org/10.1145/1999747.1999793</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref36">
<mixed-citation publication-type="journal">Kuechler, W. y Vaishnavi, V. (2012). A framework for theory development in design science research: Multiple perspectives. <italic>Journal of the Association for Information Systems, 13</italic>(6), 395-423. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.17705/1JAIS.00300">https://doi.org/10.17705/1JAIS.00300</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Kuechler</surname>
<given-names>W.</given-names>
</name>
<name>
<surname>Vaishnavi</surname>
<given-names>V.</given-names>
</name>
</person-group>
<article-title>A framework for theory development in design science research: Multiple perspectives</article-title>
<source>Journal of the Association for Information Systems</source>
<year>2012</year>
<volume>13</volume>
<issue>6</issue>
<fpage>395</fpage>
<lpage>423</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.17705/1JAIS.00300">https://doi.org/10.17705/1JAIS.00300</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref37">
<mixed-citation publication-type="confproc">Li, T. W., Hsu, S., Fowler, M., Zhang, Z., Zilles, C. y Karahalios, K. (2023). Am I wrong, or is the autograder wrong? Effects of AI grading mistakes on learning. En <italic>Proceedings of the 2023 ACM Conference on International Computing Education Research (ICER ’23)</italic> (pp. 85-97). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/3568813.3600124">https://doi.org/10.1145/3568813.3600124</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Li</surname>
<given-names>T. W.</given-names>
</name>
<name>
<surname>Hsu</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Fowler</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Zhang</surname>
<given-names>Z.</given-names>
</name>
<name>
<surname>Zilles</surname>
<given-names>C.</given-names>
</name>
<name>
<surname>Karahalios</surname>
<given-names>K.</given-names>
</name>
</person-group>
<source>Proceedings of the 2023 ACM Conference on International Computing Education Research (ICER ’23)</source>
<year>2023</year>
<fpage>85</fpage>
<lpage>97</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/3568813.3600124">https://doi.org/10.1145/3568813.3600124</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref38">
<mixed-citation publication-type="journal">Liu, T., Ding, W., Wang, Z., Tang, J., Huang, G. Y. y Liu, Z. (2019). Automatic short answer grading via multiway attention networks. En <italic>Lecture Notes in Computer Science</italic> (Vol. 11626, pp. 376–388). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-3-030-23207-8_32">https://doi.org/10.1007/978-3-030-23207-8_32</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Liu</surname>
<given-names>T.</given-names>
</name>
<name>
<surname>Ding</surname>
<given-names>W.</given-names>
</name>
<name>
<surname>Wang</surname>
<given-names>Z.</given-names>
</name>
<name>
<surname>Tang</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Huang</surname>
<given-names>G. Y.</given-names>
</name>
<name>
<surname>Liu</surname>
<given-names>Z.</given-names>
</name>
</person-group>
<article-title>Automatic short answer grading via multiway attention networks</article-title>
<source>Lecture Notes in Computer Science</source>
<year>2019</year>
<volume>11626</volume>
<fpage>376</fpage>
<lpage>388</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-3-030-23207-8_32">https://doi.org/10.1007/978-3-030-23207-8_32</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref39">
<mixed-citation publication-type="confproc">Lun, J., Zhu, J., Tang, Y. y Yang, M. (2020). Multiple data augmentation strategies for improving performance on automatic short answer scoring. En <italic>Proceedings of the AAAI Conference on Artificial Intelligence</italic> (Vol. 34, pp. 13381-13388). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1609/aaai.v34i09.7062">https://doi.org/10.1609/aaai.v34i09.7062</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Lun</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Zhu</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Tang</surname>
<given-names>Y.</given-names>
</name>
<name>
<surname>Yang</surname>
<given-names>M.</given-names>
</name>
</person-group>
<source>Proceedings of the AAAI Conference on Artificial Intelligence</source>
<year>2020</year>
<volume>34</volume>
<fpage>13381</fpage>
<lpage>13388</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1609/aaai.v34i09.7062">https://doi.org/10.1609/aaai.v34i09.7062</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref40">
<mixed-citation publication-type="book">Mehrafarin, H., Rajaee, S. y Pilehvar, M. T. (2022). On the importance of data size in probing fine-tuned models. En <italic>Findings of the Association for Computational Linguistics</italic> (pp. 239–248). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/2022.findings-acl.20">https://doi.org/10.18653/v1/2022.findings-acl.20</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Mehrafarin</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Rajaee</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Pilehvar</surname>
<given-names>M. T.</given-names>
</name>
</person-group>
<source>Findings of the Association for Computational Linguistics</source>
<year>2022</year>
<fpage>239</fpage>
<lpage>248</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/2022.findings-acl.20">https://doi.org/10.18653/v1/2022.findings-acl.20</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref41">
<mixed-citation publication-type="journal">Messer, M., Brown, N. C. C., Kölling, M. y Shi, M. (2024). Automated grading and feedback tools for programming education: A systematic review. <italic>ACM Transactions on Computing Education, 24</italic>(1), Article 1. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/3636515">https://doi.org/10.1145/3636515</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Messer</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Brown</surname>
<given-names>N. C. C.</given-names>
</name>
<name>
<surname>Kölling</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Shi</surname>
<given-names>M.</given-names>
</name>
</person-group>
<article-title>Automated grading and feedback tools for programming education: A systematic review</article-title>
<source>ACM Transactions on Computing Education</source>
<year>2024</year>
<volume>24</volume>
<issue>1</issue>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/3636515">https://doi.org/10.1145/3636515</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref42">
<mixed-citation publication-type="book">Metzler, T., Plöger, P. G. y Hees, J. (2024). Computer-assisted short answer grading using large language models and rubrics. En <italic>INFORMATIK 2024: AI@WORK</italic> (pp. 1383-1393). Gesellschaft für Informatik e.V. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18420/inf2024_121">https://doi.org/10.18420/inf2024_121</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Metzler</surname>
<given-names>T.</given-names>
</name>
<name>
<surname>Plöger</surname>
<given-names>P. G.</given-names>
</name>
<name>
<surname>Hees</surname>
<given-names>J.</given-names>
</name>
</person-group>
<source>INFORMATIK 2024: AI@WORK</source>
<year>2024</year>
<fpage>1383</fpage>
<lpage>1393</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18420/inf2024_121">https://doi.org/10.18420/inf2024_121</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref43">
<mixed-citation publication-type="book">Nguyen, H., Bhat, S., Moore, S., Bier, N. y Stamper, J. (2022). Towards generalized methods for automatic question generation in educational domains. En S. Isotani, E. Millán, A. Ogan, P. Hastings, B. McLaren y R. Luckin (Eds.), <italic>Intelligent Tutoring Systems. ITS 2022. Lecture Notes in Computer Science</italic> (Vol. 13450, pp. 272-284). Springer. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-3-031-16290-9_20">https://doi.org/10.1007/978-3-031-16290-9_20</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Nguyen</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Bhat</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Moore</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Bier</surname>
<given-names>N.</given-names>
</name>
<name>
<surname>Stamper</surname>
<given-names>J.</given-names>
</name>
</person-group>
<source>Intelligent Tutoring Systems. ITS 2022. Lecture Notes in Computer Science</source>
<year>2022</year>
<volume>13450</volume>
<fpage>272</fpage>
<lpage>284</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-3-031-16290-9_20">https://doi.org/10.1007/978-3-031-16290-9_20</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref44">
<mixed-citation publication-type="journal">Nicol, D. y Macfarlane-Dick, D. (2006). Formative assessment and self-regulated learning: A model and seven principles of good feedback practice. <italic>Studies in Higher Education, 31</italic>(2), 199-218. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/03075070600572090">https://doi.org/10.1080/03075070600572090</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Nicol</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Macfarlane-Dick</surname>
<given-names>D.</given-names>
</name>
</person-group>
<article-title>Formative assessment and self-regulated learning: A model and seven principles of good feedback practice</article-title>
<source>Studies in Higher Education</source>
<year>2006</year>
<volume>31</volume>
<issue>2</issue>
<fpage>199</fpage>
<lpage>218</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/03075070600572090">https://doi.org/10.1080/03075070600572090</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref45">
<mixed-citation publication-type="journal">Novak, G. M. (2012). Just-in-time teaching. <italic>New Directions for Teaching and Learning, 2012</italic>(128), 63-73. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1002/tl.469">https://doi.org/10.1002/tl.469</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Novak</surname>
<given-names>G. M.</given-names>
</name>
</person-group>
<article-title>Just-in-time teaching</article-title>
<source>New Directions for Teaching and Learning</source>
<year>2012</year>
<volume>2012</volume>
<issue>128</issue>
<fpage>63</fpage>
<lpage>73</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1002/tl.469">https://doi.org/10.1002/tl.469</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref46">
<mixed-citation publication-type="book">Oates, B. J. (2006). <italic>Researching information systems and computing</italic>. SAGE Publications Ltd.</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Oates</surname>
<given-names>B. J.</given-names>
</name>
</person-group>
<source>Researching information systems and computing</source>
<year>2006</year>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref47">
<mixed-citation publication-type="webpage">OpenAI. (2024). <italic>GPT-4o system card</italic>. <ext-link ext-link-type="uri" xlink:href="https://openai.com/index/gpt-4o-system-card">https://openai.com/index/gpt-4o-system-card</ext-link>/</mixed-citation>
<element-citation publication-type="webpage">
<person-group person-group-type="author">
<collab>OpenAI</collab>
</person-group>
<source>GPT-4o system card</source>
<year>2024</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://openai.com/index/gpt-4o-system-card">https://openai.com/index/gpt-4o-system-card</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref48">
<mixed-citation publication-type="journal">Padó, U., Eryilmaz, Y. y Kirschner, L. (2024). Short-answer grading for German: Addressing the challenges. <italic>International Journal of Artificial Intelligence in Education, 34</italic>(4), 1488-1510. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s40593-023-00383-w">https://doi.org/10.1007/s40593-023-00383-w</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Padó</surname>
<given-names>U.</given-names>
</name>
<name>
<surname>Eryilmaz</surname>
<given-names>Y.</given-names>
</name>
<name>
<surname>Kirschner</surname>
<given-names>L.</given-names>
</name>
</person-group>
<article-title>Short-answer grading for German: Addressing the challenges</article-title>
<source>International Journal of Artificial Intelligence in Education</source>
<year>2024</year>
<volume>34</volume>
<issue>4</issue>
<fpage>1488</fpage>
<lpage>1510</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s40593-023-00383-w">https://doi.org/10.1007/s40593-023-00383-w</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref49">
<mixed-citation publication-type="journal">Pang, J., Ye, F., Wong, D. F., Yu, D., Shi, S., Tu, Z. y Wang, L. (2025). Salute the classic: Revisiting challenges of machine translation in the age of large language models. <italic>Transactions of the Association for Computational Linguistics, 13</italic>, 73-95. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1162/tacl_a_00730">https://doi.org/10.1162/tacl_a_00730</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Pang</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Ye</surname>
<given-names>F.</given-names>
</name>
<name>
<surname>Wong</surname>
<given-names>D. F.</given-names>
</name>
<name>
<surname>Yu</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Shi</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Tu</surname>
<given-names>Z.</given-names>
</name>
<name>
<surname>Wang</surname>
<given-names>L.</given-names>
</name>
</person-group>
<article-title>Salute the classic: Revisiting challenges of machine translation in the age of large language models</article-title>
<source>Transactions of the Association for Computational Linguistics</source>
<year>2025</year>
<volume>13</volume>
<fpage>73</fpage>
<lpage>95</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1162/tacl_a_00730">https://doi.org/10.1162/tacl_a_00730</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref50">
<mixed-citation publication-type="journal">Petridou, E. y Lao, L. (2024). Identifying challenges and best practices for implementing AI additional qualifications in vocational and continuing education: A mixed methods analysis. <italic>International Journal of Lifelong Education, 43</italic>(4), 385-400. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/02601370.2024.2351076">https://doi.org/10.1080/02601370.2024.2351076</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Petridou</surname>
<given-names>E.</given-names>
</name>
<name>
<surname>Lao</surname>
<given-names>L.</given-names>
</name>
</person-group>
<article-title>Identifying challenges and best practices for implementing AI additional qualifications in vocational and continuing education: A mixed methods analysis</article-title>
<source>International Journal of Lifelong Education</source>
<year>2024</year>
<volume>43</volume>
<issue>4</issue>
<fpage>385</fpage>
<lpage>400</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/02601370.2024.2351076">https://doi.org/10.1080/02601370.2024.2351076</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref51">
<mixed-citation publication-type="journal">Qiu, Y. y Jin, Y. (2024). ChatGPT and finetuned BERT: A comparative study for developing intelligent design support systems. <italic>Intelligent Systems with Applications, 21</italic>, 200308. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.iswa.2023.200308">https://doi.org/10.1016/j.iswa.2023.200308</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Qiu</surname>
<given-names>Y.</given-names>
</name>
<name>
<surname>Jin</surname>
<given-names>Y.</given-names>
</name>
</person-group>
<article-title>ChatGPT and finetuned BERT: A comparative study for developing intelligent design support systems</article-title>
<source>Intelligent Systems with Applications</source>
<year>2024</year>
<volume>21</volume>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.iswa.2023.200308">https://doi.org/10.1016/j.iswa.2023.200308</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref52">
<mixed-citation publication-type="journal">Rezaei, A. R. (2015). Frequent collaborative quiz taking and conceptual learning. <italic>Active Learning in Higher Education, 16</italic>(3), 189-204. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1177/1469787415589627">https://doi.org/10.1177/1469787415589627</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Rezaei</surname>
<given-names>A. R.</given-names>
</name>
</person-group>
<article-title>Frequent collaborative quiz taking and conceptual learning</article-title>
<source>Active Learning in Higher Education</source>
<year>2015</year>
<volume>16</volume>
<issue>3</issue>
<fpage>189</fpage>
<lpage>204</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1177/1469787415589627">https://doi.org/10.1177/1469787415589627</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref53">
<mixed-citation publication-type="journal">Sadler, D. R. (1989). Formative assessment and the design of instructional systems. <italic>Instructional Science, 18</italic>(2), 119-144. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/BF00117714">https://doi.org/10.1007/BF00117714</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Sadler</surname>
<given-names>D. R.</given-names>
</name>
</person-group>
<article-title>Formative assessment and the design of instructional systems</article-title>
<source>Instructional Science</source>
<year>1989</year>
<volume>18</volume>
<issue>2</issue>
<fpage>119</fpage>
<lpage>144</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/BF00117714">https://doi.org/10.1007/BF00117714</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref54">
<mixed-citation publication-type="journal">Saha, S., Dhamecha, T. I., Marvaniya, S., Sindhgatta, R. y Sengupta, B. (2018). Sentence-level or token-level features for automatic short answer grading? Use both. En <italic>Lecture Notes in Computer Science</italic> (Vol. 10947, pp. 475-486). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-3-319-93843-1_37">https://doi.org/10.1007/978-3-319-93843-1_37</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Saha</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Dhamecha</surname>
<given-names>T. I.</given-names>
</name>
<name>
<surname>Marvaniya</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Sindhgatta</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Sengupta</surname>
<given-names>B.</given-names>
</name>
</person-group>
<article-title>Sentence-level or token-level features for automatic short answer grading? Use both</article-title>
<source>Lecture Notes in Computer Science</source>
<year>2018</year>
<volume>10947</volume>
<fpage>475</fpage>
<lpage>486</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-3-319-93843-1_37">https://doi.org/10.1007/978-3-319-93843-1_37</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref55">
<mixed-citation publication-type="book">Sangapu, I. (2018). Artificial intelligence in education: From a teacher and a student perspective. <italic>SSRN</italic>. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.2139/ssrn.3372914">https://doi.org/10.2139/ssrn.3372914</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Sangapu</surname>
<given-names>I.</given-names>
</name>
</person-group>
<source>SSRN</source>
<year>2018</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.2139/ssrn.3372914">https://doi.org/10.2139/ssrn.3372914</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref56">
<mixed-citation publication-type="journal">Schneider, J., Richner, R. y Riser, M. (2023). Towards trustworthy autograding of short, multi-lingual, multi-type answers. <italic>International Journal of Artificial Intelligence in Education, 33</italic>(1), 1-29. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s40593-022-00289-z">https://doi.org/10.1007/s40593-022-00289-z</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Schneider</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Richner</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Riser</surname>
<given-names>M.</given-names>
</name>
</person-group>
<article-title>Towards trustworthy autograding of short, multi-lingual, multi-type answers</article-title>
<source>International Journal of Artificial Intelligence in Education</source>
<year>2023</year>
<volume>33</volume>
<issue>1</issue>
<fpage>1</fpage>
<lpage>29</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s40593-022-00289-z">https://doi.org/10.1007/s40593-022-00289-z</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref57">
<mixed-citation publication-type="confproc">Senthilnathan, V., Sakthi Vaibhav, M. y Alexander, R. (2025). <italic>Semantic refined prompting based automated essay scoring system</italic>. En <italic>Proceedings of the 2025 International Conference on Electronics and Renewable Systems (ICEARS)</italic> (pp. 1344-1348). IEEE. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ICEARS64219.2025.10940227">https://doi.org/10.1109/ICEARS64219.2025.10940227</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Senthilnathan</surname>
<given-names>V.</given-names>
</name>
<name>
<surname>Sakthi Vaibhav</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Alexander</surname>
<given-names>R.</given-names>
</name>
</person-group>
<source>Proceedings of the 2025 International Conference on Electronics and Renewable Systems (ICEARS)</source>
<year>2025</year>
<fpage>1344</fpage>
<lpage>1348</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ICEARS64219.2025.10940227">https://doi.org/10.1109/ICEARS64219.2025.10940227</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref58">
<mixed-citation publication-type="confproc">Siddiqi, R. y Harrison, C. (2008). A systematic approach to the automated marking of short-answer questions. En <italic>Proceedings of IEEE INMIC 2008: 12th International Multitopic Conference</italic> (pp. 281-286). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/INMIC.2008.4777758">https://doi.org/10.1109/INMIC.2008.4777758</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Siddiqi</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Harrison</surname>
<given-names>C.</given-names>
</name>
</person-group>
<source>Proceedings of IEEE INMIC 2008: 12th International Multitopic Conference</source>
<year>2008</year>
<fpage>281</fpage>
<lpage>286</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/INMIC.2008.4777758">https://doi.org/10.1109/INMIC.2008.4777758</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref59">
<mixed-citation publication-type="journal">Soulimani, Y. A., El Achaak, L. y Bouhorma, M. (2024). Deep learning-based Arabic short answer grading in serious games. <italic>International Journal of Electrical and Computer Engineering, 14</italic>(1), 841-853. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.11591/ijece.v14i1.pp841-853">https://doi.org/10.11591/ijece.v14i1.pp841-853</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Soulimani</surname>
<given-names>Y. A.</given-names>
</name>
<name>
<surname>El Achaak</surname>
<given-names>L.</given-names>
</name>
<name>
<surname>Bouhorma</surname>
<given-names>M.</given-names>
</name>
</person-group>
<article-title>Deep learning-based Arabic short answer grading in serious games</article-title>
<source>International Journal of Electrical and Computer Engineering</source>
<year>2024</year>
<volume>14</volume>
<issue>1</issue>
<fpage>841</fpage>
<lpage>853</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.11591/ijece.v14i1.pp841-853">https://doi.org/10.11591/ijece.v14i1.pp841-853</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref60">
<mixed-citation publication-type="database">Souza, F., Nogueira, R. y Lotufo, R. A. (2019). <italic>P</italic>ortuguese named entity recognition using BERT-CRF [Preprint]. <italic>arXiv</italic>. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48550/arXiv.1909.10649">https://doi.org/10.48550/arXiv.1909.10649</ext-link>
</mixed-citation>
<element-citation publication-type="database">
<person-group person-group-type="author">
<name>
<surname>Souza</surname>
<given-names>F.</given-names>
</name>
<name>
<surname>Nogueira</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Lotufo</surname>
<given-names>R. A.</given-names>
</name>
</person-group>
<article-title>Portuguese named entity recognition using BERT-CRF</article-title>
<source>arXiv</source>
<year>2019</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48550/arXiv.1909.10649">https://doi.org/10.48550/arXiv.1909.10649</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref61">
<mixed-citation publication-type="confproc">Sung, C., Ma, T., Dhamecha, T. I., Reddy, V., Saha, S. y Arora, R. (2019). Pre-training BERT on domain resources for short answer grading. En <italic>Proceedings of EMNLP-IJCNLP 2019</italic> (pp. 6076–6086). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/D19-1628">https://doi.org/10.18653/v1/D19-1628</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Sung</surname>
<given-names>C.</given-names>
</name>
<name>
<surname>Ma</surname>
<given-names>T.</given-names>
</name>
<name>
<surname>Dhamecha</surname>
<given-names>T. I.</given-names>
</name>
<name>
<surname>Reddy</surname>
<given-names>V.</given-names>
</name>
<name>
<surname>Saha</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Arora</surname>
<given-names>R.</given-names>
</name>
</person-group>
<source>Proceedings of EMNLP-IJCNLP 2019</source>
<year>2019</year>
<fpage>6076</fpage>
<lpage>6086</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/D19-1628">https://doi.org/10.18653/v1/D19-1628</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref62">
<mixed-citation publication-type="journal">van Wynsberghe, A. (2021). Sustainable AI: AI for sustainability and the sustainability of AI. <italic>AI and Ethics, 1</italic>(3), 213-218. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s43681-021-00043-6">https://doi.org/10.1007/s43681-021-00043-6</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>van Wynsberghe</surname>
<given-names>A.</given-names>
</name>
</person-group>
<article-title>Sustainable AI: AI for sustainability and the sustainability of AI</article-title>
<source>AI and Ethics</source>
<year>2021</year>
<volume>1</volume>
<issue>3</issue>
<fpage>213</fpage>
<lpage>218</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s43681-021-00043-6">https://doi.org/10.1007/s43681-021-00043-6</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref63">
<mixed-citation publication-type="journal">Villarroel, V., Bloxham, S., Bruna, D., Bruna, C. y Herrera-Seda, C. (2018). Authentic assessment: Creating a blueprint for course design. <italic>Assessment &amp; Evaluation in Higher Education, 43</italic>(5), 840-854. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/02602938.2017.1412396">https://doi.org/10.1080/02602938.2017.1412396</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Villarroel</surname>
<given-names>V.</given-names>
</name>
<name>
<surname>Bloxham</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Bruna</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Bruna</surname>
<given-names>C.</given-names>
</name>
<name>
<surname>Herrera-Seda</surname>
<given-names>C.</given-names>
</name>
</person-group>
<article-title>Authentic assessment: Creating a blueprint for course design</article-title>
<source>Assessment &amp; Evaluation in Higher Education</source>
<year>2018</year>
<volume>43</volume>
<issue>5</issue>
<fpage>840</fpage>
<lpage>854</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/02602938.2017.1412396">https://doi.org/10.1080/02602938.2017.1412396</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref64">
<mixed-citation publication-type="confproc">Wang, A., Singh, A., Michael, J., Hill, F., Levy, O. y Bowman, S. R. (2018). GLUE: A multi-task benchmark and analysis platform for natural language understanding. En <italic>Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP</italic> (pp. 353-355). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/W18-5446">https://doi.org/10.18653/v1/W18-5446</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Wang</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Singh</surname>
<given-names>A.</given-names>
</name>
<name>
<surname>Michael</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Hill</surname>
<given-names>F.</given-names>
</name>
<name>
<surname>Levy</surname>
<given-names>O.</given-names>
</name>
<name>
<surname>Bowman</surname>
<given-names>S. R.</given-names>
</name>
</person-group>
<source>Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP</source>
<year>2018</year>
<fpage>353</fpage>
<lpage>355</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/W18-5446">https://doi.org/10.18653/v1/W18-5446</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref65">
<mixed-citation publication-type="journal">Wang, H. y Lehman, J. D. (2021). Using achievement goal-based personalized motivational feedback to enhance online learning. <italic>Educational Technology Research and Development, 69</italic>(2), 807-836. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s11423-021-09940-3">https://doi.org/10.1007/s11423-021-09940-3</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Wang</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Lehman</surname>
<given-names>J. D.</given-names>
</name>
</person-group>
<article-title>Using achievement goal-based personalized motivational feedback to enhance online learning</article-title>
<source>Educational Technology Research and Development</source>
<year>2021</year>
<volume>69</volume>
<issue>2</issue>
<fpage>807</fpage>
<lpage>836</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s11423-021-09940-3">https://doi.org/10.1007/s11423-021-09940-3</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref66">
<mixed-citation publication-type="confproc">Wang, Y., Wang, C., Li, R. y Lin, H. (2022). On the use of BERT for automated essay scoring: Joint learning of multi-scale essay representation. En <italic>Proceedings of NAACL 2022</italic> (pp. 3432-3444). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/2022.naacl-main.249">https://doi.org/10.18653/v1/2022.naacl-main.249</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Wang</surname>
<given-names>Y.</given-names>
</name>
<name>
<surname>Wang</surname>
<given-names>C.</given-names>
</name>
<name>
<surname>Li</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Lin</surname>
<given-names>H.</given-names>
</name>
</person-group>
<source>Proceedings of NAACL 2022</source>
<year>2022</year>
<fpage>3432</fpage>
<lpage>3444</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/2022.naacl-main.249">https://doi.org/10.18653/v1/2022.naacl-main.249</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref67">
<mixed-citation publication-type="confproc">Wang, Z., Lan, A. S., Waters, A. E., Grimaldi, P. y Baraniuk, R. G. (2019). A meta-learning augmented bidirectional transformer model for automatic short answer grading. En <italic>Proceedings of the 12th International Conference on Educational Data Mining (EDM 2019)</italic>.</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Wang</surname>
<given-names>Z.</given-names>
</name>
<name>
<surname>Lan</surname>
<given-names>A. S.</given-names>
</name>
<name>
<surname>Waters</surname>
<given-names>A. E.</given-names>
</name>
<name>
<surname>Grimaldi</surname>
<given-names>P.</given-names>
</name>
<name>
<surname>Baraniuk</surname>
<given-names>R. G.</given-names>
</name>
</person-group>
<source>Proceedings of the 12th International Conference on Educational Data Mining (EDM 2019)</source>
<year>2019</year>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref68">
<mixed-citation publication-type="journal">Winstone, N. E., Nash, R. A., Parker, M. y Rowntree, J. (2017). Supporting learners’ agentic engagement with feedback: A systematic review and a taxonomy of recipience processes. <italic>Educational Psychologist, 52</italic>(1), 17-37. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/00461520.2016.1207538">https://doi.org/10.1080/00461520.2016.1207538</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Winstone</surname>
<given-names>N. E.</given-names>
</name>
<name>
<surname>Nash</surname>
<given-names>R. A.</given-names>
</name>
<name>
<surname>Parker</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Rowntree</surname>
<given-names>J.</given-names>
</name>
</person-group>
<article-title>Supporting learners’ agentic engagement with feedback: A systematic review and a taxonomy of recipience processes</article-title>
<source>Educational Psychologist</source>
<year>2017</year>
<volume>52</volume>
<issue>1</issue>
<fpage>17</fpage>
<lpage>37</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/00461520.2016.1207538">https://doi.org/10.1080/00461520.2016.1207538</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref69">
<mixed-citation publication-type="journal">Xavier, C., Rodrigues, L., Costa, N., Neto, R., Alves, G., Falcão, T. P., Gašević, D. y Mello, R. F. (2025). Empowering instructors with AI: Evaluating the impact of an AI-driven feedback tool in learning analytics. <italic>IEEE Transactions on Learning Technologies, 18</italic>, 498-512. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/TLT.2025.3562379">https://doi.org/10.1109/TLT.2025.3562379</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Xavier</surname>
<given-names>C.</given-names>
</name>
<name>
<surname>Rodrigues</surname>
<given-names>L.</given-names>
</name>
<name>
<surname>Costa</surname>
<given-names>N.</given-names>
</name>
<name>
<surname>Neto</surname>
<given-names>R.</given-names>
</name>
<name>
<surname>Alves</surname>
<given-names>G.</given-names>
</name>
<name>
<surname>Falcão</surname>
<given-names>T. P.</given-names>
</name>
<name>
<surname>Gašević</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Mello</surname>
<given-names>R. F.</given-names>
</name>
</person-group>
<article-title>Empowering instructors with AI: Evaluating the impact of an AI-driven feedback tool in learning analytics</article-title>
<source>IEEE Transactions on Learning Technologies</source>
<year>2025</year>
<volume>18</volume>
<fpage>498</fpage>
<lpage>512</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/TLT.2025.3562379">https://doi.org/10.1109/TLT.2025.3562379</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref70">
<mixed-citation publication-type="confproc">Xie, X. y Li, X. (2018). Research on personalized exercises and teaching feedback based on big data. En <italic>Proceedings of the ACM International Conference</italic> (pp. 217-221). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/3232116.3232143">https://doi.org/10.1145/3232116.3232143</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Xie</surname>
<given-names>X.</given-names>
</name>
<name>
<surname>Li</surname>
<given-names>X.</given-names>
</name>
</person-group>
<source>Proceedings of the ACM International Conference</source>
<year>2018</year>
<fpage>217</fpage>
<lpage>221</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/3232116.3232143">https://doi.org/10.1145/3232116.3232143</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref71">
<mixed-citation publication-type="journal">Xu, Z. y Zhu, P. (2023). Using BERT-based textual analysis to design a smarter classroom mode for computer teaching in higher education institutions. <italic>International Journal of Emerging Technologies in Learning, 18</italic>(19), 120-133. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3991/ijet.v18i19.42483">https://doi.org/10.3991/ijet.v18i19.42483</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Xu</surname>
<given-names>Z.</given-names>
</name>
<name>
<surname>Zhu</surname>
<given-names>P.</given-names>
</name>
</person-group>
<article-title>Using BERT-based textual analysis to design a smarter classroom mode for computer teaching in higher education institutions</article-title>
<source>International Journal of Emerging Technologies in Learning</source>
<year>2023</year>
<volume>18</volume>
<issue>19</issue>
<fpage>120</fpage>
<lpage>133</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3991/ijet.v18i19.42483">https://doi.org/10.3991/ijet.v18i19.42483</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref72">
<mixed-citation publication-type="confproc">Zhang, H., Cai, J., Xu, J. y Wang, J. (2019). Pretraining-based natural language generation for text summarization. En <italic>Proceedings of CoNLL 2019</italic> (pp. 789-798). <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/K19-1074">https://doi.org/10.18653/v1/K19-1074</ext-link>
</mixed-citation>
<element-citation publication-type="confproc">
<person-group person-group-type="author">
<name>
<surname>Zhang</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Cai</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Xu</surname>
<given-names>J.</given-names>
</name>
<name>
<surname>Wang</surname>
<given-names>J.</given-names>
</name>
</person-group>
<source>Proceedings of CoNLL 2019</source>
<year>2019</year>
<fpage>789</fpage>
<lpage>798</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/K19-1074">https://doi.org/10.18653/v1/K19-1074</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref73">
<mixed-citation publication-type="book">Zhang, H., Yu, P. S. y Zhang, J. (2025). A systematic survey of text summarization: From statistical methods to large language models. <italic>ACM Computing Surveys</italic>. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/3731445">https://doi.org/10.1145/3731445</ext-link>
</mixed-citation>
<element-citation publication-type="book">
<person-group person-group-type="author">
<name>
<surname>Zhang</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Yu</surname>
<given-names>P. S.</given-names>
</name>
<name>
<surname>Zhang</surname>
<given-names>J.</given-names>
</name>
</person-group>
<source>ACM Computing Surveys</source>
<year>2025</year>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/3731445">https://doi.org/10.1145/3731445</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref74">
<mixed-citation publication-type="journal">Zhang, Z., Zhang, Z., Chen, H. y Zhang, Z. (2019). A joint learning framework with BERT for spoken language understanding. <italic>IEEE Access, 7</italic>, 168849–168858. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2019.2954766">https://doi.org/10.1109/ACCESS.2019.2954766</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Zhang</surname>
<given-names>Z.</given-names>
</name>
<name>
<surname>Zhang</surname>
<given-names>Z.</given-names>
</name>
<name>
<surname>Chen</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Zhang</surname>
<given-names>Z.</given-names>
</name>
</person-group>
<article-title>A joint learning framework with BERT for spoken language understanding</article-title>
<source>IEEE Access</source>
<year>2019</year>
<volume>7</volume>
<fpage>168849</fpage>
<lpage>168858</lpage>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2019.2954766">https://doi.org/10.1109/ACCESS.2019.2954766</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref75">
<mixed-citation publication-type="journal">Zhao, H., Chen, H., Yang, F., Liu, N., Deng, H., Cai, H., Wang, S., Yin, D. y Du, M. (2024). Explainability for large language models: A survey. <italic>ACM Transactions on Intelligent Systems and Technology, 15</italic>(2), Article 26. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/3639372">https://doi.org/10.1145/3639372</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Zhao</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Chen</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Yang</surname>
<given-names>F.</given-names>
</name>
<name>
<surname>Liu</surname>
<given-names>N.</given-names>
</name>
<name>
<surname>Deng</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Cai</surname>
<given-names>H.</given-names>
</name>
<name>
<surname>Wang</surname>
<given-names>S.</given-names>
</name>
<name>
<surname>Yin</surname>
<given-names>D.</given-names>
</name>
<name>
<surname>Du</surname>
<given-names>M.</given-names>
</name>
</person-group>
<article-title>Explainability for large language models: A survey</article-title>
<source>ACM Transactions on Intelligent Systems and Technology</source>
<year>2024</year>
<volume>15</volume>
<issue>2</issue>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/3639372">https://doi.org/10.1145/3639372</ext-link>
</comment>
</element-citation>
</ref>
<ref id="redalyc_331483192025_ref76">
<mixed-citation publication-type="journal">Zheng, L., Long, M., Chen, B. y Fan, Y. (2023). Promoting knowledge elaboration, socially shared regulation, and group performance in collaborative learning: An automated assessment and feedback approach based on knowledge graphs. <italic>International Journal of Educational Technology in Higher Education, 20</italic>(1), 12. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1186/s41239-023-00415-4">https://doi.org/10.1186/s41239-023-00415-4</ext-link>
</mixed-citation>
<element-citation publication-type="journal">
<person-group person-group-type="author">
<name>
<surname>Zheng</surname>
<given-names>L.</given-names>
</name>
<name>
<surname>Long</surname>
<given-names>M.</given-names>
</name>
<name>
<surname>Chen</surname>
<given-names>B.</given-names>
</name>
<name>
<surname>Fan</surname>
<given-names>Y.</given-names>
</name>
</person-group>
<article-title>Promoting knowledge elaboration, socially shared regulation, and group performance in collaborative learning: An automated assessment and feedback approach based on knowledge graphs</article-title>
<source>International Journal of Educational Technology in Higher Education</source>
<year>2023</year>
<volume>20</volume>
<issue>1</issue>
<comment>
<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1186/s41239-023-00415-4">https://doi.org/10.1186/s41239-023-00415-4</ext-link>
</comment>
</element-citation>
</ref>
</ref-list>
</back>
</article>