Secciones
Referencias
Resumen
Servicios
Buscar
Fuente


POSIBILIDADES DE APRENDIZAJE AUTÓNOMO DE ESTUDIANTES DE SECUNDARIA EN LA CREACIÓN DE IMÁGENES MEDIANTE INTELIGENCIA ARTIFICIAL
POSSIBILITIES OF AUTONOMOUS LEARNING IN SECONDARY STUDENTS FOR IMAGE CREATION USING ARTIFICIAL INTELLIGENCE
POSSIBILIDADES DE APRENDIZAGEM AUTÔNOMA DE ALUNOS DO ENSINO SECUNDÁRIO NA CRIAÇÃO DE IMAGENS POR INTELIGÊNCIA ARTIFICIAL
Hachetetepé. Revista científica de educación y comunicación, núm. 30, pp. 1-31, 2025
Universidad de Cádiz

Artículos



Recepción: 03 Julio 2024

Revisado: 08 Agosto 2024

Aprobación: 13 Septiembre 2024

Publicación: 17 Enero 2025

DOI: https://doi.org/10.25267/Hachetetepe.2025.i30.1201

Resumen: Este estudio piloto investiga la capacidad de 83 estudiantes de secundaria para utilizar herramientas de generación de imágenes mediante inteligencia artificial (IA) de forma autodidacta empleando el software Stable Diffusion. Los participantes crearon imágenes a partir de prompts textuales mejorándolos iterativamente en una sesión de 55 minutos. Los resultados mostraron incrementos en las puntuaciones de los prompts mejorados especialmente en la identificación y descripción de elementos físicos y emocionales aunque el tamaño del efecto fue desde muy pequeño a moderado. La entropía léxica no varió significativamente indicando una limitada creatividad y adaptabilidad en los prompts. Se concluye que los estudiantes requieren apoyo docente para mejorar la calidad de los prompts y aprovechar al máximo la IA en entornos educativos, sugiriendo que el apoyo docente es esencial para maximizar el aprendizaje y la creatividad en el uso de la IA en educación.

Palabras clave: Inteligencia Artificial, Generación de Imágenes, Educación Secundaria, Aprendizaje Autónomo, Tecnología Educativa.

Abstract: This pilot study investigates the ability of 83 secondary school students to use artificial intelligence (AI) image generation tools autonomously using Stable Diffusion software. Participants created images from textual prompts, iteratively improving them over a 55-minute session. Results showed increases in scores for improved prompts, particularly in identifying and describing physical and emotional elements, though the effect size was from very small to moderate. Lexical entropy did not change significantly, indicating limited creativity and adaptability in prompts. It concludes that students need teacher support to improve prompt quality and effectively utilize AI in educational settings, suggesting that teacher support is essential to maximize learning and creativity in the use of AI in education.

Keywords: Artificial Intelligence, Image Generation, Secondary Education, Autonomous Learning, Educational Technology.

Resumo: Este estudo-piloto investiga a capacidade de 83 estudantes do ensino secundário para utilizarem ferramentas de geração de imagens de inteligência artificial (IA) de forma autodidata utilizando o software Stable Diffusion. Os participantes criaram imagens a partir de instruções textuais, melhorando-as iterativamente numa sessão de 55 minutos. Os resultados mostraram aumentos nas pontuações das instruções melhoradas, especialmente na identificação e descrição de elementos físicos e emocionais, embora o tamanho do efeito tenha variado entre muito pequeno e moderado. A entropia lexical não variou significativamente, indicando uma criatividade e adaptabilidade limitadas nos prompts. Conclui-se que os alunos necessitam de apoio do professor para melhorar a qualidade dos prompts e tirar o máximo partido da IA em contextos educativos, sugerindo que o apoio dos professores é essencial para maximizar o aprendizado e a criatividade no uso da IA na educação.

Palavras-chave: Inteligência Artificial, Geração de Imagens, Ensino Secundário, Aprendizagem Autônoma, Tecnologia Educacional.

1. INTRODUCCIÓN

La aparición de herramientas de inteligencia artificial generativa (IA e IAG en adelante), como ChatGPT para texto y Dall-E para imágenes, ha marcado un hito importante en la educación superior, iniciando debates sobre sus aplicaciones y potencialidades (García-Peñalvo, 2023; Saz-Pérez y Pizà-Mir, 2024a). Con este marco, la inteligencia artificial, especialmente en el ámbito del aprendizaje automático, se define por la capacidad de las máquinas de aprender de la experiencia mediante el reconocimiento de patrones adquiriendo la capacidad de realizar tareas que requieren inteligencia humana (Duan et al., 2019). La transición hacia la web 3.0 así como la adopción de diferentes tecnologías multimedia han cambiado los entornos de aprendizaje, diversificando las posibilidades de obtención de conocimiento (Rebollo-Catalán y Vico-Bosch, 2014).

Explorar cómo el alumnado hace un uso autodidacta de estas herramientas reporta una perspectiva de la capacidad de adaptación a estas nuevas tecnologías, pero también subraya la necesidad de estrategias pedagógicas pertinentes para optimizar su potencial en contextos educativos (Tapalova y Zhiyenbayeva 2020; Zawacki-Richter et al. 2019). Estos estudios son fundamentales para comprender la función del apoyo pedagógico en el desarrollo de competencias tecnológicas así como de la creatividad, lo que repercute en el diseño de currículos futuros y la capacitación de docentes (Cózar et al. 2015; Saz-Pérez et al. 2024) ya que una parte importante de los educadores aún carece de la capacitación necesaria para implementar las Tecnologías de la Información y Comunicación (TIC) de forma efectiva en su práctica educativa (Chai et al., 2010; Torres-Díaz y Infante-Moro, 2011).

La inteligencia artificial en contextos educativos permite adaptar el aprendizaje al ofrecer contenidos personalizados y retroalimentación instantánea, lo cual puede revertir en una mejora significativa en el proceso educativo (Tapalova et al., 2020). No obstante, para el diseño de soluciones eficaces, es necesario una implementación de esta tecnología que contemple tanto sus capacidades como sus limitaciones (Zawacki-Richter et al., 2019). Por ello, para enfrentar posibles desafíos en las aulas es fundamental que las prácticas educativas que incluyan esta tecnología estén fundamentadas en un buen diseño (De Benito, y Salinas Ibañez, 2016) ya sea mediante nuevos recursos, métodos y procedimientos.

No obstante, el uso de ChatGPT en contextos educativos genera ciertas controversias y restricciones debido a la preocupación por posibles malos usos por parte del estudiantado (Herman, 2022; Marche, 2022; Stokel-Walker, 2022; Dwivedi et al., 2023; Ropek, 2023; Meckler y Verma, 2022; Saz-Pérez y Pizà-Mir, 2024b), además de críticas sobre errores y fallos en las respuestas del sistema (Llorens-Largo y ChatGPT, 2022).

También hay estudios (Chang y Ginter, 2024; Pinto et al., 2023; Mindner et al., 2023; Jukiewicz, 2024; Latif y Zhai, 2024) que muestran ventajas sobre el uso de ChatGPT para evaluar respuestas de estudiantes como la:

● Eficiencia: ChatGPT puede reducir significativamente el tiempo que los profesores dedican a calificar, permitiéndoles concentrarse más en estrategias pedagógicas y en interacciones directas con los estudiantes.

● Consistencia: A diferencia de los calificadores humanos, que pueden sufrir de fatiga y subjetividad, ChatGPT proporciona evaluaciones consistentes basadas en los datos con los que ha sido entrenado, reduciendo el sesgo en la calificación.

● Escalabilidad: ChatGPT es capaz de gestionar grandes volúmenes de evaluaciones de manera rápida, lo que lo convierte particularmente beneficioso en contextos educativos con numerosas y constantes tareas.

● Calidad del feedback: ChatGPT es capaz de aportar una retroalimentación con mucho detalle a los estudiantes. De este modo puede ayudarles a interiorizar sus errores para que aprendan de una forma más efectiva.

Los comandos que se usan (prompts), es decir, aquellas instrucciones o preguntas específicas del usuario con las que se interactúa con modelos de lenguaje como ChatGPT son muy importantes y deben considerar aspectos como: su estructura, unas instrucciones precisas, un contexto relevante, los datos de entrada (que puede ser en diversos formatos) e indicar el tipo de producto (formato) deseado (Radford et al., 2019; McTear et al., 2016). Por contra, unos prompts mal formulados pueden resultar en respuestas imprecisas o fuera de contexto, afectando a la eficacia de esta interacción (Sun et al., 2019).

Para una capacitación docente resulta fundamental un enfoque global, que aborde e incluya aspectos tecnológicos, pedagógicos y disciplinares (Cózar et al., 2015; Saz-Pérez et al., 2024).

El nivel de precisión y claridad a la hora de formular prompts son un elemento clave para una comunicación efectiva entre humanos y la IA, pero también lo son otros como el tono y la empatía percibida (Serban et al., 2017). Asimismo, se deben tener en consideración aspectos de carácter ético así como la prevención de sesgos en la creación de estos sistemas, lo cual requiere un proceso iterativo de pruebas y ajustes para el desarrollo continuo, conocido como ingeniería de prompts (Giray, 2023; Ekin, 2023).

En el diseño de prompts para modelos de generación de imágenes a partir de textos (Brade et al., 2023; Pavlichenko y Ustalov, 2023; Oppenlaender, 2023), la precisión o especificidad como ya se ha comentado es fundamental a la hora de dirigir al modelo hacia productos (en este caso imágenes) que se ajusten a las expectativas del usuario, incluyendo aspectos del objeto, la escena (Dehouche y Dehouche, 2023), del sujeto y el estilo (Liu y Chilton, 2022) de los detalles a tener en cuenta.

Actualmente los modelos de lenguaje de inteligencia artificial como ChatGPT, desarrollado por OpenAI, resaltan por su gran habilidad de comprender y producir textos con un nivel de destreza muy similar al que pueden presentar los humanos. Este modelo, basado en la arquitectura GPT-4, se entrena en grandes colecciones de texto, lo que le permite generar respuestas que imitan una conversación humana en una diversidad de contextos, tales como el apoyo al usuario, la producción de contenido y la narración interactiva (Ekin, 2023; Brown et al., 2020). ChatGPT así como otros modelos de lenguaje grande (LLM por sus siglas en inglés), son sistemas de inteligencia artificial que implementan técnicas de procesamiento de lenguaje natural (de Kok, 2024), donde conceptos como la entropía de los prompts resultan relevantes. De acuerdo con Shannon y Weaver (1948), la entropía mide la incertidumbre o variabilidad de la información dentro de un sistema, lo cual permite la evaluación de la variabilidad y la precisión del lenguaje en las tareas concretas. Estas evaluaciones mejoran la relevancia y efectividad de los recursos educativos interactivos, ajustándose de manera más adecuada a los requerimientos de los estudiantes y fomentando así, un aprendizaje más eficaz (Shannon y Weaver, 1948; Sorensen et al., 2022; Lara et al., 2020).

Ennis (2019) trata el pensamiento crítico a través de dimensiones como clarificación de ideas y meta-cognición. Paul y Nosich (2019) desarrollan este concepto sugiriendo 88 destrezas repartidas en varias dimensiones, abarcando propósitos y problemas a solucionar. James Madison (2004) se enfoca en destrezas prácticas tales como identificación de problemas y evaluación de argumentos, subrayando la importancia de diferenciar entre condiciones necesarias y suficientes así como otros elementos críticos de la argumentación, lo que puede llevar a mejoras en los procesos de aprendizaje (Phan, 2010).

Según mencionan Liu y Chilton (2022) y Hao et al. (2022) la claridad y sencillez de los prompts son fundamentales para evitar ambigüedades y excesos de información que pudieran confundir a estos modelos. Asimismo, la coherencia contextual interna entre los elementos del prompt contribuye a crear imágenes lógicamente consistentes. Al tener en cuenta las potencialidades y limitaciones del modelo utilizado, se puede ajustar los prompts de manera efectiva, lo que se conoce como prompt engineering (Arvidsson y Axel, 2023; Sahoo et al., 2024; White et al., 2023;) al mismo tiempo el feedback iterativo y las pruebas con variaciones en los prompts reportan información muy útil para mejorar este proceso de diseño.

El objetivo del estudio es investigar si el alumno de forma autodidacta es capaz de hacer un uso efectivo de inteligencia artificial (IA) o si, por el contrario, requiere del soporte y enseñanza de un docente para lograr un dominio adecuado de esta tecnología.

2.DISEÑO EXPERIMENTAL

Se realizó un estudio de autoaprendizaje en el uso prompts con estudiantes de educación secundaria obligatoria, mediante herramientas text-to-image. De este modo, el alumnado podía reconocer de forma simple las similitudes o no, del producto de su prompt, el cual es una simple imagen siendo una retroalimentación rápida y efectiva.

2.1.Participantes

Se llevó a cabo con 83 participantes de los cursos de 2º y 3º de Educación Secundaria Obligatoria (13 a 15 años), de los cuales 53.01 % eran hombres y 46.98 % mujeres. Los participantes en este estudio no recibieron formación sobre ingeniería de prompts, ni indicaciones de cómo formularlos, ni habían trabajado previamente con estas herramientas.

2.2. Software y material utilizado

Para el desarrollo de la prueba se utilizó el software Stable Diffusion en base a los estudios de Dehouche y Dehouche (2023), Liu y Chilton (2022) y Hao et al. (2022). En todo momento a lo largo del estudio se preservó el anonimato de los participantes, la normativa de protección de datos europea bajo directrices éticas (Declaración de Helsinki).

Las variables que se tuvieron en cuenta fueron las de Dehouche y Dehouche (2023) que se muestran en la figura 1, en concreto what (en español Qué) y how (en español Cómo), sin tener en cuenta las variables culturales (Manassero-Mas y Vázquez-Alonso, 2020) para asegurar la equidad y comparabilidad entre diferentes grupos, facilita el desarrollo de instrumentos:

● Categoría 1 (Qué): Personajes y objetos de la imagen, atributos físicos del sujeto/objeto; Rasgos emocionales o psicológicos; Entorno/Configuración; Simetría/Repetición

● Categoría 2 (Cómo): Iluminación; Técnica; Resolución; Ángulo; Profundidad de Campo; Estado de ánimo; Tono.


Figura 1.
Variables usadas en el estudio
Fuente: Extraído de Dehouche y Dehouche (2023)

2.3. Desarrollo

Se diseñó un proceso iterativo autónomo, durante una sesión lectiva (55 minutos), en el cual los alumnos recibieron tres imágenes (persona, paisaje y escena, como se ve en la figura 2, y mediante una IAG de texto-imagen debían obtenerla dando las instrucciones (prompts) al software:

a. Para cada imagen, el alumno elaboró un prompt inicial para que la IA genere una imagen.

b. A partir de la primera imagen obtenida, el alumno elaboró un segundo prompt a partir del primero (mejorándolo), para obtener una segunda imagen.

c. A partir de la segunda imagen obtenida, el alumno desarrolló un último prompt (el tercero) para mejorar el resultado obtenido.


Figura 2.
Imágenes usadas en la práctica
Fuente: Ver Anexo I

En base a estas imágenes y a las variables se solicitó a la IA cual sería el prompt de referencia que mejor las describiría, y en base a esto se realizaron las rúbricas de corrección —Anexo I—. Al mismo tiempo se solicitó una imagen a partir de ese mismo prompt de referencia y el resultado se ve en la figura 3.


Figura 3.
Imágenes generadas a partir del prompt de referencia.
Fuente: Elaboradas a partir del prompt (Anexo I) mediante ChaGPT (OpenAI, 2024a)

2.4. Análisis de datos

En total, al haber participado 78 alumnos, se analizaron un total de 702, siendo 3 prompts por cada imagen y alumno, y 3 imágenes en total. Estos se analizaron mediante rúbrica de 4 puntos (ver anexo I) cada una de las variables estudiadas.

Se midieron las medias y error estándar para las diferentes variables para identificar en cuales obtenían los participantes una mayor puntuación; calculando las diferencias de puntuación entre prompts para poder inferir aprendizajes entre ellos así como un análisis entrópico de la diversidad léxica de los prompts, así como la D de Cohen (Cohen, 1998) para valorar el tamaño del efecto sobre las puntuaciones. El análisis se realizó mediante Jamovi v2.3 (The Jamovi Project, 2022) y el software Diagrams y Data: Research, Analyze, Visualize (GPT-4) [Custom large language model (OpenAI, 2024b).

3.RESULTADOS Y DISCUSIÓN

A continuación, se presentan los resultados en dos bloques haciendo un análisis cuantitativo sobre las puntuaciones obtenidas mediante las rúbricas y cualitativo sobre la estructura de los prompts el cual analiza la entropía y el uso de vocablos más y menos utilizados.

3.1. Sobre las puntuaciones (cuantitativo)

En la tabla 1 y tabla 2 se observan valores medios similares entre las diferentes imágenes a excepción de Paisaje, los cuales son ligeramente inferiores tanto para la Categoría 1 (Qué) como la Categoría 2 (Cómo). Los valores medios y sus respectivas medianas muestran gran concordancia sin apreciar grandes variaciones entre las puntuaciones mínimas y máximas del conjunto de variables para cada imagen, lo que reporta una homogeneidad de los datos. Los valores medios mínimos y máximos de las diferentes variables oscilan entre 1,40 y 2,61 respectivamente. Esto se alinea con las variables de la Categoría 1 (Qué) y la Categoría 2 (Cómo) descritas por Dehouche y Dehouche (2023), donde la Categoría 1 (Qué) incluye elementos fundamentales de la imagen como personajes, objetos y entorno, mientras que la Categoría 2 (Cómo) comprende aspectos técnicos como iluminación y resolución.

Tabla 1.
Puntuación: media±error estándar de variables Categoría 1 (Qué)

Fuente: Elaboración propia

Tabla 2.
Puntuación: (media±error estándar de variables Categoría 2 (Cómo)

Fuente: Elaboración propia

Si bien las imágenes mostradas a los usuarios presentaban temáticas diferentes, tenían un inevitable carácter secuencial en el conjunto de la práctica. Esto permite observar la evolución del aprendizaje no solo para cada imagen sino para cada variable en el conjunto de la práctica. En la Figura 3, se observa una tendencia alcista en el aprendizaje de las variables de la Categoría 1 (Qué), excepto en "Entorno/Configuración", "Personajes y objetos de la imagen" y "Simetría", que presentan descensos en ciertos puntos. La figura 4 muestra una mejora general en las variables de la Categoría 2 (Cómo), con incrementos en iluminación y resolución, aunque con algunas variaciones en "Ángulo" y "Profundidad de campo".

Estos resultados indican que, aunque los estudiantes están progresando en la identificación y descripción de los elementos visuales clave de las imágenes para la Categoría 1 (Qué), algunas áreas específicas necesitan más práctica para mejorar la precisión y consistencia. En cuanto a las técnicas de presentación Categoría 2 (Cómo), se observa una mejora más consistente y sostenida, sugiriendo un dominio creciente en la aplicación de técnicas clave para la generación de imágenes.


Figura 3.
Aprendizaje (diferencia de las puntuaciones) para las variables de la Categoría 1 (Qué)
Fuente: Elaboración propia


Figura 4.
Aprendizaje (diferencia de las puntuaciones) para las variables de la Categoría 2 (Cómo)
Fuente: Elaboración propia

La tabla 3 muestra los valores de significancia de las puntuaciones para los distintos grupos de variables y el total entre las diferentes fases de la actividad. Para las variables de la Categoría 1 (Qué), hay una variación significativa entre la primera y segunda imagen (T-test = 0,0307*; d = 0,552 - moderado) y entre la primera y la tercera (T-test = 0,0031**; d = 0,338 - pequeño). En el caso de las variables de la Categoría 2 (Cómo), solo se observa significación en el proceso global entre la primera y última imagen (T-test = 0,0200*; d = 0,199 - muy pequeño). Al analizar todas las variables en conjunto, hay variaciones significativas desde la primera a la segunda imagen (T-test = 0,0059**; d = 0,491 - pequeño) y en el proceso global de la práctica, entre la primera y la última imagen (T-test < 0,001***; d = 0,268 - pequeño). Aunque algunos datos son significativos, el tamaño del efecto es de moderado a muy pequeño en conjunto, sugiriendo la necesidad de un enfoque educativo más focalizado para asegurar un aprendizaje más consistente y significativo en ambas áreas.

Tabla 3.
Significancia estadística (mediante prueba T) y tamaño del efecto (Cohen’s D)

Fuente: Elaboración propia

3.2. Sobre la estructura de los prompts (cualitativa)

A continuación, se muestra la tabla 4 donde se muestra la entropía de la diversidad léxica de los prompts y a continuación una muestra de 3 prompts por cada imagen.

Se realizó un análisis entrópico en cada imagen sobre el texto base de los prompts, con todos los vocablos, y otro simplificado, en el cual solo se ha valorado exclusivamente la diversidad de verbos, adjetivos y adverbios, los cuales aportan mayor nivel de detalle y matices al texto, que aparece en la tabla 4. Se muestran las medias de la entropía de los prompts usados por el alumnado junto con su desviación estándar para cada intento y cada imagen. Así mismo se muestran las variaciones entre los diferentes intentos, así como la significancia, posicionada entre el intento 1 a 2 y 2 a 3 (los valores significativos están en negrita). Por último, se muestran los valores de entropía reportados para el prompt de referencia de cada imagen.

Tabla 4.
Valores de entropía para cada prompt e imagen

Fuente: Elaboración propiaNota: *I (imagen); P (número de intento -prompt)

Un mayor nivel de entropía en los prompts a medida que los usuarios avanzan podría inferir aprendizaje, evidenciado por un aumento en la diversidad léxica., en la que una alta entropía en los prompts favorece la creatividad y adaptabilidad en las tareas, aunque es esencial encontrar un equilibrio para evitar respuestas caóticas o redundantes (Sorensen et al., 2022). A su vez, incrementar la información aportada en el prompt y la salida del modelo potencia la exactitud y relevancia de las respuestas de forma más efectiva y ofreciendo resultados más fiables (Shannon y Weaver, 1948). En el contexto educativo, entender qué es la entropía, ayuda en el diseño de estos recursos interactivos y adaptativos a las necesidades del estudiante, manteniendo la información más relevante y fomentando un aprendizaje más efectivo(Lara et al., 2020).

Sin embargo, los resultados obtenidos no evidencian un patrón consistente de cambio a través de los distintos intentos. Tal como se observa en la Tabla 4, sólo se registran incrementos significativos en la variedad léxica entre el primer y segundo prompt de la segunda y tercera imagen. Aunque estas diferencias son estadísticamente significativas, presentan un tamaño de efecto reducido, lo que limita su relevancia práctica. Esto indica que los estudiantes podrían haber probado con diferentes palabras para mejorar las respuestas del modelo, aunque no lograron una mejora sustancial.

En la tabla 5 se presentan las palabras más y menos comunes en los prompts usados por los estudiantes en esta práctica. Las palabras más comunes se repiten entre los prompts, lo que indica coherencia en las descripciones. Términos como "ibai", no reconocidos por la IA, presentan inconsistencia y falta de relevancia, desapareciendo en prompts posteriores. Las palabras menos comunes reflejan variabilidad y menor importancia en las respuestas. Como se puede apreciar los vocablos empleados por los usuarios se podrían categorizar tanto en las variables de la Categoría 1 (qué) como las de la Categoría 2 (Cómo) por igual, sin observar una tendencia mayoritaria clara hacia ninguna de las dos categorías.

Tabla 5.
Palabras más comunes y menos comunes en los prompts

Fuente: Elaboración propiaNota: *I (imagen); P (número de intento -prompt)

Al mismo tiempo se aporta una muestra (sic) de los prompts (mayor o menor relevancia) de las diferentes imágenes, donde se aprecia la baja diversidad léxica mencionada anteriormente. En el caso de la primera imagen, los prompts con mayor calidad son: hombre real con cascos microfono sillon habitacion colores morados gaming (Prompt 3 imagen 1); Chico gordo, pelirrojo,con barba,auriculares puesto con camiseta rosa con fondo morado (Prompt 1 imagen 1); Una persona hombre con barba camiseta levis escuchando música en una habitación morada (Prompt 2 imagen 1) y con menor calidad son: Sale ibai con cascos y micro jugando al oredenador (Prompt 1 imagen 1); 2. persona gorda blanca peliroja y gamer co set up iluminado color morado (Prompt 3 imagen 1);. Me sale un streamer famoso jugando a un videojuego con un micrófono (Prompt 3 imagen 1).

Para la segunda imagen la muestra de los prompts (sic) de más relevancia son: Playa plana con agua color azul cielo, el cielo es azul con algunas nubes y la playa tiene arena blanca (Prompt 2 imagen 2); Es un paisaje de mar y bosque, el bosque es muy verde y la playa es blanca (Prompt 1 imagen 2); una playa de arena el los bordes i en el interior bosque muy verde el cielo azul con nubes (Prompt 3 imagen 2) y los de menor relevancia: isla al lado de un rio (Prompt 1 imagen 2); isla mita mar mitad rio (Prompt 3 imagen 2); isla flotante (Prompt 2 imagen 2)

Por último, en la tercera imagen los prompts (sic) más relevantes son: Cena familiar navideña, abuela nieta celebrando, mesa llena de comida, decoraciones navideñas (Prompt 1 imagen 3); Es una familia en la cena de navidad, con cuatro personas, una mesa con velas y decoraciones (Prompt 2 imagen 3); Una familia feliz comiendo en la cena de navidad con muchas decoraciones y velas (Prompt 3 imagen 3) y los menos relevantes: un cena familiar con una mujer depie con el pastel (Prompt 1 imagen 3); cena de navidad (Prompt 1 imagen 3); cena de navidad con velas y con tres personas celebrando (Prompt 2 imagen 3)

Además, en el anexo II, se puede observar una muestra de los mejores y peores prompts para cada una de las imágenes, su análisis así como la comparativa con el prompt de referencia.

El análisis de la entropía en los prompts muestra una falta de consistencia en la variabilidad léxica, sugiriendo un aprendizaje autodidacta limitado. Aunque hubo algunos incrementos en la diversidad léxica entre intentos, estos cambios no fueron consistentes. La repetición de palabras comunes indica un vocabulario limitado y una falta de exploración de términos más diversos. Algunas palabras como "ibai", que no son reconocidas por este modelo de IA, desaparecen en prompts posteriores, evidenciando cambios sin un progreso significativo.

Esto nos indica que los estudiantes no están utilizando al máximo la entropía léxica usando la creatividad y sus destrezas lingüísticas para mejorar esos prompts. Con este escenario se presupone necesario el apoyo docente para orientar a los estudiantes en la utilización efectiva de la variabilidad léxica y optimizar sus resultados (Shannon y Weaver, 1948; Sorensen et al., 2022; Lara et al., 2020).

La falta de conocimiento de los estudiantes con este tipo de herramientas de IA de generación de imágenes, así como la ausencia de orientación recibida durante el desarrollo de la actividad, pueden estar detrás de estas diferencias observadas. La diversidad léxica se mantuvo mayormente constante, lo que puede sugerir que los alumnos no buscaron o no encontraron alternativas léxicas ya sea por falta de tiempo, la presión por obtener resultados rápidos o que les falten recursos de vocabulario.

A pesar de que se encontraron ciertas diferencias significativas en la entropía léxica de los prompts, su efecto real parece limitado.

4.CONCLUSIONES

Este estudio piloto que analiza la interacción entre inteligencia artificial generativa y estudiantes mediante herramientas de generación de imágenes text-to-image ha mostrado ciertas tendencias clave que pueden guiar o pautar futuras investigaciones y algunas aplicaciones prácticas en el ámbito educativo. A lo largo del estudio se observaron ligeros incrementos en las puntuaciones de las diferentes variables, particularmente entre los prompts iniciales y los mejorados por los estudiantes (los últimos intentos). No obstante, se debe tener en cuenta que estos incrementos, aunque significativos en algunos casos, reportan un tamaño del efecto desde muy pequeño a moderado, lo que indica que el autoaprendizaje sin instrucciones adicionales puede ser limitado.

Las puntuaciones de las variables de la Categoría 1 (Qué) en general obtuvieron mejores resultados que las de la Categoría 2 (Cómo). Esto indica o sugiere que los estudiantes tienen una facilidad mayor a la hora de identificar y describir elementos físicos y emocionales en una imagen que en aspectos de carácter más técnicos como iluminación y ángulo. Asimismo, se observaron diferencias notables en las puntuaciones entre la primera y segunda imagen para las variables de la Categoría 1 (Qué), y entre la primera y tercera imagen para el conjunto total de variables. Estas variaciones sugieren que los estudiantes progresan desde su punto de partida con la práctica iterativa, aunque el tamaño del efecto es generalmente pequeño.

El análisis de entropía no reveló diferencias significativas en la diversidad léxica de los prompts entre los diferentes intentos. Por lo tanto se infiere que los cambios en los prompts no fueron sustanciales en términos de diversidad de vocabulario, lo que refuerza la importancia de directrices claras para mejorar la calidad y variedad de los prompts elaborados por los estudiantes. La frecuencia de uso de ciertas palabras sugiere patrones de descripción comunes entre los estudiantes. Las palabras más frecuentes suelen estar directamente relacionadas con los elementos principales de la imagen, mientras que las menos comunes indican una menor relevancia percibida o escaso reconocimiento por parte de la IA.

La capacidad de autoaprendizaje en la elaboración de los prompts por parte de los estudiantes sin la guía adecuada, no resultó ser efectiva, destacando la importancia de la intervención docente en este contexto para proporcionar instrucciones claras y específicas. La presencia de un educador que además de orientar, enseñe técnicas y estrategias de prompt engineering (ingeniería de prompts, es decir, cómo estructurar los prompts para un resultado óptimo) podría mejorar significativamente los resultados de los estudiantes. Hay un gran potencial de personalización del aprendizaje mediante el uso de IA, no obstante, su implementación efectiva requiere una capacitación apropiada y un diseño cuidadoso de los prompts y la interacción con los sistemas de IA, los cuales deben ser abordados.

4.1.Recomendaciones para la implementación de estrategias de apoyo docente

A la vista de estos hallazgos, se recomienda que la implementación de IA en entornos educativos se acompañe de estrategias de apoyo docente bien organizadas y estructuradas. Los docentes deberían recibir formación específica en prompt engineering que les capacite a la hora de guiar a los estudiantes en la creación de prompts más eficaces y diversos. Además, se propone incorporar actividades que fomenten la experimentación y exploración léxica, permitiendo a los estudiantes desarrollar una mayor creatividad y adaptabilidad en el uso de herramientas de IA. Estas estrategias podrían incluir talleres prácticos, retroalimentación continua a el alumnado y la integración de ejercicios iterativos que faciliten un aprendizaje más profundo y significativo.

4.2.Limitaciones del estudio y prospectivas

Es importante señalar algunas limitaciones que afectan la generalización de los hallazgos de este estudio. En primer lugar, el tamaño muestral (83 estudiantes podría no ser suficientemente representativo para extrapolar los resultados a una población más extensa. Por otro lado, se debe tener presente que la ausencia de formación previa en el uso de herramientas de generación de imágenes mediante IA por parte de los estudiantes limita la interpretación de los resultados a un contexto de aprendizaje autodidacta, lo que podría no reflejar el potencial real de los estudiantes si tuvieran acceso a una guía docente estructurada. Finalmente, el contexto específico de la prueba, incluyendo las características demográficas y el entorno educativo particular de los estudiantes, restringe la capacidad de aplicar estos resultados a otras poblaciones o contextos. En investigaciones futuras, resultaría útil examinar cómo el apoyo docente afecta en la efectividad del uso de IA en la educación. Asimismo estudios que comparen grupos con distintos grados de intensidad de intervención docente podrían proporcionar información valiosa sobre cómo maximizar el aprendizaje y la creatividad de los estudiantes. Además, investigaciones que incorporen muestras más amplias y variadas permitirían evaluar la generalizabilidad de los hallazgos y explorar posibles variaciones según diversos contextos educativos o demográficos. Por último, resultaría interesante investigar el impacto a largo plazo de la formación en prompt engineering en la adquisición de habilidades tecnológicas avanzadas y la incorporación de IA en el currículo educativo.

REFERENCIAS BIBLIOGRÁFICAS

Arvidsson, S., y Axell, J. (2023). Prompt engineering guidelines for LLMs in Requirements Engineering.https://acortar.link/NJ5vCu

Brade, S., Wang, B., Sousa, M., Oore, S., y Grossman, T. (2023, October). Promptify: Text-to-image generation through interactive prompt exploration with large language models. arXiv preprints. https://doi.org/10.48550/arXiv.2304.09337

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... y Amodei, D. (2020). Language models are few-shot learners. arXiv preprints.https://arxiv.org/abs/2005.14165

Chai, C. S., Koh, J. h. L., y Tsai, C. C. (2010). Facilitating preservice teachers' development of technological, pedagogical, and content knowledge (TPACK). Journal of Educational Technology & Society, 13(4), 63-73.

Chang, L.-H., y Ginter, F. (2024). Automatic Short Answer Grading for Finnish with ChatGPT. Proceedings of the AAAI Conference on Artificial Intelligence, 38(21), 23173-23181. https://doi.org/10.1609/aaai.v38i21.30363

Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. Second Edition. LEA.

Cózar, R., Zagalaz, J., y Sáez, J. M. (2015). Creating digital curricular contents of Social Sciences for Primary Education. A TPACK experience for future teachers. Educatio Siglo XXI, 33(3), 147-167. http://doi.org/10.6018/j/240921

de Benito Crosetti, B., y Salinas Ibáñez, J. M. (2016). La Investigación Basada en Diseño en Tecnología Educativa. RiiTE Revista interuniversitaria de investigación en Tecnología Educativa, 0, 44-59. https://doi.org/10.6018/riite2016/260631

de Kok, T. (June 2024). ChatGPT for Textual Analysis? How to use Generative LLMs in Accounting Research. SSRN.http://doi.org/10.2139/ssrn.4429658

Dehouche, N., y Dehouche, K. (2023). What's in a text-to-image prompt? The potential of stable diffusion in visual arts education. Heliyon, 9(6), e16757. https://doi.org/10.1016/j.heliyon.2023.e16757

Duan, Y., Edwards, J. S.,Dwivedi, Y. K. (2019). Artificial intelligence for decision making in the era of Big Data–evolution, challenges and research agenda. International journal of information management, 48, 63-71. https://doi.org/10.1016/j.ijinfomgt.2019.01.021

Dwivedi, Y. K., Kshetri, N., Hughes, L., Slade, E. L., Jeyaraj, A., Kar, A. K., ... y Wright, R. (2023). “So what if ChatGPT wrote it?” Multidisciplinary perspectives on opportunities, challenges and implications of generative conversational AI for research, practice and policy. International Journal of Information Management, 71, 102642. https://doi.org/10.1016/j.ijinfomgt.2023.102642

Ekin, S. (2023). Prompt engineering for ChatGPT: a quick guide to techniques, tips, and best practices. TechRxiv.https://doi.org/10.36227/techrxiv.22683919.v2

Ennis, R.H. (2019). Long definition of critical thinking. CriticalThinking.net. https://acortar.link/XqoRsP

García-Peñalvo, F. J. (2023). La percepción de la Inteligencia Artificial en contextos educativos tras el lanzamiento de ChatGPT: disrupción o pánico. Education in the Knowledge Society (EKS), 24, e31279. https://doi.org/10.14201/eks.31279

Giray, L. (2023). Prompt engineering with ChatGPT: a guide for academic writers. Annals of biomedical engineering, 51(12), 2629-2633.

Hao, Y., Chi, Z., Dong, L., y Wei, F. (2022). Optimizing prompts for text-to-image generation. arXiv preprint. https://doi.org/10.48550/arXiv.2212.09611

Herman, D. (2022, December 9th). The End of High-School English. The Atlantis. http://bit.ly/3Xhmle1

Jukiewicz, M. (2024). The future of grading programming assignments in education: The role of ChatGPT in automating the assessment and feedback process. Thinking Skills and Creativity, 52, 101522. https://doi.org/10.1016/j.tsc.2024.101522

Lara, L. R., Diaz, C. E., Palomeque, A. L. V., y Toloza, E. A. (2020). Introducción del concepto de entropía en el proceso de interacción de materiales en educación a distancia. Facultad de Ciencias Exactas y Naturales. Universidad Nacional de Catamarca.

Latif, E., y Zhai, X. (2024). Fine-tuning chatgpt for automatic scoring. Computers and Education: Artificial Intelligence, 6, 100210. https://doi.org/10.1016/j.caeai.2024.100210

Liu, V., y Chilton, L. B. (2022, April). Design guidelines for prompt engineering text-to-image generative models. arXiv preprints. https://doi.org/10.48550/arXiv.2109.06977

Llorens-Largo, F., y ChatGPT. (2022, 22 de diciembre). Cavilaciones invernales. Universídad. http://bit.ly/3XGk0Jn

Madison, J. (2004). James Madison Critical Thinking Course. Seaside, CA: The Critical Thinking Co. https://acortar.link/Z78Utz

Manassero-Mas, M. A., y Vázquez-Alonso, Á. (2020). Evaluación de destrezas de pensamiento crítico: Validación de instrumentos libres de cultura. Tecné, Episteme y Didaxis: TED, (47), 15-32. https://doi.org/10.17227/ted.num47-9801

Marche, S. (2022, December 6th). The College Essay Is Dead. Nobody is prepared for how AI will transform academia. The Atlantis. http://bit.ly/3iEoPEd

McTear, M. F., Callejas, Z., y Griol, D. (2016). The conversational interface. Springer.

Meckler, L., y Verma, P. (2022). Teachers are on alert for inevitable cheating after the release of ChatGPT. The Washington Post.https://acortar.link/vp6T7h

Mindner, L., Schlippe, T., Schaaff, K. (2023). Classification of Human- and AI-Generated Texts: Investigating Features for ChatGPT. En Schlippe, T., Cheng, E.C.K., Wang, T. (eds) Artificial Intelligence in Education Technologies: New Development and Innovative Practices. AIET 2023. Lecture Notes on Data Engineering and Communications Technologies (Vol 190, pp.152-170). Springer. https://doi.org/10.1007/978-981-99-7947-9_12

OpenAI. (2024a). ChatGPT [Custom large language model]. https://chat.opeanai.com/chat

OpenAI. (2024b). Diagrams & Data: Research, Analyze, Visualize (GPT-4) [Custom large language model]. OpenAI. https://acortar.link/6RYLj4

Oppenlaender, J. (2023). A taxonomy of prompt modifiers for text-to-image generation. Behaviour & Information Technology, 43(15), 3763–3776. https://doi.org/10.1080/0144929X.2023.2286532

Paul, R. y Nosich, G.M. (2019). A Model for the National Assessment of Higher Order Thinking. Critical Thinking.org. https://acortar.link/aWjiLp

Pavlichenko, N., y Ustalov, D. (2023, July). Best prompts for text-to-image models and how to find them. arXiv preprints. https://doi.org/10.48550/arXiv.2209.11711

Phan, H.P. (2010). Critical thinking as a self-regulatory process component in teaching and learning. Psicothema, 22, 284-292.

Pinto, G., Cardoso-Pereira, I., Monteiro, D., Lucena, D., Souza, A., y Gama, K. (2023, September). Large language models for education: Grading open-ended questions using chatgpt. arXiv preprints. https://doi.org/10.48550/arXiv.2307.16696

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., y Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.

Rebollo-Catalán, A., y Vico-Bosch, A. (2014). El apoyo social percibido como factor de inclusión digital de las mujeres de entorno rural en las redes sociales virtuales. Comunicar, 43(22), 173-180. https://doi.org/10.3916/C432014-17

Ropek, L. (2023, 4 enero). New York City Schools Ban ChatGPT to Head Off a Cheating Epidemic. Gizmodo. http://bit.ly/3kp8Ha9

Sahoo, P., Singh, A. K., Saha, S., Jain, V., Mondal, S., y Chadha, A. (2024). A systematic survey of prompt engineering in large language models: Techniques and applications. arXiv preprints. https://doi.org/10.48550/arXiv.2402.07927

Saz-Pérez, F., y Pizà-Mir, B. (2024a). Desafiando el estado del arte en el uso de ChatGPT en educación en el año 2023. REIRE Revista d’Innovació i Recerca en Educació, 17(1), 1-13. https://doi.org/10.1344/reire.44018

Saz-Pérez, F. y Pizà-Mir, B. (2024b). Needs and perspectives on the integration of generative artificial intelligence in Spanish educational context. UTE Teaching y Technology (Universitas Tarraconensis), (2), e3803. https://doi.org/10.17345/ute.2024.3803

Saz-Pérez, F., Pizá-Mir, B., y Lizana Carrió, A. (2024). Validación y estructura factorial de un cuestionario TPACK en el contexto de Inteligencia Artificial Generativa (IAG). Hachetetepé. Revista científica de Educación y Comunicación, (28), 1101. https://doi.org/10.25267/Hachetetepe.2024.i28.1101

Serban, I. V., Sordoni, A., Bengio, Y., Courville, A. C., y Pineau, J. (2017). A hierarchical latent variable encoder-decoder model for generating dialogues. arXiv preprints. https://doi.org/10.48550/arXiv.1605.06069

Shannon, C. E., y Weaver, W. (1948). The Mathematical Theory of Communication. University of Illinois Press.

Sorensen, T., Robinson, J., Rytting, C. M., Shaw, A., Rogers, K., Delorey, A., Khalil, M., Fulda, N., y Wingate, D. (2022). An Information-theoretic Approach to Prompt Engineering Without Ground Truth Labels. arXiv preprints. https://doi.org/10.48550/arXiv.2203.11364

Stokel-Walker, C. (2022, December 9th). AI bot ChatGPT writes smart essays should professors worry? Nature.https://doi.org/10.1038/d41586-022-04397-7

Sun, S., Zhang, C., Huang, L., y Li, J. (2019). Context-aware response generation for multi-turn conversation with deep reinforcement learning. IEEE Access, 7, 49918-49927.

Tapalova, O., y Zhiyenbayeva, N. (2020). Artificial Intelligence in Education: AIEd for Personalised Learning Pathways. European Journal of ELearning, 18(5), 361-373. https://doi.org/10.34190/ejel.20.5.2597

The Jamovi Project (2022). Jamovi. (Versión 2.3) [Computer Software]. https://www.jamovi.org.

Torres-díaz, J. C., y Infante-Moro, A. (2011). Digital divide in universities: Internet use in Ecuadorian universities. Comunicar, 19(37), 81- 88. https://doi.org/10.3916/C37-2011-02-08

White, J., Fu, Q., Hays, S., Sandborn, M., Olea, C., Gilbert, H., ... y Schmidt, D. C. (2023). A prompt pattern catalog to enhance prompt engineering with chatgpt. arXiv preprints. https://doi.org/10.48550/arXiv.2302.11382

Zawacki-Richter, O., Marín, V. I., Bond, M., y Gouverneur, F. (2019). Systematic review of research on artificial intelligence applications in higher education–where are the educators?. International Journal of Educational Technology in Higher Education, 16(1), 1-27.

Información adicional

NOTA: 1. Esta investigación forma parte de una tesis doctoral en el programa interuniversitario de Tecnología Educativa de la Universitat de les Illes Balears.

CONTRIBUCIÓN DE LOS AUTORES:: Fabio Saz-Pérez (Toma de datos, análisis y redacción del manuscrito), Alexandra Lizana Carrió (Diseño experimental, supervisión y redacción del manuscrito final), Bartolomé Pizà-Mir (Diseño experimental, supervisión y redacción del manuscrito final) y Bárbara de Benito Crosetti (Diseño experimental, supervisión y redacción del manuscrito final

FINANCIACIÓN:: Esta investigación no recibió ninguna financiación externa.

*: Los autores han informado a los participantes de la investigación y ellos han dado el consentimiento de participar en él.

Información adicional

redalyc-journal-id: 6837



Buscar:
Ir a la Página
IR
Visor de artículos científicos generados a partir de XML-JATS por