<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE article
  PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.0 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.0/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.0" specific-use="sps-1.8" xml:lang="es" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink">
	<front>
		<journal-meta>
			<journal-id journal-id-type="publisher-id">rfing</journal-id>
			<journal-title-group>
				<journal-title>Revista Facultad de Ingeniería</journal-title>
				<abbrev-journal-title abbrev-type="publisher">Rev. Fac. ing.</abbrev-journal-title>
			</journal-title-group>
			<issn pub-type="ppub">0121-1129</issn>
			<issn pub-type="epub">2357-5328</issn>
			<publisher>
				<publisher-name>Universidad Pedagógica y Tecnológica de Colombia</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.19053/01211129.v34.n71.2025.18059</article-id>
			<article-id pub-id-type="publisher-id">00001</article-id>
			<article-categories>
				<subj-group subj-group-type="heading">
					<subject>Artículos</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>RECONOCIMIENTO DE LA LENGUA DE SEÑAS COLOMBIANA MEDIANTE REDES NEURONALES CON MEMORIA A LARGO Y CORTO PLAZO</article-title>
				<trans-title-group xml:lang="en">
					<trans-title>RECOGNITION OF COLOMBIAN SIGN LANGUAGE USING NEURAL NETWORKS WITH LONG- AND SHORT-TERM MEMORY</trans-title>
				</trans-title-group>
				<trans-title-group xml:lang="pt">
					<trans-title>RECONHECIMENTO DA LÍNGUA DE SINAIS COLOMBIANA POR MEIO DE REDES NEURAIS COM MEMÓRIA DE LONGO E CURTO PRAZO</trans-title>
				</trans-title-group>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">0009-0001-5657-6899</contrib-id>
					<name>
						<surname>Rivera-Vásquez</surname>
						<given-names>Diego-Fernando</given-names>
					</name>
					<xref ref-type="aff" rid="aff1"><sup>1</sup></xref>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="orcid">0000-0002-1216-4876</contrib-id>
					<name>
						<surname>González-Serrano</surname>
						<given-names>Carolina</given-names>
					</name>
					<xref ref-type="aff" rid="aff2"><sup>2</sup></xref>
				</contrib>
			</contrib-group>
			<aff id="aff1">
				<label>1 </label>
				<institution content-type="original">Universidad del Cauca, Popayán, Cauca. diegoferivera@unicauca.edu.co</institution>
				<institution content-type="normalized">Universidad del Cauca</institution>
				<institution content-type="orgname">Universidad del Cauca</institution>
				<addr-line>
					<named-content content-type="city">Popayán</named-content>
                        <named-content content-type="state">Cauca</named-content>
				</addr-line>
				<country country="CO">Colombia</country>
				<email>diegoferivera@unicauca.edu.co</email>
			</aff>
			<aff id="aff2">
				<label>2 </label>
				<institution content-type="original">Universidad del Cauca, Popayán, Cauca. cgonzals@unicauca.edu.co</institution>
				<institution content-type="normalized">Universidad del Cauca</institution>
				<institution content-type="orgname">Universidad del Cauca</institution>
				<addr-line>
					<named-content content-type="city">Popayán</named-content>
                        <named-content content-type="state">Cauca</named-content>
				</addr-line>
				<country country="CO">Colombia</country>
				<email>cgonzals@unicauca.edu.co</email>
			</aff>
			<!--<pub-date date-type="pub" publication-format="electronic">
				<day>17</day>
				<month>06</month>
				<year>2025</year>
			</pub-date>
			<pub-date date-type="collection" publication-format="electronic">
				<season></season>
				<year></year>
			</pub-date>-->
			<pub-date pub-type="epub-ppub">
				<season>Jan-Mar</season>
				<year>2025</year>
			</pub-date>
			<volume>34</volume>
			<issue>71</issue>
			<elocation-id>e18059</elocation-id>
			<history>
				<date date-type="received">
					<day>08</day>
					<month>09</month>
					<year>2024</year>
				</date>
				<date date-type="accepted">
					<day>12</day>
					<month>01</month>
					<year>2025</year>
				</date>
			</history>
			<permissions>
				<license license-type="open-access" xlink:href="https://creativecommons.org/licenses/by/4.0/" xml:lang="es">
					<license-p>Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons</license-p>
				</license>
			</permissions>
			<abstract>
				<title>RESUMEN</title>
				<p>Este estudio explora el uso de redes neuronales de memoria larga a corto plazo para el reconocimiento del la lengua de señas colombiana. Abarca tanto señas estáticas (letras) como dinámicas (palabras). Los resultados muestran que el modelo alcanzó una precisión del 90 % en el reconocimiento de letras y del 82 % en palabras, y se logró identificar en promedio 27 señas independientes. Se analizaron, además, distintas estrategias de extracción de características espaciotemporales por medio de MediaPipe y se encontró que para detectar señas estáticas solo bastan los puntos de control de manos y para señas dinámicas se necesitan los puntos de control de manos y postura. Sin embargo, los resultados no superaron el 90 % de precisión alcanzado en estudios internacionales, lo que sugiere que la calidad y cantidad del conjunto de datos utilizado podría mejorarse. Como trabajo futuro, se plantea evaluar el desempeño del modelo en tiempo real, con el fin de facilitar la comunicación entre personas sordas y oyentes. También se recomienda explorar arquitecturas de aprendizaje profundo más avanzadas, como redes convolucionales de gráficos, redes neuronales <italic>transformer</italic> o combinaciones de red neuronal convolucional con memoria larga a corto plazo; estas han mostrado buenos resultados en el reconocimiento de signos dinámicos.</p>
			</abstract>
			<trans-abstract xml:lang="en">
				<title>ABSTRACT</title>
				<p>This study explores the use of long short-term memory neural networks for the recognition of Colombian sign language. It covers both static (letters) and dynamic (word) signs. The results show that the model achieved 90% accuracy in letter recognition and 82% in words, identifying an average of 27 independent signs. In addition, different strategies for extracting spatiotemporal features using MediaPipe were analyzed, and it was found that to detect static signs only the hand control points are sufficient, and for dynamic signs the hand and posture control points are needed. However, the results did not exceed the 90% accuracy achieved in international studies, suggesting that the quality and quantity of the data set used could be improved. As future work, it is proposed that the model's performance be evaluated in real time to facilitate communication between deaf and hearing people. It is also recommended to explore more advanced deep learning architectures, such as graph convolutional networks, transformer neural networks, or combinations of convolutional neural networks with long short-term memory, as these have shown good results in dynamic sign recognition.</p>
			</trans-abstract>
			<trans-abstract xml:lang="pt">
				<title>RESUMO</title>
				<p>Este estudo explora o uso de redes neurais com memória de longo e curto prazo (LSTM) para o reconhecimento da Língua de Sinais Colombiana. Abrange tanto sinais estáticos (letras) quanto sinais dinâmicos (palavras). Os resultados mostram que o modelo atingiu uma precisão de 90% no reconhecimento de letras e 82% no reconhecimento de palavras, identificando em média 27 sinais distintos. Foram analisadas diferentes estratégias de extração de características espaço-temporais por meio do MediaPipe, observando-se que, para detectar sinais estáticos, bastam os pontos de controle das mãos, enquanto que para sinais dinâmicos são necessários os pontos de controle das mãos e da postura corporal. No entanto, os resultados não superaram a precisão de 90% alcançada em estudos internacionais, sugerindo que a qualidade e a quantidade do conjunto de dados utilizado podem ser aprimoradas. Como trabalho futuro, propõe-se avaliar o desempenho do modelo em tempo real, a fim de facilitar a comunicação entre pessoas surdas e ouvintes. Recomenda-se também explorar arquiteturas de aprendizado profundo mais avançadas, como redes convolucionais de grafos, redes neurais do tipo transformer ou combinações entre redes convolucionais e LSTM, que têm demonstrado bons resultados no reconhecimento de sinais dinâmicos.</p>
			</trans-abstract>
			<kwd-group xml:lang="es">
				<title>Palabras clave:</title>
				<kwd>Aprendizaje profundo</kwd>
				<kwd>interprete de lengua de señas</kwd>
				<kwd>lengua de señas</kwd>
				<kwd>reconocimiento de la lengua de señas</kwd>
				<kwd>red neuronal artificial</kwd>
				<kwd>visión artificial</kwd>
			</kwd-group>
			<kwd-group xml:lang="en">
				<title>Keywords:</title>
				<kwd>Artificial neural network</kwd>
				<kwd>artificial vision</kwd>
				<kwd>deep learning</kwd>
				<kwd>sign language</kwd>
				<kwd>sign language interpreter</kwd>
				<kwd>sign language recognition</kwd>
			</kwd-group>
			<kwd-group xml:lang="pt">
				<title>Palavras-chave:</title>
				<kwd>Aprendizado profundo</kwd>
				<kwd>intérprete de linguagem de sinais</kwd>
				<kwd>linguagem de sinais</kwd>
				<kwd>reconhecimento de linguagem de sinais</kwd>
				<kwd>rede neural artificial</kwd>
				<kwd>visão computacional</kwd>
			</kwd-group>
			<counts>
				<fig-count count="4"/>
				<table-count count="4"/>
				<equation-count count="0"/>
				<ref-count count="16"/>
				<page-count count="0"/>
			</counts>
		</article-meta>
	</front>
	<body>
		<sec sec-type="intro">
			<title>1. INTRODUCCIÓN</title>
			<p>La sordera o discapacidad auditiva es una de las condiciones más prevalentes a nivel mundial; afecta alrededor de 430 millones de personas, lo que corresponde al 5 % de la población mundial. La sordera se puede presentar en tres niveles en función de la cantidad de pérdida auditiva que una persona experimenta: leve, moderado y grave o profundo [<xref ref-type="bibr" rid="B1">1</xref>]. Las personas que se encuentran en nivel leve o moderado pueden apoyarse en herramientas como audífonos y amplificadores para aumentar su umbral de decibeles y discriminar los sonidos de su entorno, situación que si es detectada a tiempo les permitirá aprender un idioma nativo para comunicarse [<xref ref-type="bibr" rid="B2">2</xref>]. Por su parte, la condición grave o profunda limita a las personas en cuanto a la interacción y comunicación con su entorno, al no poder desarrollar el habla como medio de comunicación, por lo cual adoptan la lengua de señas y logran comunicarse únicamente con personas que lo manejen. Esto dificulta en gran medida el acceso a educación, trabajo y participación ciudadana, escenarios en los que la comunicación directa con los demás es fundamental [<xref ref-type="bibr" rid="B3">3</xref>].</p>
			<p>Para mitigar lo anterior, se han realizado investigaciones desde el área de la computación sobre reconocimiento automático de señas que permitan disminuir brechas de comunicación entre personas sordas y oyentes [<xref ref-type="bibr" rid="B4">4</xref>]. En el trabajo de Morillas-Espejo y Martínez-Martin [<xref ref-type="bibr" rid="B5">5</xref>], se describe el desarrollo de un sistema que facilita la comunicación entre una persona sorda y una oyente, por medio de una red neuronal convolucional (CNN) que reconoce el alfabeto de España, es decir, letras o caracteres independientes del castellano.</p>
			<p>En Colombia, diferentes estudios, como el de Flórez et al. [<xref ref-type="bibr" rid="B6">6</xref>], presentan la implementación de redes neuronales <italic>transformer</italic> (TNN, por sus siglas del inglés <italic>transformer neural network)</italic> para reconocimiento de señas colombiana que representan palabras. Otras estrategias estudiadas se enfocan en la memoria larga a corto plazo (LSTM, por sus siglas del inglés <italic>long short-term memory)</italic> para el reconocimiento del alfabeto colombiano y proponen un modelo que identifica diez palabras básicas de interacción del la lengua de señas colombiana: <italic>(&quot;Hola&quot;, &quot;Yo&quot;, &quot;Nombre&quot;, &quot;Buenos&quot;, &quot;Años&quot;, &quot;Gustar&quot;, &quot;Tardes&quot;, &quot;Noches&quot;, &quot;Licor&quot;, &quot;Días&quot;)</italic> [<xref ref-type="bibr" rid="B7">7</xref>, <xref ref-type="bibr" rid="B8">8</xref>]. Este modelo aporta de manera significativa a la problemática; sin embargo, es una solución limitada en cuanto a la cantidad de señas. En él se estudian los tipos de señas por separado, es decir, alfabeto o palabras, y por lo general cada estudio requiere la creación de conjuntos de datos propios que se ajusten a su contexto y necesidades para entrenar las estrategias de inteligencia artificial que aporten en el desarrollo de intérpretes de la lengua de señas.</p>
			<p>Con base en lo anterior, se evidencia la necesidad de indagar y proponer marcos experimentales, estrategias, métodos y modelos que faciliten el reconocimiento de señas colombianas -estáticas (letras) y dinámicas (palabras)-, con el fin de evaluar la capacidad de estas para identificar cada tipo de seña.</p>
			<p>Miah et al. [<xref ref-type="bibr" rid="B7">7</xref>] proponen una estrategia de inteligencia artificial para extraer información contextual espaciotemporal. El proceso de experimentación se realizó con conjuntos de datos de gran escala, como el WLASL [<xref ref-type="bibr" rid="B8">8</xref>] junto a uno propio, el cual registró 3000 videos de 30 señas diferentes. Para todos los conjuntos de datos, se aplicó la estrategia de extracción de puntos de control por medio de la herramienta MediaPipe, con la cual se extrajeron 67 puntos de control por fotograma y se creó una secuencia de 20 fotogramas por video, con el fin de entrenar su estrategia y calcular la precisión en pruebas de laboratorio. Para el WLASL, se obtuvieron resultados de precisión entre el 34,41 y el 63,25 %, lo que supera a investigaciones previas. Es importante resaltar que para su contexto los autores evidenciaron una precisión del 99,75 %. Por su parte, Ihsan et al. [<xref ref-type="bibr" rid="B9">9</xref>] describen MediSing, un modelo híbrido CNN-LSTM bidireccional (CNN-BiLSTM) para la clasificación de señas del contexto médico. Este utiliza capas convolucionales para la extracción de características y BiLSTM para procesar secuencias de fotogramas, lo que permite reconocer 30 señas dinámicas del la lengua de señas americana. Los resultados experimentales evidenciaron una precisión del 95,83 %. Otros estudios, como los de Shin et al. [<xref ref-type="bibr" rid="B10">10</xref>], se enfocan en extraer características espaciotemporales y de pixeles, implementando técnicas de transferencia de conocimiento junto a una ResNet101 para la detección del alfabeto y detección de 77 señas dinámicas por medio de la estrategia de redes convolucionales de gráficos (GCN, por sus siglas del inglés <italic>graph convolutional network).</italic> Los estudios evidenciaron una precisión entre el 99,87 y el 100 %. Por su parte, estudios como el de Shanableh [<xref ref-type="bibr" rid="B11">11</xref>] no solo reconocen letras y palabras, sino también oraciones. En ese trabajo, se implementa una estrategia llamada <italic>imagen en movimiento,</italic> la cual permite representar cada seña en una sola imagen, que se concatena luego con cada palabra de la oración para así construir la secuencia de palabras en señas que posteriormente es procesada por una arquitectura BiLSTM. Esta última permite hacer el reconocimiento de las señas a lo largo de una oración y logra reconocer 40 oraciones diferentes compuestas por 80 señas de palabras arábicas, con una precisión de hasta el 97,3 %.</p>
			<p>A nivel nacional, se encuentran estudios en los que se implementan redes CNN [<xref ref-type="bibr" rid="B12">12</xref>], para procesar y extraer información de fotografías de señas estáticas del lenguaje colombiano, con una precisión del 93,3 %. Otro estudio relevante es el de Barrero [<xref ref-type="bibr" rid="B13">13</xref>], en el que se prueban estrategias de extracción de características espaciotemporales con MediaPipe para la detección del alfabeto colombiano, incluidas las letras S y Z, que son dinámicas, por medio de una red neuronal LSTM; la precisión es del 80 %. Flórez et al. [<xref ref-type="bibr" rid="B6">6</xref>] aplican estrategias de tipo transformadores o TNN para la detección de señas dinámicas (palabras) colombianas, con una precisión del 90 %. Se tiene en cuenta que su innovación principal es considerar diferentes enfoques para cada seña, y que su conjunto de datos está basado en la captura de cuatro videos simultáneos de una persona realizando un signo en diferentes ángulos, con el fin de evaluar si la extracción de características multimodales aporta a la precisión en la detección de señas. Por último, se encuentra la implementación de una arquitectura híbrida entre una red VGG16+LSTM para la detección de diez señas dinámicas (palabras) y se evidencia una precisión del 76 % [<xref ref-type="bibr" rid="B14">14</xref>].</p>
			<p>Es importante destacar que los estudios a nivel nacional procesan y entrenan sus estrategias utilizando únicamente un tipo de señas, ya sean estáticos o dinámicos. Como resultado, no se tiene certeza de si los modelos propuestos pueden reconocer ambos tipos de señas con la misma efectividad.</p>
		</sec>
		<sec sec-type="methods">
			<title>2. METODOLOGÍA</title>
			<p>Para el desarrollo del presente estudio, se siguió un proceso metodológico de validación de arquitecturas para detección de señas en contextos específicos, similar a la utilizada en investigaciones previas [<xref ref-type="bibr" rid="B7">7</xref>], que consideran diferentes etapas:</p>
			<p>
				<list list-type="bullet">
					<list-item>
						<p>Obtención del conjunto de datos. Se busca un conjunto de datos adecuado o construirlo por medio de videos, teniendo en cuenta que se requiere trabajar con señas dinámicas y estáticas.</p>
					</list-item>
					<list-item>
						<p>Extracción de características. Se procesan los videos de los señas de interés y se extraen las características necesarias para el modelo o estrategia seleccionada. Para este estudio, se utiliza la extracción de características espaciotemporales con MediaPipe.</p>
					</list-item>
					<list-item>
						<p>Entrenamiento de la estrategia. Se entrena la arquitectura o estrategia de interés junto a los datos de estudio.</p>
					</list-item>
					<list-item>
						<p>Validación de la estrategia. Se valida el desempeño del modelo entrenado utilizando un conjunto de datos de prueba y se calcula la métrica de &quot;precisión&quot;, para determinar si el modelo se ajusta o no al contexto definido.</p>
					</list-item>
				</list>
			</p>
			<p>En cada una de las etapas descritas se estudia si un modelo basado en arquitectura LSM permite la detección de señas colombianas tanto estáticas como dinámicas y cómo afecta la cantidad puntos de control de MediaPipe en la detección de señas estáticas y dinámicas.</p>
			<sec>
				<title><italic>2.1 Conjunto de datos</italic></title>
				<p>El conjunto de datos utilizado correspondió al conjunto de señas básicos de la lengua de señas colombiana disponible en el curso online [<xref ref-type="bibr" rid="B15">15</xref>]. Se manejaron los enfoques estáticos y dinámicos, y se obtuvieron dos conjuntos de datos. En la <xref ref-type="table" rid="t1">Tabla 1</xref> se presentan las señas de cada conjunto de datos.</p>
				<p>
					<table-wrap id="t1">
						<label>Tabla 1</label>
						<caption>
							<title>Signos colombianos de estudio </title>
						</caption>
						<table frame="hsides" rules="groups">
							<colgroup>
								<col/>
								<col/>
							</colgroup>
							<thead>
								<tr>
									<th align="left">Conjuntos señas estáticas (letras)</th>
									<th align="center">Conjunto señas dinámicas (palabras)</th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="left">A, B, C, D, E, F, G, H, I, J, K, L, M, N, Ñ, O, P, Q, R, RR, S, T, U, V, W, X, Y, Z</td>
									<td align="left">Sordo, Hola, Bien, Mal, Adiós, Bienvenido, Gracias, Perdón, Permiso, Yo, Tu, El, Ella, Nosotros, Usted, Ustedes, Que, Cuando, Donde, Como, Quien, Cuento, Cual, Buenos días, Buenas tardes, Buenas noches, Por favor, Como estas.</td>
								</tr>
							</tbody>
						</table>
					</table-wrap>
				</p>
				<p>Al no contar con conjuntos de datos públicos, se construyó uno propio similar al del estudio de Miah et al. [7], con base en la captura del video hasta la extracción de características, como se describe a continuación:</p>
				<p>
					<list list-type="bullet">
						<list-item>
							<p>Captura de señas por medio de videos de 5 segundos.</p>
						</list-item>
						<list-item>
							<p>Extracción de 30 fotogramas secuenciales por cada video.</p>
						</list-item>
						<list-item>
							<p>Extracción de puntos de control con MediaPipe para cada fotograma.</p>
						</list-item>
						<list-item>
							<p>Etiquetado de las secuencias de puntos de control.</p>
						</list-item>
					</list>
				</p>
				<p>Cabe resaltar que MediaPipe permite capturar puntos de control de manos, postura y rasgos faciales. Para el presente estudio, los puntos de control seleccionados fueron los de manos y postura, como se ven en la <xref ref-type="fig" rid="f1">Figura 1</xref>.</p>
				<p>
					<fig id="f1">
						<label>Figura 1</label>
						<caption>
							<title><italic>Puntos de control de manos y postura MediaPipe.</italic></title>
						</caption>
						<graphic xlink:href="2357-5328-rfing-34-71-e18059-gf1.png"/>
					</fig>
				</p>
				<p>Con el fin de validar la estrategia de construcción del conjunto de datos, se procesó diferente cantidad de videos y extracción de puntos de control de manos, solo en conjunto de datos de letras y palabras, además de un conjunto de datos con puntos de control de manos-postura. Esto con el fin de determinar cómo afecta la cantidad de puntos de control al modelo propuesto; así, se obtuvieron los siguientes conjuntos de datos (<xref ref-type="table" rid="t2">Tabla 2</xref>).</p>
				<p>
					<table-wrap id="t2">
						<label>Tabla 2</label>
						<caption>
							<title>Características del conjunto de datos</title>
						</caption>
						<table frame="hsides" rules="groups">
							<colgroup>
								<col/>
								<col/>
								<col/>
								<col/>
							</colgroup>
							<thead>
								<tr>
									<th align="left">Nombre conjunto de datos</th>
									<th align="center">N.° de señas</th>
									<th align="center">N.&quot; de videos por seña</th>
									<th align="center">N.o de puntos MediaPipe </th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="left">Letras</td>
									<td align="center">27</td>
									<td align="center">30</td>
									<td align="center">126</td>
								</tr>
								<tr>
									<td align="left">Palabras V1</td>
									<td align="center">19</td>
									<td align="center">30</td>
									<td align="center">126</td>
								</tr>
								<tr>
									<td align="left">Palabras V2</td>
									<td align="center">28</td>
									<td align="center">20</td>
									<td align="center">258</td>
								</tr>
							</tbody>
						</table>
					</table-wrap>
				</p>
			</sec>
			<sec>
				<title><italic>2.2 Modelo</italic></title>
				<p>El modelo propuesto está basado en la integración de tres capas LSTM y tres capas densas distribuidas de la siguiente manera (<xref ref-type="table" rid="t3">Tabla 3</xref>).</p>
				<p>
					<table-wrap id="t3">
						<label>Tabla 3</label>
						<caption>
							<title>Arquitectura propuesta</title>
						</caption>
						<table frame="hsides" rules="groups">
							<colgroup>
								<col/>
								<col/>
								<col/>
								<col/>
							</colgroup>
							<thead>
								<tr>
									<th align="center">Capa</th>
									<th align="center">Tipo de capa</th>
									<th align="center">N.<sup>°</sup> de neuronas</th>
									<th align="center">Función de activación</th>
								</tr>
							</thead>
							<tbody>
								<tr>
									<td align="left">Entrada</td>
									<td align="center">LSTM</td>
									<td align="center">64</td>
									<td align="center">ReLu</td>
								</tr>
								<tr>
									<td align="left">Intermedia 1</td>
									<td align="center">LSTM</td>
									<td align="center">128</td>
									<td align="center">ReLu</td>
								</tr>
								<tr>
									<td align="left">Intermedia 2</td>
									<td align="center">LSTM</td>
									<td align="center">64</td>
									<td align="center">ReLu</td>
								</tr>
								<tr>
									<td align="left">Intermedia 3</td>
									<td align="center">Densa</td>
									<td align="center">64</td>
									<td align="center">ReLu</td>
								</tr>
								<tr>
									<td align="left">Intermedia 4</td>
									<td align="center">Densa</td>
									<td align="center">32</td>
									<td align="center">ReLu</td>
								</tr>
								<tr>
									<td align="left">Salida</td>
									<td align="center">Densa</td>
									<td align="center">N.° de signos dataset</td>
									<td align="center">Sotfmax</td>
								</tr>
							</tbody>
						</table>
					</table-wrap>
				</p>
				<p>Se configuró desde el entorno de Python con los siguientes hiperparametros: 1) el optimizador &quot;Adam&quot;, 2) la función de pérdida &quot;categorical crossentropy&quot;, 3) la métrica &quot;accuracy&quot; y 4) el tamaño de datos de validación del 20 % del total de datos de cada conjunto de datos.</p>
			</sec>
		</sec>
		<sec sec-type="results">
			<title>3. RESULTADOS</title>
			<p>El modelo propuesto fue entrenado con cada uno de los conjuntos de datos presente en la <xref ref-type="table" rid="t2">Tabla 2</xref>. A continuación, se presentan los resultados de cada entrenamiento. En la <xref ref-type="fig" rid="f2">Figura 2</xref>, se puede ver cómo se comportan el entrenamiento y la validación para el conjunto de datos de letras compuesto por el abecedario de la lengua de señas colombiana, el cual maneja los puntos de control de las manos. Este entrenamiento obtiene una precisión del 90 %, con 500 épocas de entrenamiento, pero logra estabilizarse a partir de las 100 épocas.</p>
			<p>
				<fig id="f2">
					<label>Figura 2</label>
					<caption>
						<title><italic>
 <italic>Resultado del conjunto de datos (letras).</italic>
</italic></title>
					</caption>
					<graphic xlink:href="2357-5328-rfing-34-71-e18059-gf2.png"/>
				</fig>
			</p>
			<p>En la <xref ref-type="fig" rid="f3">Figura 3</xref>, se puede ver cómo se comporta el entrenamiento del modelo utilizando el conjunto de datos compuesto por 19 palabras, llamado Palabras V1. Este también cuenta solo con puntos de control de MediaPipe de manos. Como se puede observar, tanto en la fase de entrenamiento como en la de validación, el modelo no es capaz de superar un 82 % de precisión, incluso cuando procesa un menor número de señas que el anterior; además, no se observa estabilidad de optimización durante el proceso.</p>
			<p>
				<fig id="f3">
					<label>Figura 3</label>
					<caption>
						<title><italic>Resultado del conjunto de datos (Palabras V1).</italic></title>
					</caption>
					<graphic xlink:href="2357-5328-rfing-34-71-e18059-gf3.png"/>
				</fig>
			</p>
			<p>En la <xref ref-type="fig" rid="f4">Figura 4</xref>, se presentan los resultados del entrenamiento con un conjunto de datos compuesto por 28 señas de palabras, pero en este caso solo se procesan 20 videos por signo, a diferencia de los conjuntos anteriores, en los que son 30 videos por seña. En este caso, se extrajeron puntos de control de la mano y la postura corporal. Este entrenamiento obtuvo mejores resultados que el anterior, ya que con solo 300 épocas se alcanzó un 82 % de precisión. Además, su optimización y capacidad de generalización se estabilizaron desde la época 160. Se logró, por tanto, generalizar una mayor cantidad de señas que en el entrenamiento anterior.</p>
			<p>
				<fig id="f4">
					<label>Figura 4</label>
					<caption>
						<title><italic>
 <italic>Resultado del conjunto de datos (Palabras V2).</italic>
</italic></title>
					</caption>
					<graphic xlink:href="2357-5328-rfing-34-71-e18059-gf4.png"/>
				</fig>
			</p>
			<p>En la <xref ref-type="table" rid="t4">Tabla 4</xref>, se presenta un resumen de los resultados mencionados y se observa que, para las señas dinámicas, el modelo propuesto supera el 80 % de precisión. Esto sugiere la necesidad de contar con una mayor cantidad de datos de prueba o explorar la integración de arquitecturas con mayor profundidad y su combinación con CNN. Asimismo, se podría considerar la integración de estrategias como las reportadas en el trabajo de Miah et al. [<xref ref-type="bibr" rid="B7">7</xref>], las cuales han demostrado ser eficaces en el procesamiento de grandes conjuntos de datos de señas, y logran un desempeño más sólido en contextos similares. Todo lo relacionado con el entrenamiento y creación del conjunto de datos de este estudio se encuentra disponible en la página de GitHub [<xref ref-type="bibr" rid="B16">16</xref>].</p>
			<p>
				<table-wrap id="t4">
					<label>Tabla 4</label>
					<caption>
						<title><italic>
 <italic>Resultados del entrenamiento del modelo LSTM</italic>
</italic></title>
					</caption>
					<table frame="hsides" rules="groups">
						<colgroup>
							<col/>
							<col/>
							<col/>
							<col/>
							<col/>
						</colgroup>
						<thead>
							<tr>
								<th align="center">Conjunto de datos</th>
								<th align="center">N.° de señas</th>
								<th align="center">Épocas</th>
								<th align="center">Precisión del entrenamiento</th>
								<th align="center">Precisión de validación</th>
							</tr>
						</thead>
						<tbody>
							<tr>
								<td align="left">Letras</td>
								<td align="center">27</td>
								<td align="center">500</td>
								<td align="center">1</td>
								<td align="center">0,9</td>
							</tr>
							<tr>
								<td align="left">Palabras V1</td>
								<td align="center">19</td>
								<td align="center">500</td>
								<td align="center">1</td>
								<td align="center">0,82</td>
							</tr>
							<tr>
								<td align="left">Palabras V2</td>
								<td align="center">28</td>
								<td align="center">300</td>
								<td align="center">1</td>
								<td align="center">0,82</td>
							</tr>
						</tbody>
					</table>
				</table-wrap>
			</p>
		</sec>
		<sec sec-type="conclusions|discussion">
			<title>4. DISCUSIÓN Y CONCLUSIONES</title>
			<p>Este estudio permitió validar que las redes neuronales LSTM pueden ser usadas para proponer modelos de aprendizaje profundo enfocados en el reconocimiento de la lengua de señas colombiana, tanto en señas estáticas (letras) como dinámicas (palabras).</p>
			<p>Los resultados evidencian que una misma arquitectura logró una precisión del 90 % en el reconocimiento de letras y del 82 % en palabras; se alcanzó en promedio la identificación de 27 señas independientes.</p>
			<p>El análisis de aproximaciones previas permitió identificar la estrategia más efectiva para la extracción de características espaciotemporales, y se destaca el uso de MediaPipe para la extracción de puntos de control de manos y postura en videos. Sin embargo, el modelo no logró superar el 90 % de precisión, como sí lo han reportado estudios internacionales en contextos similares. Esta diferencia se atribuye a las limitaciones del conjunto de datos utilizado, lo que evidencia la necesidad de considerar estrategias más robustas que permitan obtener un conjunto de datos de calidad. Disponer de un conjunto de datos más amplio y diverso permitirá al modelo identificar un mayor número de señas independientes y mejorar su rendimiento.</p>
			<p>Como trabajo futuro, se considera fundamental evaluar el desempeño del modelo en tiempo real, con el objetivo de facilitar la identificación y el reconocimiento de señas colombianas. Esto contribuiría a mejorar la comunicación entre personas sordas y oyentes, y reducirá la brecha existente en la transmisión de la información.</p>
			<p>Adicionalmente, se hace necesario explorar estrategias avanzadas de modelado en aprendizaje profundo, como las GCN, TNN o las combinaciones de CNN-LSTM. Estas arquitecturas han demostrado ser altamente eficaces en la detección de señas dinámicas, con la obtención de resultados prometedores en investigaciones recientes.</p>
		</sec>
	</body>
	<back>
		<ack>
			<title>AGRADECIMIENTOS</title>
			<p>Los autores agradecen al Grupo de Investigación en Inteligencia Computacional (GICO) y al programa de Maestría en Computación de la Universidad del Cauca por su apoyo en la orientación y supervisión de este trabajo.</p>
		</ack>
		<ref-list>
			<title>REFERENCIAS</title>
			<ref id="B1">
				<label>[1]</label>
				<mixed-citation>WHO, <italic>Sordera y pérdida de la audición</italic>, 2024. <ext-link ext-link-type="uri" xlink:href="https://www.who.int/es/news-room/fact-sheets/detail/deafness-and-hearing-loss">https://www.who.int/es/news-room/fact-sheets/detail/deafness-and-hearing-loss</ext-link>
				</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<collab>WHO</collab>
					</person-group>
					<source>Sordera y pérdida de la audición</source>
					<year>2024</year>
					<ext-link ext-link-type="uri" xlink:href="https://www.who.int/es/news-room/fact-sheets/detail/deafness-and-hearing-loss">https://www.who.int/es/news-room/fact-sheets/detail/deafness-and-hearing-loss</ext-link>
				</element-citation>
			</ref>
			<ref id="B2">
				<label>[2]</label>
				<mixed-citation>M. R. Paradinas, J. Alexander, S. Suárez, T. Rivera Rodríguez, <italic>Libro Virtual de Formación en Otorrinolaringología</italic>, 2021. <ext-link ext-link-type="uri" xlink:href="https://www.udocz.com/apuntes/978613/libro-virtual-de-formacion-en-otorrinolaringologia">https://www.udocz.com/apuntes/978613/libro-virtual-de-formacion-en-otorrinolaringologia</ext-link>
				</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<name>
							<surname>Paradinas</surname>
							<given-names>M. R.</given-names>
						</name>
						<name>
							<surname>Alexander</surname>
							<given-names>J</given-names>
						</name>
						<name>
							<surname>Suárez</surname>
							<given-names>S</given-names>
						</name>
						<name>
							<surname>Rodríguez</surname>
							<given-names>T. Rivera</given-names>
						</name>
					</person-group>
					<source>Libro Virtual de Formación en Otorrinolaringología</source>
					<year>2021</year>
					<ext-link ext-link-type="uri" xlink:href="https://www.udocz.com/apuntes/978613/libro-virtual-de-formacion-en-otorrinolaringologia">https://www.udocz.com/apuntes/978613/libro-virtual-de-formacion-en-otorrinolaringologia</ext-link>
				</element-citation>
			</ref>
			<ref id="B3">
				<label>[3]</label>
				<mixed-citation>Y. Tatiana <italic>et al</italic>
 <italic>.,</italic> 
 <italic>Análisis sobre los procesos de enseñanza - aprendizaje, implementados para Personas con Discapacidad Auditiva y Visual en la Educación Superior que contribuyan a la creación de una estrategia educativa incluyente: Una revisión sistemática de literatura con la ventana temporal del 2017 al 2022</italic>, Tesis de Grado, Universidad Industrial de Santander. 2023. <ext-link ext-link-type="uri" xlink:href="https://noesis.uis.edu.co/handle/20.500.14071/14808">https://noesis.uis.edu.co/handle/20.500.14071/14808</ext-link>
				</mixed-citation>
				<element-citation publication-type="thesis">
					<person-group person-group-type="author">
						<name>
							<surname>Tatiana</surname>
							<given-names>Y.</given-names>
						</name>
						<etal/>
					</person-group>
					<source>Análisis sobre los procesos de enseñanza - aprendizaje, implementados para Personas con Discapacidad Auditiva y Visual en la Educación Superior que contribuyan a la creación de una estrategia educativa incluyente: Una revisión sistemática de literatura con la ventana temporal del 2017 al 2022</source>
					<comment content-type="degree">Tesis de Grado</comment>
					<publisher-name>Universidad Industrial de Santander</publisher-name>
					<year>2023</year>
					<ext-link ext-link-type="uri" xlink:href="https://noesis.uis.edu.co/handle/20.500.14071/14808">https://noesis.uis.edu.co/handle/20.500.14071/14808</ext-link>
				</element-citation>
			</ref>
			<ref id="B4">
				<label>[4]</label>
				<mixed-citation>B. Joksimoski <italic>et al</italic>
 <italic>.,</italic> &quot;Technological Solutions for Sign Language Recognition: A Scoping Review of Research Trends, Challenges, and Opportunities,&quot; <italic>IEEE Access</italic>, vol. 10, pp. 40979-40998, 2022. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2022.3161440">https://doi.org/10.1109/ACCESS.2022.3161440</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Joksimoski</surname>
							<given-names>B.</given-names>
						</name>
						<etal/>
					</person-group>
					<article-title>Technological Solutions for Sign Language Recognition: A Scoping Review of Research Trends, Challenges, and Opportunities</article-title>
					<source>IEEE Access</source>
					<volume>10</volume>
					<fpage>40979</fpage>
					<lpage>40998</lpage>
					<year>2022</year>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2022.3161440">https://doi.org/10.1109/ACCESS.2022.3161440</ext-link>
				</element-citation>
			</ref>
			<ref id="B5">
				<label>[5]</label>
				<mixed-citation>F. Morillas-Espejo E. Martinez-Martin, &quot;Sign4all: A Low-Cost Application for Deaf People Communication,&quot; <italic>IEEE Access</italic>, vol. 11, pp. 98776-98786, 2023. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2023.3312636z">https://doi.org/10.1109/ACCESS.2023.3312636z</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Morillas-Espejo</surname>
							<given-names>F.</given-names>
						</name>
						<name>
							<surname>Martinez-Martin</surname>
							<given-names>E.</given-names>
						</name>
					</person-group>
					<article-title>Sign4all: A Low-Cost Application for Deaf People Communication</article-title>
					<source>IEEE Access</source>
					<volume>11</volume>
					<fpage>98776</fpage>
					<lpage>98786</lpage>
					<year>2023</year>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2023.3312636z">https://doi.org/10.1109/ACCESS.2023.3312636z</ext-link>
				</element-citation>
			</ref>
			<ref id="B6">
				<label>[6]</label>
				<mixed-citation>A. Flórez, <italic>Colombian sign language analysis and recognition</italic>, Tesis de Grado, Universidad de los Andes, 2022. <ext-link ext-link-type="uri" xlink:href="http://hdl.handle.net/1992/64165">http://hdl.handle.net/1992/64165</ext-link>
				</mixed-citation>
				<element-citation publication-type="thesis">
					<person-group person-group-type="author">
						<name>
							<surname>Flórez</surname>
							<given-names>A.</given-names>
						</name>
					</person-group>
					<source>Colombian sign language analysis and recognition</source>
					<comment content-type="degree">Tesis de Grado</comment>
					<publisher-name>Universidad de los Andes</publisher-name>
					<year>2022</year>
					<ext-link ext-link-type="uri" xlink:href="http://hdl.handle.net/1992/64165">http://hdl.handle.net/1992/64165</ext-link>
				</element-citation>
			</ref>
			<ref id="B7">
				<label>[7]</label>
				<mixed-citation>A. S. M. Miah, M. A. M. Hasan, S. Nishimura, J. Shin, &quot;Sign Language Recognition Using Graph and General Deep Neural Network Based on Large Scale Dataset,&quot; <italic>IEEE Access</italic>, vol. 12, pp. 34553-34569, 2024. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2024.3372425">https://doi.org/10.1109/ACCESS.2024.3372425</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Miah</surname>
							<given-names>A. S. M.</given-names>
						</name>
						<name>
							<surname>Hasan</surname>
							<given-names>M. A. M.</given-names>
						</name>
						<name>
							<surname>Nishimura</surname>
							<given-names>S</given-names>
						</name>
						<name>
							<surname>Shin</surname>
							<given-names>J</given-names>
						</name>
					</person-group>
					<article-title>Sign Language Recognition Using Graph and General Deep Neural Network Based on Large Scale Dataset</article-title>
					<source>IEEE Access</source>
					<volume>12</volume>
					<fpage>34553</fpage>
					<lpage>34569</lpage>
					<year>2024</year>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2024.3372425">https://doi.org/10.1109/ACCESS.2024.3372425</ext-link>
				</element-citation>
			</ref>
			<ref id="B8">
				<label>[8]</label>
				<mixed-citation>D. Li, C. Rodriguez Opazo, X. Yu, H. Li, <italic>Word-level Deep Sign Language Recognition from Video: A New Large-scale Dataset and Methods Comparison</italic>, 2020. <ext-link ext-link-type="uri" xlink:href="https://dxli94.github.io/">https://dxli94.github.io/</ext-link>
				</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<name>
							<surname>Li</surname>
							<given-names>D</given-names>
						</name>
						<name>
							<surname>Opazo</surname>
							<given-names>C. Rodriguez</given-names>
						</name>
						<name>
							<surname>Yu</surname>
							<given-names>X</given-names>
						</name>
						<name>
							<surname>Li</surname>
							<given-names>H</given-names>
						</name>
					</person-group>
					<source>Word-level Deep Sign Language Recognition from Video: A New Large-scale Dataset and Methods Comparison</source>
					<year>2020</year>
					<ext-link ext-link-type="uri" xlink:href="https://dxli94.github.io/">https://dxli94.github.io/</ext-link>
				</element-citation>
			</ref>
			<ref id="B9">
				<label>[9]</label>
				<mixed-citation>M. A. Ihsan, A. F. Eram, L. Nahar, M. A. Kadir, &quot;MediSign: An Attention-Based CNN-BiLSTM Approach of Classifying Word Level Signs for Patient-Doctor Interaction in Hearing Impaired Community,&quot; <italic>IEEE Access</italic>, vol. 12, pp. 33803-33815, 2024. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2024.3370684">https://doi.org/10.1109/ACCESS.2024.3370684</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Ihsan</surname>
							<given-names>M. A.</given-names>
						</name>
						<name>
							<surname>Eram</surname>
							<given-names>A. F.</given-names>
						</name>
						<name>
							<surname>Nahar</surname>
							<given-names>L</given-names>
						</name>
						<name>
							<surname>Kadir</surname>
							<given-names>M. A.</given-names>
						</name>
					</person-group>
					<article-title>MediSign: An Attention-Based CNN-BiLSTM Approach of Classifying Word Level Signs for Patient-Doctor Interaction in Hearing Impaired Community</article-title>
					<source>IEEE Access</source>
					<volume>12</volume>
					<fpage>33803</fpage>
					<lpage>33815</lpage>
					<year>2024</year>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2024.3370684">https://doi.org/10.1109/ACCESS.2024.3370684</ext-link>
				</element-citation>
			</ref>
			<ref id="B10">
				<label>[10]</label>
				<mixed-citation>J. Shin, A. S. M. Miah, Y. Akiba, K. Hirooka, N. Hassan, Y. S. Hwang, &quot;Korean Sign Language Alphabet Recognition through the Integration of Handcrafted and Deep Learning-Based Two-Stream Feature Extraction Approach,&quot; <italic>IEEE Access</italic>, vol. 12, pp. 68303-68318, 2024. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2024.3399839">https://doi.org/10.1109/ACCESS.2024.3399839</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Shin</surname>
							<given-names>J</given-names>
						</name>
						<name>
							<surname>Miah</surname>
							<given-names>A. S. M.</given-names>
						</name>
						<name>
							<surname>Akiba</surname>
							<given-names>Y</given-names>
						</name>
						<name>
							<surname>Hirooka</surname>
							<given-names>K</given-names>
						</name>
						<name>
							<surname>Hassan</surname>
							<given-names>N</given-names>
						</name>
						<name>
							<surname>Hwang</surname>
							<given-names>Y. S.</given-names>
						</name>
					</person-group>
					<article-title>Korean Sign Language Alphabet Recognition through the Integration of Handcrafted and Deep Learning-Based Two-Stream Feature Extraction Approach</article-title>
					<source>IEEE Access</source>
					<volume>12</volume>
					<fpage>68303</fpage>
					<lpage>68318</lpage>
					<year>2024</year>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2024.3399839">https://doi.org/10.1109/ACCESS.2024.3399839</ext-link>
				</element-citation>
			</ref>
			<ref id="B11">
				<label>[11]</label>
				<mixed-citation>T. Shanableh, &quot;Two-Stage Deep Learning Solution for Continuous Arabic Sign Language Recognition Using Word Count Prediction and Motion Images,&quot; <italic>IEEE Access</italic>, vol. 11, pp. 126823-126833, 2023. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2023.3332250">https://doi.org/10.1109/ACCESS.2023.3332250</ext-link>.</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Shanableh</surname>
							<given-names>T</given-names>
						</name>
					</person-group>
					<article-title>Two-Stage Deep Learning Solution for Continuous Arabic Sign Language Recognition Using Word Count Prediction and Motion Images</article-title>
					<source>IEEE Access</source>
					<volume>11</volume>
					<fpage>126823</fpage>
					<lpage>126833</lpage>
					<year>2023</year>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ACCESS.2023.3332250">https://doi.org/10.1109/ACCESS.2023.3332250</ext-link>
				</element-citation>
			</ref>
			<ref id="B12">
				<label>[12]</label>
				<mixed-citation>C. J. Da <italic>et al</italic>
 <italic>.,</italic> 
 <italic>Aprendizaje automático de lengua de señas colombiana CIS2210CP03</italic>, 2022.</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<name>
							<surname>Da</surname>
							<given-names>C. J.</given-names>
						</name>
						<etal/>
					</person-group>
					<source>Aprendizaje automático de lengua de señas colombiana CIS2210CP03</source>
					<year>2022</year>
				</element-citation>
			</ref>
			<ref id="B13">
				<label>[13]</label>
				<mixed-citation>J. G. Barrero, <italic>Sistema Experto para la Identificación de Gestos del Lenguaje de Señas Colombiano</italic>, Tesis de Grado, Universidad Industrial de Santander, 2022. <ext-link ext-link-type="uri" xlink:href="https://noesis.uis.edu.co/handle/20.500.14071/11302">https://noesis.uis.edu.co/handle/20.500.14071/11302</ext-link>
				</mixed-citation>
				<element-citation publication-type="thesis">
					<person-group person-group-type="author">
						<name>
							<surname>Barrero</surname>
							<given-names>J. G.</given-names>
						</name>
					</person-group>
					<source>Sistema Experto para la Identificación de Gestos del Lenguaje de Señas Colombiano</source>
					<comment content-type="degree">Tesis de Grado</comment>
					<publisher-name>Universidad Industrial de Santander</publisher-name>
					<year>2022</year>
					<ext-link ext-link-type="uri" xlink:href="https://noesis.uis.edu.co/handle/20.500.14071/11302">https://noesis.uis.edu.co/handle/20.500.14071/11302</ext-link>
				</element-citation>
			</ref>
			<ref id="B14">
				<label>[14]</label>
				<mixed-citation>J. A. Muñoz-Galindez, R. Vargas-Cañas, &quot;Modelo de interpretación de lengua de señas colombiano usando inteligencia artificial,&quot; <italic>Revista de Investigación, Desarrollo e Innovación</italic>, vol. 13, no. 2, pp. 357366, Aug. 2023. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.19053/20278306.V13.N2.2023.16840">https://doi.org/10.19053/20278306.V13.N2.2023.16840</ext-link>
				</mixed-citation>
				<element-citation publication-type="journal">
					<person-group person-group-type="author">
						<name>
							<surname>Muñoz-Galindez</surname>
							<given-names>J. A.</given-names>
						</name>
						<name>
							<surname>Vargas-Cañas</surname>
							<given-names>R.</given-names>
						</name>
					</person-group>
					<article-title>Modelo de interpretación de lengua de señas colombiano usando inteligencia artificial</article-title>
					<source>Revista de Investigación, Desarrollo e Innovación</source>
					<volume>13</volume>
					<issue>2</issue>
					<fpage>357366</fpage>
					<lpage>357366</lpage>
					<month>08</month>
					<year>2023</year>
					<ext-link ext-link-type="uri" xlink:href="https://doi.org/10.19053/20278306.V13.N2.2023.16840">https://doi.org/10.19053/20278306.V13.N2.2023.16840</ext-link>
				</element-citation>
			</ref>
			<ref id="B15">
				<label>[15]</label>
				<mixed-citation>INSOR, <italic>Diccionario</italic>, 2025. <ext-link ext-link-type="uri" xlink:href="https://educativo.insor.gov.co/diccionario/">https://educativo.insor.gov.co/diccionario/</ext-link>
				</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<collab>INSOR</collab>
					</person-group>
					<source>Diccionario</source>
					<year>2025</year>
					<ext-link ext-link-type="uri" xlink:href="https://educativo.insor.gov.co/diccionario/">https://educativo.insor.gov.co/diccionario/</ext-link>
				</element-citation>
			</ref>
			<ref id="B16">
				<label>[16]</label>
				<mixed-citation>GitHub, <italic>FerchoRV/LSTM-Reconocimiento-de-signos-colombianos: Experimentaciones de reconocimiento de lenguaje de señas colombianos implementando una red neuronal LSTM</italic>. 2024. <ext-link ext-link-type="uri" xlink:href="https://github.com/FerchoRV/LSTM-Reconocimiento-de-signos-colombianos">https://github.com/FerchoRV/LSTM-Reconocimiento-de-signos-colombianos</ext-link>
				</mixed-citation>
				<element-citation publication-type="book">
					<person-group person-group-type="author">
						<collab>GitHub</collab>
					</person-group>
					<source>FerchoRV/LSTM-Reconocimiento-de-signos-colombianos: Experimentaciones de reconocimiento de lenguaje de señas colombianos implementando una red neuronal LSTM</source>
					<year>2024</year>
					<ext-link ext-link-type="uri" xlink:href="https://github.com/FerchoRV/LSTM-Reconocimiento-de-signos-colombianos">https://github.com/FerchoRV/LSTM-Reconocimiento-de-signos-colombianos</ext-link>
				</element-citation>
			</ref>
		</ref-list>
		<fn-group>
			<fn fn-type="other" id="fn1">
				<label>Cómo citar este artículo:</label>
				<p> D. F. Rivera-Vásquez, y C. González-Serrano, &quot;Reconocimiento de la lengua de señas colombiana mediante redes neuronales con memoria a largo y corto plazo&quot;. <italic>Revista Facultad de Ingeniería,</italic> vol. 34, no. 71, e18059, 2025. <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.19053/01211129.v34.n71.2025.18059">https://doi.org/10.19053/01211129.v34.n71.2025.18059</ext-link>
				</p>
			</fn>
			<fn fn-type="other" id="fn2">
				<label>Diego-Fernando Rivera-Vásquez:</label>
				<p> Investigación, conceptualización, análisis formal, experimentación, escritura y edición.</p>
			</fn>
			<fn fn-type="other" id="fn3">
				<label>Carolina González-Serrano:</label>
				<p> Conceptualización, proceso metodológico, investigación, escritura, supervisión, revisión y edición.</p>
			</fn>
		</fn-group>
	</back>
</article>