Resumen: La traducción y la redacción del español al inglés en el sector agroalimentario y el desarrollo de aplicaciones y herramientas que asistan durante este proceso se ha convertido en un campo prioritario para los Estudios de Traducción. A partir de la compilación de un corpus virtual comparable español-inglés compuesto por fichas descriptivas de producto describimos la metodología empleada para desarrollar GEFEM (GEnerador de Fichas de EMbutidos). Determinamos el prototipo de estructura retórica en cada lengua con la ayuda del Etiquetador Retórico© desarrollado por el grupo ACTRES. A continuación, con el Visor de Corpus Comparables© identificamos las líneas modelo, los principales patrones léxico?gramaticales, la terminología y la fraseología. Con la información lingüística se desarrolla el software, que da como resultado una herramienta que asiste a la redacción de fichas descriptivas de embutidos del español al inglés, que contiene un menú en el que se selecciona la macroestructura del texto y se corresponde con la estructura retórica y, a continuación, varias alternativas para desarrollar el contenido de cada apartado.
Palabras clave: Traducción, corpus comparable, herramienta de redacción, español-inglés, embutidos.
Abstract: Translating and writing agri-food texts from Spanish into English and the development of tools to aid users during these tasks has become a key issue for Translation Studies. Based on the compilation of a virtual Spanish-English comparable corpus composed of dried-meat product cards, the methodology applied to develop GEFEM is described. First, the prototypical rhetorical structure was identified with the Rhetorical Move Tagger© developed by ACTRES research group. Next, model lines were established with the Comparable Corpus Browser© and the most recurrent lexical grammatical patterns, terminology, and phraseology were also determined. With linguistic data the software was developed. The result is a semiautomatic corpus-based writing aid tool which assist users through writing and translating Spanish dried-meat product cards into English. The software includes a menu to select the macrostructure of the text and it corresponds with the rhetorical structure. Next, several options are offered to develop each section.
Keywords: Translation, comparable corpus, writing-aid tool, Spanish-English, dried-meat products.
Artículo
Metodología para el diseño de un asistente semiautomático de redacción y de traducción de fichas descriptivas de embutidos del español al inglés
Methodology to develop a writing and translating aid tool to transfer driedmeat product cards from Spanish into English
Received: 29 May 2023
Revised document received: 27 February 2024
Accepted: 17 February 2024
Published: 01 April 2024
Uno de los pilares de la economía española se corresponde con la industria agroalimentaria (MAPA, 2022, p. 4–5) y, dentro de esta, la industria cárnica es la primera en lo que respecta a facturación y a empleos directos. A esto hay que añadir que las empresas chacineras se caracterizan por ser pymes que se localizan en zonas rurales y tienen tradición familiar. Para poder comercializar sus productos en el exterior requieren de servicios de redacción y de traducción del español al inglés.
Dentro de los Estudios de Traducción, la traducción en el sector agroalimentario constituye un campo del saber que todavía necesita ser explorado con mayor profundidad. De hecho, fruto del interés surgido en la última década, somos testigos de publicaciones centradas en este campo, por ejemplo, números especiales en revistas como Terminology (Temmerman & Dubois, 2017), Terminàlia (SCATERM, 2017) o Perspectives (Li et al., en prensa), las ediciones de volúmenes sobre lenguas de especialidad y traducción en el sector agroalimentario (Rivas Carmona & Veroz González, 2018) sobre la terminología de los embutidos (Ortego Antón, 2019) o sobre la traducción y la interpretación para los profesionales de la agroalimentación (Peñuelas Gil & Ortego Antón, 2024a), entre otras. También se han publicado varias tesis doctorales (Ramírez Almansa, 2020; Ruiz Romero, 2020) en la Universidad de Córdoba, pionera en la Península Ibérica a la hora de incluir este ámbito en los programas formativos sobre traducción e interpretación en el nivel de la enseñanza superior.
Por otro lado, ciertos productos han atraído el foco de la investigación desde una perspectiva contrastiva en español e inglés, por ejemplo, el aceite de oliva (Montoro del Arco & Roldán Vendrell, 2013; Roldán Vendrell, 2010; Sanz Valdivieso & López Arroyo, 2022), el turrón (Santamaría Pérez, 2015, 2016, 2017) o el vino, con el proyecto WeinApp de la Universidad de Córdoba, coordinado por la Dra. Balbuena Torezano (Castellano Martínez, 2024). A estos estudios hay que sumar la investigación llevada a cabo por el grupo interuniversitario ACTRES (Análisis Contrastivo y Traducción Inglés-Español)1, coordinado por la Dra. Rabadán Álvarez, que ha desarrollado estudios contrastivos en el par de lenguas inglés-español centrados en el sector agroalimentario en general (Rabadán et al., 2021), en las notas de cata del vino (López Arroyo & Roberts, 2016, 2017a, 2017b, entre otros), en las descripciones de queso en línea (Labrador & Ramón, 2015, 2020; Ramón & Labrador, 2018), en las infusiones (Pérez Blanco & Izquierdo, 2020, 2021, 2022) o en los embutidos y adobados (Ortego Antón, 2019, 2020, 2021a, 2021b, 2024; Peñuelas Gil & Ortego Antón, 2024b). Los resultados derivados de estos estudios están permitiendo desarrollar e implementar aplicaciones lingüísticas basadas en el procesamiento del lenguaje natural que asistirán en la traducción y redacción del español al inglés a las empresas del sector agroalimentario durante la exportación y les darán una mayor visibilidad en la web del conocimiento, por ejemplo, generadores de escritura bilingües, como BiTexCook, GDQ, FITEVI, GDEGA, PROMOCIONA-Té o el caso que abordamos en este trabajo, GEFEM2.
No obstante, ante los avances de la inteligencia artificial, se podría llegar a pensar que la traducción automática neuronal podría ser la solución para dar respuesta a las necesidades de las pymes cárnicas. Sin embargo, los géneros textuales se caracterizan por utilizar patrones diferenciados que dependen de la cultura meta. Por tanto, la promoción de un determinado producto tiene que tener en cuenta las diferencias interculturales para garantizar que los textos meta satisfacen la normativa y las expectativas de la comunidad meta, “no solo en lo relativo al significado, sino también al registro, el estilo, las variantes geográficas, etc.” (Durán Muñoz & Corpas Pastor, 2020, p. 164), de manera que la traducción automática no satisface las necesidades de las pymes chacineras (Ortego Antón, 2024, p. 70).
El éxito de la comunicación no dependerá únicamente de la transmisión precisa de la información especializada relevante del campo del saber, sino también del cumplimiento de las convenciones culturales en todos los niveles. Para ello, es clave emplear la terminología adecuada y las convenciones típicas del género en cuestión
(Pérez Blanco & Izquierdo, 2021, p. 148, nuestra traducción3).Conscientes de la gran demanda de los productos procedentes del sector chacinero fuera de nuestras fronteras (González Fernández, 2021; Osuna Macías, 2020) y del fracaso de las aplicaciones de traducción automática en este género textual, en este trabajo pretendemos presentar la metodología que hemos empleado para desarrollar GEFEM, un asistente de traducción y de redacción del español al inglés de fichas descriptivas de embutidos basado en la compilación, análisis y explotación del corpus comparable C-GEFEM. El fin último de esta herramienta es asistir a los redactores técnicos y a los traductores a producir textos que se adecuan a las convenciones retóricas y léxico gramaticales de la lengua inglesa con la terminología, el registro y la macroestructura que satisfaga las necesidades de los hablantes de la lengua inglesa.
El empleo de una metodología basada en el diseño, la compilación y la explotación de corpus virtuales, definidos estos como “un corpus que no contiene muchos textos pero dichos textos se adecuan al campo del saber, al género y a la variedad textual” (Corpas Pastor, 2008, p. 91, nuestra traducción4) está ampliamente extendida en los Estudios de Traducción (Beeby et al., 2009; Berber Sardinha, 2002; Bowker, 2002; Corpas Pastor & Seghiri, 2017; Fantinuoli, 2016; Ortego Antón, 2024; Sánchez Carnicer, 2022; Sánchez Ramos, 2019, 2020; entre otros) por sus múltiples ventajas, entre las que destacan la objetividad, la reutilización, la posibilidad de conferirles múltiples usos, la facilidad para explotarlos y el acceso y la gestión de ingentes cantidades de información en muy poco tiempo (Corpas Pastor & Seghiri, 2009, p. 77).
Aunque han surgido infinidad de taxonomías para clasificar los corpus atendiendo a sus características y a su aplicabilidad según el contexto traductológico, en este trabajo nos limitaremos a emplear corpus comparables, definidos por EAGLES (1996, nuestra traduccioón5) como “está constituido por textos similares en más de una lengua o variedad lingüística”. Entre sus características, Rabadán y Fernández Nistal (2002, p. 53) subrayan que los textos incluidos deben funcionar de forma similar en el plano de la situación comunicativa; es decir, recogen contenidos similares, están redactados en fechas cercanas y desempeñan una función semejante desde el punto de vista discursivo, de manera que la lengua meta no está influenciada por la lengua origen, lo que suele ponerse de manifiesto en las traducciones.
Por tanto, los corpus comparables son muy útiles para el estudio de la terminología y de la fraseología especializada y, además, constituyen una fuente muy valiosa para los estudios contrastivos en general y del léxico especializado en particular.
No obstante, el éxito de la comunicación interlingüística depende del uso del inglés como lingua franca, así como de los siguientes factores:
Producir textos completos en una lengua extranjera respetando las particularidades retóricas, las normas y las convenciones de un determinado género; guían al usuario en el formato del género en cuestión, sugieren unidades semánticas y frases completas, en lugar de términos o elementos individuales. Las unidades que se ofrecen al usuario son resultado de un análisis cualitativo y cuantitativo de un corpus, así que el texto resultante no solo cumplirá con las convenciones normativas de la gramática, la estructura y el formato, sino que también respetará las particularidades del género de la lengua de llegada
(Moreno-Pérez & López-Arroyo, 2021, p. 259–260, nuestra traducción6).Entre las herramientas típicas, destacan los asistentes de redacción, que proporcionan recomendaciones, generalmente sobre terminología o estilo para mejorar los textos redactados en lengua extranjera para que parezcan nativos; las plantillas, que son modelos para un determinado tipo o género textual, son útiles para redactar y organizar el material, así como para elaborar las oraciones, los párrafos o la estructura y, por último, los generadores de escritura, que se caracterizan por ser aplicaciones que producen textos completos en la lengua meta siguiendo las particularidades retóricas, normas y convenciones de un determinado género (Moreno-Pérez & López Arroyo, 2021, p. 259–260). El producto reflejará las convenciones típicas en la lengua meta.
Así pues, una vez expuestas las ventajas del uso de corpus virtuales comparables, así como el espectro de herramientas existentes, procedemos a describir la metodología de diseño de GEFEM, un GEnerador de Fichas descriptivas de EMbutidos basado en la compilación y explotación de C-GEFEM, cuyo análisis nos permitirá identificar la estructura retórica, las líneas modelo, los parámetros léxico gramaticales y la terminología prototípica que caracterizan a las fichas descriptivas de embutidos en las lenguas española e inglesa.
En primer lugar, siguiendo un protocolo similar al previamente empleado por Seghiri (2017) y Ortego Antón (2019, 2020, 2024), diseñamos y compilamos C-GEFEM, que es un corpus virtual comparable español-inglés compuesto por 100 fichas descriptivas de embutidos redactadas en español y otras 100 en inglés.
Puesto que el sector de los embutidos es muy amplio, nos hemos centrado en seleccionar fichas descriptivas de tres productos —chorizo, salchichón y lomo— publicadas en Internet de 2016 a 2018, lo que nos asegura la autenticidad y, a la vez, hacen posible que procedan de una amplia variedad de autores para cumplir con el criterio de la representatividad. El subcorpus de C-GEFEM en español incluye fichas descriptivas de embutidos publicadas por empresas cárnicas españolas, en tanto que el subcorpus en inglés está compuesto por textos de Reino Unido, EE. UU., Canadá, Irlanda y Australia.
Una vez establecidos los parámetros, la compilación de C-GEFEM se compone de cuatro fases:
El resultado es un corpus virtual comparable bilingüe de fichas descriptivas de embutidos, integrado por 25 425 tokens7 o casos en inglés y 14 196 tokens en español, que es representativo a nivel cualitativo gracias a los parámetros de diseño y al protocolo de compilación seguido. La diferencia en el número de palabras en cada lengua se debe a que, en lengua inglesa, se especifican las características del producto, el embalaje y la preparación y uso, en tanto que en español la información es más sintética, probablemente por las diferencias culturales existentes.
Para concluir el proceso, hemos comprobado la representatividad cuantitativa con el programa ReCor8 (Corpas Pastor & Seghiri, 2010; Seghiri, 2006), que calcula el número mínimo de palabras que debe incluir el corpus para ser representativo en lo relativo a la terminología básica en este género. El programa es un archivo ejecutable con una interfaz intuitiva en la que se cargan los subcorpus y el programa genera dos gráficas (Estudio gráfico A y Estudio gráfico B). Por lo que respecta al Estudio gráfico A, este presenta en el eje horizontal el número de archivos del corpus, mientras que en el eje vertical se muestra el cociente tipos/casos (Ty/To). Se recogen dos funciones, una para los archivos ordenados alfabéticamente (línea roja) y otra (línea azul) para los archivos elegidos aleatoriamente, de forma que nos aseguramos, mediante doble comprobación, que el orden de los textos no repercute en la representatividad del corpus. Cuando ambas funciones se estabilizan podemos afirmar que el corpus es representativo. Simultáneamente se genera otra gráfica (Estudio gráfico B) en la que se ofrece los casos en el eje horizontal. A partir de dicho eje se puede extraer el número de palabras mínimo que debe incluir el corpus para ser representativo en lo relativo a la terminología básica empleada en este género.
Los datos de la Figura 2 muestran que el subcorpus en español de C-GEFEM es representativo a partir de los 80 documentos (Estudio gráfico A) y de las 12500 palabras (Estudio gráfico B). Por lo que respecta al subcorpus en inglés de C-GEFEM (Figura 3), este es representativo a partir de los 90 documentos (Estudio gráfico A) y las 25000 palabras (Estudio gráfico B).
Una vez compilado C-GEFEM, procedemos a explicar cómo hemos explotado los datos del corpus siguiendo una metodología top-down; es decir, a partir de un análisis multiestratificado en el que accedemos al texto desde lo general hasta lo específico: la estructura retórica prototípica, las líneas modelo y el glosario con la terminología y la fraseología.
Para establecer el prototipo de estructura retórica, definida esta como “la organización jerárquica de un texto. Incluye varias secciones y subsecciones del texto, movimientos y pasos” (López Arroyo & Roberts, 2015, p. 155, nuestra traducción9), hemos seguido la metodología propuesta por Biber et al. (2007). Estos autores consideran que los géneros textuales se caracterizan por estar formados por una serie de componentes retóricos denominados moves o movimientos, definidos como “una unidad disursiva o retórica que realiza una función comunicativa coherente” (Biber et al., 2007, p. 23, nuestra traducción10). A su vez, estos movimientos pueden dividirse en varios steps o pasos, cuya función es “lograr la finalidad del movimiento al que pertenece” (Biber et al., 2007, p. 24, nuestra traducción11). Esta metodología permite identificar las características lingüísticas de los movimientos, así como la descripción de su estructura y distribución léxica, además de ofrecer su posición en relación a otros movimientos y posibilitar el desarrollo de un determinado género textual.
Por tanto, establecemos una batería de etiquetas retóricas asociadas a posibles movimientos y pasos y las introducimos en el Etiquetador de movimientos retóricos®12. A continuación, etiquetamos manualmente cada uno de los textos asignando las etiquetas relativas a los movimientos y pasos, seguidamente, procedemos a comparar los distintos movimientos y pasos en español y en inglés con el Visor de corpus comparables bilingües®13, que incluye un menú que permite analizar y contrastar la información retórica, así como un analizador de concordancias.
Comprobamos el porcentaje de movimientos y pasos en cada uno de los subcorpus anotados, la frecuencia, el porcentaje de textos en los que se incluyen dichos movimientos y pasos, así como el número de palabras total de cada movimiento o paso. Los datos resultantes de dicha comprobación nos han permitido desarrollar el prototipo de estructura retórica formada por movimientos y pasos en cada una de las lenguas de trabajo como se muestra en la Tabla 1. La frecuencia de uso la hemos representado con estrellas, siendo cinco estrellas (*****) el símbolo de obligatoriedad (81% - 100%), cuatro estrellas (****) una alta aparición (61% - 80%), tres estrellas (***) una frecuencia media (41% - 60%), dos estrellas (**) poca frecuencia (21% - 40%) y una estrella (*) una escasa aparición (1% - 20%).
Una vez establecido el prototipo de estructura retórica, cuya descripción ha sido abordada en detalle previamente (Ortego Antón, 2019, p. 111–118, 2020, p. 188–189), nos gustaría señalar que la estructura propuesta tendrá carácter dinámico en GEFEM; es decir, los usuarios podrán modificarla en función de sus necesidades, puesto que los diferentes movimientos y pasos no son ni obligatorios ni restrictivos y es el usuario quien decide qué datos desea incorporar en función de sus necesidades.
La siguiente fase se corresponde con la identificación de las líneas modelo, que Pérez Blanco e Izquierdo (2021, p. 157) definen como las oraciones típicas donde el contenido y el formato son estándar porque comparten patrones fraseológicos y léxico-gramaticales. Con el Visor de Corpus Comparables© manualmente revisamos cada uno de los movimientos y pasos, analizamos las ocurrencias y detectamos las líneas modelo más frecuentes para cada movimiento y paso. El resultado se corresponde con patrones obligatorios, que se representan con paréntesis, de manera que es necesario insertar una palabra o grupo de palabras de una lista de selección. También se emplean corchetes para señalar que la información en ellos recogida es opcional y puede omitirse. Por último, las llaves indican que una de las dos opciones delimitadas por la barra ha de seleccionarse. Por ejemplo, el paso “Alérgenos” —Allergens en inglés— tiene dos líneas modelo posibles y se enumeran los ejemplos de uso para facilitar la tarea al usuario:
Ejemplo 1: [Dietary information]. {Allergen / Allergy} information / Allergy advice}. For allergens, see {{highlighted / capitalised} ingredients / ingredients in bold}. {{Contains / May contain} (ALÉRGENO) / (ALÉRGENO) free}.
Allergen Information: For allergens, see highlighted ingredients.
Allergy Advice: For allergens, see highlighted ingredients.
Dietary Information. Allergy Advice. For allergens, see ingredients in bold.
Ejemplo 2: [Dietary information]. {{Contains / May [also] contain} (ALÉRGENO) / (ALÉRGENO) free / This product is (ALÉRGENO) free}.
Dietary Information. May contain Milk. May Contain Soya. May contain traces of soya and milk.
Dietary Information. Contains Milk, May Contain Nuts, May Contain Soya / Soybeans.
This product is Wheat, Gluten and Dairy Free.
Tras exponer las líneas modelo, para los casos en los que el usuario debe elegir un término, GEFEM también incorpora un diccionario con la terminología más frecuente y su fraseología, que se describe en el siguiente apartado.
Para obtener los términos más frecuentes de C-GEFEM hemos utilizado TermoStat Web 3.0. (Drouin, 2003), un extractor terminológico semiautomático que ofrece candidatos a término. A continuación, hemos validado estos candidatos aplicando los criterios propuestos por L’Homme (2020, p. 72–75) en cada lengua y manualmente hemos establecido los equivalentes al inglés teniendo en cuenta los contextos de uso. Aunque se podría pensar que este proceso podría ser más simple utilizando un corpus paralelo, estudios previos (Ortego Antón, 2019, p. 187, 2021b, p. 105) ponen en evidencia que muchos de los equivalentes propuestos en los textos traducidos no se emplean en los textos redactados originalmente en lengua inglesa.
Seguidamente procedemos a la recogida de los términos y de sus equivalentes clasificándolos en función de los distintos campos semánticos —aditivos, alérgenos, elementos nutricionales, empaquetado, ingredientes, materiales, origen y país— acompañados de la categoría gramatical y de un ejemplo de uso, como se muestra en la Figura 5.
A partir de esta base de datos hemos desarrollado e-DriMe (Ortego Antón, 2021a), un diccionario electrónico inglés-español basado en corpus sobre la terminología de los embutidos que sigue los principios de la Teoría Funcional de la Lexicografía (Bergenholtz & Tarp, 2002, 2003) y en la semántica léxica aplicada a la terminología (L’Homme, 2020). Una vez descrita la explotación de C-GEFEM, procedemos a explicar el desarrollo del software.
GEFEM14 es un software dinámico basado en la web con una interfaz intuitiva que va guiando al usuario durante la redacción de una ficha descriptiva de embutido, es gratuito y está alojado en los servidores de la Universidad de León. En primer lugar, la aplicación permite crear un documento en blanco o cargar un documento en el que el usuario ya había trabajado previamente, como se muestra en la Figura 6. Si optamos por la primera opción, “Crear documento”, la aplicación nos muestra un menú en el lado izquierdo de la pantalla que permite desplazarse entre los distintos movimientos y pasos, como se observa en la Figura 7.
Por ejemplo, seleccionamos el paso “Alérgenos”, hacemos clic en el botón “Sugerencias”, se despliega una ventana donde aparecen las dos líneas modelo y el usuario debe decantarse por una de ellas pulsando “Añadir”, como se muestra en la Figura 8.
Además, la herramienta ofrece distintos elementos que van guiando al usuario con botones de colores diferentes. Por ejemplo, el color verde indica que hay que insertar una palabra o grupos de palabras, el morado muestra dos o más opciones entre las que el usuario debe escoger una y el naranja se corresponde con un fragmento de texto opcional.
En este punto se puede apreciar que es necesario que el usuario tenga unos conocimientos mínimos de lengua inglesa, dado que estamos ante una herramienta de asistencia a la redacción y a la traducción, que no debe confundirse con los sistemas de traducción automática, que trasvasan directamente el contenido sin tener en cuenta las convenciones típicas de la lengua de llegada.
Por tanto, el usuario va completando el contenido de la ficha descriptiva de producto siguiendo las instrucciones de los distintos recuadros y, cuando tiene que escoger una unidad léxica de la base de datos terminológica, esta aparece en verde, como se puede observar en la Figura 9.
Al hacer clic en “alérgeno”, se despliega una ventana en la que el usuario introduce los primeros caracteres del término en español y se ofrecen los equivalentes en inglés, como se muestra en la Figura 10.
Cuando el usuario ha completado todos los campos, hace clic en el botón de vista previa del menú superior y obtendrá la ficha descriptiva de producto en lengua inglesa, en formato DOCX, que se ajusta a las convenciones lingüísticas y culturales del inglés.
Para finalizar, estamos ante una herramienta de asistencia a la traducción y a la redacción del español al inglés que satisface las necesidades de los profesionales de la comunicación en este campo del saber y, entre sus potenciales usuarios, se encuentran las pymes del sector cárnico. La herramienta proporciona información fiable, basada en corpus, precisa y representativa, lo que resulta más barato que la posedición de la traducción automática.
A lo largo de este trabajo hemos ofrecido la descripción de GEFEM, una herramienta que asiste a los usuarios durante la traducción y la redacción del español al inglés de fichas descriptivas de embutidos basada en la explotación de C-GEFEM, un corpus virtual comparable en las lenguas española e inglesa.
El desarrollo de aplicaciones lingüísticas como GEFEM hace posible que los resultados de la investigación puedan transferirse al tejido productivo, de manera que las pymes puedan tener acceso a aplicaciones y herramientas que mejoran su potencial de exportación y de internacionalización ante la imposibilidad de contratar profesionales lingüísticos y, así, puedan ofrecer información de calidad en la visualización de su actividad en la web del conocimiento.
Desde la perspectiva académica, somos conscientes de que es necesario seguir formando a los futuros traductores y redactores multilingües en las particularidades de los distintos géneros lingüísticos para que no se limiten únicamente a trasvasar el contenido a otra lengua, sino también a adaptar los textos que se traducen a las convenciones de la cultura de la lengua de llegada para que el texto funcione en la situación comunicativa de la mencionada cultura.
Para finalizar, GEFEM está en proceso de mejora, puesto que se está implementando su vinculación con sistemas de traducción automática y, al mismo tiempo, seguimos desarrollando herramientas de ayuda a la redacción multilingüe para otros campos del sector agroalimentario.
mariateresa.ortego@uva.es