Resumen: Esta investigación desarrolla la mejor aproximación para la proyección no lineal de las ventas de una empresa camaronera que cotiza en la bolsa de valores, en contraste con las estimaciones lineales corporativas publicadas. Se parte de la búsqueda de datos a través de un FODA de la variable de interés: precio promedio del camarón ecuatoriano, identificando las variables explicativas de precios del camarón en Estados Unidos, el cambio observado del dólar frente al yuan, exportaciones ecuatorianas, importaciones estadounidenses de camarón indio, barril de crudo WTI y el índice de precios FPI™ del salmón, esto como las variables más influyentes interpretadas por el resultado de un coeficiente de determinación ajustado de 0.807. La instrumentación del modelo econométrico evalúa los indicadores estadísticos de tres algoritmos de regresión lineal de aprendizaje supervisado predictivo en el lenguaje de programación Python, siendo Ridge el modelo con menor error cuadrático medio igual a 0.274. Basándose en supuestos a cinco años con Ridge se pronostican ventas desde 2021 a 2025, correlacionando las variables ingresos históricos de la empresa camaronera versus el precio promedio del camarón mediante interpolación polinomial. Comparando ambas líneas de tendencia resultantes se demuestra que los ingresos esperados conservan un comportamiento no lineal acorde con su desempeño histórico.
Palabras clave: Econometría, Aprendizaje supervisado, Lenguaje de programación python, Proyección de ventas, Industria camaronera.
Abstract: This research develops the best approximation for the non-linear projection of sales of a shrimp company listed on the Stock Exchange, in contrast to published corporate linear estimates. It starts from the search for data through a SWOT of the variable of interest: average price of Ecuadorian shrimp, identifying the variables: explanatory of shrimp prices in the United States, the observed change of the dollar against the yuan, Ecuadorian exports, US imports of Indian shrimp, barrel of WTI crude oil and the FPI™ salmon price index, as the most influential interpreted by the result of an adjusted coefficient of determination of 0.807. The instrumentation of the econometric model evaluates the statistical indicators of three predictive supervised learning linear regression algorithms in the Python programming language, with Ridge being the model with the lowest mean square error equal to 0.274. Based on five-year assumptions with Ridge, sales are forecast from 2021 to 2025, correlating the variables historical revenue of the shrimp company versus the average price of shrimp through polynomial interpolation, comparing both resulting trend lines showing that the expected revenues maintain a behavior non-linear according to its historical performance.
Keywords: Econometrics, Supervised learning, Python programming language, Sales Projection, Shrimp industry.
Artículos Originales
Algoritmos de Aprendizaje Supervisado para Proyección de Ventas de Camarón Ecuatoriano con Lenguaje de Programación Python
Supervised Learning Algorithms for Sales Projection of Ecuadorian Shrimp with Python Programming Language
Received: 01 December 2021
Accepted: 16 May 2022
Published: 01 December 2022
La producción de camarón en Ecuador es un referente mundial (Lucien-Brun, 2018), así como relevante es su contribución a la economía del país, lo que torna imperante el poder aprovechar todos los datos disponibles y combinarlos con las herramientas estadísticas que ofrecen las ciencias de la computación, lo que permitiría aportar con nuevos hallazgos para establecer los posibles escenarios para la toma de decisiones estratégicas para hacer frente a una mayor incertidumbre inherente al Covid-19 (Gordillo et al., 2022). El objetivo de la investigación reside en modelar, con base a algoritmos de machine learning, los pronósticos de ventas de una exportadora de camarones ecuatoriana y contrastarlos con las proyecciones publicadas sobre su futuro financiero.
Bajo la premisa de que las empresas buscan financiar capital de trabajo o sus operaciones en el corto plazo, el modelado inicia con un modelo econométrico, Los inputs de este modelo económico consisten en variables que correlacionan directamente los precios promedios del camarón ecuatoriano de exportación (PPCE) y que arrojan predicciones validadas por su menor error cuadrático (Mojjada et al., 2020). Estos valores resultantes serán asociados con las ventas de la empresa, siendo ajustados a una función no lineal como ilustra la propia tendencia histórica de ingresos declarados en sus estados de resultados en la bolsa de valores, con lo cual finalizará el modelado. Estos resultados difieren de la expectativa obtenida por la calificadora de riesgos dentro del mismo periodo de tiempo para futuros periodos (Tenorio-Vilaña & Mideros-Mora, 2022).
Si bien este caso de estudio toma información presentada para financiamiento mediante la emisión de obligaciones por parte de una compañía calificadora de riesgos, este trabajo constituye una contribución para la búsqueda de aplicaciones prácticas de la investigación de operaciones que sustenten (bajo premisas comprobables) el control de la estructura patrimonial y la sostenibilidad del capital de trabajo de las empresas (Altaf & Shah, 2021). Esto se realiza con el fin de demostrar la capacidad de pago de una empresa frente a grupos de interés correspondientes a fuentes de posible apalancamiento en el corto plazo como son los accionistas, fondos propios y las obligaciones contraídas con entidades del sistema financiero, este último característico del tejido empresarial ecuatoriano (Gutiérrez Ponce et al., 2019). Como alternativa válida se considera, además, el crédito concedido por los proveedores (García Regalado et al., 2020).
Desde el primer programa de inteligencia artificial empleado para el juego de damas trabajado por Arthur Samuel en 1959 (Gabel, 2019), la versatilidad presentada por los algoritmos de machine learning tienen un amplio espectro de aplicación para las ciencias –cuyos avances y desarrollos experimentales han abierto un nuevo paradigma mediante la creciente escalabilidad de la generación y del almacenamiento de información sumada a la capacidad automática de procesamiento–, potenciando las ya conocidas herramientas estadísticas para la identificación de patrones y correlaciones de grandes conjuntos de datos con la finalidad de desarrollar nuevos conocimientos (Schleder & Fazzio, 2021).
El proceso de modelado de aprendizaje supervisado empleado en la presente investigación difiere de otros que han sido implementados, tal como se muestra en la Tabla 1 (a esta Tabla corresponden el análisis de series de tiempo o de redes neuronales, ambos métodos tradicionales de estimación para el caso de productos de exportación como es el caso del camarón). Se ha optado por algoritmos de regresiones múltiples ampliamente utilizados para la predicción y clasificación. Inclusive, se han usado métodos no relacionados con estos como son el análisis ANOVA y prueba t, métodos que pueden representarse como modelos de regresión y, así, compartir un marco estadístico subyacente. Los modelos más complejos de regresión incluyen múltiples variables independientes y examinan la contribución única de cada uno hacia la variable dependiente (Britt et al., 2021) que, para el presente caso de estudio, busca probar dos teorías: que de la dependencia del PPCE recaerá en más de una variable y que su correlación con las ventas de la empresa del ramo son del tipo no lineales.
“La investigación emplea el método cuantitativo de correlación de datos longitudinales” (Cordero, 2021, p. 44), esto se realiza mediante el empleo de algoritmos predictivos de aprendizaje supervisado, mismo que utiliza datos históricos y transversales para una variable de interés pronosticando resultados a futuro (International Business Machines Corporation [IBM], 2020), los cuales se ajustan a la no linealidad en la que se desenvuelven los mercados bursátiles (Gupta et al., 2021).
La Figura 1 describe tres pasos principales. El primero consiste en la obtención de la información de entrada para el análisis de los principales factores que inciden en el PPCE. El segundo efectúa el proceso de análisis de los datos recabados previamente, depurados en hojas de cálculo y procesados a través del lenguaje de programación Python. El tercero, finalmente, corresponderá a la proyección de ingresos ordinarios para un escenario planteado de cinco años de la empresa, estos se equipararán con las similares realizadas por la calificadora de riesgos en la calificación para tercera emisión de obligaciones (Global Ratings, 2021a).
La herramienta que se empleará para desarrollar el modelado de aprendizaje supervisado para enfocar las variables explicativas que impacten de forma significativa al PPCE será el método FODA (Abdel-Basset et al., 2018). Este modelo sirve para abarcar el contexto del negocio exportador de camarón y langostinos a escala macro para, posteriormente, aterrizarlo a nivel micro en la estimación de ventas de la empresa exportadora de camarón.
La secuencia que se deberá seguir para generar líneas de código en los modelos predictivos de regresión múltiple a través del lenguaje de programación Python está ampliamente difundida en la literatura, gracias al tener procedimientos genéricos en los tratados de ciencias de datos para el aprendizaje supervisado (Duchesnay et al., 2021), también conocido como procedimiento esquematizado río abajo.
Portal IndexMundi: información del mercado de consumo estadounidense.
Portal Macrotrends LLC: cotización de monedas y índices del crudo.
United States Department of Agriculture (USDA) Foreign Agricultural Service: valores declarados de las importaciones agropecuarias estadounidenses.
Fish Pool ASA: índices de precios del mercado cambiario europeo de productos del mar.
Excluir del grupo de datos el feature cronológico o columna correspondiente al formato de las fechas de los registros, puesto que no es requerido para un modelo de regresión múltiple, bastando únicamente el orden ascendente en todos los datos.
Se eliminarán los valores denominados outliers, N/A, negativos o ceros, con el fin de conservar únicamente los que sean positivos, siendo del tipo cuantitativas continuas susceptibles a proyectarse.
Homogeneizar el tamaño de los datos obtenidos de las diferentes fuentes de información y normalizarlos, aplicando la media aritmética para pasar de valores diarios a valores mensuales.
Se configurará en cantidad y calidad de data frame morfológicamente constituido por 126 filas o registros y columnas o features. También será sometido preliminarmente a un exploratory data análisis (EDA) para discriminar qué variables son relevantes verificando su colinealidad y, así, constatar junto con las primeras visualizaciones que existan correlaciones que guíen a la construcción del modelo (Lazzeri, 2021). El coeficiente de determinación ajustado (o adjusted R-squared) deberá ser lo suficientemente alto como para definir el tamaño del data frame que alimentará al modelo de proyección del PPCE (Karch & Van Ravenzwaaij, 2020).
Con el data frame depurado denominado ‘eshrimp’ se codificará, en el lenguaje de programación Python, tres modelos de regresión múltiple (Duchesnay et al., 2021). Para los modelos que admitan aprendizaje automático se dividirá en dos el conjunto de datos: la primera de testing y la segunda de training (Ceder, 2018, p. 93). Esto se llevará a cabo aplicando el principio de Pareto 80-20, ampliamente utilizado en el campo de la economía y de los negocios (Investopedia, 2020).
Con un data frame denominado ‘proyección’, correspondiente a los últimos seis registros o primer semestre de 2021, se reemplazarán los valores de los interceptos y coeficientes de las variables explicativas en cada modelo. Se procederá a calcular sus respectivos root mean square error (RMSE) como criterio de medida de precisión para comparar los valores reales PPCE versus los valores predichos o denominados como errores de predicción (Neill & Hashemi, 2018, p. 216). Este método está acorde a la robustez de los modelos.
Se harán predicciones a cinco años reemplazando los valores supuestos en promedios anuales en la ecuación predictora del modelo seleccionado con el menor RMSE. Estas predicciones deberán ser insesgadas y próximas a los valores verdaderos promedio, dando cumplimiento con el objetivo de la predicción. Inclusive, permitiendo que el ruido persista de forma arbitraria, lo cual es característico en todos los modelos lineales (Shmueli et al., 2019, p. 164).
Se conjugan valores históricos anuales de los PPCE (CNA, 2022) e ingresos históricos de la empresa expresados entre los mismos periodos en su primera emisión de obligaciones (Global Ratings, 2021b).
Con los datos históricos de entrada se codificarán, en el lenguaje de programación Python, los ajustes a las predicciones de los PPCE. Esto se lo realizará en un modelo de interpolación polinomial (Virtanen et al., 2020) de grado tres para obtener la estimación de las ventas. Tal como se ha demostrado en los últimos años, es posible identificar las estructuras de los datos de los mercados financieros no lineales con machine learning (Fischer & Krauss, 2018).
A través de una gráfica en la hoja de cálculo Excel se mostrará el comparativo de las dos proyecciones de las ventas, proyecciones analizadas a través de la línea de tendencia en cada caso particular (Investopedia, 2021).
Para realizar la proyección de las ventas de camarón en el objeto de estudio práctico se siguieron las etapas detalladas en la metodología anterior. Los resultados fueron los siguiente.
La acuacultura es un sector que ha padecido de un rápido crecimiento comparativamente a la pesca de captura, siendo esta última superada en producción mundial desde el año 2014 (ESPAE, 2018, p. 8), de acuerdo a lo establecido por la Organización de las Naciones Unidas para la Alimentación y la Agricultura [FAO]. Acorde con el análisis de investigación publicado en el portal Business Wire (2021) se espera que la industria mundial del camarón crezca con una tasa compuesta anual del 4.18 % a partir de 2020 hasta el 2026.
El mercado —sobre las expectativas de crecimiento mundial del mercado de camarón, así como la incertidumbre que sufren la mayoría de los commodities (Global Ratings, 2021c)— enfrentó desafíos debido al bloqueo de Covid-19, lo que retrasó todas las operaciones, la reducción de tiempos de ciclo y generó controversias en mercados de destino. Pese a la baja de los precios internacionales en gran parte del año 2020 y su principal consecuencia traducida en pérdidas económicas, fueron los mercados minoristas los que afrontaron la crisis generada y, como se ha podido observar en el caso de China, en ese país se ha manifestado un auge en el sector de restaurantes, contando con total apertura en la actualidad.
Sin embargo, en el resto de Asia el mal temporal acuícola no distó del resto de regiones del mundo y vio afectada su producción según cifras reportadas durante el mes de abril, recayendo principalmente en la reducción del periodo de desarrollo del crustáceo. Los productores de camarón —al verse impedidos por las restricciones, sumados al pánico y a una mayor incertidumbre— optaron por bajar las densidades de población de camarón con el agravante de los precios bajos hasta agosto de 2020. La India padeció su mayor descenso entre abril y agosto del mismo año a niveles récords bajos tras fuertes contracciones de la demanda mundial, principalmente del sector de servicios alimentarios. Contrariamente, Vietnam e Indonesia denotaron cierta mejoría en términos comparativos (FAO, 2021).
El comportamiento del PPCE, a partir del año 2012, presentó una tendencia alcista, alcanzando su mejor momento de 4.05 dólares en febrero del 2014 y sufriendo una suerte de lacónica temporalidad, persistiendo a la baja hasta los valores mínimos registrados durante el año 2020 por consecuencia de la pandemia del Covid-19. Pese a ello, las cifras denotan una leve recuperación en los primeros meses del año 2021.
En la Tabla 2 se muestra el contexto mundial que incide en el PPCE. Esto conlleva a exponer qué variables relevantes están presentes en los países en las diferentes regiones, en lo correspondiente al mercado internacional de los recursos marinos y que mantienen el mayor protagonismo.
Los precios del camarón en Estados Unidos en kilogramos ‘EE.UU’.
El cambio observado del dólar ($) frente al yuan (¥) ‘Dólar’.
Exportaciones ecuatorianas en libras ‘Export’.
Importaciones estadounidenses de camarón indio en millares ‘Import’.
Precio petróleo West Texas Intermediate (WTI) en dólares americanos ‘Crudo’.
El índice de precios Fish Pool Index™(FPI) del salmón en euros por kilogramo ‘Salmon’.
Se recabaron registros cronológicos de fuentes consultadas a partir de enero 2011 y se pre-procesaron todos los datos brutos obtenidos de las siete variables que conforman data frame ‘eshrimp’. Esto se encuentra estructurado en 120 filas y siete columnas, cuyos indicadores estadísticos de cada variable se muestran en la Tabla 3.
El EDA, al ser el primer análisis, identifica el tipo de correlación más fuerte de 0.77 entre ‘Export’ e ‘Import’ y la más débil existente entre ‘EE.UU’ y ‘Export’ de 0.06. Además, se observa que a medida que cada una de las variables predictoras van adicionándose a la regresión múltiple, el valor del coeficiente de determinación ajustado registra un incremento (ver Figura 2). Este último como una medida más precisa del coeficiente de determinación (R.), compensando la adición de variables solo si el nuevo predictor mejora los resultados del modelo igual a 0.807 y, contrariamente, aminorará su valor frente a lo obtenido a efectos del azar (Investopedia, 2022).
Importar las librerías
Reconocimiento del tipo de variables
Asignación de la data frame
Definir funciones de los modelos de regresión acorde a librerías
Realizar las operaciones y ejecución de las líneas de código
Imprimir por pantalla los resultados
Debug y run en el terminal del integrated development environment (IDE).
Una vez codificados los tres modelos se representan gráficamente sus valores estimados, los mismos que contrastan con los valores reales de los PPCE como se muestra en la Figura 4. El criterio de evaluación para seleccionar el modelo es el RMSE, siendo el modelo Ridge el que muestra el error de 0.274 (Tabla 4). La técnica de regresión Ridge permite corregir la multicolinealidad en caso de que esta se presente. Esto evita que las variables importantes se descarten, también mantiene la consistencia del modelo luego de efectuar varias simulaciones verificando que el coeficiente Alpha de 1.46 sea el más adecuado frente al conjunto de siete variables presentes en la regresión y, en ciertos casos, con valores resultantes ligeramente superiores a los reales (Nunes et al., 2019).
Partir del criterio de que existirá un crecimiento conservador y sostenido de China con la generación de divisas fortalecida, así como las exportaciones de la India como las grandes economías asiáticas.
Las monedas a nivel mundial sufrirán una depreciación por la masiva emisión, no así para el yuan, el cual registrará una revalorización.
Se incrementa la producción acuícola principalmente en la región asiática, por lo que se espera que el Ecuador presente una tendencia alcista pero moderada en compensación.
Un incremento en el año 2022 en el precio del crudo, pero se mantendrá estable en el corto plazo.
Para 2021, por efectos de la pandemia, se ha presentado un decrecimiento en el precio promedio del camarón frente a años pre-pandemia. Sin embargo, se estimarán incrementos progresivos conforme han mostrado los registros históricos de los precios de las materias primas.
Al igual que el caso del precio del camarón, el precio del salmón no registrará alzas importantes, mostrándose una proyección moderada (Tabla 5).
El modelo de predicción de ventas de camarón requiere aprender la información ya conocida. Esta información está compilada en la data de los PPCE, también es procesada de forma anual. La extracción de declaración financiera anexa de las ventas realizadas de camarón por parte de la empresa está disponible al público. Estos datos son extraídos para el mismo periodo de tiempo (Tabla 6).
El modelo pronosticará las ventas de camarón mediante regresión polinomial, para lo cual se deberá definir, en función de los PPCE, el grado de la interpolación con mejor interacción entre las variables ventas de camarón y la variable de interés. Será la curva de tercer grado la que mejor se aproxime a la tendencia de los puntos, tal como se puede apreciar en la Figura 5.
Con toda la información de entrada de rigor para configurar el modelo disponible se asigna ‘Y’ a la variable ventas de camarón y ‘X’ a los PPCE para automatizar las estimaciones. Una vez consensuada la interpolación polinomial se reemplazan los valores de las predicciones de los PPCE para, finalmente, presentar los resultados en pantalla. Tal como se muestra en la codificación de la Figura 6.
Empleando los resultados de la codificación del modelo y las proyecciones declaradas por parte de la calificadora de riesgos se elabora la tabla resumen (Tabla 7) para un horizonte de tiempo de cinco años, así como datos de origen para el análisis comparativo respectivo.
Las líneas de tendencia que se muestran en la Figura 7 indican que las ventas históricamente han mostrado un comportamiento no lineal, así como los resultados de las proyecciones del modelo en el presente estudio. Existen más variables intervinientes en lo referente a las ventas de camarón, estas variables han sido consideradas en esta investigación. Pero, para efectos del modelado, serán excluidas siempre que el horizonte de planificación no supere al corto plazo y no se realicen inversiones en activos fijos importantes que incidan en la capacidad instalada productiva de la empresa.
Del aprendizaje supervisado se han empleado regresiones principalmente dada su utilidad y practicidad. Mismas que, a la par, permiten obtener predicciones razonables de la variable que se desea investigar y, además, deja abierta la posibilidad de adicionar una mayor cantidad de variables que se sospechen tendrán impacto al final (Darski et al., 2020). En este grupo existe una amplia variedad de modelos, desde los lineales hasta los no lineales. Como en este caso de estudio, los autores de otros trabajos sugieren incursionar hacia la hibridación entre modelos lineales y no lineales, considerados así los que atienden los problemas presentando una estructura con ambos patrones (Barchi et al., 2021).
Todo lo que representa la cadena de valor del camarón en el caso ecuatoriano ocurre también en otros países competidores a nivel mundial en este commodity, tales como Vietnam, con el diferencial de que en su haber dispone de todo un contingente para atender este transcendental segmento desde lo público (Ministry of Planning and Investment of Vietnam [AED], 2022) hasta llegar a las arquitecturas de información para investigación y desarrollo en lo privado (Portal of Vietnam Association of Seafood Exporters and Producers [VASEP], 2021), a fin de poder hacer frente a innumerables problemas que se presentan en la explotación de los recursos marinos.
En el desarrollo de investigaciones con uso de herramientas de machine learning, Brasil las aplica para los casos de estudio de sus productos emblemáticos a nivel mundial, reconocidos en mercados internacionales en lo referente al aporte a la economía y al empleo en ese país, tal como sucede con el café (Deina et al., 2019). Inclusive, emplean algoritmos de inteligencia artificial más evolucionados para abarcar más objetos de estudio y poder hacer frente a la incertidumbre por medio del análisis completo de escenarios futuros con respecto a las materias primas que se relacionan entre sí, las cuales conllevan un alto impacto multisectorial al producto interno bruto brasileño, como lo observado con el tejido agroindustrial de la caña de azúcar conjuntamente con el etanol (Pereira, 2021).
Los resultados de las predicciones de ventas de camarón del presente trabajo están supeditadas a cubrir las expectativas de la empresa, en términos más próximos a la realidad sobre el manejo de su capital de trabajo y para mantener prudencia sobre las decisiones financieras. Ello, mediante mecanismos no tradicionales con fundamentos estadísticos respecto a los presupuestos a realizarse sobre la estructura de su capital y en su verdadera generación de valor. Gestión que en el corto plazo debe mantenerse para continuidad de las operaciones, sorteando posibles riesgos de liquidez e impacto directo sobre su rentabilidad (Meah et al., 2021; Rojas et al., 2021).
A lo largo de este estudio se logró consolidar un piloto de aprendizaje supervisado para realizar el pronóstico de venta de camarón en dos fases. La primera, correlacionando seis variables independientes a la proyección de los PPCE. La segunda, ajustando de forma no lineal los datos históricos de cinco años de la empresa. Lo anterior puede verse como una apuesta preliminar susceptible de mejorar mediante la incorporación de más variables y de la mano con el acceso a la información. Misma que posee limitaciones por los costos de licencias del uso de las bases de datos para dotar de mayor complejidad y robustez a los modelos de machine learning para futuras investigaciones.