Artículos
Received: 14 March 2023
Accepted: 26 October 2023
DOI: https://doi.org/10.24201/ee.v39i2.455
Resumen:
Estimamos índices de sentimiento a nivel regional y nacional utilizando información en formato de texto del Programa Trimestral de Entrevistas a Directivos, empleada para la elaboración del Reporte sobre las Economías Regionales del Banco de México, referente a los factores que los entrevistados consideran que afectaron, afectan o pudieran afectar la actividad económica en su sector o entidad federativa. Estos índices, estimados con información de los programas de entrevistas trimestrales llevados a cabo entre enero de 2016 y enero de 2021, son posteriormente asociados con diferentes indicadores de actividad económica regional y nacional publicados por el INEGI, obteniéndose correlaciones positivas y estadísticamente significativas entre los índices de sentimiento y algunos indicadores de actividad económica. Dado que estos índices de sentimiento pueden obtenerse con mayor rapidez que la mayoría de los indicadores tradicionales de actividad económica aquí analizados, el trabajo destaca la relevancia de la información en formato de texto contenida en el Programa Trimestral de Entrevistas a Directivos para complementar la obtenida con indicadores tradicionales.
Clasificación JEL:45, R11, R15
Palabras clave: Análisis de sentimientos, aprendizaje automático, análisis regional, México.
Abstract:
We estimate sentiment indexes at the regional and national level using text data obtained from the Programa Trimestral de Entrevistas a Directivos del Banco de México, used to elaborate the Report on the Regional Economies regarding the factors that the interviewed consider affected, affect, or could affect economic activity in their sector or state. Using text data from quarterly interviews performed from January 2016 to January 2021, we associate these indexes with different indicators of regional and national economic activity published by INEGI. The estimates indicate positive and statistically significant correlations among the sentiment indexes and some economic activity indicators. Since the sentiment indexes can be estimated relatively faster than most of the traditional economic indicators analyzed, this paper outlines the relevance of the text data contained in the Programa Trimestral de Entrevistas a Directivos to supplement the information obtained from traditional indicators.
EL Classification: 45, R11, R15
Keywords: Análisis de sentimientos, aprendizaje automático, análisis regional, México.
1. Introducción
El Banco de México realiza encuestas y entrevistas a diversos agentes económicos, a nivel nacional, con el objetivo de obtener información oportuna sobre las condiciones del ambiente de negocios en los diferentes sectores productivos. Una de estas fuentes de información es la derivada del Programa Trimestral de Entrevistas a Directivos Empresariales (PED) que el Banco de México efectúa de manera telefónica, o en persona, a directivos de empresas, así como a representantes de organismos empresariales (o stakeholders) del país para elaborar su publicación trimestral Reporte sobre las Economías Regionales (RER).1 Las entrevistas del PED, implementadas a partir de 2011 en los meses de enero, abril, julio y octubre de cada año, capturan información cualitativa y en formato de texto sobre: 1) actividad económica, 2) perspectivas y 3) riesgos para la actividad económica de las regiones en las que el Banco de México divide al país (norte, centro norte, centro y sur).2,3 Actualmente, la información cualitativa capturada en el PED es empleada para generar índices de difusión y porcentajes de respuesta a nivel regional que se presentan en el RER, en tanto que la información en formato de texto ha sido utilizada principalmente para dar contexto al comportamiento de diversos indicadores construidos con datos “duros” y datos “suaves” del RER.4
Si bien dar contexto al comportamiento de los indicadores cualitativos y cuantitativos representa ya una contribución de la información en formato de texto provista por el RER, también existe abundante literatura, identificada como análisis de sentimientos, que muestra que la información en formato de texto refleja sentimientos o actitudes de individuos, empresas y grupos especializados, entre otros, en torno a condiciones económicas recientes, presentes o futuras, por lo que un procesamiento adecuado de la misma puede ser útil para la toma de decisiones. De aquí que, en la actualidad, existan y continúen desarrollándose y aplicándose metodologías de análisis de sentimientos encaminadas a utilizar la información en formato de texto tan pronto esté disponible, como la que ofrece un PED, para generar índices numéricos que puedan ser comparados con indicadores tradicionales de actividad económica (producción, empleo, inversión, etc.) a fin de determinar si entre ellos existe algún tipo de asociación. Más aún, dada la naturaleza de la información que pudiera utilizarse en su elaboración, esos índices numéricos -también llamados “ índices de sentimiento”- pueden generarse de manera más oportuna que los indicadores económicos tradicionales basados en datos duros o suaves. Esto es de relevancia para los formuladores de política económica, quienes normalmente toman decisiones en tiempo real utilizando información incompleta, rezagada y sujeta a revisiones frecuentes. Hasta cierto grado, lo que proponemos en este trabajo es estimar índices de sentimiento dentro un marco similar al nowcasting.
El nowcasting se refiere a la predicción del pasado, presente o futuro muy cercano de una variable objetivo, permitiendo mitigar algunas de las dificultades derivadas de los rezagos que caracterizan la publicación de los indicadores económicos. El nowcasting suele realizarse con técnicas como el aprendizaje automático, las cuales permiten procesar grandes volúmenes de información, numérica y en formato de texto, en tiempo real, rezagado, o tan pronto ésta se encuentre disponible, y que pudiera estar relacionada con la variable objetivo. Un ejemplo de nowcasting empleando algoritmos de aprendizaje automático para el caso mexicano es Campos-Vázquez y López-Araiza (2020), quienes aplican dos modelos de aprendizaje automático: LASSO (Least Absolute Shrinkage and Selection Operator) y bosques aleatorios (Random Forest), para generar un pronóstico de la tasa de desempleo nacional, antes de que el Instituto Nacional de Estadística y Geografía (INEGI) publique la información, utilizando datos en tiempo real de un índice de Google Trends. Este índice se genera como el cociente del número de búsquedas del término especificado por el usuario (empleo) sobre el total de búsquedas en Google en ese momento. Otro ejemplo de nowcasting para el caso mexicano es el que ofrecen González y Herman (2020), quienes utilizan información cuantitativa con frecuencia diaria o semanal y mensual para pronosticar el nivel del tipo de cambio peso mexicano/dólar estadounidense para el corto plazo (diaria, semanal o mensual) empleando modelos de aprendizaje automático. En específico, los autores utilizan cinco modelos para generar los pronósticos: regresión logística/lineal, regresión logística/lineal regularizada, máquina de soporte vectorial (VSM), potenciación del gradiente/regresión (GBC/GBR5) y redes neuronales. El estudio concluye que, entre los modelos estimados, los VSM y de potenciación del gradiente son los que producen los mejores resultados en términos de precisión y beneficios acumulados.
Este documento ofrece una contribución más al análisis económico para el caso mexicano, empleando técnicas de aprendizaje automático para obtener índices de sentimiento, los cuales son el objetivo principal de este trabajo. En particular, y de acuerdo con nuestro conocimiento, se presentan las primeras estimaciones de índices de sentimiento a partir de la información en formato de texto contenida en el PED. Los índices de sentimiento se calculan partir de las respuestas en formato de texto obtenidas de los directivos entrevistados en torno a la situación económica pasada, presente y futura, tanto de sus empresas como de las entidades federativas en las que estas se ubican.5Para obtener estos índices, cada una de las respuestas en formato de texto se clasificó por dos de los autores en una de tres categorías, dependiendo de si trasmitían un sentimiento positivo, un sentimiento negativo o un sentimiento neutral (o no definido). Esta clasificación, o etiquetado, se realizó de manera manual, con el apoyo de tres algoritmos de aprendizaje automático (máquina de soporte vectorial, redes neuronales recurrentes y representación de codificador bidireccional de transformadores). Un aspecto relevante de la metodología propuesta aquí es que, si bien la información utilizada no está disponible en tiempo real, sí puede procesarse de manera inmediata tan pronto esté disponible para generar índices de sentimiento. Los indicadores buscan determinar si éstos proveen información más oportuna para señalar la dirección que tomarán algunos indicadores de actividad económica del INEGI antes de que esta institución los publique.
El trabajo utiliza la información en formato de texto de 9,802 entrevistas realizadas trimestralmente a directivos y representantes empresariales de las cuatro regiones del país en los PED de enero de 2016 a enero de 2021, de las que se desprendieron 76,895 documentos. Aquí, un “documento” se refiere a una respuesta en formato de texto que un directivo entrevistado ofrece a una pregunta de la entrevista, lo que implica que de una entrevista a un directivo pueden surgir varios documentos. Adicionalmente, se investiga en qué medida estos índices de sentimiento se asocian con diferentes indicadores de actividad económica regional y nacional publicados por el INEGI.
La relación entre los índices de sentimiento ponderados por región y nacionales con los indicadores del INEGI se cuantificó mediante coeficientes de correlación de Pearson. Así, se obtuvieron correlaciones entre los índices de sentimiento ponderados, con los siguientes tipos de indicadores: 1) dos indicadores mensuales suaves de actividad económica nacional: el Indicador de Pedidos Manufactureros y el Indicador de Confianza Empresarial del Sector Manufacturero; 2) cuatro indicadores duros nacionales: las tasas de crecimiento trimestral del producto interno bruto (PIB) real, del Indicador de Actividad Industrial Total y del Indicador de Actividad Industrial Manufacturera, además del crecimiento mensual del Indicador Global de la Actividad Económica (IGAE); y 3) dos indicadores duros regionales: las tasas de crecimiento trimestral del Indicador de la Actividad Económica Regional y del Indicador Regional de la Actividad Manufacturera.
Entre los principales resultados del trabajo sobresalen que: 1) los índices de sentimiento ponderados nacionales obtenidos con diferentes métodos muestran patrones en el tiempo muy similares entre ellos; 2) los índices de sentimiento regionales muestran patrones en el tiempo similares a los nacionales, si bien las correlaciones de estos al interior de las regiones no son tan fuertes como las nacionales; 3) los índices de sentimiento nacionales muestran correlaciones positivas con los dos indicadores oportunos nacionales de actividad económica; 4) los índices de sentimiento nacionales se correlacionan positivamente con los indicadores duros de actividad económica nacionales a niveles de significancia del 15%, con excepción de las correlaciones con la tasa de crecimiento trimestral del IGAE, donde las correlaciones no alcanzan este último nivel de significancia; 5) las correlaciones entre los índices de sentimiento regionales y los dos indicadores duros regionales de actividad son positivas y distintas de cero a niveles de significancia del 15% en casi todos los casos de la región norte; y 6) que las correlaciones entre los índices de sentimiento con los indicadores duros son menores a las correlaciones entre los indicadores suaves y duros.
La principal aportación de este trabajo es mostrar que la información en formato de texto contenida en las respuestas de los directivos entrevistados trimestralmente por el Banco de México en diferentes regiones del país para la elaboración del RER, al ser procesada con técnicas de aprendizaje automático, da lugar a índices de sentimiento que están correlacionados positivamente con diversos indicadores de coyuntura económica del INEGI. Más aún, estos índices de sentimiento podrían generarse -y, por tanto, publicarse- tan pronto se capture la información de un PED, a diferencia de los indicadores duros del INEGI, cuya publicación puede retrasarse desde cuatro semanas hasta cuatro meses.6
El trabajo se organiza como se indica a continuación. La segunda sección presenta una breve reseña del enfoque de análisis de sentimientos y de la utilización de técnicas de aprendizaje automático para generar índices de sentimiento. La tercera sección revisa la metodología utilizada para estimar los índices de sentimiento que se presentan en este trabajo. La cuarta sección muestra los índices de sentimiento estimados y sus respectivas correlaciones con los ocho indicadores de actividad económica regional y nacional. La quinta sección presenta los comentarios finales.
2. Indicadores de sentimientos basados en texto
La aparición y el desarrollo de las redes sociales, al facilitar la generación y comunicación de conocimiento y experiencias, el intercambio de opiniones y la creación de métodos más eficientes para conservar y procesar esa información, generaron incentivos para que empresas, proveedores de bienes y servicios, políticos, investigadores, entre otros actores, intentaran aprovecharlas para su toma de decisiones (D’Andrea et al., 2015). Un porcentaje significativo de esta información, no obstante, se caracterizó por ser presentada en formato de texto, poco sistematizada y sobre la cual las metodologías econométricas tradicionales no podían aplicarse. Por ello, se ha impulsado la adopción de técnicas alternativas, capaces de aprovechar esta información. Una de ellas es el análisis de sentimientos,7 el cual hace referencia a procesos o métodos que permiten detectar el sentimiento positivo o negativo contenido en un texto, ya sea una frase o una palabra. Para detectar dicho sentimiento, estos métodos se apoyan en la polaridad de una frase o una palabra (positiva, negativa o neutral), aunque también pueden capturar sentimientos y emociones (felicidad, enojo, tristeza, etc.), o incluso urgencia (urgente, no urgente).
En la medida que los métodos para el análisis de sentimientos se desarrollaron, sus campos de aplicación también se extendieron, de tal forma que actualmente su uso se aprecia en ámbitos tan diversos como las ciencias computacionales, las ciencias sociales, las ciencias administrativas, los negocios, así como en bancos centrales. Su aplicación fundamental ha sido extraer información, a partir de expresiones subjetivas, del sentimiento de palabras, oraciones subjetivas y tópicos (D’Andrea et al., 2015). El objetivo final de este campo de análisis es extraer, a partir de información en formato de texto, indicadores numéricos o índices de sentimiento.8 Dos definiciones básicas de índices de sentimiento se presentan en (1) y (2):
Estas definiciones se basan en los conteos de los documentos obtenidos mediante algoritmos, donde positivos se refiere a la cuenta total de documentos que, de acuerdo con los criterios de clasificación adoptados, trasmiten un sentimiento positivo; negativos se refiere a la cuenta total de documentos clasificados con sentimiento negativo, y neutrales al total de documentos clasificados con sentimiento neutral (o bien, que no pueden clasificarse).
Existen diferentes métodos para generar índices de sentimiento a partir de información en formato de texto, entre los que destacan: 1) el análisis de texto basado en diccionarios,9 2) el aprendizaje automático,10 y 3) los enfoques híbridos.11 Enseguida se explica brevemente en qué consiste el segundo enfoque, ya que es éste al que pertenecen las técnicas utilizadas en este trabajo para clasificar los documentos. Es conveniente mencionar que, una vez obtenidos los índices de sentimiento, se les comparará con índices que se desprenden de conteos parciales o totales de los documentos clasificados de manera manual por los investigadores interesados (índices anotados), como referencia a qué tan aceptable es la clasificación obtenida de los algoritmos utilizados. El diseño de un buen algoritmo debería generar una correlación elevada entre los índices que de él se desprenden y los “anotados”.
2.1 Algoritmos de aprendizaje automático
El aprendizaje automático hace referencia a algoritmos enfocados principalmente en predecir, clasificar, agrupar o generar clústeres de datos. Son particularmente útiles cuando se tiene gran cantidad de información en formato de texto cuya clasificación manual resulta muy costosa.12 En estos algoritmos el problema se aborda, en términos generales, como un problema de clasificación, en el que el clasificador es provisto de texto y regresa una categoría, por ejemplo: positivo, negativo o neutral.13 Estos algoritmos se clasifican en cuatro tipos: aprendizaje supervisado, aprendizaje no supervisado, semi-supervisado y por refuerzo.14 En este trabajo solo utilizamos algoritmos pertenecientes a las primeras dos categorías. De acuerdo con Athey (2018), los algoritmos de aprendizaje supervisado, utilizan un conjunto de características X para predecir un resultado Y. Aquí, el término predicción se refiere a que con un conjunto de datos observados y etiquetados, tanto de X como de Y , a los que se les denomina datos de entrenamiento, se desea anticipar los valores de Y contenidos en un conjunto de datos de prueba independientes, con los valores observados de X en el conjunto de prueba.15 En otras palabras, el objetivo es construir una función µ(x), que sea un estimador de µ(x) = E [Y |X = x] y que haga un buen trabajo para predecir los verdaderos valores de Y en un conjunto independiente de datos (Athey, 2018).16
Sobre los algoritmos de aprendizaje no supervisado, el mismo autor indica que éstos se orientan a encontrar clústeres de observaciones que son similares en términos de sus características, lo que puede interpretarse como una reducción de dimensiones, y es utilizado principalmente para clasificar video, imágenes y tópicos en información en formato de texto. En general, el producto final de esta clase de modelos es una partición de un conjunto de observaciones, donde las observaciones dentro de cada partición son similares de acuerdo con alguna métrica, o con un vector de probabilidades o ponderaciones que describen una mezcla de tópicos o grupos a los que pudiera pertenecer una observación. Estos algoritmos se conocen como no supervisados ya que no requieren de una clasificación inicial de la información, sino que es el algoritmo el que encuentra las categorías con base en el reconocimiento de patrones o anomalías en los datos (Athey 2018).17
2.2 Algunas aplicaciones en bancos centrales
El uso de estas herramientas en los bancos centrales se ha extendido en años recientes. Entre los realizados en algunos de los principales bancos centrales del mundo puede mencionarse, por ejemplo, el estudio de Suss y Treitel (2019) sobre el Banco de Inglaterra. Estos autores utilizan un algoritmo de aprendizaje automático supervisado (árboles de decisión aleatorios) para desarrollar un sistema de alerta temprana en torno a vulnerabilidades en el sistema bancario de Inglaterra el cual, de acuerdo con su evaluación, genera mejores resultados que los obtenidos con métodos de regresión.
En el caso de Estados Unidos, Pinto (2019) se apoya en una versión modificada del algoritmo de bolsa de palabras para clasificar comentarios vertidos en las Encuestas Manufacturera y de Servicios del Quinto Distrito del Sistema de la Reserva Federal de Richmond, y obtene r índices de sentimiento que posteriormente correlaciona con un índice de difusión compuesto de actividad económica provisto en las encuestas. El autor reporta que, en general, los índices de sentimiento y el índice de difusión tienden a comportarse en la misma dirección.
Uno y Adachi (2019), del Banco Central de Japón, utilizan métodos de aprendizaje automático para identificar a directivos de empresas que afirman no tener una expectativa cuantitativa de inflación, siendo que existe la posibilidad de que sí la tengan. Una vez identificado a este grupo de directivos, utilizan “propensity score matching” para obtener una estimación contrafactual de esas expectativas de inflación, reportando que estas no son estadísticamente distintas de las que se obtienen de directivos encuestados que sí comparten una cifra de inflación esperada.18
Por su parte, Azqueta-Gavaldón et al. (2020), del Banco Central Europeo, utilizan técnicas de aprendizaje automático no supervisado para clasificar notas diarias de la prensa escrita de Alemania, Francia, Italia y España de enero de 2000 a mayo de 2019, lo que les sirve de base para construir diversos indicadores de incertidumbre. Encuentran que sus índices de incertidumbre capturan eventos de ese periodo como reformas laborales, ajustes fiscales, el sentido del voto del Brexit y tensiones geopolíticas con mayor anticipación que otros índices de incertidumbre o bien, que no fueron capturados por estos últimos.
En el caso de México, Rho et al. (2021) aplican técnicas de análisis de texto a mensajes de Twitter en español correspondientes al periodo 2006-2019, para construir un índice de riesgo basado en el sentimiento para el sector financiero en México y lo comparan con distintos indicadores de estrés financiero, encontrando que su indicador de riesgo captura choques que no se reflejan en los índices existentes. También muestran que su índice se correlaciona positivamente con medidas de riesgo financiero, volatilidad del mercado accionario, riesgo de default soberano y volatilidad cambiaria.19
En cuanto a la aplicación de estas técnicas en la disciplina económica en general, Korab (2021) muestra que el número de trabajos de investigación que usan indicadores apoyados en algoritmos de aprendizaje automático publicados en cuatro de las más influyentes revistas de Economía (Quarterly Journal of Economics, American Economic Review, Econometrica y The Review of Economic Studies) se elevó notoriamente a partir de 2010. Otras referencias que revisan aplicaciones de análisis de sentimientos utilizando técnicas de aprendizaje automático en Economía son Gentzkow et al. (2019) y Algaba et al. (2020).
3. Análisis de sentimientos a partir del PED del Banco de México
La implementación de los algoritmos de aprendizaje automático involucra, en términos generales, los siguientes pasos: 1) identificar la base datos; 2) realizar un análisis exploratorio de la base de datos; 3) realizar el pre-procesamiento de la información; 4) etiquetar información y elegir los modelos que se utilizarán para clasificar los documentos; 5) entrenar los modelos y evaluarlos; y 6) proceder con la predicción, es decir, clasificar con base en el modelo entrenado, los documentos que se encuentran fuera del conjunto de datos de prueba.20 Enseguida describimos, a la luz de estos pasos, el proceso para identificar los modelos de aprendizaje automático adoptados en este trabajo para generar el etiquetado necesario para calcular los índices de sentimiento.
3.1 Base de datos
El PED del Banco de México tuvo sus inicios en enero de 2011. Las entrevistas, como se mencionó previamente, se realizan con frecuencia trimestral mediante entrevistas en persona o por teléfono, en los meses de enero, abril, julio y octubre de cada año y constan, en general, de tres secciones: 1) Actividad Económica, 2) Perspectivas y 3) Riesgos.21,22 La primera recaba información sobre el desempeño de la empresa o sector económico para el trimestre que termina; en la segunda se consulta a los directivos sobre sus perspectivas de producción a doce meses, y la tercera les consulta sobre los riesgos económicos que impulsarían o afectarían el desempeño, en el corto plazo, de la entidad federativa en la que opera su empresa. Las entrevistas constan de preguntas donde el entrevistado selecciona el comportamiento observado o esperado de variables como demanda, empleo, inversión y precios; así como de preguntas abiertas, donde se solicita al entrevistado respuestas en formato de texto relacionadas con factores que afectaron, afectan o que espera pudieran afectar, la actividad económica en su sector o entidad federativa, preguntas que, por cierto, han experimentado algunas modificaciones a lo largo del tiempo.23 Entre enero de 2011 y enero de 2021, se realizaron 19,364 entrevistas a directivos de empresas y a directivos de asociaciones empresariales (stakeholders) de las cuatro regiones en las que el Banco de México divide al país: norte, centro norte, centro y sur.24
La información recabada en las entrevistas ha sido utilizada para: 1) generar índices de difusión de actividad económica; y 2) como complemento descriptivo en los análisis sectoriales y regionales publicados en el RER.25 Las respuestas en formato de texto, o documentos, obtenidos a partir de las preguntas abiertas relacionadas con factores que afectaron, afectan o afectarán, la actividad económica en su sector o entidad federativa han sido utilizados hasta la fecha como se indica en el punto 3. La intención de este trabajo es utilizar estos documentos para construir índices de sentimiento.26 Descartando la “no respuesta”, el universo de información disponible para la elaboración de este trabajo (enero de 2011 a enero de 2021) está integrado por 116,197 documentos.
3.2 Análisis exploratorio
En esta etapa se lleva a cabo el análisis exploratorio, o de tópicos, que tiene como objetivo descubrir la estructura temática oculta en los documentos que serán utilizados (Blei, 2011). Para este análisis se consideró la base de datos completa. Existen diversos algoritmos para identificar los tópicos subyacentes de los documentos, entre los que se encuentran el LDA (Latent Dirichlet Allocation) y el LSA (Latent Semantic Analysis). En este trabajo se probaron ambos modelos de detección de tópicos (LDA y LSA) y se obtuvo una mejor detección con el segundo. Para determinar el algoritmo de identificación de tópicos a utilizar, se evaluó de forma subjetiva cuál de ellos generaba, a partir del conjunto de datos, tópicos en los cuales pudiera percibirse una separación clara entre los temas que engloban el conjunto de palabras que compone cada uno de dichos tópicos. De igual forma, el número de tópicos se determinó probando con distintos valores hasta encontrar una separación aceptable. De esta evaluación de la base de datos resultó una separación más clara de tópicos con LSA.
Debe enfatizarse que el parámetro de la cantidad de tópicos lo determina el diseñador, lo que implica cierta subjetividad. Así, la decisión sobre cuántos tópicos calcular se realizó de forma empírica, buscando identificarlos con base en palabras o frases utilizadas en la disciplina de Economía.27 De esta manera, como primer paso del análisis exploratorio se lematizaron las palabras (es decir, se agruparon de acuerdo con su significado) y se identificaron términos y secuencias de palabras que se repitieron con mayor frecuencia en el conjunto de documentos a utilizar. El Cuadro 1 muestra los 25 términos y frases más comunes, clasificados por unigramas, bigramas y trigramas (secuencias de una, dos y tres palabras), excluyendo previamente palabras funcionales presentes en los documentos. Enseguida, se llevó a cabo el análisis de tópicos, que busca encontrar la mezcla de tópicos que conforma un documento. Este se realizó para todos los PED en cada una de las tres secciones de la entrevista: 1) Actividad Económica, 2) Perspectivas y 3) Riesgos. Los resultados por sección fueron similares, por lo que aquí presentamos los tópicos agrupando las tres secciones.

Los tópicos, a su vez, están formados por una distribución de palabras que aparecen en mayor o menor medida en cada uno de ellos. Como resultado, lo que se obtiene son tópicos representados como una mezcla de palabras y con esto, los investigadores determinan cuáles son los más relevantes. El Cuadro 2 muestra los siete tópicos detectados, así como los términos más recurrentes en cada uno. Dichos tópicos se obtuvieron utilizando LSA, tomando en cuenta unigramas, bigramas y trigramas.

Adicionalmente, se realizó el análisis de tópicos de los comentarios por trimestre.28 Este análisis permitió determinar aquellos que dominaron los comentarios en cada periodo, cómo variaron en el tiempo, y cómo se relacionaron con la evolución de indicadores de actividad económica. La Gráfica 1 ilustra un ejemplo de cómo estos pueden brindar contexto a un indicador, en este caso, al IGAE. La gráfica destaca, por ejemplo, cómo la relevancia de los tópicos cambia en el tiempo. Así, la reforma fiscal es el más relevante del 3T-2013; un año más tarde dominan los relativos a la reforma energética y la economía de Estados Unidos, en tanto que la elección presidencial en Estados Unidos es el principal tópico del 3T-2016.29 En el 2T2018 el proceso electoral en México y la renegociación del Tratado de Libre Comercio de América del Norte (TLCAN) son los que resaltan; mientras que en el 1T-2020 el tipo de cambio y el COVID-19 son los relevantes. Finalmente, en el 2T-2020, cuando se contrae la actividad económica en México, el COVID-19 es el que destaca; en tanto que la vacunación en México y la economía de Estados Unidos aparecen como los dominantes durante el 1T-2021, acompañando así a la recuperación económica. Debe destacarse al realizar el análisis de tópicos por región y trimestre, la distribución de términos no permitió identificar claramente tópicos relevantes. A partir del PED de enero de 2016, sin embargo, cambiaron las preguntas para laborar el RER del 4T-2015, lo que elevó el número de respuestas por sección, permitiendo visualizar mejor tópicos regionales.30,31

3.3 Pre-procesamiento de la información
Antes de entrenar un modelo de aprendizaje automático se requiere realizar el pre-procesamiento de la información. Este paso involucra realizar diversas modificaciones para eliminar el mayor ruido posible de las bases de información. Cabe mencionar que los índices de sentimiento que se presentarán en la cuarta sección utilizarán solo los documentos obtenidos de los PED de enero de 2016 a enero de 2021. Para este trabajo se llevaron a cabo las siguientes acciones:
3.4 Etiquetado y elección del modelo para la clasificación de los documentos
Después de realizar el análisis exploratorio y pre-procesar la información, procedimos a revisar diversas metodologías de aprendizaje automático para la predicción del sentimiento. Estos modelos requieren una base previamente clasificada, o de prueba, por lo que el primer paso en su implementación fue asignar las etiquetas “positivo”, “negativo” y “neutral” a cada uno de los documentos obtenidos en las entrevistas de los PED de enero de 2016 a enero de 2021.32 Si bien los PED del RER iniciaron en enero de 2011, optamos por etiquetar solo los documentos de las entrevistas de los PED de enero de 2016 a enero de 2021, ya que en este periodo se elevó el número observaciones por región y las preguntas fueron más homogéneas en el tiempo. Esto permitió conformar una base de 76,895 documentos a partir de 9,802 entrevistas realizadas.
3.4.1 Asignación de etiquetas
En la literatura no existe una metodología estándar para realizar el etiquetado manual de los documentos, requisito para elaborar tanto los índices anotados, como para utilizar los algoritmos de aprendizaje automático. En relación con esta asignación de etiquetas, algunos trabajos de investigación reportan haber etiquetado todos los documentos, o bien, una fracción de estos, mediante una clasificación manual de dos etiquetadores de manera independiente.33 En ese trabajo, dos de los autores se encargaron de revisar y etiquetar, por separado, cada uno de los 76,895 documentos del periodo enero de 2016 a enero de 2021 en positivo, negativo y neutral, de acuerdo con criterios como los que se muestran en el Cuadro 3. Es conveniente señalar que estos 76,895 documentos se dividieron, a su vez, en dos subconjuntos. El primero, con 61,516 documentos (80% del total), el cual será utilizado en la etapa de “entrenamiento” de los modelos. El segundo, con los 15,379 documentos restantes (20% del total), el cual se usará en la etapa de “evaluación” del desempeño de dichos modelos. Las etapas de entrenamiento y evaluación se explican más adelante.

Para el etiquetado final de cada documento se tomó en consideración la clasificación realizada por ambos etiquetadores. En los casos en los que los etiquetadores discreparon en la asignación de una etiqueta, estas se sumaron a la categoría neutral. La distribución de las etiquetas fue la siguiente: 30,715 positivos; 31,156 negativos; y 15,024 neutrales.
3.4.2 Modelos de predicción del sentimiento
La elección de los modelos que pueden ser útiles en el proceso de generar índices de sentimiento se apoya en las características mismas de los documentos. Así, para la clasificación del sentimiento a partir de las características de la información en formato de texto de la que disponemos, se analizaron varios modelos de aprendizaje automático, entre los que se encuentran modelos clásicos como máquina de soporte vectorial, Naive Bayes, clasificador Ridge y árbol de decisión, además de modelos de redes neuronales recurrentes (RNN) y modelos de representación de codificador bidireccional de transformadores (BERT).
3.5 Entrenamiento, ejercicio de predicción y selección de modelos
Siguiendo la literatura, del total de los documentos revisados y clasificados por los etiquetadores (76,895), 80% se seleccionó para entrenar los modelos, y el 20% restante se reservó como conjunto de prueba. Esto nos dejó con 61,516 documentos para entrenar los modelos y 15,379 para la evaluación del desempeño de los modelos.
Para encontrar el modelo base, es decir, el que servirá como punto de referencia para la comparación de los modelos de redes propuestos en este trabajo, se probaron inicialmente los métodos clásicos de aprendizaje automatizado: máquinas de vectores soporte (SVM, por sus siglas en inglés), Naive Bayes, clasificador Ridge y árbol de decisión. Cada clasificador se probó con las siguientes representaciones del texto: bolsa de palabras (bag of words); frecuencia de términofrecuencia inversa de documento (TF-IDF); y los LSA 100, 300, 500 y 1000.34 Como resultado de estas pruebas se seleccionaron varios modelos. El algoritmo SVM, con la representación de texto TF-IDF (SVM+TF-IDF), mostró el mejor desempeño, indicado por el mayor
valor del estadístico F1-Macro, por lo cual se utilizará como referencia para comparar otros modelos (Cuadro 4).35 El F1-Macro se utiliza cuando se tienen datos desbalanceados, como ocurre en nuestra base de datos, ya que ésta se integra con 30,715 documentos positivos, 31,156 negativos y 15,024 neutrales (76,895 documentos en total). El F1-Micro es otro indicador de ajuste; éste, sin embargo, otorga el mismo peso a cada uno de los documentos clasificados y que aquí se presenta solo para propósitos de comparación. Sin embargo, ambos F1 arrojan el mismo resultado.

Finalmente, se probaron los modelos de RNN y BERT.36 El mejor modelo de RNN fue el que utilizó celdas GRU y vectores pre-entrenados FastText.37 En el caso de los modelos basados en BERT, se evaluaron dos modelos pre-entrenados en español (beto) y otro ajustado a la tarea de análisis de sentimiento (beto-sentiment-analysis), siendo este último el que mejor predijo el sentimiento para el conjunto de datos del que se dispone (Cuadro 5).38

Al final, los modelos con mejor ajuste empleando el criterio F1-Macro son: SVM TF+IDF (0.7643), RNN GRU 10L + FastText (0.7462) y BERT (beto-sentiment-analysis) (0.8397). En lo que resta del trabajo, nos referiremos a estos tres modelos simplemente como SVM, RNN y BERT, respectivamente.39
4. índices de sentimiento a partir del RER
Este trabajo tiene como objetivos principales obtener índices de sentimiento utilizando la información en formato de texto contenida en los PED y determinar si estos se asocian con indicadores suaves e indicadores duros de actividad económica.
Los índices de sentimiento a nivel regional y nacional que aquí se presentan son los que se desprenden de los clasificadores SVM, RNN y BERT. Estos se obtienen como se describe a continuación: una vez´ que se tienen etiquetados todos los documentos, se toman como base los conteos de cada categoría en la que estos fueron catalogados por cada uno de los clasificadores utilizados (SVM, RNN y BERT) con valor 1 (para documentos clasificados con sentimiento positivo), 0 (documentos clasificados como neutrales) y -1 (documentos clasificados con sentimiento negativo).40 Los índices de sentimiento regional (ISR) se construyen, a su vez, con las formulaciones que se definen en las expresiones 3 y 4 utilizando la clasificación derivada de los algoritmos:
Al índice (3) le llamamos “índice sin neutrales”, ya que deja fuera los documentos clasificados como neutrales; y al índice (4) le llamamos “índice con neutrales”, ya que cuenta a los documentos neutrales. En ambos índices, Positivos hace referencia a la cuenta de documentos clasificados como positivos, Negativos a la cuenta de negativos, y Neutrales a la cuenta de documentos neutrales, de la región r (norte, centro norte, centro, sur), o del país. En estos índices, n es el número de sectores, i hace referencia al sector productivo al que pertenece la empresa del directivo consultado de acuerdo con el PED, y j(t) es el trimestre más cercano al trimestre t en el que se tiene información del PIB regional. Por su parte, αri,j(t) captura la participación del PIB del sector i en el trimestre más cercano a la realización de la entrevista, en el PIB total de la región r, o del país, en el trimestre más cercano a la realización de la entrevista j(t).41 Por ejemplo, si la entrevista se realizó en enero de 2017, la ponderación se realizaría utilizando la información del PIB del 4T2016. Esta ponderación pretende ajustar el peso de las respuestas por la relevancia del sector al que pertenece el documento contabilizado en el índice respectivo. Esto es, la ponderación busca capturar de la mejor manera la estructura de la economía mexicana, dado que toma en cuenta el peso de los sectores productivos en un contexto regional y nacional.42,43 De acuerdo con estas definiciones, mayores valores de los índices sugieren mayores niveles de sentimiento positivo por parte de los entrevistados.
Con base en lo anterior, tenemos dos índices generados con la clasificación de documentos derivados del SVM (sin neutrales y con neutrales), dos del RNN y dos del BERT, para cada región, así como a nivel país. Ahora, para propósitos de identificar la calidad del ajuste de los distintos clasificadores (SVM, RNN y BERT), se obtuvieron también índices anotados excluyendo valores neutrales (anotados) e incluyendo valores neutrales (anotado c/n) por región y a nivel nacional, también con las fórmulas (3) y (4), y en los que se utiliza el etiquetado manual realizado en este trabajo de los 76,895 documentos. Estos dos índices anotados son clave para determinar si los algoritmos elegidos clasifican los documentos de manera cercana a la realizada por los etiquetadores. Un buen algoritmo debería, en teoría, generar índices de sentimiento cercanos a los obtenidos con los respectivos índices anotados bajo el supuesto de que el etiquetado manual se realizó de manera adecuada.44
4.1 índices de sentimiento nacionales y regionales ponderados
Un elemento esencial en el aprendizaje automático es que los índices obtenidos a partir de los algoritmos ajustados por los investigadores se aproximen a los índices anotados. Dicho esto, pasamos a revisar en primera instancia el comportamiento de los índices obtenidos con los etiquetados de los algoritmos SVM, RNN y BERT, con los etiquetados anotados, a nivel nacional. Un punto que conviene recordar nuevamente es que la información de los PED se obtiene solo en los meses de enero, abril, julio y octubre de cada año.
La Gráfica 2 muestra los seis índices de sentimiento obtenidos mediante los etiquetados derivados con los tres algoritmos de aprendizaje automático, y los dos índices anotados. Varios rasgos destacan de esta gráfica. En primer lugar, es evidente una asociación positiva entre los distintos índices con y sin datos neutrales. También resalta que los índices de sentimiento obtenidos mediante el etiquetado de los algoritmos RNN son, consistentemente, los que tienen los menores niveles. No obstante, la asociación entre los diferentes índices de sentimiento es confirmada con los coeficientes de correlación de Pearson que se muestran en el Cuadro 6. Ahí se aprecia que los coeficientes de correlación bivariados superan, en todos los casos, el nivel de 0.9654. Estos cálculos sugieren robustez en cuanto a la clasificación generada con los distintos modelos de aprendizaje automático. Además, abonan a la posibilidad de que cuando estos índices se asocien con los diferentes indicadores de actividad, se obtengan resultados similares.


Por otro lado, los índices de sentimiento parecen reflejar, de manera general, una variedad de episodios relacionados que percibieron los entrevistados en el periodo analizado y que, de alguna manera, capturan diversos hechos asociados con el comportamiento de la economía mexicana. Por ejemplo, entre el 4T-2015 y el 3T-2016, ésta se caracterizó por un estancamiento del sector industrial y, en particular, de las manufacturas (Banco de México, 2015, 2016a, 2016b). Ahora bien, en enero de 2016, los índices de sentimiento se ubicaron en un nivel bajo, subieron en abril, pero retrocedieron ligeramente en julio de ese año. En octubre de 2016, los distintos índices de sentimiento cayeron de manera precipitada, coincidiendo con una marcada volatilidad en los mercados financieros atribuible al proceso electoral en Estados Unidos, así como a una elevada volatilidad y una depreciación significativa de la moneda nacional (Banco de México, 2016c).
Con la llegada de Donald Trump a la presidencia de Estados Unidos surgieron preocupaciones relacionadas con la cancelación o renegociación del TLCAN, lo que se tradujo en volatilidad cambiaria y presiones adicionales a la baja de la inversión privada en México. En enero de 2017, la creciente expectativa de que la Administración Trump buscaría renegociar y no cancelar el TLCAN fue acompañada, a su vez, por un repunte en los índices de sentimiento. A partir de abril de 2017 y durante el 2018, la incertidumbre en torno al proceso electoral en México coincidió, a su vez, con una baja en los índices de sentimiento.
El relativo estancamiento de estos índices a lo largo de 2019 estuvo acompañado de una moderada contracción de la economía mexicana durante ese año, en un contexto de desaceleración de la economía mundial derivada de tensiones comerciales y elevados riesgos geopolíticos.45 Por otra parte, la reducción en los índices de sentimiento en enero de 2020, respecto de octubre 2019, se presentó en una etapa caracterizada por tensiones comerciales globales, riesgos geopolíticos y los riesgos de una propagación global de COVID-19.46 En abril de 2020, los índices de sentimiento se redujeron con respecto de sus niveles de enero. La caída de ese mes coincidió con el resguardo de las familias mexicanas para evitar contagiarse del virus, los cierres de actividades no esenciales por parte de las autoridades sanitarias mexicanas para contener el brote de COVID-19, el hecho de que medidas similares fueron implementadas en Estados Unidos (lo que detuvo las exportaciones hacia ese país), además de que empezaron a notarse los primeros efectos negativos asociados con las disrupciones a las cadenas globales de valor (Banco de México, 2020b).
En julio, mes en el que se alcanzó el pico de contagios y fallecidos de la llamada “primera ola” de COVID-19, los índices se recuperaron, comportamiento que fue acompañado de una reclasificación de algunas actividades económicas “no esenciales” a “actividades esenciales”. Por su parte, las entrevistas realizadas durante octubre revelan una contracción en los índices de sentimiento respecto de los obtenidos en julio, comportamiento que coincide con preocupaciones crecientes de una segunda oleada de contagios.
Finalmente, en enero de 2021, los índices de sentimiento se recuperaron nuevamente respecto de los de octubre de 2020, si bien de manera moderada, ante la expectativa de un repunte en los niveles de consumo privado asociado a una mayor movilidad, y el buen comportamiento de las exportaciones manufactureras no automotrices derivado, principalmente, de la recuperación de la economía de Estados Unidos (Banco de México, 2020c, 2021). La reciente recuperación de los índices, no obstante, ha resultado insuficiente para recuperar los niveles que alcanzaron en enero de 2017.
La Gráfica 3 muestra, a su vez, los índices de sentimiento ponderados regionales (norte, centro norte, centro y sur), donde se aprecian patrones similares entre dichos índices al interior de cada región. Asimismo, puede apreciarse que es en la región centro norte donde los distintos índices de sentimiento son más parecidos entre sí (mismo patrón en el tiempo y menos dispersos), seguidos por los de la norte. En contraste, los índices de sentimiento de las regiones centro y sur lucen más dispersos y con patrones distintos para algunos periodos.

Para revisar con mayor detalle los grados de asociación entre los índices de sentimiento al interior de las regiones, se construyó el Cuadro 7. Ahí se aprecian coeficientes de correlación positivos y superiores a 0.92 en todas las combinaciones de los índices de las regiones norte y centro norte; en tanto que en el centro todos son superiores a 0.91, con excepción de un coeficiente, que registra un nivel de 0.89. En el sur, en cambio, se observan correlaciones de hasta 0.74.

Asimismo, en todas las regiones, con excepción de la sur, la mayor correlación de los índices anotados se obtiene con los índices BERT. Será conveniente tener presente estos grados de asociación lineal entre los indicadores a nivel nacional, como al interior de las regiones, una vez que se relacionen con los distintos indicadores de actividad económica que se utilizarán en este trabajo.
4.2 índices de sentimiento versus indicadores suaves de actividad económica
Pasamos ahora a revisar las correlaciones entre los índices de sentimiento y un conjunto de indicadores suaves de actividad económica. Dada la definición de estos indicadores suaves, se espera que mayores niveles de estos se correlacionen positivamente con mayores niveles de los índices de sentimiento. El primer ejercicio consiste en correlacionar contemporáneamente los indicadores de sentimiento nacionales con dos indicadores oportunos (suaves) representativos a nivel nacional publicados por el INEGI: el Indicador de Pedidos Manufactureros (IPM) y el Indicador de Confianza Empresarial del Sector Manufacturero (ICEMP).47 En estos indicadores no existe un rezago en su publicación; es decir, una vez que cierra el mes de referencia para el levantamiento de la información necesaria para elaborar dicho indicadores, su reporte del mes se publica el primer día hábil del siguiente mes.48 En este sentido, los periodos de captura y procesamiento de información de estos indicadores mensuales son similares a los de nuestros índices de sentimiento. Dado que los indicadores de sentimiento se elaboran con información procedente de entrevistas realizadas en los meses de enero, abril, julio y octubre de cada año, como lo requiere el RER, las correlaciones contemporáneas implican que los meses del IPM e ICEMP correspondan con los cuatro meses señalados arriba. Dicho esto, pasamos a analizar correlaciones contemporáneas entre estos indicadores.
Dado que el IPM y el ICEMP son representativos a nivel nacional, se correlacionaron con los índices de sentimiento nacionales ponderados. Los resultados se muestran en el Cuadro 8. Se puede apreciar que los coeficientes de correlación entre estos dos indicadores con cada uno de los diferentes índices de sentimiento nacionales resultaron positivos y estadísticamente distintos de cero a niveles de significancia del 1%. En el caso del IPM, los coeficientes de correlación fluctuaron entre un mínimo de 0.5781 y un máximo de 0.6373, en tanto que para el ICEMP fluctuaron entre 0.6512 y 0.7449. En otras palabras, las respuestas en formato de texto ofrecidas por los directivos entrevistados por el Banco de México para la elaboración del RER proveen, en general, señales que van en la misma dirección que las obtenidas a partir de los dos indicadores suaves de actividad económica a nivel nacional estimados por el INEGI con metodologías y muestras distintas.

4.3 índices de sentimiento versus indicadores duros de actividad económica nacionales
Esta sección analiza en qué medida los índices de sentimiento nacionales se asocian con indicadores duros de actividad económica. Las variables son tasas de crecimiento entre el periodo t y el periodo t_1, y todas son estacionarias (Cuadro A7 del apéndice). Las tasas de crecimiento son trimestre a trimestre previo para todas las variables, con excepción del IGAE, en la que se toma la tasa de crecimiento mes a mes previo.
El Cuadro 9 presenta las correlaciones entre los indicadores de sentimiento nacionales y los cuatro indicadores de actividadeconómica nacional propuestos para el ejercicio: crecimiento trimestral del PIB (TCPIB), tasa de crecimiento mensual del IGAE (TCIGAE), tasa de crecimiento trimestral del indicador de actividad industrial (TCIMAI) y la tasa de crecimiento trimestral del indicador mensual de la actividad manufacturera (TCIMAIMAN).

Los resultados muestran, nuevamente, correlaciones positivas en todos los casos. Estas correlaciones, no obstante, son más bajas que las obtenidas con los indicadores suaves, y son distintas de cero, en la mayoría de los casos, a un nivel de significancia de solo 15% para las variables TCPIB, TCIMAI y TCIMAIMAN. En particular, los coeficientes
de correlación se ubican entre 0.35 y 0.37 en el caso de TCPIB; entre 0.33 y 0.37 en el caso de TCIMAI, y entre 0.34 y 0.37 en el caso de TCIMAIMAN. En los casos del TCPIB y TCIMAIMAN, las correlaciones con los índices de sentimiento nacionales muestran niveles de significancia más cercanos al 10% que al 15%. En el caso de TCIGAE, los coeficientes de correlación se ubicaron entre 0.31 y 0.34, y si bien solo dos coeficientes alcanzaron el nivel de significancia de 15%, la mayoría de ellos está cerca de éste. Aquí, la relevancia de encontrar asociaciones estadísticamente significativas se eleva ya que cuatro de los indicadores duros propuestos tienen un rezago en su publicación de aproximadamente ocho semanas, y dos de ellos tienen un rezago de cuatro meses.
Esto indica, nuevamente, que la información en formato de texto provista por los entrevistados en las entrevistas concedidas para la elaboración del RER ofrece señales en la dirección correcta, ya sea al alza o a la baja, de la actividad económica en su conjunto, de la actividad industrial en su totalidad, y de la industria manufacturera en particular. Esto puede ser de utilidad, dado el rezago de ocho semanas que caracteriza la publicación de estos cuatro indicadores.
También se exploró el grado de asociación entre los indicadores de sentimiento regional con dos indicadores de actividad económica regional; en este caso, las tasas de crecimiento respecto del trimestre previo de los ITAER y los ITAER del sector manufacturero (TCITAER y TCITAERMAN, respectivamente). El Cuadro 10 presenta las correlaciones entre los valores de los TCITAER y los valores de los índices de sentimiento obtenidos a partir de los distintos algoritmos. En esta ocasión, se aprecia una asociación entre estos de manera general solo en el norte, en tanto en el resto de las regiones las correlaciones escasamente alcanzan el 15% de significancia.

El Cuadro 11 muestra las correlaciones entre TCITAERMAN con respecto de los índices de sentimiento regionales, donde resalta que estos son especialmente importantes para capturar la evolución del desempeño del sector manufacturero de la región norte. Es decir, los comentarios expresados por los informantes de esa región en torno al crecimiento de la actividad manufacturera se reflejan adecuadamente en el comportamiento de los índices de sentimiento en el norte, al obtenerse coeficientes de correlación estadísticamente distintos de cero a niveles de significancia de 5% y 10%. Esta región del país, conviene resaltar, es la que tiene también la mayor participación de dicha actividad en la estructura económica nacional. En cambio, en el resto de las regiones, los resultados sugieren que los índices de sentimiento regionales no alcanzan a capturar la actividad de sus respectivos sectores manufactureros, con la excepción del sur, donde solo un índice de sentimiento (SVM) presentó una correlación significativa, quizá como resultado del poco peso que este sector recibe en las entrevistas.

En cambio, es posible que los índices de sentimiento de, por ejemplo, la región sur, estén más relacionados con indicadores duros del sector de servicios de restaurantes y hoteles, dado el peso que este sector recibe en el reporte. El RER, conviene destacar, distribuye las entrevistas al interior de cada región en función de la participación relativa de los diferentes sectores en el PIB total de su respectiva región.
Esto mismo explicaría por qué en el Cuadro 12, la región norte, donde las entrevistas del sector manufacturero reciben mayor peso relativo que en el resto de las regiones, registra una correlación positiva y estadísticamente significativa entre sus índices de sentimiento regionales y el ITAERMAN de su región, algo que no se observa en el resto de las regiones.

Un último punto por resaltar, respecto de las asociaciones entre los índices de sentimiento y los indicadores duros de actividad económica, se presenta en el Cuadro 13. Este cuadro sugiere que los índices de sentimiento nacionales capturan relativamente mejor los ciclos económicos de las regiones centrales y, en menor medida, del norte. Esto se aprecia en el hecho de que los coeficientes de correlación entre los índices de sentimiento nacionales y los indicadores de actividad económica de las regiones centro norte y centro son mayores y estadísticamente distintos de cero a niveles de significancia de 5% en todos los casos. Esto podría responder a que las regiones guardan relativamente una mayor similitud en su estructura económica con la economía nacional. La actividad económica de la región norte reporta una asociación positiva con los índices de sentimiento nacionales, si bien menos estrecha en comparación con las regiones centrales, y con niveles de significancia de 10%. Cabe recordar la vocación económica de la región norte, orientada mayormente hacia las actividades manufactureras, especialmente de exportación, característica que la hace relativamente distinta al resto de las regiones del país. En relación con la región sur, los indicadores de sentimiento nacionales no logran capturar el comportamiento de la actividad económica de esta región, lo cual podría atribuirse a que la estructura de su economía es relativamente más dependiente de la minería petrolera y de la actividad turística.

4.4 índices de sentimiento versus indicadores duros de actividad económica nacionales
Finalmente, es relevante mencionar que, si bien los coeficientes de correlación entre los indicadores de sentimiento y los indicadores duros son positivos, la evidencia señala que los dos indicadores suaves que aquí se presentan (IPM e ICEMP) muestran una correlación positiva y estadísticamente significativa con tres indicadores duros de actividad (TCPIB, TCIMAI y TCIMAIMAN), la correlación entre los dos indicadores suaves y todos los indicadores duros (TCPIB, TCIGAE, TCIMAI y TCIMAIMAN) es notoriamente más alta (Cuadro 14). Esto indica que los índices de sentimiento aquí estimados son pertinentes para anticipar la dirección de diversos indicadores de actividad económica; sin embargo, es necesario explorar con más detalle otros algoritmos de aprendizaje automático y continuar actualizando la base de datos para aplicar los algoritmos necesarios en la generación de los índices de sentimiento.

5. Comentarios finales
Este trabajo presentó estimaciones de diversos índices de sentimiento regionales y nacionales obtenidos a partir de los PED realizados para la elaboración del Reporte sobre las Economías Regionales del Banco de México, entre enero de 2016 y enero de 2021. Utilizando un total de 76,895 documentos (respuestas en formato de texto), obtenidos de un total de 9,802 entrevistas, los índices de sentimiento se correlacionaron con un conjunto de indicadores suaves (de opinión) y duros de actividad económica nacionales y regionales.
Los resultados obtenidos muestran que los índices de sentimiento se correlacionan contemporáneamente de manera positiva con diversos indicadores de actividad económica. En particular, las correlaciones son estadísticamente distintas de cero entre los índices de sentimiento nacionales y los Indicadores de Pedidos Manufactureros y de Confianza Empresarial del Sector Manufacturero; en tanto que, con las tasas de crecimiento trimestral del PIB nacional, del Indicador Mensual de Actividad Industrial Total y de la Actividad Industrial Manufacturera, las correlaciones son significativas al 15%. A nivel regional, los índices de sentimiento solo resultaron relevantes para capturar el comportamiento de la tasa de crecimiento del Indicador Trimestral de la Actividad Económica Regional y de la tasa de crecimiento del Indicador Trimestral de la Actividad Manufacturera Regional en el norte.
Una aportación de este trabajo consiste en haber generado etiquetas para entrenar futuros modelos de predicción basados en aprendizaje automático, frente a la alternativa de generar las etiquetas haciendo uso, por ejemplo, de diccionarios pre-entrenados, que son más rígidos a los cambios de la estructura temática y a la evolución del idioma. Asimismo, los algoritmos entrenados en este documento para la detección de tópicos y clasificación de los sentimientos nacional y regional podrán continuar usándose para procesar, de manera automática, la información en formato de texto capturada en los PED, a fin de estimar índices de sentimiento y obtener información más oportuna de la actividad económica nacional y regional.
No obstante, este trabajo aún ofrece áreas de oportunidad. Por ejemplo, dado que en la asignación manual de las etiquetas se clasificaron como “neutrales” los comentarios que carecían de sentido por sí mismos, podría considerarse en futuros proyectos incorporar a la clasificación otros elementos de contexto, como el sector al que pertenecen las empresas o la entidad federativa en la que se ubican. Asimismo, no se exploraron medidas alternativas de correlación, las cuales pudieran utilizarse como medidas de robustez de los resultados obtenidos en este trabajo. También, la utilidad de los índices de sentimiento que aquí se obtuvieron pudiera evaluarse de manera más formal al incluirlos, por ejemplo, como variables explicativas en análisis econométricos donde la variable dependiente sea algún indicador duro de actividad económica. Otra área de oportunidad es explorar las asociaciones de estos índices con indicadores económicos que no se consideraron aquí. En específico, es posible que los índices de sentimiento de la región sur se asocien con indicadores de actividad turística, o del ramo energético, y no tanto con indicadores de actividad manufacturera de esa región.
Una limitante que debemos reconocer es que los modelos de aprendizaje automático, que son la base para la construcción de nuestros índices de sentimiento, no se recomiendan para situaciones en las que se tienen “pocos” datos, ya que los algoritmos pueden aprender patrones o hacer inferencias basados, principal o exclusivamente, en las características del grupo mayoritario, lo que pudiera llevar a ignorar información relevante.49 El trabajo que aquí se presenta debe interpretarse, por tanto, como una primera aproximación en cuanto a la capacidad de los índices de sentimiento basados en información en formato de texto del PED del Banco de México para complementar, de manera más oportuna, la información provista por datos duros y suaves de actividad económica en México.
Agradecimientos
Agradecemos a Alejandro Noriega, Diana Martínez, Ramsés Franco y Eduardo Sandoval por todo su apoyo a lo largo de este proyecto, así como a Víctor Muñiz, Hairo Miranda, Tatiana Rueda y Víctor López, de CIMAT-Monterrey, por sus consejos y asesoría durante la elaboración de este documento. Los autores agradecen también los comentarios de Caterina Rho, Raúl Fernández, Alejandrina Salcedo y Juan Carlos Chávez, así como el apoyo de Vanessa Gutiérrez y Luis Fernando Colunga. Todos los errores son responsabilidad de los autores.
Leonardo E. Torre: leonardo.torre@banxico.org.mx
Eva E. González: egonzalezg@banxico.org.mx
Luis R. Casillas: lcasillas@banxico.org.mx
Jorge A. Alvarado: jorge.alvarado@banxico.org.mx
Referencias
Algaba, A., D. Gardia, K. Bluteau, S. Borms y K. Boudt. 2020. Econometrics meets sentiment: An overview of methodology and applications, Journal of Economic Surveys, 34(3): 512-547.
Alloghani, M., D. Al-Jumeily, J. Mustafina, A. Hussain y A.J. Aljaaf. 2020. A systematic review on supervised and unsupervised machine learning algorithms for data science, en M. Berry, A. Mohamed y B. Yap (eds.), Supervised and Unsupervised Learning for Data Science, Springer.
Anandarajan, M., C. Hill y T. Nolan. 2019. Semantic space representation and latent semantic analysis, en Practical Text Analytics, Advances in Analytics and Data Science, Vol. 2, Springer.
Aragón, M., M. Carmona, M. Montes, H. Escalante, L. Villaseñor y D. Moctezuma. 2019. Overview of MEX-A3T at IberLEF 2019: Authorship and aggressiveness analysis in Mexican Spanish tweets, documento presentado en SEPLN Workshop on Iberian Languages Evaluation Forum (IberLEF), Bilbao.
Arora, S. 2021. Data mining vs. machine learning: The key difference, http://www.simpli learn.com/data-mining-vs-machine-learning-article.
Athey, S. 2018. The impact of machine learning on Economics, en A. Agrawal, J. Gans y A. Goldfarb (eds.), The Economics of Artificial Intelligence: An Agenda, National Bureau of Economic Research.
Azqueta-Gavaldón, A., D. Hirschbühl, L. Onorante y L. Saiz. 2020. Economic policy uncertainty in the Euro area: An unsupervised machine learning approach, Working Paper Series No. 2359, European Central Bank.
Banco de México. 2015. Informe trimestral octubre-diciembre, https://www.banxico.org.mx/publicaciones-y-prensa/informes-trimestrales/%7B94CE88E53F13-4707-8038-30A0F49D6E47%7D.pdf.
Banco de México. 2016a. Informe trimestral enero-marzo, https://www.banxico.org.mx/publicaciones-y-prensa/informes-trimestrales/%7BA3AA2471-B70C-DAA2-01DF-EA06C6546B6A%7D.pdf
Banco de México. 2016b. Informe trimestral abril-junio, https://www.banxico.org.mx/publicaciones-y-prensa/informes-trimestrales/%7BAD156BB0-60B7-947E-A9EF-9C96AB882667%7D.pdf.
Banco de México. 2016c. Informe trimestral julio-septiembre, https://www.banxico.org.mx/publicaciones-y-prensa/informes-trimestrales/%7BD093DF85-0D83-3DD2-A533-3431AFAFE3A1%7D.pdf.
Banco de México. 2019. Informe trimestral octubre-diciembre, https://www.banxico.org.mx/publicaciones-y-prensa/informes-trimestrales/%7B0DED33B2FF70-345D-53BE-77EA35A0D743%7D.pdf.
Banco de México. 2020a. Informe trimestral enero-marzo, https://www.banxico.org.mx/publicaciones-y-prensa/informes-trimestrales/%7B23C2DCA8-4AD3-FBE0-B0BF-4D30C8066B84%7D.pdf.
Banco de México. 2020b. Reporte sobre las economías regionales julio-septiembre, https://www.banxico.org.mx/publicaciones-y-prensa/reportes-sobre-las-economias-regionales/%7B8427BCB2-D8F2-C28A-8DD4-EB8DD9770681%7D.pdf.
Banco de México. 2020c. Informe trimestral octubre-diciembre, https://www.banxico.org.mx/publicaciones-y-prensa/informes-trimestrales/%7B81BD569DDD6E-885A-A67F-5664A37B4148%7D.pdf.
Banco de México. 2021. Informe trimestral enero-marzo, https://www.banxico.org.mx/publicaciones-y-prensa/informes-trimestrales/%7B49D9C039-CE93-FC5A-59A6-DFF7579FDB26%7D.pdf.
Barocas, S. 2014. Data mining and the discourse on discrimination, documento presentado en KDD ’23: Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, California.
Benhabib, J. y M. Spiegel. 2017. Sentiment and economic activity: Evidence from U.S. states, NBER Working Paper No. 23899.
Blei, D. 2011. Introduction to probabilistic topic models, Communications of the ACM, 55(4): 77-84.
Bojanowski, P., E. Grave, A. Joulin y T. Mikolov. 2017. Enriching word vectors with subword information, Transactions of the Association for Computational Linguistics, 5: 135-146.
Boyd, D. y K. Crawford. 2012. Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon, Information, Communication and Society, 15(5): 662-679.
Campos-Vázquez, R.M., B. López-Araiza y E. Sergio. 2020. Grandes datos, Google y desempleo, Estudios Económicos, 35(1): 125-151.
Cho, K., B. Van Merriënboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk y Y. Bengio. 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation, ArXiv preprint, arXiv:14 06.1078.
D’Andrea, A., F. Ferri, P. Grifoni y T. Guzzo. 2015. Approaches, tools and applications for sentiment analysis implementation, International Journal of Computer Applications, 125(3): 26-33.
De Bondt, G. y S. Schiaffi. 2015. Confidence matters for current economic growth: Empirical evidence for the Euro-area and the United States, Social Science Quarterly, 96(4): 1027-1040.
Devlin, J., M. Chang, K. Lee y K. Toutanova. 2018. BERT: Pre-training of deep bidirectional transformers for language understanding, ArXiv preprint, arXiv: 1810.04805.
Díaz, M. y J. Huerta. 2020. Co-movimiento entre los índices de confianza del consumidor de México y Estados Unidos 2001-2018, Economía, Sociedad y Territorio, 20(62): 123-150.
Doerr, S., L. Gambacorta y J. Serena. 2021. Big data and machine learning in central banking, BIS Working Paper No. 930, Bank for International Settlements.
Garrett, T., R. Hernández-Murillo y M. Owyang. 2004. Does consumer sentiment predict regional consumption?, Federal Reserve Bank of St. Louis Review, 87(2): 123-35.
Gentzkow, M., K. Bryan y M. Taddy. 2019. Text as data, Journal of Economic Literature, 57(3): 535-574.
González, C. y M. Herman. 2020. Foreign exchange forecasting via machine learning, https://cs229.stanford.edu/proj2018/poster/76.pdf.
Hatzivassiloglou, V. y K. McKeown. 2002. Predicting the semantic orientation of adjectives, en 35th Annual Meeting of the Association for Computational Linguistics, Madrid, Association for Computational Linguistics.
Jurafsky, D. y J. Martin. 2020. Speech and language processing, tercera edición (borrador), https://web.stanford.edu/jurafsky/slp3/.
Kay, M, C. Matuszek y S. Munson. 2015. Unequal representation and gender stereotypes in image search results for occupations, en Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems, Nueva York, Association for Computational Linguistics.
Kim, S. y E. Hovy. 2004. Determining the sentiment of opinions, en Proceedings of International Conference on Computational Linguistics, Ginebra, Coling.
Korab, P. 2021. Use of machine learning in economic research: What the literature tells us, https://towardsdatascience.com/use-of-machine-learning-ineconomic-research.
Medhat, W., A. Hassan y H. Korashy. 2014. Sentiment analysis algorithms and applications: A survey, Ain Shams Engineering Journal, 5(4): 1093-1113.
Miller, C. y C. Dwork. 2015. Algorithms and bias: Q. and A., New York Times, http://www.nytimes.com/2015/08/11/upshot/algorithms-and-biasq-and-a-with-cynthia-dwork.html.
Moritz, H. 2014. How big data is unfair, https://medium.com/@mrtz/how-bigdata-is-unfair-9aa544d739de.
Muñiz, V. 2020. Una consulta sobre técnicas de aprendizaje automático, Entrevista presencial, Centro de Investigación en Matemáticas A.C. Monterrey.
Nasukawa, T. y J. Yi. 2003. Sentiment Analysis: Capturing Favorability using Natural Language Processing, Nueva York, Association for Computing Machinery.
Pang, B., L. Lee y S. Vaithyanathan. 2002. Thumbs up? Sentiment classification using machine learning techniques, en Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP 2002), Nueva York, Association for Computational Linguistics .
Pinto, S. 2019. Sentiment analysis of the fifth district manufacturing and service surveys, Economic Quarterly, 105(9): 133-164.
Prabowo, R. y M. Thelwall. 2009. Sentiment analysis: A combined approach, Journal of Informetrics, 3(2): 143-157.
Rho, C., R. Fernández y B. Palma. 2021. A sentiment based indicator for the Mexican financial sector, Documento de Investigación No. 2021-04, Banco de México.
Rosenbaum, P. y D. Rubin. 1983. The central role of the propensity score in observational studies for causal effects, Biometrika, 70(1): 41-55.
Salhin, A., M. Sherif y E. Jones. 2016. Managerial sentiment, consumer confidence and sector returns, International Review of Financial Analysis, 47: 24-38.
Santero, T. y N. Westerlund. 1996. Confidence indicators and their relationship with changes in economic activity, OECD Working Papers No. 170.
Stsiopkina, M. 2022. Hard vs. soft data: The difference, https://oxylabs.io/blog/hard-data-vs-soft-data.
Suss, J. y H. Treitel. 2019. Predicting bank distress in the UK with machine learning, Staff Working Paper No. 831, Bank of England.
Sutton, R. y A. Barto. 2018. Reinforcement Learning, Estados Unidos, The MIT Press.
Sweeney, L. 2013. Discrimination in on-line ad delivery, Queue, 11(3): 1-20.
Taboada, M., J. Brooke, T. Tofiloski, K. Voll y M. Stede. 2011. Lexicon-based methods for sentiment analysis, Computational Linguistics, 37(2): 267-307.
Turney, P. 2002. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews, ArXiv preprint, arXiv: cs/0212032.
Uno, Y. y K. Adachi. 2019. Calculating non-response bias in firms inflation expectations using machine learning techniques, Working Paper Series No.19E-17, Bank of Japan.
Wallach, H. 2014. Big data, machine learning, and the social sciences: Fairness, accountability, and transparency, https://medium.com/@hannawallach/bigdata-machine-learning-and-the-social-sciences-927a8e20460d.
Weng, L. 2021. Learning with not enough data. Part 1: Semi-supervised learning, https://lilianweng.github.io/posts/2021-12-05-semi-supervised/
Wiesalla, L. 2021. The machine learning workflow. Concepts and applications, https://www.nextlytics.com/blog/machine-learning-workflow.
Witten, I., E. Frank, M. Hall y C. Pall. 2017. Data Mining: Practical Machine Learning Tools and Techniques, Elsevier, Morgan Kaufmann Publishers.
Apéndice





Procedimiento para entrenar las redes: RNN y BERT
Para entrenar las RNN se probaron distintas configuraciones de hiperparámetros con el fin de determinar el mejor tamaño del estado oculto y la capa de embeddings (entrada). Se observó que variar estos hiperparámetros modifica bastante el rendimiento del modelo obtenido. El mejor resultado se obtuvo con un tamaño de estado oculto de 40 y embedding de 10. Todo esto se probó con una red recurrente simple. Una vez obtenidos estos parámetros, se probaron distintas celdas recurrentes LSTM y GRU con un número distinto de capas: 1, 3, 5 y 10. Los mejores resultados para este tipo de redes se obtuvieron con una celda GRU y 10 capas. Adicionalmente, se probó utilizar vectores pre-entrenados fasttext en español, como capa de entrada. Esta modificación mejoró el F1 score. Cabe mencionar que cuatro épocas de entrenamiento fueron suficientes para obtener el mejor F1 en el conjunto de pruebas. Entrenar por más épocas sobreajusta y no mejora en el conjunto de pruebas. La tasa de aprendizaje fue de 1e-3.
Por su parte, el entrenamiento de las redes BERT fue más sencillo. Se utilizó el modelo pre-entrenado en un corpus en español BETO, y adicionalmente se utilizó una versión de BETO ya ajustada en la tarea de análisis de sentimiento. Se agregó una capa de clasificación después de la última capa del codificador. La intención fue ajustar finamente (fine tunning) el modelo pre-entrenado y la capa de clasificación a la tarea de análisis de sentimiento y, en particular, al dominio de la entrevista regional. Por esta razón se utiliza una tasa de aprendizaje muy baja, 2e-5, y evitar destruir los pesos ya aprendidos durante el preentrenamiento de BETO. En este modelo fue necesario ajustar por 2 épocas para obtener los mejores resultados. El Cuadro A6 muestra los resultados obtenidos.





Notes