Resumen: La ausencia de datos en series temporales de variables meteorológicas es un inconveniente en las ciencias ambientales, especialmente en lo que respecta a la precipitación, que es una variable clave en varios campos. Ahora bien, el presente estudio se propuso comparar varios métodos estadísticos y matemáticos para generar datos pluviométricos faltantes en la microcuenca del río Pita, tales como el método de Paulhus y Kohler, la regresión lineal múltiple (RLM), la transformada de Wavelet y las redes neuronales artificiales; utilizando información de la red hidrometeorológica del Fondo para la Protección del Agua (FONAG) de Quito. Las redes neuronales artificiales fueron altamente efectivas para generar datos pluviométricos en la zona de estudio,con coeficientes de determinación (𝑅2) superiores a 0.64; y raíces del error cuadrático medio menores (RMSE) a 3.4. Además, la regresión lineal múltiple presentó buenas correlaciones entre los datos reales y los datos generados. Sin embargo, la insuficiente linealidad entre variables independientes hace que se pierda confiabilidad estadística. En contraste, el método de Paulhus y Kohler, junto con la transformada de Wavelet, demostraron ser menos eficaces, mostrando una correlación deficiente y altos errores en los datos simulados. Estos hallazgos subrayan la importancia de elegir cuidadosamente los métodos de estimación de datos pluviométricos en zonas de páramo para garantizar la precisión y la fiabilidad de los resultados en la gestión de recursos hídricos.
Palabras clave: precipitación, meteorología, modelo matemático, estadística, recurso hídrico.
Abstract: Theabsenceoftimeseriesdataonmeteorologicalvariablesisadrawbackinenvironmental sciences, especially with regard to precipitation, which is a key variable in several fields. Now, the present study aimed to compare several statistical and mathematical methods to generate missing pluviometric data in the microbasin of the Pita River, such as the Paulhus and Kohler method, multiple linear regression (MLR), Wavelet transform and artificial neural networks, using information from the hydrometeorological network of the Fund for Water Protection (FONAG) of Quito. The artificial neural networks were highly effective in generating pluviometric data in the study area, with coefficients of determination (𝑅2) higher than 0.64; and root mean squared error (RMSE) lower than3.4. In addition, multiple linear regression showed good correlations between real data and generated data; however, the insufficient linearity between independent variables makes it lose statistical reliability. In contrast, the Paulhus and Kohler method, together with the Wavelet transform, proved to be less effective, showing poor correlation and high errors in the simulated data. These findings underscore the importance of carefully choosing methods for estimating rainfall data in paramo areas to ensure the accuracy and reliability of results in water resources management.
Keywords: precipitation, meteorology, mathematical modeling, statistics, water resource.
SECCIÓN B: CIENCIAS DE LA VIDA
Evaluación de métodos estadísticos y matemáticos para estimar datos pluviométricos faltantes en la microcuenca del río Pita, Pichincha, Ecuador
Recepción: 27 Febrero 2024
Aprobación: 11 Abril 2024
Los fenómenos climáticos influyen en la producción y suministro de recursos para la población, por lo tanto, cada país tiene la responsabilidad de supervisar las condiciones climáticas y sus cambios para realizar predicciones a corto, mediano y largo plazo [1]. Por tal razón, la ausencia de datos en series temporales de distintas variables meteorológicas (temperatura, precipitación, humedad relativa, velocidad del viento, etc.) es un inconveniente en las ciencias ambientales [2]. Cabe mencionar que algunos procedimientos de análisis pueden adaptarse a esta situación, pero otros requieren series completas [3]. Problemas comunes asociados con la falta de datos incluyen: la operación de estaciones meteorológicas de forma manual, la recopilación de información en momentos inoportunos, el mal funcionamiento de sensores automáticos y situaciones externas como interrupciones en el suministro eléctrico [4]. Además, la presencia de valores atípicos (outliers) puede considerarse como carencia de información en algunos estudios ambientales, dado que se descartan al ser tomados como errores instrumentales de los equipos de medición; caso contrario, tienen el potencial de afectar negativamente los resultados de un modelo numérico [5]. No obstante, es importante mencionar que, aunque estos tienen características diferentes al resto de información, numerosos estudios los incluyen dado que su eliminación podría resultar en la pérdida de información valiosa del fenómeno investigado [6].
Dentro de este marco, la precipitación es crucial, tanto en investigaciones hidrogeológicas, considerando que constituye el insumo principal para calcular balances hídricos y emitir alertas tempranas sobre posibles riesgos de sequía [7], como para la agricultura, en estudios de disponibilidad de lluvia para el diseño de mecanismos de recolección para lugares donde el acceso al agua es limitado [8]. Asimismo, es fundamental en el análisis de eventos extremos dentro del contexto del cambio climático [9]. Esta variable desencadena el ciclo hidrológico en la etapa terrestre, presentándose de manera aleatoria en relación al tiempo y espacio [10]. Por consiguiente, el análisis de eventos meteorológicos para la elaboración de modelos hidrológicos o la planificación de proyectos hidráulicos requieren principalmente de datos pluviométricos de alta calidad [11].
Ahora bien, cerca del 85 % del abastecimiento de agua para el Distrito Metropolitano de Quito (DMQ) tiene su origen en los páramos [12] y, una de las zonas más importantes,
es la microcuenca del río Pita, reconocida como una de las fuentes hídricas clave para la ciudad; su río se integra a la cuenca alta del río Guayllabamba, que a su vez está incluida en la cuenca del río Esmeraldas [13]. El río Pita es responsable del 38 % de agua potable para el sur y centro de Quito, aportando un caudal de 1.6 m3/s a través del Sistema Pita-Puengasí. Es el segundo sistema más relevante en la distribución de agua potable para el DMQ después del sistema Papallacta [14]. En consecuencia, resulta necesario establecer estrategias que aborden la carencia de información en sistemas hidrológicos, con el fin de estudiar la disponibilidad del recurso hídrico.
Se emplean distintos enfoques para estimar datos faltantes en series temporales. Entre los más comunes de estas metodologías, se encuentran: la regresión lineal, la razón normal, la regresión múltiple y los modelos geoestadísticos; sin embargo, según Melo et al. [15], estos últimos requieren trabajar sobre semivariogramas, lo que puede llegar a aumentar de manera significativa su complejidad. También se utiliza la aplicación de redes neuronales para analizar los datos meteorológicos [16], y la transformada de Wavelet, la cual se ha popularizado en las últimas décadas como una herramienta de análisis espectral para bases de datos ambientales [17]. En la actualidad, la estimación mediante técnicas estadísticas y matemáticas se lleva a cabo utilizando sistemas informáticos, lo que facilita el manejo eficiente de grandes conjuntos de datos en un tiempo reducido y con una menor carga de trabajo humano [18].
El objetivo del presente estudio es comparar varios métodos estadísticos y matemáticos para generar datos pluviométricos faltantes en la microcuenca del río Pita, tales como el método de Paulhus y Kohler, la regresión lineal múltiple (RLM), la transformada de Wavelet y las redes neuronales artificiales, que son los más utilizados en las ciencias ambientales y de la tierra, mediante el empleo del software estadístico RStudio. Para su ejecución, se utilizó información de las estaciones de la red hidrometeorológica del Fondo para la Protección del Agua (FONAG), con el propósito de identificar la metodología más adecuada para posteriores investigaciones en regiones de páramo con características climáticas similares. En la Tabla 1 se presentan algunos trabajos previos que abordan metodologías similares a las propuestas en este estudio. Esta pequeña recopilación destaca la relevancia y el interés de las metodologías planteadas, subrayando la necesidad de un análisis y el estudio de su aplicabilidad en contextos nacionales.

La microcuenca del río Pita está políticamente en tres cantones: el DMQ, Mejía y Rumiñahui, abarcando mayoritariamente las parroquias de Píntag y Machachi [39]. La distribución parroquial del territorio dentro de la microcuenca se detalla de la siguiente manera: Píntag abarca el 55.8 %, Machachi un 38.2 %, Rumipamba un 3.2 % y Sangolquí el 1.7 % [40]. Los páramos de la vertiente occidental del volcán Sincholagua complementados por una fracción de los deshielos del volcán Cotopaxi, constituyen las principales fuentes de flujo para el río Pita [41]. La Figura 1 presenta el estado de los páramos en la zona alta de la microcuenca, en donde se encuentran los humedales de páramo que actúan como las principales fuentes de agua de calidad para la capital.

La Tabla 2 ofrece un desglose de las coordenadas de las estaciones utilizadas en la investigación, incluyendo tanto las estaciones meteorológicas como las pluviométricas. Asimismo, la Figura 2 ilustra la ubicación específica de estas estaciones en la microcuenca de estudio.


Los registros pluviométricos fueron adquiridos de la red hidrometeorológica del Fondo para la Protección del Agua (FONAG) de Quito, que son de acceso libre en su página web: www.sedc.fonag.org.ec. Estos datos comprenden las precipitaciones mensuales acumuladas de cinco estaciones situadas dentro de la microcuenca. Se empleó como criterio de selección de estaciones a aquellas que proporcionaran la información más completa posible. Por ello, se determinó analizar el periodo entre 2014 y 2023 (10 años), durante el cual la ausencia de datos de cada estación no excedió el 5 % (ver Tabla 3).

Se optó por completar los pocos datos faltantes utilizando la mediana de cada serie temporal, debido a que los diferentes conjuntos de datos presentaban una alta dispersión en términos de desviación estándar y varianza; esto se evidencia en los diagramas de caja y bigotes (Figura 3). Según Das e Imon [42], para conjuntos de datos con una alta dispersión, la mediana es menos susceptible a verse afectada por outliers o por alta variabilidad. Luego, para simular la generación de datos pluviométricos, se procedió a eliminar aleatoriamente el 20 % de los datos. En el estudio de Maharana et al. [43] se menciona que, al trabajar con bases de datos que sobrepasen el 20 % de información ausente, los modelos elaborados pierden robustez. De este modo, se permitió llevar a cabo la posterior comparación de los métodos establecidos sin comprometer la confiabilidad de los resultados.

En la Figura 4 se presenta un diagrama de flujo que esquematiza de manera general la metodología empleada en esta investigación. Este diagrama proporciona una visión panorámica de los pasos seguidos durante el desarrollo del estudio, desde la recolección y tratamiento de datos, hasta la ejecución, evaluación y análisis de los modelos estadísticos y matemáticos.

También llamado método de razón normal, implica estimar el valor incompleto: 𝑥(𝑡) de una serie, utilizando los datos de estaciones cercanas y simultáneas que muestren una fuerte correlación con la serie a completar [44]. Esto se realiza mediante la Ecuación 1.

Donde:𝑥̅: media aritmética de datos pluviométricos𝑥̅ , 𝑥̅ , 𝑥̅ : media aritmética de estaciones vecinas1 2 3𝑥 (𝑡), 𝑥 (𝑡),𝑥 (𝑡): datos pluviométricos de series vecinas1 2 3Para su ejecución se utilizó el paquete climatol del software estadístico RStudio donde, además de la opción de normalizar los datos dividiéndolos por sus valores medios, climatol también brinda la posibilidad de realizar esta normalización restando las medias o llevando a cabo una estandarización completa. Por lo tanto, tras denominar 𝑚 y 𝑠 a la𝑋 𝑋media y desviación estándar de una serie 𝑋, a continuación se muestran las alternativas disponibles para la normalización de datos pluviométricos [45]:𝑋Restar la media: 𝑥 = 𝑋 − 𝑚𝑋Dividir por la media: 𝑥 = 𝑋/𝑚Estandarizar: 𝑥 = (𝑋 − 𝑚 )/𝑠 𝑋 𝑋
El principal desafío de este método radica en el desconocimiento de los valores de medias aritméticas y de desviaciones estándar de las series durante el periodo de estudio, lo que es común en las bases de datos reales. Por lo tanto, climatol aborda este problema al calcular inicialmente estos parámetros con los datos disponibles en cada serie. Luego, rellena los datos faltantes utilizando estas medias y desviaciones estándar provisionales, y vuelve a calcularlos con las series rellenadas. Posteriormente, se recalculan los datos inicialmente faltantes utilizando los nuevos parámetros, lo que resulta en nuevas medias y desviaciones estándar. Este proceso se repite hasta que ninguna media cambie al redondearla con la precisión inicial de los datos [45]. Una vez que las medias han sido estabilizadas, se lleva a cabo la normalización de todos los datos, seguida de la estimación de los mismos, tanto en las series existentes como en las que no están completas, utilizando la Ecuación 2.

𝑗𝑗Donde 𝑦̂ representa el valor estimado utilizando los 𝑛 datos 𝑥 más cercanos disponibles en cada intervalo de tiempo, y 𝑤 es el peso asignado a cada uno de ellos.
Hay una variedad de técnicas de regresión que varían dependiendo del tipo de variables y de la relación funcional supuesta entre ellas. Las técnicas más básicas, aunque muy efectivas en términos de la cantidad de información que pueden proporcionar, son las regresiones lineales [46]. La regresión lineal múltiple se construye a partir de una regresión lineal simple, la cual se utiliza cuando se tiene más de una variable independiente [47]. En este estudio, el modelo de regresión se aplica para datos pluviométricos y se adapta a las condiciones y necesidades del análisis, tal como se ilustra en la Ecuación 3.

Donde:𝑦: valor de precipitación que se quiere estimar𝑥 , 𝑥 , … , 𝑥 : datos pluviométricos de estaciones hidrometeorológicas vecinas1 2 𝑘0𝑏 : intercepto o valor de precipitación cuando todas las estaciones tienen valores de 0𝑏 , 𝑏 , … , 𝑏 : coeficientes de regresión1 2 𝑘𝜖: errores aleatoriosCuando se tienen 𝑛 observaciones o filas en el conjunto de datos pluviométricos, se obtiene el siguiente modelo:

Utilizando matrices, se puede representar el sistema de 𝑛 ecuaciones mediante la Ecuación 4.

Donde:

En general, 𝑦 es un vector (𝑛 × 1) de datos pluviométricos, 𝑋 es una matriz (𝑛 × 𝑝) de los niveles de las variables independientes (información pluviométrica de estaciones hidrometeorológicas vecinas), 𝑏 es un vector (𝑝 × 1) de los coeficientes de regresión y 𝜖 es un vector (𝑛 × 1) de los errores aleatorios. De esta manera, los estimadores de mínimos cuadrados se calculan mediante la Ecuación 5.

El estimador de mínimos cuadrados 𝑏̂ es la solución para el vector 𝑏 (Ecuación 6).

Finalmente, al resolver la ecuación diferencial anterior se obtiene la Ecuación 7, donde se determinan los coeficientes de regresión para el modelo.

En la regresión lineal múltiple, se utilizan múltiples variables explicativas, lo que posibilita el aprovechamiento de una mayor cantidad de información en la construcción del modelo y, por consiguiente, la obtención de estimaciones más precisas para completar las series pluviométricas.
El tercer método utilizado corresponde a las transformadas de Wavelet, que son herramientas matemáticas que permiten analizar señales de manera similar a la transformada de Fourier de tiempo corto, proporcionando información tanto en el dominio del tiempo como en el de la frecuencia [48]. Las transformadas de Wavelet permiten estudiar características en la serie espacial con un detalle ajustado a su escala, es decir, rasgos amplios a gran escala y rasgos finos a pequeña escala. Esta característica es útil para las variaciones espaciales que son significativamente no estacionarias y tienen componentes transitorios de corta duración [49]. De esta manera, el análisis Wavelet tiene distintas aplicaciones, desde la dinámica de fluidos [50], la geofísica [51] y la hidrología [52], como en esta investigación. Las wavelets, fundamentales en la transformada wavelet madre, representan una señal mediante versiones desplazadas y escaladas de una onda finita que pueden generarse a partir de un conjunto de datos experimentales. Esta transformada no solo es local en el dominio del tiempo, sino también en el dominio de la frecuencia [53]. Una vez que se tiene una wavelet madre, se pueden generar wavelets mediante las operaciones de dilatación y traslación [54]. Para números enteros 𝑗, 𝑘 se utiliza la Ecuación 8.

Resulta que estas ondículas pueden formar un conjunto ortonormal (Ecuación 9).

𝑚,𝑛Donde 𝛿 = 1 si 𝑚 = 𝑛, y 𝛿 = 0 si 𝑚 ≠ 𝑛. En este caso <∙,∙> es el producto𝑚,𝑛interior. Además, ese conjunto de ondículas puede formar bases para variosespacios de funciones. Por ejemplo, y más técnicamente, {𝜓 (𝑥)}puede ser𝑗,𝑘 𝑗,𝑘 𝜖 ℤuna base ortonormal completa para 𝐿2(ℝ). Así, dada la función 𝑓(𝑥), se procede a descomponerla en una serie de Fourier generalizada, como indica la Ecuación 10.

Donde, debido a la ortogonalidad de las ondículas, se obtiene la Ecuación 11.

Para enteros 𝑗, 𝑘, los números {𝑑 } se denominan coeficientes de wavelet de 𝑓,𝑗,𝑘 𝑗,𝑘 𝜖 ℤgenerando una función que se asemeja al conjunto de datos ingresados, que en estainvestigación son las observaciones pluviométricas de cada estación hidrometeorológica. Para varias situaciones, las wavelets resultan útiles, aunque hay numerosos casos donde otros métodos disponibles son igualmente eficientes o incluso superiores. El paquete WaveletComp de RStudio permite trabajar esta metodología de una manera más rápida, y a su vez, ofrece opciones de trazado que facilitan un ajuste óptimo del modelo.
Dado que las redes neuronales artificiales se diseñaron intencionalmente como modelos conceptuales de la actividad cerebral humana, resulta útil comprender primero cómo funcionan las neuronas biológicas. La Figura 5 ilustra como las señales entrantes son recibidas por las dendritas de la célula a través de un proceso bioquímico, y su vez, emitiendo una señal de salida por el axón [55].
Así, una red neuronal artificial es un modelo de regresión o clasificación en dos etapas, generalmente suele representarse mediante un diagrama de red, como lo muestra la Figura 6.
Para regresión, normalmente hay una sola unidad de salida 𝑌 en la parte superior, como es el caso de esta investigación (Figura 7), en donde las estaciones hidrometeorológicas vecinas se transforman en las dendritas de entrada, y la estación con datos faltantes es la variable de salida donde se generarán los nuevos datos pluviométricos. Sin embargo, es importante mencionar que estas redes pueden manejar múltiples respuestas cuantitativas de forma fluida [56].

Una neurona artificial típica con 𝑛 dendritas de entrada puede representarse mediante la Ecuación 12. Los pesos (𝑤 ) permiten que cada una de las 𝑛 entradas de 𝑥 contribuya en mayor o menor medida a la suma de las señales de entrada. El valor acumulado se pasa a la función de activación, 𝑓(𝑥), y la señal resultante, 𝑦(𝑥), es el axón de salida [57].

En el presente estudio se utilizó el algoritmo de retropropagación (backpropagation), que es el método de entrenamiento predominante en redes neuronales. Este método de aprendizaje supervisado emplea el descenso del gradiente, que se divide en dos fases: en primer lugar, se introduce un patrón de entrada que se propaga a través de las diferentes capas de la red neuronal hasta generar la señal de salida. Luego, esta salida se compara con la salida deseada para calcular el error en cada neurona y los errores se retropropagan desde la capa de salida hacia todas las neuronas de las capas intermedias [58]. Cada neurona recibe un error que refleja su influencia en el error global de la red. A partir de este error recibido, se realizan ajustes en los pesos sinápticos de cada neurona. El propósito consiste en reducir al mínimo el error entre la salida producida por la red y la salida deseada por el usuario cuando se presenta un conjunto de patrones 𝑝, conocido como conjunto de entrenamiento. Por consiguiente, el error se distribuye en sentido opuesto al flujo normal de información de la red. Así, el algoritmo identifica y corrige los errores durante el proceso de aprendizaje, comenzando desde las capas más profundas y retrocediendo hacia la entrada. Para simplificar este procedimiento, se empleó el paquete neuralnet de RStudio, el cual facilita la implementación de este método al especificar los parámetros de entrada, como el número de nodos en las capas ocultas, y definir variables dependientes e independientes.La Figura 8 presenta un resumen del funcionamiento del algoritmo de backpropagationutilizado en la ejecución de redes neuronales artificiales.
Con el fin de determinar el método óptimo de generación de datos pluviométricos, se establecieron dos métricas principales: Raíz del Error Cuadrático Medio (𝑅𝑆𝑀𝐸) y Coeficiente de Determinación (𝑅2). La métrica RMSE es comúnmente empleada para evaluar la efectividad de un modelo de regresión. Su función es determinar la discrepancia entre dos conjuntos de datos, comparando las predicciones del modelo con los valores reales (Ecuación 13) [60].

Donde:𝑗𝑦 : serie pluviométrica original𝑗𝑦̂ : serie pluviométrica estimadaMientras que el coeficiente de determinación proporciona información sobre el grado de relación entre las dos variables que explican la fluctuación de los datos (Ecuación 14) [61]. Para el caso de estudio, las dos variables serán los datos estimados y los datos reales.

Donde:𝑖𝑦 : serie pluviométrica original𝑖𝑦̂ : serie pluviométrica estimada𝑖𝑦̅ : media de datos pluviométricosNo obstante, también se aplicó la media aritmética y la desviación estándar a los conjuntos de datos antes y después de la simulación.
Con climatol se pudo visualizar el conjunto de datos de las cinco estaciones, donde los espacios en blanco constituyen la información pluviométrica ausente que se eliminó de manera aleatoria para simular las metodologías presentadas anteriormente (Figura 9).

La Figura 10 muestra la distribución espacial de las estaciones en la zona de estudio, en donde climatol realizó automáticamente un clustering jerárquico para identificar patrones. Se observaron dos clústeres distintos, representados en el gráfico por estaciones marcadas en verde y estaciones marcadas en rojo. Los clústeres identificados en el gráfico sugieren la presencia de dos áreas geográficas distintas, cada una con características climáticas únicas.

Los diagramas de anomalías (Figura 11) incluyen dos líneas suplementarias en la sección inferior, las cuales indican la mínima separación entre los datos adyacentes (en verde) y la cantidad de datos de referencia empleados (en naranja), ambas utilizando la escala logarítmica del eje derecho. El análisis de los diagramas de anomalías de precipitación acumulada mensual es esencial para examinar las desviaciones en los patrones de lluvia a lo largo del tiempo. Estos diagramas muestran claramente los periodos donde se han observado cambios significativos en la precipitación acumulada, destacando tanto los excesos como los déficits de lluvia respecto a las condiciones climáticas durante 10 años de estudio (2014-2023). En las cinco estaciones también se señalan con una línea vertical discontinua las posibles fechas de cambio tras la evaluación de la homogeneidad de la serie.

Una vez completadas las series temporales, se observaron diferencias significativas entre los valores originales y los datos generados, tal como se refleja en las métricas de evaluación (Tabla 5). El RMSE revela la magnitud promedio del error de predicción, evidenciando discrepancias considerables entre los valores observados y los generados, con RMSEs de 120.96, 69.83, 81.77, 81.04 y 69.54 para las estaciones M5028, M5029, M5026, M5076 y M5030, respectivamente. Ahora bien, los valores de 𝑅2 fueron extremadamente bajos, oscilando entre 0.000 y 0.067, lo que sugiere una variabilidad significativa no explicada por el modelo. Al comparar las medias aritméticas de los datos originales con los completados, se evidenció una variación diferencial entre estaciones, lo que sugiere una influencia heterogénea de la estimación en la tendencia central de las series temporales. Por otro lado, la comparación de las desviaciones estándar de los datos originales y completados mostró cambios más sutiles, lo que indica una relativa estabilidad en la dispersión de los datos después de la aplicación de los métodos de estimación.
Para la generación de datos a través de la regresión lineal múltiple (RLM), se generó un modelo específico para cada estación, empleando las estaciones restantes como variables independientes en el proceso. Ante todo, se analizó la relación estadística entre los datos pluviométricos de todos los conjuntos de datos. La consideración de esta información es fundamental para determinar los predictores óptimos del modelo, identificar variables con relaciones no lineales que no deben ser consideradas y detectar posibles problemas de multicolinealidad entre los predictores. Al mismo tiempo, se sugiere complementar este análisis representando la distribución de cada variable a través de histogramas (Figura 12), que demuestran una forma asimétrica, lo que sugiere que la variable de precipitación acumulada mensual no sigue una distribución normal.
Los histogramas muestran una distribución levemente sesgada hacia la derecha, indicando una mayor frecuencia de valores de precipitación menores que la media. Además, los datos recopilados de las diversas estaciones en la microcuenca del río Pita exhiben multicolinealidad, lo que indica que varias variables están linealmente relacionadas entre sí. Por último, los coeficientes de Pearson superan el 0.65 en todas las estaciones, excepto en M5030 con M5076, lo que impide la identificación clara del efecto individual de cada variable sobre la variable respuesta.

En la Tabla 4 se describen las ecuaciones generadas por regresión lineal múltiple para cada estación, cabe señalar que el valor p-value es estadísticamente significativo para cada modelo generado (2.2e-10), lo que sugiere que los modelos no son aleatorios y al menos uno de los coeficientes de regresión parciales es diferente de cero.

La validación de los métodos se llevó a cabo mediante el análisis de la linealidad entre las variables independientes y los residuos del modelo, un aspecto clave para determinar la homocedasticidad. Esta condición se verifica cuando los residuos muestran una distribución aleatoria alrededor de cero. Los valores de RMSE fluctúan entre 19.71 y 53.56, y el coeficiente de determinación (𝑅2) varía entre 0.552 y 0.727 (Tabla 5). Estos resultados indican que los modelos explican más del 50 % de la variabilidad en los datos de precipitación. Además, se observa que la media aritmética se mantiene constante con la aplicación del modelo, mientras que la dispersión de datos disminuye, lo cual se refleja en una menor desviación estándar después de aplicar los modelos de regresión.
Por otro lado, la aplicación de la transformada de Wavelet posibilitó la reconstrucción de las diversas series de datos mediante el empleo de herramientas matemáticas de vanguardia. LaFigura 13 muestra la descomposición de wavelet de la serie temporal de datos pluviométricos recopilados durante el período de estudio utilizando la función wt.image de la librería WaveletComp en RStudio. Esta imagen resultante presenta una representación visual de la distribución de energía en diferentes escalas temporales, destacando patrones y estructuras de variabilidad multiescalar en los datos pluviométricos. El eje horizontal representa el tiempo (10 años), mientras que el eje vertical representa la escala o frecuencia. Además, se pueden identificar visualmente áreas de alta o baja variabilidad, coincidiendo con las mismas áreas de la Figura 11 de anomalías pluviométricas. A su vez, los cambios temporales en la estructura de descomposición proporcionan información crucial sobre la dinámica temporal de los datos pluviométricos. En esta representación, las áreas de color rojo intenso indican niveles más altos de periodicidad, mientras que las áreas delimitadas por líneas de contorno blancas representan componentes periódicos significativos en la serie temporal. Se observan patrones mensuales que reflejan el comportamiento de la precipitación en diferentes periodos de tiempo, como las temporadas de invierno en la región de la sierra, que generalmente abarcan los primeros meses del año, desde enero hasta mayo.

La Figura 14 muestra la reconstrucción de la serie temporal de datos pluviométricos mediante la aplicación de la función reconstruct. Esta visualización representa la serie temporal reconstruida a partir de la descomposición de la wavelet previamente realizada. Los nuevos datos pluviométricos estimados se ilustran en color rojo, mientras que de color negro está la serie de datos originales. La reconstrucción resalta las tendencias temporales, donde al final del periodo de tiempo se identifica una tendencia a la baja en la mayoría de estaciones, indicando un cambio gradual en los patrones de lluvia en la microcuenca. Igualmente, los ciclos estacionales revelan fluctuaciones notables en la cantidad de precipitación durante diferentes periodos anuales, mientras que las variaciones multiescalares presentes en los datos pluviométricos ofrecen la presencia de ciclos climáticos de diferente duración, como en el caso de eventos climáticos extremos, característicos en la región.

Los resultados del método (Tabla 5) muestran una amplia variabilidad en los valores de RMSE, que oscilan entre 56.24 y 118.96. Además, los valores de 𝑅2 varían entre 0.012 y 0.253. Antes de la implementación de los métodos de rellenado, se evidencia una cierta inestabilidad en los datos originales, reflejada en una amplia gama de valores para la media aritmética y la desviación estándar, que van desde 67.30 hasta 113.05 y desde 44.22 hasta 81.04, respectivamente. Sin embargo, después de la aplicación de los modelos de transformada de wavelet, se observa una mejora en la estabilidad de los datos, con una reducción en la dispersión y una ligera ajuste en la media aritmética, que varía entre 61.48 y 101.93, y en la desviación estándar, que fluctúa entre 47.97 y 77.65.
Para la implementación del método de redes neuronales artificiales, se utilizó la librería neuralnet, la cual permitió configurar arquitecturas de red con dos capas ocultas para cada modelo asociado a las estaciones de estudio, compuestas por 5 y 3 nodos respectivamente. Después de probar varias configuraciones, se determinó que aumentar el número de nodos conlleva a mayores exigencias computacionales, mientras que reducir el número de nodos resulta en un incremento de errores. Para el entrenamiento de estos modelos, se asignó aleatoriamente el 70 % de los datos como conjunto de entrenamiento y el 30 % restante como conjunto de prueba. La visualización de los modelos generados por las redes neuronales para cada estación, junto con su correspondiente evaluación de errores y etapas de procesamiento, se presenta en la Figura 15.

En los resultados del modelo de redes neuronales al rellenar datos pluviométricos, el error cuadrático medio (RMSE) muestra una variabilidad entre 1.56 y 3.41, lo que indica diferencias en la exactitud de las estimaciones en relación con los valores observados. Esta variación está asociada con factores geográficos y climáticos específicos de cada estación. Por otro lado, el 𝑅2 revela la capacidad de los modelos para explicar la variabilidad en los datos de precipitación, con valores que oscilan entre 0.643 y 0.805. Esto sugiere diferencias en la capacidad predictiva de las redes neuronales en cada estación, posiblemente relacionadas con la complejidad de los patrones de precipitación locales.
Además, al examinar los cambios en la media aritmética y la desviación estándar antes y después de aplicar el método, se observa una estabilización general o una ligera mejora en la precisión de los datos estimados, indicando una mayor consistencia y fiabilidad en las predicciones generadas por las redes neuronales artificiales.

La precipitación es un fenómeno ampliamente reconocido como un proceso complejo y no lineal [62]. Esta complejidad se refleja en los altos valores de la raíz del error cuadrático medio y bajos valores del coeficiente de correlación obtenidos mediante el método de Paulhus y Kohler, así como en el análisis realizado mediante la transformada de Wavelet. A pesar de las ambigüedades observadas en la implementación de estas metodologías, el uso de herramientas computacionales, como la herramienta climatol, ha demostrado ofrecer ventajas significativas. Esta herramienta no solo facilita el rellenado de datos faltantes, sino que también permite la homogeneización de las series temporales. De hecho, investigaciones previas, como la de Cartaya et al. [63], han empleado esta herramienta con el fin de homogenizar datos meteorológicos, obteniendo series temporales de mejor calidad. Esta práctica se justifica debido a las posibles discrepancias en la recopilación de datos mediante equipos meteorológicos, lo que puede afectar la fiabilidad estadística de los resultados obtenidos.
Asimismo, el clustering jerarquizado de la región de interés proporciona una explicación para ciertas discrepancias y errores en la generación de datos. Sin embargo, Poblete et al.[64] afirman que el enfoque jerárquico utilizado en la formación de los grupos presenta una limitación al generar combinaciones iniciales no deseables que pueden persistir durante el análisis, lo que podría resultar en interpretaciones incorrectas. Para garantizar una mayor confianza en los resultados del análisis de agrupamiento, se requiere realizar múltiples aplicaciones bajo diferentes condiciones, considerando estaciones atípicas como candidatas a revisión, y recalculando los grupos o utilizando diversas medidas de similitud y otros métodos de agrupación [65]. Entonces, se ha demostrado la nula eficacia del método de Paulhus y Kohler para precipitaciones acumuladas mensuales para la presente investigación, sin embargo, en el estudio de Pinthong et al. [19] este método demuestra tener una alta capacidad de generación de datos pluviométricos cuando la escala temporal es diaria, debido a que los errores generados en el recalculo de precipitaciones son más pequeños al tomar tiempos más cortos [66].
Además, la transformada de Wavelet mostró limitaciones en la estimación de datos faltantes, lo cual puede atribuirse a la longitud y la naturaleza aleatoria de la serie temporal. Este desafío se acentúa en estaciones recientes, porque la cantidad de datos disponibles es insuficiente. Idealmente, esta técnica se desempeña mejor en bases de datos con más de 30 años, donde la significancia estadística es más sólida [67]. A pesar de eso, la transformada Wavelet ofrece descomposiciones valiosas de las series de tiempo originales, lo que permite que los datos transformados en wavelet enriquezcan la capacidad de un modelo de pronóstico al capturar información relevante en varios niveles de resolución. Se ha observado que esta metodología parece ser más efectiva que la transformada de Fourier en el tratamiento de series de tiempo no estacionarias, según estudio previo de Salazar [68]. También, Sifuzzaman et al. [69] mencionan que una de las principales ventajas de la transformada de Wavelet es su robustez, dado que excluye cualquier sospecha errónea o procedimiento de prueba paramétrica.
Añadido a eso, la regresión lineal múltiple (RLM) presentó una óptima correlación de datos generados. Cabe destacar que, al estar en una misma microcuenca, las estaciones actúan de manera similar, por lo que su papel como variables independientes es muyutilizada. Sin embargo, es importante considerar la distribución normal de los datos modelados, requisito que no suele cumplirse al trabajar con precipitaciones acumuladas mensuales. Sin este requisito la validación y confiabilidad del modelo son nulas, al ser un modelo multivariado. Alfaro y Pacheco [70] observaron que este método muestra mejoras notables en comparación con los enfoques que dependen únicamente de la información de una estación. A pesar de ello, según Toro et al. [1], se desaconseja la aplicación de métodos de regresión cuando los coeficientes de determinación son inferiores a 0.8. Dado que en este estudio dichos coeficientes están por debajo, se sugiere optar por otro método.
Finalmente, las redes neuronales artificiales representan una estrategia efectiva para estimar la precipitación pluviométrica con mayor precisión, esto es corroborado por la alta correlación entre valores reales y valores simulados, y sus bajos valores de error.
Según Tealab et al. [71], en los últimos años ha habido un crecimiento notable en el interés y la investigación en torno al uso de redes neuronales, lo que ha generado un cuerpo creciente de literatura científica sobre este tema. Este aumento en la atención académica ha resultado en una diversidad de opiniones entre los investigadores, con algunos respaldando entusiastamente el potencial de las redes neuronales y otros señalando sus limitaciones [72]. En el estudio de Baño y Gutiérrez [73] mencionan que la incorporación de un predictor adicional podría potencialmente mejorar los resultados obtenidos. Sin embargo, su aplicación podría desaconsejarse en la elaboración de proyecciones climáticas a largo plazo, dado que algunas variables son altamente parametrizables. Mientras que una limitación podría surgir de la estructura multicapa seleccionada para las redes neuronales artificiales, la cual podría resultar insuficiente en términos del número de capas ocultas. Incrementar su complejidad podría facilitar que el método capture un aprendizaje más profundo de las relaciones físicas entre las variables predictoras y la variable objetivo.
































