Resumen:
Para completar los datos faltantes en los registros de la precipitación pluvial anual reportados por 13 estaciones climatológicas distribuidas en el área de la Cuenca Guadalupe se realizó un análisis de regresión lineal entre estaciones cercanas. Para determinar la utilidad de la inferencia estadística, se calculó el coeficiente de correlación lineal ( r ), en todos los casos se obtuvo un alto valor que en promedio fue , también se calculó la eficiencia estadística (E), la cual en todos los casos analizados sugiere la viabilidad de la inferencia estadística. Como resultado principal de este análisis se presenta una base de datos de precipitación pluvial completa para el periodo 1948-2012.
Palabras clave:Cuenca GuadalupeCuenca Guadalupe, precipitación pluvial precipitación pluvial, completación de datos completación de datos, análisis de regresión y correlación lineal análisis de regresión y correlación lineal, inferencia estadística inferencia estadística, eficiencia estadística eficiencia estadística.
Abstract:
To complete the missing values in the records of the annual rainfall reported by 13 climatological stations distributed in the area of the Guadalupe Basin, an analysis of linear regression between nearby stations was done. In order to determine the convenience of statistical inference, the coefficient of linear correlation ( r ) was calculated, in all cases a high value was obtained, which on average resulted a . In addition, the efficiency statistics (E) was calculated, which in all the analyzed cases, suggests the feasibility of statistical inference. As the main result of this analysis a complete precipitation database for the period 1948-2012 is presented.
Keywords: Guadalupe Basin, rainfall, completion values, regression analysis and linear correlation, statistical inference, efficiency statistics.
Estimación de datos faltantes de precipitación por el método de regresión lineal: Caso de estudio Cuenca Guadalupe, Baja California, México
Estimation rainfall missing values by linear regression method: Case study Guadalupe Basin, Baja California, Mexico
Recepción: 12 Enero 2017
Aprobación: 19 Junio 2017
La precipitación pluvial se considera como la variable principal en los estudios hidrogeológicos, ya que es la fuente fundamental para el cálculo de balances hídricos y la generación de alertas tempranas por riesgo de sequía en la región. En varias investigaciones el punto de partida es la estimación de la lluvia con adecuada resolución espacial y temporal (Luna Romero, & Lavado Casimiro, 2015; Schuurmans, & Bierkens, 2007; Tapiador, Kidd, Levizzani, & Marzano, 2003; Tapiador et al., 2012).
El estado de Baja California, México, se caracteriza por poseer escasos recursos hidráulicos superficiales y una baja precipitación pluvial, sólo en una pequeña porción de su territorio se presentan lluvias en condiciones normales que varían de 200 a 300 mm al año, mientras en el resto las precipitaciones disminuyen significativamente a 50 mm. Aunado a lo anterior, en las últimas décadas se han incrementado las actividades agrícolas, urbanas e industriales en la región, lo que implica una creciente demanda de agua, por lo que el desarrollo económico de la zona depende de su disponibilidad subterránea (Campos-Gaytán, Kretzschmar, & Herrera-Oliva, 2014).
La Cuenca Guadalupe se ubica al noroeste del estado de Baja California, en ella se localizan dos zonas agrícolas de gran importancia para la economía local. El Valle de Guadalupe se considera como la región productora de vinos más importante en México (Plata Caudillo, 2010) y el Valle de Ojos Negros de productos de agricultura de riego como alfalfa, cebollín, cebolla y sandía, entre otros (Pineda Villa, 2000). Ambos dependen completamente del agua subterránea. Sin embargo, la naturaleza esporádica de las precipitaciones y de la consecuente escasa recarga del acuífero, aunadas a su extracción para la agricultura y abastecimiento de los asentamientos urbanos en los propios valles, así como el suministro para la vecina ciudad de Ensenada, han convergido para crear una crisis en el abasto (Campos-Gaytán, 2008). Dada la complejidad de este problema, es necesario analizar la precipitación pluvial en el área de la cuenca para contribuir al conocimiento de su distribución y disponibilidad, con ello se podrán tomar las medidas necesarias para su mejor aprovechamiento.
Para realizar el análisis de la precipitación se requiere contar con una base de datos continuos, homogéneos y que abarquen el máximo intervalo temporal posible, en este trabajo el periodo de análisis fue de 1948-2012. Lamentablemente la base de datos con que se cuenta presenta importantes huecos de información debidos a la ausencia de lectura, falla del instrumento de registro, error de transcripción, etcétera, lo que limita su análisis y constituye una fuente de error, dado que las conclusiones de cualquier estudio que se realice sobre esos datos serán erróneas.
Existen métodos para efectuar el completado de valores faltantes en una serie pluviométrica. En la guía de prácticas climatológicas de la Organización Meteorológica Mundial, en inglés llamada World Meteorological Organization (WMO, 1983) se proponen métodos estadísticos para el relleno de valores faltantes, como regresión lineal, de la razón y la razón normal, propuestos por Paulhus y Kohler (1952). Alfaro y Pacheco (2000) presentaron un estudio en el que aplican los de regresión, de la razón, de la razón ajustada y de la razón-normal a datos anuales de precipitación y concluyeron que el mejor es el de la regresión múltiple y que las diferencias máximas más altas se dieron con el de la razón.
Young (1992) presenta una modificación al de la razón normal, donde la misma, ponderada, es cambiada por la correlación entre las estaciones, pero Yozgatligil, Aslan, Lyigun y Batmaz (2013) reportaron que el promedio aritmético simple y la correlación entre las estaciones resultan idénticos en algunos casos, si las correlaciones de estaciones de referencia son casi las mismas. McCuen (1998) recomienda el promedio aritmético simple, cuando el valor anual en cada uno de los datos a promediar difiere por lo menos 10%, pero Yozgatligil et al. (2013) presenta estimaciones fiables si la variable no tiene variabilidad espacial y si las estaciones de referencia están altamente correlacionadas.
Aparicio (2011) y Campos Aranda (1998) indican que este método puede emplearse cuando se basa en registros simultáneos de tres estaciones que se encuentren lo más cerca posible a la estación en estudio. Por su simplicidad, porque no requiere de software específico para la estimación, por la bondad y claridad de sus resultados, el método de regresión lineal es uno de los más utilizados para estimar los valores de datos faltantes de precipitación y temperatura (Eischeid, Pasteris, Diaz, Plantico, & Lott, 2000; Hubbard, 2001; Wade, 1987).
DeGaetano, Eggleston y Knapp (1995), Eischeid, Bruse, Karl y Díaz (1995), Kashani y Dinpashoh (2012), Kemp, Burnell, Everson y Thomson (1983), Presti, Barca y Passarella (2010), Xia, Fabian, Stohl y Winterhalter (1999), You, Hubbard y Goddard (2008), así como Young (1992) manifiestan que el método de regresión simple es superior entre los tradicionales para las variables temperatura mínima, máxima y precipitación en diferentes condiciones climáticas. Por esta razón en este trabajo se utilizó el de regresión lineal, con el propósito de completar la base de datos de la precipitación pluvial registrada en la Cuenca Guadalupe, y con ello contribuir en la realización de futuras investigaciones en diversas áreas, como son la agronomía, hidrología y climatología de la zona de estudio. Para ello se emplearon los registros de la precipitación anual, reportados por 13 estaciones climatológicas que cubren el área de la cuenca. Para determinar lo conveniente de la inferencia estadística, se calcularon el coeficiente de correlación lineal y la eficiencia estadística.
La Cuenca Guadalupe se localiza en el noroeste del estado de Baja California, aproximadamente a 37 km de la ciudad de Ensenada, entre los paralelos 31º 51’ y 32º 15’ de latitud norte, y los meridianos 115º 52’ y 116º 51’ de longitud oeste; colinda al norte con la subcuenca Las Palmas, al sur con las subcuencas Ensenada y Maneadero, al este con la subcuenca Laguna Salada, al oeste con el Océano Pacífico (Beltrán-Gómez, 2001) y cuenta con una superficie total hasta su desembocadura en el mar de aproximadamente 2,400 km2 (Hernández-Rosas, & Mejía-Vázquez, 2003), como se puede ver en la figura 1.
Los escurrimientos superficiales de la Cuenca Guadalupe tienen su origen en la Sierra Juárez, pasan a través de los valles de Ojos Negros y Guadalupe y terminan en el Océano Pacífico a la altura del poblado La Misión (figura 2).
De acuerdo con la clasificación climática de Köppen, modificada por García (1981), el clima en la zona de estudio es semiárido, subtipo moderado, con precipitaciones principalmente en invierno (diciembre a marzo), comúnmente conocido como tipo mediterráneo, que se establece en gran
parte de la costa oeste y norte de Baja California y en la costa del sur de California. La información utilizada en este trabajo es parte del registro de datos monitoreados por las estaciones: 1. Agua Caliente, 2. Belén Mexicali, 3. Boquilla Santa Rosa, 4. Carmen Serdán, 5. El Compadre Tecate, 6. El Farito Ensenada, 7. El Pinal, 8. Ojos Negros, 9. Olivares Mexicanos, 10. Real del Castillo, 11. San Juan de Dios Norte, 12. Sierra Juárez, y 13. Valle de San Rafael, del Extractor Rápido de Información Climatológica (ERIC III), el cual proporciona información contenida en el banco de datos histórico nacional del Servicio Meteorológico Nacional (SMN) de la Comisión Nacional del Agua (CONAGUA), que se enlistan en la tabla 1.
Con el propósito de identificar la existencia de valores atípicos en las series pluviométricas, se utilizó el diagrama de caja y bigotes para cada una de las series de datos reportados por las 13 estaciones que aparecen en la tabla 1. Del análisis de los diagramas se observó que sólo las estaciones Belén Mexicali, Boquilla Santa Rosa y El Pinal presentaron escasos valores atípicos, aproximadamente 2.0. Dado que el método de regresión lineal requiere series largas para el análisis, se decidió utilizar la serie completa.
El método de correlación lineal es uno de los más
utilizados, se recomienda para la estimación de datos mensuales y anuales de la estación en estudio, y los de una pluviométrica cercana, que cuente con una estadística consistente y observada. Para ello se requiere establecer una regresión y correlación lineal entre una estación patrón y la que tenga carencia de datos, mediante una ecuación lineal. Son herramientas estadísticas comúnmente empleadas en hidrología para estimar datos faltantes y ampliar el registro de cierta estación climatológica, con base en la información disponible en las más cercanas. Cuanto más amplio sea el registro o serie de valores observados en otra cercana, mayores serán las estimaciones e inferencias estadísticas basadas en tales datos.
Campos Aranda (1998) menciona que el uso de las herramientas mencionadas es particularmente recomendable para incrementar los registros anuales, ya sea de lluvias, temperaturas o escurrimientos. Sin embargo, debe mencionarse que una de sus principales limitaciones es que tanto la recta de regresión como el coeficiente de correlación no son robustos, en el sentido de que resultan muy afectados por medidas particulares que se alejan mucho de la tendencia general.
El método empleado en el presente trabajo
establece que dados dos registros de manera que
contenga más valores que
, si se desea
estimar los valores faltantes de
a partir de los valores
de
. Suponiendo que se tienen
parejas de valores
y además
valores de
, entonces
primero se calcula el coeficiente de correlación (
) de las parejas (
) definida por la ecuación (1).
El coeficiente de correlación está definido en el
intervalo
, que denota una correlación
total, cuando adopta el valor de cero se considera
que la correlación es nula.
donde:
Si se toma en cuenta que el valor del coeficiente de correlación () se calcula con base en una muestra relativamente pequeña, se considera que es únicamente una estimación del valor poblacional ( p ) y, por tanto, es necesario investigar si existe la posibilidad de que rho = 0. Para ello se emplea el estadístico
dado por la siguiente expresión:
y se compara con el valor de que tiene distribución normal para cierto nivel de confianza, comúnmente 95%, para el cual
= 1.645. Si Z ≥Zc no hay posibilidad de que ( p )sea igual a cero y, por tanto,
es significativo a 5%, como lo establece Campos Aranda (1998)
Si el coeficiente de correlación de las k parejas resultó mayor o igual a 0.8, como en Pizarro, González, Wittersshein, Saavedra y Soto (1993), se considera aceptable inferir los valores faltantes de y, con una relación lineal definida por la ecuación (8), en la cual los parámetros
y
se evalúan con la
parejas de valores comunes
y
, según las ecuaciones (9) y (10).
donde:
Aun
cuando la correlación entre los registros x y y sea alta, es recomendable investigar hasta qué
punto es provechoso utilizar el registro más amplio para incrementar el otro,
dado que puede suceder que los valores inferidos discrepen mucho de la
realidad. La eficiencia estadística ( ) ayuda a
determinar si mejora el valor medio del registro y, y con ello
si conviene hacer la inferencia. Si el valor de (
) resulta
mayor que uno, no mejorará en nada el registro de las
, en cambio,
si (
) es menor que
la unidad, convendrá hacer la inferencia de los valores faltantes a partir de
las
. La
eficiencia estadística se calcula con la siguiente expresión contenida en
Campos Aranda (1998):
donde:
= número total de datos de
;
= número total de datos de
;
= coeficiente de correlación.
De acuerdo con Cárdenas Montoya (1994), los métodos de regresión no consideran las características físicas y geomorfológicas de las cuencas hidrográficas y sus implicaciones sobre los resultados obtenidos, solo hacen consideraciones estadísticas. No obstante, Allen, Pereira, Raes y Smith (2006) recomiendan que para la aplicación de este método se seleccione una serie de datos con un comportamiento similar, esto es, dentro de la misma área de influencia topoclimática, a la serie que tiene los datos faltantes.
Como se mencionó anteriormente, con objeto de completar los datos faltantes en los registros de precipitación pluvial de 13 estaciones climatológicas distribuidas en el área de la Cuenca Guadalupe, en el presente trabajo se realizó un análisis de regresión lineal entre estaciones cercanas y para determinar la conveniencia de la inferencia estadística, se calcularon el coeficiente de correlación lineal y la eficiencia estadística, tales resultados se presentan a continuación.
En la figura 3 se muestran los diagramas de dispersión de los datos de precipitación reportados por pares de estaciones cercanas y sus correspondientes rectas de regresión. En todos los casos el ajuste lineal
posee valores de , lo que
sugiere que existe una fuerte correlación positiva entre las variables, a
pesar de que las muestras analizadas son pequeñas. En la tabla 2 se presentan
los resultados de los parámetros estadísticos que sugieren que es recomendable
hacer la inferencia estadística de los datos faltantes mediante el análisis de regresión
lineal.
Una
vez realizado el ajuste de regresión lineal, es importante disponer de una
medida que pondere la bondad del ajuste y permita decidir si el ajuste lineal
es suficiente o se deben buscar modelos alternativos. Como medida de bondad del
ajuste se utiliza el coeficiente de determinación , que indica
la proporción del ajuste que se ha conseguido con
el modelo lineal. Cuanto más se acerque a 1, mejor es la estimación.
En la tabla 3 se presentan los datos de la precipitación pluvial anual observada en la Cuenca Guadalupe durante el periodo 1948-2012, monitoreada por las 13 estaciones ya mencionadas; asimismo, se muestran las estimaciones realizadas. Como puede observarse, esta información presenta importantes huecos de información, en algunas de la estaciones el periodo de registro está por debajo de la mitad del periodo de años analizado en este trabajo, tal es el caso de las estaciones Carmen Serdán. El Compadre Tecate. El Farito Ensenada y Real de Castillo, que tan solo reportan 18, 18, 9 y 11 años, respectivamente, de los 64 años que comprende todo el periodo analizado.
Es importante mencionar que el número de estaciones incluidas en la estimación contribuyó significativamente a la calidad de la misma, dado que, en caso de que la estación vecina no contara con información en el periodo de interés, el número de estaciones incluidas permitió contar con otras estaciones de apoyo para completar los registros. Un ejemplo de esta situación se observa en las estimaciones obtenidas para las estaciones El Compadre Tecate, San Juan de Dios, Sierra Juárez y Carmen Serdán.
Una de las suposiciones que se hacen al usar regresión lineal es que los valores obtenidos para la variable ( ) deben estar distribuidos normalmente. En la figura 4 se muestra el Gráfico Q-Q, en él se representan los cuantiles correspondientes a la distribución Normal estándar versus los cuantiles empíricos obtenidos de los datos ordenados.
En todos los casos la correlación lineal ( ) entre los registros
y
es alta, además en la mayoría de los casos resultó
, lo que sugiere que no hay posibilidad de que ( p )sea igual a cero y, por tanto, el coeficiente de correlación
es significativo a 5% de significancia (ver tabla 2). En el caso particular en el que
= 1, se indetermina el valor
, pero el valor de
por sí solo sugiere un alto nivel de confianza en la inferencia de datos faltantes. También puede apre-ciarse que en todos los casos el valor ( E ) es menor que la unidad. Por tanto, de acuerdo con los tres criterios, es conveniente hacer la inferencia de los valores faltantes a partir de las
.
Para comprobar la calidad de los ajustes, al verificar los supuestos de normalidad, se observó que la mayoría de los casos analizados muestran asimetría hacia la izquierda, lo que sugiere que los datos no se ajustan a una distribución Normal (ver figura 4); no obstante, el coeficiente de determinación
observado promedio es = 0.80, lo que
ratifica la bondad del ajuste.
Por otra parte, se compararon los resultados obtenidos por el
método de regresión lineal con los obtenidos por el método de la razón (no
mostrados aquí), de esta comparación se observó que las máximas diferencias
relativas entre los valores obtenidos por ambos métodos corresponden a las
estimaciones para la estación Sierra Juárez y son del orden de 35%, mientras
que las estimaciones obtenidas para la estación Real del Castillo resultaron idénticas. Para el resto de las estaciones se observaron diferencias relativas promedio del orden de 16%. También se hizo una comparación entre los valores reales y los estimados por ambos métodos, como medida de desempeño se calcularon las diferencias promedio () existentes entre el valor real y estimado y la desviación estándar (
) de dichas diferencias. Los resultados indican que el valor promedio de
observado por el método de la razón es 1.5 veces mayor que el observado por el método de regresión.
Se estimaron los datos faltantes en los registros de la precipitación pluvial anual reportados por 13 estaciones climatológicas distribuidas en el área de la Cuenca Guadalupe en el periodo de 1948-2012 mediante un análisis de regresión lineal, entre estaciones cercanas. Las pruebas estadísticas realizadas; es decir, el coeficiente de correlación lineal promedio ( ), y la eficiencia estadística promedio (
), confirman la viabilidad de la inferencia estadística. El valor promedio observado del coeficiente de derminación
confirma la bondad de los resultados
Del contraste entre las estimaciones observadas por el método de regresión lineal y el método de la razón se observó un caso en que las estimaciones resultaron idénticas y en que las mayores diferencias correspondían a las estimaciones para las estaciones más distantes. Para comparar el desempeño de ambos métodos se calcularon las desviaciones estándar de las diferencias promedio entre los valores reales y los valores estimados y resultó que las estimaciones obtenidas por el método de regresión lineal son 1.5 veces mejores que las del método de la razón.
Con base en estos resultados, este trabajo proporciona una base de datos de precipitación pluvial completa, homogénea y estadísticamente confiable para el periodo de análisis (1948-2012), la cual puede ser usada en futuras investigaciones, entre ellas, el análisis del comportamiento del agua superficial y subterránea en la Cuenca Guadalupe.
cherrera@uabc.edu.mx