Resumen: El objetivo fue estimar el volumen forestal (m3 ha-1) mediante información obtenida del Sistema de Planeación Forestal (SiPlaFor) y datos espectrales de imágenes de satélite del sensor Landsat 8 OLI en el Ejido La Victoria Pueblo Nuevo, Durango, México. Se utilizó la técnica no paramétrica Random Forest para la estimación del volumen forestal. Los resultados mostraron que empleando un modelo con 400 árboles de decisión, la raíz cuadrada del cuadrado medio del error (RMSE) se mantiene estable. La variable predictiva de mayor importancia fue el Índice de Vegetación de Área Foliar Especifica (SLAVI), con una RMSE de 12.99%. El modelo de Random Forest presentó un coeficiente de determinación (R2) de 0.84 y un valor de RMSE de 28.8 m3 ha-1. La información espectral de un sensor de media resolución en combinación con datos de campo es una alternativa viable para estimar volumen forestal en bosques templados mixtos.
Palabras clave:índices de vegetacióníndices de vegetación,sensores remotossensores remotos,Random Forest. Random Forest. .
Abstract: The objective was to estimate the forest volume (m3 ha- 1) using information obtained from the Forest Planning System (SiPlaFor) and spectral satellite images data from the Landsat 8 OLI sensor in the Ejido La Victoria Pueblo Nuevo, Durango, Mexico. The non-parametric technique Random Forest was used for the forest volume estimate. The results showed that using a model with 400 decision trees, the Root Mean Square Error (RMSE) remains stable. The most important predictive variable was the Specific Leaf Area Vegetation Index (SLAVI), with an RMSE of 12.99%. The Random Forest model presented a coefficient of determination (R2) of 0.84 and RMSE of 28.8 m3 ha-1. Spectral information from a medium resolution sensor in combination with field data is a viable alternative for estimating stand volume in mixed temperate forests.
Keywords: vegetation indices, remote sensing, Random Forest.
INGENIERÍA Y TECNOLOGÍAS
Estimación de volumen forestal mediante imágenes de satélite Landsat 8 OLI en bosques templados mixtos
Stand volume estimation using Landsat 8 OLI satellite images in mixed temperate forests
Recepción: 04 Junio 2019
Aprobación: 27 Agosto 2020
La utilización de nuevas plataformas satelitales se potencializa en el manejo forestal dadas las características de cada sensor de acuerdo con su resolución temporal y espacial en la obtención de la información. En México la utilización de imágenes satelitales ha aumentado en la última década (Hernández-Guzmán, Ruiz-Luna, & González, 2019). Sus aplicaciones son variadas, con una precisión confiable al monitorear los recursos forestales (Ogunbadewa, 2012), clasificación de la cobertura de los componentes de la superficie terrestre (Osaku et al., 2015), detección de cambios en los ecosistemas forestales (Fokeng, Forje, Meli, & Bodzemo, 2019), cambio de uso de suelo (Elagouz, Abou-Shleel, Belal, & El-Mohandes, 2020; Kangabam, Selvaraj, & Govindaraju, 2018) y en estimaciones de atributos forestales (Torres-Rojas, Romero-Sánchez, Velasco- Bautista, & González-Hernández, 2016).
Por otro lado, el inventario forestal realizado directamente en campo como herramienta silvícola es capaz de evaluar las condiciones del ecosistema forestal (Huerta-García, Ramírez-Serrato, Yépez- Rincón, & Lozano-García, 2018) y generalmente se realiza a pequeña escala, ya que a mayor eleva sustancialmente el costo y resulta inviable para el monitoreo permanente y en grandes superficies forestales (Hall, Skakun, Arsenault, & Case, 2006). El uso de imágenes de satélite es una alternativa porque permiten monitorear eficazmente y hacer estimaciones de atributos forestales mediante relaciones empíricas entre las imágenes del sensor y las mediciones de variables dasométricas derivadas del trabajo de campo como la densidad, altura (Staben, Lucieer, & Scarth, 2018) y volumen forestal (Chrysafis, Mallinis, Gitas, & Tsakiri-Strati, 2017).
En los inventarios forestales se utilizan con frecuencia modelos matemáticos que emplean a las variables de diámetro y altura como predictivas para la estimación del volumen de árboles individuales. Las metodologías utilizadas para estimar el volumen forestal se clasifican en dos grupos: i) métodos directos y ii) métodos indirectos (Aquino- Ramírez, Velázquez-Martínez, Castellanos-Bolaños, De los Santos-Posadas, & Etchevers-Barra, 2015). El método directo implica la destrucción del árbol para su medición en secciones (Ren et al., 2015). En el segundo se relacionan variables fácilmente medibles, pueden ser el diámetro normal y la altura total. Ambos métodos son complementarios, ya que el primero permite obtener datos para entrenar modelos estadísticos que posteriormente pueden ser empleados para estimar el volumen forestal, sin destruir árbol alguno.
Una gran variedad de métodos estadísticos se han utilizado para encontrar relaciones eficaces entre las imágenes de satélite y los atributos forestales; entre estas se destacan los modelos de regresión lineal (Acosta Mireles, Pérez Miranda, Romero Sánchez, González Hernández, & Martínez Ángel, 2017), los modelos de regresión no lineal, modelos lineales generalizados (Donoghue et al., 2004), modelo de bosque aleatorio (Random Forest), modelo de regresión beta (Coulston et al., 2012), regresión armónica (Wilson, Knight, & McRoberts, 2018) y multivariate adaptative regression splines (MARS) (López-Sánchez et al., 2017).
El objetivo del presente estudio fue estimar el volumen forestal a partir de sitios de inventarios forestales obtenidos del SiPlaFor e imágenes de satélite Landsat 8 OLI, en el Ejido La Victoria, Pueblo Nuevo, Durango, México. La hipótesis es que los datos espectrales, mediante la técnica no paramétrica Random Forest, proveen una estimación del volumen forestal estadísticamente aceptable en comparación con estimaciones convencionales.
El área de estudio se localiza en la Sierra Madre Occidental en el Ejido La Victoria del Municipio de Pueblo Nuevo, al suroeste del estado de Durango, México (figura 1). Los tipos de clima presentes son templado subhúmedo y semifrío subhúmedo, según García de Miranda (2004). De acuerdo con el INEGI (2019) la temperatura mínima promedio anual es 6 °C y la máxima 24 °C y la precipitación media anual entre 700 y 900 mm. La altitud sobre el nivel del mar varía desde 2,245 m s. n. m. hasta 2,870 m s. n. m. Los tipos de vegetación son bosques de pino y bosques de pino-encino (González-Elizondo, González-Elizondo, Tena-Flores, Ruacho-González, & López-Enríquez, 2012).
Se obtuvo el número de observaciones del SiPlaFor (CONAFOR, 2021) para bosques templados con fecha de 2015. Dichos datos cuentan con la autorización de los propietarios de los terrenos forestales del Ejido la Victoria, Pueblo Nuevo, Durango, México, con una superficie de 10,810 ha. La base de datos estuvo conformada con información dasométrica derivada de 4,440 sitios de inventario forestal de forma circular de 1000 m2 (figura 1). Cabe mencionar que de dicho sistema se obtienen los cálculos de volumen forestal (m3 ha-1).
En la tabla 1 se observan los estadísticos descriptivos estimados a partir de los datos obtenidos del SiPlaFor.
Estadística descriptiva de las variables obtenidas en el área de estudio
Elaboración propia.Nota: Vta= Volumen forestal (m3 ha1), N= Números de árboles (ha1), G= Área basal (m2 ha1), Dg= Diámetro cuadrático (m2 ha1) y h= Altura total (m ha1).Se utilizó una escena de la plataforma satelital LANDSAT del sensor 8 OLI (path 31, row 44) libre de nubes, con fecha 26 de marzo de 2015 con un tamaño de pixel 30*30 m, proporcionadas a través de la página del Servicio Geológico de EE. UU. (USGS) ortorrectificadas y georreferenciadas a la proyección Universal Transversal de Mercator (UTM) Zona 13 Norte. Las bandas espectrales utilizadas de las imágenes Landsat 8 OLI en este estudio fueron: i) B2= azul (0.45 - 0.51 µm), ii) B3= verde (0.53 - 0.59 µm), iii) B4= rojo (0.64 - 0.67 µm); iv) B5= infrarrojo cercano (0.85 - 0.88 µm); v) B6= infrarrojo de onda ondas corta (1.57 - 1.65 µm) vi) B7= infrarrojo de ondas cortas (2.11 - 2.29 µm).
Una vez descargada la imagen, se llevó a cabo una corrección atmosférica conforme a los procedimientos establecidos en el módulo Semi-Automatic Classification Plugin implementado bajo el software QGIS (Congedo, 2016). En dicho procedimiento se transformaron los valores digitales crudos de cada una de las bandas a valores de reflectancia en superficie mediante el método de sustracción de objetos oscuros (DOS-por sus siglas en inglés) con el fin de reducir los efectos de la radiancia registrada en las bandas visibles (Paz Pellat et al., 2018) y así obtener información espectral corregidas atmosféricamente de cada una de las bandas (Brizuela, Aguirre, & Velasco, 2007).
Se generaron índices de vegetación con el fin de contar con variables espectrales adicionales para evaluar la presencia de vegetación y suelo en la estimación de volumen forestal. Ren et al. (2015) sugieren utilizar varios índices de vegetación para predecir estructuras de los bosques, por lo que mediante transformaciones matemáticas se calcularon 15 índices de vegetación (tabla 2). Estos permiten evaluar cuantitativa y cualitativamente el nivel de desarrollo y estado fitosanitario de la vegetación (Jensen, 2005).
Para este estudio los índices que se estimaron fueron Índice de Cociente Simple (RVI), Índice de Vegetación Proporción Verde (GVI), Índice de Diferencia (DVI), Índice del Área Foliar (LAI), Índice de Cociente Simple Normalizado (NRVI), Índice de Vegetación de Área Foliar Específica (SLAVI), Índice de Vegetación de Diferencia Normalizada (NDVI), Índice No Lineal (NLI), Índice de Diferencia Normalizada Verde (GNDVI), Índice Acumulado de Diferencia Normalizada (NDBI), Índice de Vegetación Ajustado al Suelo (SAVI), Índice de Vegetación Ajustado al Suelo Optimizado (OSAVI), Índice de Vegetación de Diferencias Renormalizadas (RDVI), Índice de Vegetación Transformado (TVI) e Índice de Vegetación Mejorada (EVI) (tabla 2).
Para determinar la relación entre el volumen total (m3 ha-1) y cada una de las bandas espectrales e índices de vegetación se utilizó la técnica no paramétrica Random Forest (RF), algoritmo de aprendizaje supervisado que se deriva de un conjunto de árboles de decisión y los combina para obtener una predicción más precisa y estable (Breiman, 2001). Cada pronóstico se realiza promediando las predicciones individuales de cada uno de los árboles que forman el Forest (ntree); sin embargo, reducir el valor de número de variables m elegidas en cada una de las particiones nodales (mtry) también puede reducir el presagio de cada árbol individual (González-Campos, 2017).
El volumen forestal se utilizó como variable dependiente y los datos espectrales e índices de vegetación obtenidos por teledetección se usaron como posibles variables predictivas. Breiman (2001) y Liaw y Wiener (2002) mencionan que RF se basa en un conjunto de árboles de decisión; es decir, una muestra entra al árbol y es sometida a una serie de test binarios en cada número de árboles, llamados split, hasta llegar a una hoja en la que se encuentra la respuesta. Esta técnica puede ser utilizada para dividir un problema complejo en un conjunto de problemas simples.
El análisis estadístico de RF se realizó de acuerdo con la metodología de Liaw y Wiener (2002) utilizando la librería Random Forest (Liaw & Wiener, 2018) en el entorno de programación R (R Core Team, s. f.). Para este estudio el algoritmo de RF se evaluó en un inicio con 500 árboles individuales, con el fin de evaluar la minimización del error del modelo en función al número de árboles (ntrees) con base en las 21 variables elegidas en cada una de las particiones nodales. Posteriormente se realizó una validación cruzada (10-fold). Para ello se crearon al azar un conjunto de datos para entrenamiento (80%) y otro para validación (20%), este proceso se realizó mediante el paquete "caret" (Kuhn et al., 2020). Se evaluó el conjunto de validación a fin de reportar la precisión en la predicción, para ello se utilizaron los estadísticos de Coeficiente de Determinación (R2) y la Raíz Cuadrada del Cuadrado Medio del Error (RMSE). Finalmente se aplicó el modelo de RF para obtención del mapa de volumen forestal en el área de estudio (figura 2).
La tasa de error estimada a partir de los datos independientes para clasificar a las variables predictoras fue estable a partir de los 400 árboles de decisión, lo cual significa que con ese número el error se minimiza y estabiliza, como se muestra en la figura 3.
De las variables independientes en el modelo, tres resultaron de mayor importancia para estimar el volumen total (m3 ha-1). Fueron el SLAVI, TVI y NRVI; el error medio cuadrático de cada variable fue de 12.99%, 13.82% y 15.36%. En contraste, el NDBI, B7 y B5 presentaron valor de error cuadrático más elevado, de 39.93%, 38.65% y 37.46%, respectivamente. En la figura 4 se puede observar también que el NLI, DVI, RVI, B3, y B4 muestran errores cuadráticos de 22.96%, 26.02%, 24.18%, 20.94% y 23.09%, respectivamente. Las variables no mencionadas anteriormente permanecieron en un rango intermedio del error cuadrático.
En razón a los criterios de selección, después de la validación cruzada el modelo explicó 84% de la variabilidad observada del volumen total, con un RMSE de 28.8 m3 ha-1 (figura 5).
En la figura 6 se muestra el volumen total. La mayor superficie fue de 4,119.67 ha (38.11%) en la categoría de 150 a 200 m3 ha-1, seguido por 3,416.48 ha correspondiendo a 31.60% en la categoría de 200 a 250 m3 ha-1 y 1,329. 88 ha (12.30 %) en el rango de 100 a 150 m3 ha-1. La clase de 300 a 342.85 m3 ha-1 fue la que menor volumen total presentó, con superficie de 31.26 ha (0.29%). El volumen total en el área de estudio para las categorías de 63.32 a 100 m3 ha-1 y de 250 a 300 m3 ha-1 fue una superficie de 95.26 ha (0.88 %) y 759.38 (7.02%) ha.
El número de árboles de decisión de 400 estimado en el modelo RF en este trabajo estuvo en el rango obtenido por Belgiu y Drâgut (2016) y Staben et al. (2018), quienes reportaron que el número de árboles de decisión utilizados oscilaba entre 70 y 5,000 y 512 y 4,096, respectivamente; estos autores mencionan que la precisión predictiva del algoritmo RF converge con el aumento del número de árboles de decisión.
En este trabajo las variables, índice de área foliar, Índice de vegetación, datos espectrales rojo (B4), verde (B3) e infrarrojo cercano (B5) poseen un nivel intermedio de importancia para predecir el volumen forestal en el modelo. Estos resultados concuerdan con los reportados por Acosta Mireles et al. (2017), Gemmell (1995), Martínez Barrón et al. (2016), Napolitano, Duriavig, Altobelli y Feoli (2004), Pérez Miranda, Romero Sánchez, González Hernández, Martínez Ángel y Arriola Padilla (2018) y Soria Ruiz y Granados Ramírez (2005).
Sin embargo, investigaciones de Kumar, Sharma, Bhardwaj y Thukral (2018) con imágenes de satélite Landsat TM, mediante análisis de regresión lineal múltiple y regresión ß, se encontró que la banda 3 (rojo) seguida de las bandas 2 (verde) y 4 (infrarrojo cercano) explican la máxima variabilidad en densidad y abundancia; mientras que en la biomasa fue la banda 2 (verde), bandas 3 (rojo) y 4 (infrarrojo cercano). Roy y Ravan (1996) con Landsat TM mediante análisis de regresión lineal reportaron que el infrarrojo visible (espectrales, azul (B2) y verde (B3)) están altamente correlacionadas con la biomasa y el porcentaje de variabilidad; esto se explica por los valores de R2, los cuales oscilaron entre 0.67 y 0.75 para n= 22 y 61.7, 74.4% n= 20.
Los resultados de ajuste en el presente estudio (R2= 0.84; RMSE= 28.88 m3 ha-1) fueron mayores, en comparación con la investigación realizada por Pérez Miranda et al. (2018), quienes indican que la estimación del volumen m3 ha-1 mediante el uso de imágenes de satélite del sensor Landsat 7 ETM en tres Unidades de Manejo Forestal (1005, 1006, 1008) en el estado de Durango, México, a través de la implementación de modelo de regresión lineal simple, encontraron un R2 de 0.66 y un RMSE de 30.19; por otro lado, Astola, Häme, Sirro, Molinier y Kilpi (2019), en un estudio realizado en bosque boreal en Finlandia con imágenes del sensor Sentinel-2 y Landsat 8 OLI, con métodos de red Perceptrón Multicapa (MPL) y árboles de regresión, los cuales obtuvieron un R2 de 0.56 y 0.38 m3 ha-1 y RMSE de 59.3% y 72.2%, respectivamente, en la estimación de volumen de fuste (m3 ha1).
La RMSE en este estudio fue mayor que la reportada por Mura et al. (2018), donde la que mejor se ajustó para la determinación de volumen de madera en pie en ecosistemas forestales en dos áreas de estudio en Italia fue de 6.84% para el sensor Landsat y de 22. 94% para Sentinel-2, ambos con un sistema k-NN basado en una matriz de distancia calculada con el algoritmo de RF y por Acosta Mireles et al. (2017), quienes reportan una R2 de 0.47, 0.54 y RMSE de 17.92 y 13.18 para la estimación de volumen por ha con imágenes de satélite del sensor Landsat 7 ETM+, al suroeste del Estado de México.
En el suroeste de Columbia Británica Gemmell (1995) estimó el volumen de madera en especies de coníferas mixtas con datos de Landsat (TM) y encontró que la clasificación de los polígonos de inventarios con datos espectrales tiene una precisión de 0.78 (R2) dentro de 25% del volumen de inventario entre la clase de 130 m3 ha-1 y 300 m3 ha-1, en las clases inferiores a 150 m3 ha-1 una precisión (R2) de 0.44. Estos resultados son similares con la presente investigación, donde en la categoría de 150 m3 ha-1 y 300 m3 ha-1 es de 0.76 (R2) y en la categoría inferiores de 150 m3 ha-1 la precisión fue 0.13 (R2), por consiguiente, los datos espectrales con información de inventarios forestales ajustan bien en la predicción de volumen forestal en la categoría de 150 m3 ha-1 a 300 m3 ha-1.
Los datos espectrales e índices de vegetación utilizados en este estudio difieren con Pérez Miranda et al. (2018), quienes sugieren probar imágenes de alta resolución para mejorar las estimaciones; sin embargo, al utilizar imágenes de media resolución como Landsat 8 se obtienen buenos resultados, como en el presente estudio. Por otro lado, Torres-Rojas et al. (2016) reportaron que el uso de detección remota de alta resolución espacial no mejora sustancialmente las estimaciones de atributos forestales. Por lo anterior es necesario seguir explorando nuevas metodologías (Ortiz-Reyes et al., 2015).
El índice de vegetación de área foliar especifica (SLAVI), el de vegetación transformado (TVI) y el de cociente simple normalizado (NRVI) de la imagen de satélite son indicadores sensibles para estimar el volumen total (m3 ha-1). Los datos de las imágenes de satélite Landsat 8 se pueden utilizar para estimar el volumen total (m3 ha-1) con 85% de precisión y pueden aplicarse en otros sitios que posean características similares a los sitios evaluados en este estudio. Los resultados mostraron que es posible estimar el volumen forestal total mediante el uso de tecnología Landsat 8 OLI, técnica no paramétrica de RF y datos derivados de la plataforma digital SiPlaFor, de tal manera que en un futuro se puedan utilizar como fuente de datos para este tipo de fines.
Los autores desean agradecer al Ejido La Victoria, Pueblo Nuevo, Dgo., México por facilitar los datos del inventario.
pdomingc@hotmail.com
Estadística descriptiva de las variables obtenidas en el área de estudio
Elaboración propia.Nota: Vta= Volumen forestal (m3 ha1), N= Números de árboles (ha1), G= Área basal (m2 ha1), Dg= Diámetro cuadrático (m2 ha1) y h= Altura total (m ha1).