Resumo: Resumo: A classificação remota dos diferentes estádios sucessionais da vegetação ainda constitui um desafio devido à similaridade espectral destas classes. Este artigo tem o objetivo de avaliar o desempenho de imagens Landsat-8 e RapidEye para a classificação do estádio sucessional da vegetação em um fragmento de Floresta Ombrófila Mista, localizado no Parque Nacional de São Joaquim- SC. Para isto, três grupos de variáveis gerados a partir de cada imagem foram avaliados, sendo: (1) composto somente pelas bandas espectrais puras; (2) composto pelas métricas texturais GLCM geradas a partir das bandas espectrais; e (3) composto pelas variáveis dos dois grupos anteriores, além de dois índices de vegetação no caso da imagem Landsat-8, e três índices para a RapidEye. Cada grupo foi testado com os classificadores florestas randômicas (Random Forest- RF), máquinas de vetor de suporte (Support Vector Machine - SVM) e máxima verossimilhança (Maxver). Todos os experimentos alcançaram resultados satisfatórios, com índice Kappa variando de 0,66 a 0,88 e acurácia de usuário e produtor superiores a 50%. O melhor resultado alcançado foi com a imagem Landsat-8, grupo 3, associado ao algoritmo RF. A medida de importância das variáveis obtida com o algoritmo RF mostrou que as métricas texturais média, contraste e dissimilaridade destacaram-se na classificação para ambas as imagens
Palavras-chave: Sucessão florestalSucessão florestal,Máquinas de Vetor de SuporteMáquinas de Vetor de Suporte,Florestas RandômicasFlorestas Randômicas,Atributos.Atributos..
Abstract: Abstract: The remote classification of the different vegetation successional stages still represents a challenging task in face of the similar spectral response of such classes. This paper is committed to evaluate the performance of Landsat-8 and RapidEye images in the classification of successional stages within a patch of Mixed Ombrophilous Forest located in São Joaquim National Park, Santa Catarina State, south of Brazil. Three variables dataset extracted from each image were analyzed, namely; (1) one solely consisting of the spectral bands themselves; (2) a second one comprising GLCM-based texture measures derived from the spectral bands; and (3) a third one containing these two datasets and additionally two vegetation indices obtained from the Landsat 8 image and three vegetation indices from the RapidEye image. Each dataset was subject to three classifiers: random forest (RF), support vector machine (SVM), and maximum likelihood estimation (MLE or maxver). All conducted experiments achieved satisfactory results, with Kappa coefficients ranging from 0.66 to 0.88, and both user´s and producer´s accuracies lying over 50%. The best result was attained with the Landsat 8 image using the third dataset and the RF classifier. The analysis of the variables relevance with this classifier showed that the texture measures mean, contrast and dissimilarity were decisive for the successful classification of both images
Keywords: Secondary forests, Support Vector Machine, Random Forest, Features.
Artigo
ABORDAGENS PARA CLASSIFICAÇÃO DO ESTÁDIO SUCESSIONAL DA VEGETAÇÃO DO PARQUE NACIONAL DE SÃO JOAQUIM EMPREGANDO IMAGENS LANDSAT-8 E RAPIDEYE
Approaches for classifying successional forest stages in São Joaquim National Park using Landsat-8 and RapidEye images
Recepção: 25 Janeiro 2016
Aprovação: 03 Março 2017
O mapeamento dos remanescentes florestais da Mata Atlântica e seus estádios de sucessão consiste em uma etapa fundamental para implantação de diversos estudos, ações de fiscalização e manejo ambiental (Ribeiro et al. 2009). A proposição de metodologias que contemplem essa temática permite avaliar quantitativa e qualitativamente os fragmentos remanescentes bem como a sua distribuição espacial. Essas informações podem subsidiar estudos complementares, a exemplo do estabelecimento de áreas prioritárias para conservação, entre outros (Amaral et al. 2009). Uma vez que os estádios sucessionais são mencionados nos textos das leis de proteção am biental, a exemplo da Lei da Mata Atlântica (Lei 11.428/2006) (Brasil 2006), torna-se, portanto, necessário avaliar o papel de dados remotamente obtidos para atendimento da legislação, já que trazem implicações nas possibilidades de uso da terra.
Nas últimas décadas, observou-se uma notável evolução das tecnologias espaciais destinadas ao monitoramento dos recursos florestais. O recente avanço de características espaciais e espectrais de sensores orbitais e o melhoramento de algoritmos de classificação têm aumentado a popularidade de dados de Sensoriamento Remoto como fonte para mapeamento do uso e cobertura da terra (Adam et al. 2014). O uso dessas ferramentas costuma ser vantajoso em relação aos mapeamentos em campo convencionais, não só pelo fato de serem de mais rápida obtenção, como também por envolverem menores custos financeiros e humanos (Janoth et al. 2007).
No entanto, o mapeamento de estádios de sucessão florestal impõe outros desafios no processo de classificação, pois os espectros de refletância são muito similares (Vieira et al. 2003). Nas duas últimas décadas, vários pesquisadores têm se esforçado para classificar os estádios sucessionais da vegetação utilizando dados de Sensoriamento Remoto (Vieira et al. 2003, Galvão et al. 2009, Amaral et al. 2009, Li et al. 2011, Lu et al. 2012, Lu et al. 2014). De acordo com Lu et al. (2012), a seleção de variáveis adequadas e o desenvolvimento de algoritmos avançados são os dois principais tópicos de pesquisa visando melhorar o desempenho da classificação da vegetação.
As imagens provenientes de sensores ópticos possuem características únicas quanto à resolução radiométrica, espectral, espacial e temporal e têm se tornado fontes primárias para classificação da cobertura da terra e da vegetação em diversas escalas (Lu e Weng 2007, Lu et al. 2014). Dentre os novos sensores multiespectrais disponíveis, citam-se a constelação de cinco satélites RapidEye, que fornece imagens de alta resolução espacial (5 m) e temporal (5 dias); e o satélite Landsat 8, que se destaca pela sua alta resolução radiométrica de 16 bits, além do maior número de bandas espectrais e outras melhorias em relação às missões anteriores. As imagens RapidEye foram adquiridas pelo governo brasileiro para subsidiar o Cadastro Ambiental Rural (CAR) e são atualmente disponibilizadas às instituições públicas.
Além das imagens, a escolha da técnica de classificação também é determinante para o mapeamento confiável do uso e cobertura da terra (Lu e Weng 2007). Dentre os algoritmos não-paramétricos, florestas randômicas (random forest - RF) e máquinas de vetor de suporte (support vector machine- SVM) têm se destacado devido a sua superioridade na tratabilidade das imagens (Adam et al. 2014). Isso inclui a habilidade em sintetizar funções de regressão ou classificação baseadas em conjuntos de dados discretos ou contínuos, menor sensibilidade a ruídos ou over-training e capacidade para lidar com conjuntos de dados não-balanceados (Breiman 2001). A utilização e implementação dos algoritmos RF e SVM ainda não foi amplamente adotada pela comunidade do Sensoriamento Remoto para geração de mapas devido à falta de plataformas amigáveis (Adam et al. 2014). Apesar de existirem plataformas livres, como o MATLAB, Python e R, estas exigem maior conhecimento computacional dos usuários.
Contudo, recentemente, esta limitação está sendo superada com a introdução de rotinas computacionais de código aberto, como o ImageRF (Waske et al. 2012) e ImageSVM (Van der Linden et al. 2015), de interface amigável em aplicativos de livre acesso, para que a grande maioria dos usuários possa fazer uso destes algoritmos. Essas ferramentas são baseadas na Linguagem de Dados Interativa (Interactive Data Language - IDL) e podem ser inteiramente integradas dentro de softwares comerciais, como IDL/ENVI® (Environment for Visualizing Images), ou também podem ser utilizadas como uma plataforma livre e independente denominada ENMap-Box (Van der Linden et al. 2015).
Diante disso, este artigo tem o objetivo de avaliar metodologias para classificação do estádio sucessional da vegetação do Bioma Mata Atlântica, usando imagens de alta resolução espacial RapidEye e de média resolução espacial Landsat-8. Os objetivos específicos foram (1) testar o desempenho dos algoritmos por aprendizagem de máquina RF e SVM e compará-los com o classificador máxima verossimilhança (Maxver), algoritmo paramétrico largamente utilizado (Jensen 2011); (2) verificar a contribuição de métricas texturais e índices de vegetação provenientes destas imagens na classificação dos estádios sucessionais da vegetação; (3) comparar o desempenho das imagens RapidEye e Landsat-8 para diferenciação das tipologias vegetais.
A área de estudo abrange 800 ha e situa-se na região central do Parque Nacional de São Joaquim (estado de Santa Catarina), a uma altitude de 1.638 m. A cobertura florestal é constituída de um mosaico de Floresta Ombrófila Mista e fragmentos florestais permeados por Campos de Altitude e Matas Nebulares (Faxina 2014). Segundo Faxina (2014), o solo predominantemente é raso, pedregoso, com afloramentos rochosos de basalto e arenito, prevalecendo neossolos, argissolos e cambissolos, datados de aproximadamente 133 milhões de anos. O clima é do tipo Cfb de Köppen, mesotérmico úmido sem estação seca definida, verões frescos, com ocorrência de geadas severas e frequentes no inverno, e temperatura média de 12ºC. A precipitação média anual é de 1.400 mm.
O levantamento em campo da área de estudo foi realizado no ano de 2013 por Faxina (2014). Essa autora utilizou o processo de amostragem em múltiplas ocasiões com distribuição sistemática das unidades amostrais (UAs) a partir de uma rede de pontos sistematizados (GRID), com distância de 500 m x 500 m (Figura 1). Nas UAs com área maior ou igual a 75% de formação florestal em estádio médio ou avançado de regeneração, foram alocadas parcelas compostas por um conglomerado com área total de 1.200 m², medindo 10 m de largura e 30 m de comprimento, e efetuado o levantamento de todos os indivíduos com diâmetro à altura do peito (DAP) maior ou igual a 10 cm. O estádio sucessional da vegetação foi definido conforme critérios estabelecidos pela resolução CONAMA nº 04/1994 (Brasil 1994).

Foi adquirida uma imagem do sensor OLI, a bordo do satélite Landsat-8, órbita/ponto 220/080 de 16 de fevereiro de 2014, no site da United States Geological Survey (USGS), ortorretificada no nível L1T. As bandas espectrais utilizadas no estudo incluem azul (0,45-0,51 μm), verde (0,53-0,59 μm), vermelho (0,64-0,67 μm), infravermelho próximo (IVP; 0,85-0,88 μm), infravermelho de ondas curtas 1 (SWIR 1; 1,57-1,65 μm), SWIR 2 (2,11-2,29 μm) e pancromática (0,5-0,68 μm). A composição multiespectral destas seis bandas foi fusionada com a banda pancromática através do algoritmo Gram-Schmidt, a fim de aumentar a resolução espacial das bandas multiespectrais para 15 m.
Da constelação de cinco satélites RapidEye, utilizaram-se as cenas 2226120 e 2226121, datadas de 27 de setembro de 2013, com correções de nível 3A. As imagens dos satélites RapidEye possuem cinco bandas espectrais: azul (440-510 μm); verde (520-590 μm); vermelho (630-685 μm); vermelho limítrofe (red edge) (690-730 μm); e IVP (760-850 μm). Efetuou-se o mosaico das duas cenas do RapidEye no aplicativo ENVI 5.3. Importante ressaltar que apesar de as datas das imagens Landsat-8 e RapidEye serem distintas, não ocorrem diferenças sazonais na fitofisionomia vegetal em estudo. Pelo fato de a área estar localizada dentro de uma Unidade de Conservação de Proteção Integral, não ocorreram alterações antrópicas no local.
Com o intuito de realizar a caracterização espectral dos alvos e executar operações matemáticas entre as bandas espectrais para gerar os índices de vegetação, foi realizada a conversão dos números digitais (ND) das imagens de ambos os satélites para valores físicos de radiância através da ferramenta Radiometric Calibration do aplicativo ENVI 5.3. A correção atmosférica foi feita com o algoritmo Fast Line-Of-Sight Atmospheric Analysis Of Spectral Hypercubes (FLAASH), convertendo os valores de radiância para reflectância hemisférica-direcional de superfície.
As imagens Landsat-8 e RapidEye tiveram que ser ajustadas entre si, para possibilitar a comparação das classificações, já que um pixel da imagem Landsat fusionada recobre nove pixels da imagem RapidEye. Por este motivo, a imagem Landsat-8 foi reamostrada para a resolução espacial de 5 m no aplicativo ENVI 5.3 com o interpolador vizinho mais próximo.
Após a etapa de pré-processamento, definiram-se as classes e procedeu-se à coleta de amostras. As classes encontradas na área de estudo foram: vegetação em estádio avançado (VEA), vegetação em estádio médio (VEM), vegetação em estádio inicial (VEI), banhado de altitude e campo. A seleção das amostras baseou-se em trabalhos em campo realizados por Faxina (2014) e na fotointerpretação de ortoimagens com resolução espacial de 0,39 m, oriundas do levantamento aerofotogramétrico de Santa Catarina (Engemap 2012). Foi gerado um arquivo de treinamento e outro arquivo com as amostras de validação, este não contemplando pixels utilizados no treinamento.
O índice de separação de classes Jeffrey-Matsushita (JM) (Richards e Jia 2006) foi utilizado para avaliar o grau de sobreposição das classes nas amostras de treinamento. O valor de JM é calculado por par de classes. O índice varia em uma escala de 0 a 2, sendo que se duas classes obtiveram um valor JM igual a 2, significa que as amostras são completamente distintas. Valores acima de 1,8 indicam um bom nível de probabilidade de classificação correta, registrando por uma separabilidade do espaço de atributos espectrais entre as classes. Já valores abaixo de 1,8 indicam a possibilidade de confusão na classificação entre o par de classes (Richards e Jia 2006).
Para cada imagem, foram utilizados três grupos de informações distintos, definidos como A1, A2 e A3 nas imagens Landsat-8; e B1, B2 e B3 nas imagens RapidEye (Tabela 1). No primeiro grupo, utilizaram-se somente as bandas espectrais puras de cada sensor, com exceção da banda ultra-azul do Landsat-8, descartada por apresentar ruído. O segundo grupo foi composto apenas pelas métricas texturais derivadas das bandas espectrais. Dentre as métricas texturais disponíveis, optou-se por aquelas obtidas a partir da matriz de co-ocorrência dos níveis de cinza (grey levels co-ocurrence matrix - GLCM), proposta por Haralick, Shanmugam e Dinstein (1973). Em seu estudo inicial, Haralick, Shanmugam e Dinstein (1973) definiram 14 características texturais que foram derivadas de matrizes de co-ocorrência. Como elas são correlacionadas uma com a outra, seis delas são consideradas as mais relevantes para a análise de imagens em Sensoriamento Remoto: segundo momento angular, contraste, variância, homogeneidade, variância, correlação, entropia (Lu et al. 2014). Além destas seis métricas citadas, neste estudo também se utilizou a dissimilaridade e a média textural.
A análise textural GLCM também requer a escolha de outros quatro parâmetros: tamanho da janela, banda utilizada, nível de quantização e a componente espacial, compreendendo a distância entre os pixels e o ângulo (direção). O tamanho da janela afeta o desempenho das métricas de texturas GLCM na classificação da cobertura da terra. Janelas pequenas podem exagerar diferenças e aumentar o ruído da imagem textural, enquanto que janelas grandes podem efetivamente não extrair a informação textural devido à suavização na variação da textura (Attarchi e Gloaguen 2014). Com base na interpretação visual e na separabilidade das classes observada pelo índice JM, escolheu-se o tamanho de janela 9 x 9 pixels, já que testes preliminares indicaram ser este o tamanho mais adequado. Pelo mesmo motivo, optou-se pela direção sudoeste e nível de quantização de 64 bits. As medidas texturais foram calculadas para todas as bandas espectrais de cada sensor. A descrição dos atributos texturais extraídos pode ser visualizada em Baraldi e Parmigianni (1995).
O terceiro grupo envolveu todos os dados dos dois grupos anteriores, acrescentados do índice de vegetação por razão simples (RS) (Birth e Macvey 1968) e índice de vegetação por diferença normalizada (Normalized Difference Vegetation Index- NDVI) (Rouse et al. 1973). De acordo com Jensen (2011), estes índices apresentam desempenhos diferentes de acordo com o tipo de vegetação. Enquanto o NDVI tem melhor desempenho nas classes de vegetação de menor biomassa, como pastos, áreas áridas e semiáridas, saturando nas classes de maior biomassa, como florestas e áreas de vegetação densa, o desempenho do RS apresenta maior intervalo com vegetação de maior biomassa, saturando na vegetação de menor biomassa. Das imagens RapidEye, obteve-se ainda o índice de vegetação por diferença normalizada red-edge (NDVIre), composto pelas bandas vermelho limítrofe e IVP (Eitel et al. 2011, Ozdemir 2014). As métricas texturais e os índices de vegetação das imagens foram obtidos no ENVI 5.3.

Cada grupo de variáveis da Tabela 1 foi testado com três classificadores: RF, SVM e Maxver. O RF é uma técnica desenvolvida por Breiman (2001), como forma de melhorar a árvore de classificação e regressão (classification and regression tree- CART) através da combinação de um grande número de conjuntos de árvores de decisão. Cada árvore contribui com um único voto, e a classificação final é determinada pela maioria dos votos de todas as árvores da floresta. As amostras que não são utilizadas no sorteio inicial são chamadas de out-of-bag (OOB) e podem ser utilizadas para estimar erros de classificação e obter a importância das variáveis (Adam et al. 2014). O algoritmo RF possui dois parâmetros a serem determinados: número de variáveis (mtry) e número de árvores (ntree). O número de árvores padrão é 500, enquanto o número de variáveis é a raiz quadrada do número total de bandas espectrais usadas no estudo (Breiman 2001). A abordagem denominada busca por grade (grid search), baseada no erro estimado do OOB, foi usada para encontrar a combinação ótima destes dois parâmetros no ENMap-Box, e posterior classificação da imagem. Este algoritmo também foi utilizado para verificar a importância das variáveis na classificação.
O algoritmo SVM (Cortes e Vapnik 1995) é um classificador supervisionado por aprendizado de máquina, treinado para encontrar o hiperplano ótimo através da minimização do limite superior do erro da classificação (Adam et al. 2014). Para o mapeamento de classes não linearmente separáveis, quatro funções núcleos do algoritmo SVM são mais frequentemente utilizadas: linear, polinomial, função de base radial (FBR) e sigmoide. Neste estudo, escolheu-se a função núcleo FBR, que tem se mostrado superior às demais funções em outros estudos (Huang, Davis e Townshend 2002, Duro, Franklin e Dube 2012). Esta função núcleo possui dois parâmetros a serem escolhidos pelo usuário e que podem afetar a acurácia da classificação (Burges 1998): o custo (C), valor usado para ajustar erros de classificação no conjunto de dados de treinamento (Adam et al. 2014), e gamma (g). Um valor de C alto pode superajustar o modelo aos dados, enquanto o ajuste do parâmetro g influenciará a forma de separação do hiperplano (Li e Du 2015). Os valores ótimos dos parâmetros C e g geralmente são estimados através de exaustivos métodos de pesquisa (Lin e Liu 2007), como por tentativa e erro. A ferramenta ImageSVM do ENMap-Box possibilita a busca automática desses parâmetros. Desta forma, o espaço de busca compreendeu valores de g entre 0 e 1.000, combinados com o parâmetro C variando entre 0,01 e 1.000.
Já o classificador paramétrico Maxver assume que cada classe de interesse possui distribuição normal. Baseia-se na probabilidade de um pixel pertencer à determinada classe e leva em conta a variabilidade das classes usando a matriz de covariância (Lu et al. 2014).
A classificação das imagens empregando os algoritmos RF e SVM foi realizada no ENMap-Box, enquanto a classificação com o algoritmo Maxver foi feita no aplicativo ENVI 5.3. Por fim, para a avaliação dos resultados, foram geradas matrizes de confusão, a partir do cruzamento de dados de referência com as amostras de validação. A partir das matrizes, foram calculados os seguintes índices: (a) acurácia global (AG); (b) acurácia do produtor, (c) acurácia do usuário; (d) índice Kappa (Congalton e Green 1999). O teste z para os índices Kappa das classificações foi realizado com nível de significância de 5%, ou seja, com um intervalo de confiança de 95%. Quando z > 1,96, o teste é significante, rejeita-se a hipótese de nulidade, podendo-se concluir que existe diferença estatística entre os valores obtidos.
Na avaliação do grau de sobreposição das amostras de treinamento, as classes apresentaram boa separabilidade, com índices JM próximos a 2. Os menores índices encontrados ocorreram na classe “VEA” em relação a “VEM”, com índice de 1,01 no grupo de variáveis A1, e de 0,18 para o grupo B1. Notou-se que nos grupos que contêm a informação textural, o índice entre essas duas classes chegou a 1,99. Attarchi e Gloaguen (2014) também observaram que, ao incluir informações de textura derivadas da banda L de dados de RADAR (radio detection and ranging), houve melhora na separabilidade das amostras entre as classes floresta natural e floresta manejada.
Os parâmetros g e C escolhidos automaticamente para o modelo do classificador SVM variaram de acordo com o grupo utilizado. Apenas com o grupo A1 o valor de g foi de 10, e para os demais foi de 0,10. O parâmetro C variou de 10 a 1.000 entre os grupos. De acordo com Ustuner Sanli e Dixon (2015), os parâmetros ótimos do classificador SVM variam de acordo com o conjunto de dados e métodos utilizados na classificação. Desta forma, os autores recomendam que os parâmetros ótimos dos modelos SVM sejam analisados em detalhe antes da seleção do modelo final, visando obter melhores resultados na classificação.

A Tabela 2 mostra a acurácia do produtor e usuário para cada classificador e grupo de variáveis utilizado. Todos os classificadores tiveram bom desempenho, com AG mínimo de 73,3% e índice Kappa de 0,66 no grupo B1 associado ao classificador Maxver; e máximo de 90,83% e índice Kappa de 0,88 no grupo A3 associado ao classificador RF. As classes referentes aos estádios sucessionais da vegetação mantiveram acurácia de produtor e usuário superiores a 50% com os algoritmos não-paramétricos, ótimos resultados em se tratando de classes espectralmente tão semelhantes.
Nos grupos A1 e B1, constituídos apenas pelas bandas espectrais dos satélites Landsat-8 e RapidEye, respectivamente, os resultados foram semelhantes para os três algoritmos. A AG foi de aproximadamente 86% nas imagens Landsat-8, e 76% nas imagens RapidEye. O pior resultado alcançado foi com o classificador Maxver e grupo B1, que teve 73% de acurácia.
Para os grupos A2 e B2, compostos apenas pelas componentes texturais das bandas espectrais, o algoritmo RF obteve melhor desempenho. Percebeu-se que as informações texturais aumentaram a acurácia da classificação nos classificadores SVM e Maxver apenas para a imagem RapidEye. Isso pode estar atrelado ao fato de que imagens RapidEye têm maior resolução espacial, e as medidas texturais suavizaram as sombras da imagem e os ruídos intraclasse. Nos grupos de informações A3 e B3, o classificador RF novamente se destacou em relação aos demais, obtendo acurácia máxima na imagem Landsat-8. Novamente, para os classificadores SVM e Maxver, apenas nas imagens RapidEye houve aumento da acurácia em comparação ao se utilizar somente as bandas espectrais puras.
Percebe-se que o algoritmo RF teve um aumento gradual em sua acurácia com o acréscimo de variáveis, enquanto o SVM e Maxver se beneficiaram deste acréscimo somente nos experimentos envolvendo as imagens RapidEye. Para as imagens Landsat-8, os classificadores SVM e Maxver obtiveram melhor desempenho ao se utilizar somente as bandas espectrais puras (Figura 2).

Quanto aos estádios sucessionais da vegetação, as classes VEA e VEM tiveram melhor resultado com o grupo A3 e classificador RF. A classe VEI alcançou 100% de acurácia do usuário nos experimentos B2 e B3 com o algoritmo Maxver. Ao analisar o histograma desta classe, percebeu-se que ela mantém maior regularidade na frequência de valores dos dados de treinamento em todas as bandas. Desta forma, o algoritmo paramétrico foi mais adequado para delimitá-la, já que foi possível computar a variância da classe e as matrizes de covariância. As classes campo e banhado são as que tiveram melhores resultados nos grupos que utilizaram imagem RapidEye, ou seja, B1, B2 e B3. Nos experimentos com as imagens Landsat-8, verificou-se maior confusão entre essas duas classes, o que pode estar associado à menor resolução espacial desta imagem.
Comparando os três estádios sucessionais individualmente, nenhum algoritmo conseguiu melhor acurácia para todas as classes nos diferentes grupos de informações. Os grupos de variáveis A3 e B3 associados ao algoritmo RF produziram os melhores resultados para as classes VEA e VEM. Na classe VEI, os resultados variaram conforme a imagem. Para a imagem Landsat-8, o melhor desempenho foi alcançado com o algoritmo SVM associado ao grupo A1, ao passo que, na imagem RapidEye, o algoritmo Maxver associado aos grupos B2 e B3 teve melhor desempenho.
De maneira geral, a classificação dos estádios sucessionais da vegetação apresentou melhores resultados nos experimentos com a imagem Landsat-8. A maior resolução radiométrica de imagens Landsat-8 pode ter exercido influência significativa, principalmente na distinção das classes VEA e VEM. De acordo com Jensen (2011), uma alta resolução radiométrica geralmente aumenta a probabilidade de que os fenômenos sejam avaliados com mais exatidão pelo Sensoriamento Remoto. A menor acurácia dos experimentos conduzidos com as imagens RapidEye pode ser atribuída à maior variabilidade espectral no interior da mesma classe de cobertura da terra (Adam et al. 2014). Além disso, pode-se considerar a influência de sombras nas classificações da imagem RapidEye, devido à maior resolução espacial. Por estes motivos, abordagens de análise de imagens por regiões ou por objeto (object based image analysis- OBIA) poderiam ser exploradas para a classificação deste tipo de imagem.
O teste z mostrou que o grupo de variáveis A3 associado ao classificador RF foi significantemente superior aos demais (Figura 3). Para o classificador SVM, a classificação com o grupo A1 foi significantemente superior aos demais grupos com o mesmo algoritmo (Figura 3). Nas imagens RapidEye, o grupo de variáveis B3 foi o que teve melhores resultados com os dois classificadores não-paramétricos, RF e SVM (Figura 3). No caso do classificador Maxver, os melhores resultados foram nos experimentos A1, B2 e B3, os quais não diferiram significantemente entre si. O grupo de informações B1 teve os piores resultados para os três algoritmos testados.

Percebeu-se que o aumento de variáveis melhorou a acurácia da classificação de imagens RapidEye, porém, piorou para as imagens Landsat-8 com os algoritmos SVM e Maxver. Ao se utilizar o classificador RF, o aumento de variáveis aumentou a acurácia da classificação tanto das imagens Landsat-8 como RapidEye. Walton (2008) destaca a capacidade de o algoritmo RF lidar com variáveis explicativas fracas, o que explica ser este o único classificador que obteve aumento de acurácia com o acréscimo de variáveis em todas as situações testadas. Novack et al. (2011), ao avaliarem o desempenho de diferentes grupos de variáveis de imagens Quickbird e Worldview-2 nos classificadores RF, árvore de decisão, árvore de regressão e SVM, concluíram que o RF alcançou maior acurácia dentre todos. No estudo desses autores, o classificador SVM obteve o pior desempenho, o que eles atribuíram à alta dimensionalidade e correlação do espaço de atributos. Pelo fato de outros classificadores avaliarem cada atributo internamente, eles são menos influenciados pela correlação e dimensionalidade do espaço de atributos. Além disso, o aumento de variáveis, no caso dos grupos A2 e A3, pode ter ocasionado o superajustamento dos dados às amostras de treinamento no modelo SVM e Maxver (Novack et al. 2011).
O algoritmo RF implementado no ENMap-Box fornece uma medida de importância de cada variável no processo de classificação. A determinação desta medida permitiu a identificação das informações mais relevantes na discriminação das classes de vegetação. No geral, para ambas as imagens, destacaram-se as médias texturais das bandas obtidas a partir da matriz de co-ocorrência GLCM (Figura 4). A média textural da banda azul foi considerada a variável mais importante para ambas as imagens. A banda azul pode ter sido utilizada para discriminar as classes de vegetação das classes campo e banhado. Estas duas classes, por possuírem maior presença de solo, têm resposta espectral comparativamente superior à vegetação nesta faixa do espectro (Francisco e Almeida 2012).

Quanto às demais medidas texturais, destacaram-se as métricas contraste e dissimilaridade, principalmente de bandas relacionadas ao infravermelho. Li et al. (2014) realizaram a classificação do uso da terra com imagens Landsat TM com e sem as duas bandas no infravermelho, e tiveram um acréscimo de 3 a 5% de acurácia com o uso destas bandas. De acordo com Baraldi e Parmigianni (1995), o contraste é uma das métricas texturais mais relevantes para a distinção das classes. Elevados valores de contraste indicam textura mais rugosa (Francisco e Almeida 2012), característica importante para discriminar tipologias vegetais.
Na imagem Landsat-8, as bandas puras azul (ban(2)) e IVP (ban(5)) estão entre as dez variáveis mais importantes (Figura 4). Na RapidEye, as bandas texturais obtiveram maior importância que as bandas espectrais puras. Isto explica o fato de o experimento B1 ter obtido menor índice de acerto para os três classificadores testados. Além disso, sobre a imagem RapidEye composta apenas das bandas espectrais puras, o índice JM indicou baixíssima separabilidade entre as classes VEA e VEM, como exposto anteriormente.
Além da média textural, para a imagem Landsat-8, a banda 2 (azul) e informações derivadas a partir dela, como dissimilaridade e contraste, estão entre as 10 variáveis mais importantes. O NDVI destacou-se como a quinta informação mais importante, logo atrás da média textural das duas bandas no infravermelho de ondas curtas (bandas 6 e 7). Desta forma, percebe-se que informações derivadas das bandas vermelho, IVP e infravermelho de ondas curtas têm grande importância na distinção da vegetação.
No caso da imagem RapidEye, a média textural da banda 4 (vermelho limítrofe) foi a segunda no ranking de importância das variáveis. Alguns estudos mostraram que a incorporação da banda vermelho limítrofe das imagens RapidEye, por ser sensível ao teor de clorofila das plantas, aumentou a separabilidade das classes de uso da terra (Schuster, Förster e Kleinschmit 2012, Tigges, Lakes e Hostert 2013, e Adelabu, Mutanga Adam 2014, Adam et al. 2014) e, consequentemente, melhorou a acurácia da classificação das classes vegetação, agricultura e florestas nesses estudos.
Este estudo mostrou que embora a resposta espectral tenha sido reconhecida como a característica mais importante na classificação da cobertura da terra, a informação textural inerente às imagens também pode prover elementos valiosos para melhorar a classificação (Li et al. 2011, Lu et al. 2012). A aplicação da informação textural foi apontada em vários estudos para melhor discriminação de classes de vegetação (Yu et al. 2006, Sette e Maillard 2011, Roslani et al. 2013, Gomes e Maillard 2015). Sette e Maillard (2011), ao classificarem os estádios sucessionais da vegetação de Floresta Ombrófila Densa em imagens do satélite FORMOSAT-2, no sul da Bahia, obtiveram acurácia de 60,5% ao utilizar somente as bandas do visível e 91% ao incluir atributos texturais. Já Azevedo et al. (2014), ao realizarem a caracterização do uso e cobertura da terra no município de Humaitá, na Amazônia, com dados multitemporais do RADAR COSMO-SkyMed, não encontraram diferença significativa entre as classificações utilizando somente a banda X no modo intensidade ou quando agregada a informações texturais.
Quanto ao desempenho dos algoritmos utilizados, outros estudos apontaram a superioridade de classificadores por aprendizagem de máquina em comparação a abordagens convencionais. Adam et al. (2014), ao compararem o desempenho dos algoritmos SVM e RF para a classificação de diferentes classes de cobertura da terra, obtiveram desempenhos similares nestes dois algoritmos, porém a maior acurácia foi alcançada pelo RF. Lu et al. (2014) compararam o desempenho dos algoritmos Maxver, redes neurais artificiais, árvores de decisão, SVM e OBIA em imagens Landsat-5 e ALOS/PALSAR para classificar o estádio sucessional da vegetação no Bioma Amazônia. Os autores verificaram que imagens Landsat foram mais eficientes para esse propósito do que imagens ALOS/PALSAR. Quanto aos algoritmos utilizados, Lu et al. (2014) concluíram que o desempenho variou conforme o conjunto de dados utilizados, sendo que o Maxver e árvores de decisão obtiveram melhor desempenho na classificação de imagens Landsat. Attarchi e Gloaguen (2014), ao testarem os algoritmos SVM, redes neurais, RF e Maxver para discriminar os estádios de sucessão florestal em regiões montanhosas com imagens Landsat-7 ETM+ e SAR, concluíram que o SVM e o RF produziram melhores resultados em comparação aos demais algoritmos tradicionais, como o Maxver.
Em comparação ao método de Maxver, classificadores baseados em aprendizado de máquina podem consumir maior tempo computacional além da necessidade de o usuário despender boa parte do tempo na escolha dos parâmetros do método a ser utilizado. Porém, o aplicativo ENMap-Box mostrou-se uma excelente alternativa para superar esta tarefa, possibilitando maior agilidade no procedimento de classificação com os algoritmos não-paramétricos.
Tanto as metodologias conduzidas com as imagens Landsat-8 quanto as RapidEye foram eficientes para discriminar os três estádios sucessionais da vegetação. Os classificadores tiveram desempenho diferenciado conforme o grupo de variáveis utilizado. O algoritmo RF teve melhor desempenho com uso de variáveis texturais e índices de vegetação, enquanto os algoritmos SVM e Maxver só apresentaram melhora com o aumento de variáveis no caso das imagens RapidEye. O melhor resultado alcançado foi com o grupo A3 e o algoritmo RF, com índice Kappa de 0,88. Os piores resultados em todos os algoritmos foram os que utilizaram somente as bandas espectrais puras das imagens RapidEye, o grupo B1. Este resultado pode ser devido à menor resolução radiométrica desta imagem em relação à Landsat-8, além da influência de sombras e variações intraclasse nas imagens de maior resolução espacial.
Quanto aos estádios sucessionais da vegetação, as três classes alcançaram acurácia do usuário e do produtor superiores a 50% nos algoritmos RF e SVM. O RF teve melhor desempenho para discriminar as classes VEA e VEM, enquanto o Maxver teve melhor desempenho na classificação da VEI.
A medida de importância da variável fornecida pelo RF teve significativa contribuição para fornecer uma visão de cada variável utilizada na classificação das imagens Landsat-8 e RapidEye. Para ambas as imagens, destacaram-se as métricas texturais GLCM: média, dissimilaridade e contraste.
A classificação automatizada mostrou-se uma alternativa interessante para auxiliar no estudo de áreas extensas e de difícil acesso, economizando assim esforço do operador bem como tempo de processamento computacional. Destaca-se que as metodologias testadas são aplicáveis em outras áreas do Bioma Mata Atlântica, além de ter contribuído para uma avaliação comparativa de ferramentas disponíveis gratuitamente para a classificação das imagens com algoritmos avançados. Recomenda-se ainda testar abordagens utilizando OBIA com o intuito de melhorar a acurácia da classificação de imagens RapidEye.
Os autores agradecem à pesquisadora Thábata Cristina Faxina e ao professor Dr. Pedro Volkmer de Castilho por fornecerem os dados de campo utilizados neste trabalho





