Resumen: La ciudad de Huancayo, como otras ciudades intermedias en Latinoamérica, enfrenta problemas de cambios de uso de suelo poco planificados y una acelerada dinámica del mercado del suelo urbano. La escases y desactualización de información sobre el territorio urbano impiden la adecuada clasificación de áreas urbanas, limitando la forma de su intervención. Esta investigación tuvo como objetivo la incorporación de métodos no asistidos y mixtos para la clasificación espacial de zonas urbanas considerando el valor especulativo del suelo, la proporción del suelo urbanizado y otras variables geoespaciales. Entre los medios de recolección de datos, se usó imágenes Multi-Espectrales (MSI) del satélite Sentinel-2, el sistema vial primario y una muestra de puntos de observación directa. Los datos procesados fueron incorporados en mapas georreferenciados, a los cuales se añadió además los límites urbanos y pendientes oficiales. Durante el procesamiento de los datos se empleó el algoritmo K-Means, junto a otros métodos de machine learning y juicio asistido. Como resultado, se obtuvo una caracterización objetiva de zonas urbanas que difiere de la planificación existente.
Palabras clave: planificación urbana, mercado inmobiliario, periferia urbana, inteligencia artificial.
Abstract: The city of Huancayo, like other intermediate cities in Latin America, faces problems of poorly planned land-use changes and a rapid dynamic of the urban land market. The scarce and outdated information on the urban territory impedes the adequate classification of urban areas, limiting the form of its intervention. The purpose of this research was the adoption of unassisted and mixed methods for the spatial classification of urban areas, considering the speculative land value, the proportion of urbanized land, and other geospatial variables. Among the data collection media, Multi-Spectral Imagery (MSI) from the Sentinel-2 satellite, the primary road system, and a sample of direct observation points, were used. The processed data were incorporated into georeferenced maps, to which urban limits and official slopes were added. During data processing, the K-Means algorithm was used, together with other machine learning and assisted judgment methods. As a result, an objective classification of urban areas was obtained, which differs from the existing planning.
Keywords: Urban Planning, Real Estate Market, Urban Periphery, Artificial Intelligence.
Artículos
CLASIFICACIÓN ESPACIAL DEL SUELO URBANO POR EL VALOR ESPECULATIVO DEL SUELO E IMÁGENES MSI SATELITALES USANDO K-MEANS, HUANCAYO, PERÚ
SPATIAL CLASSIFICATION OF URBAN LAND BY SPECULATIVE LAND VALUE AND MSI SATELLITE IMAGERY USING K-MEANS, HUANCAYO, PERU
Recepción: 23 Julio 2021
Aprobación: 16 Noviembre 2021
Las ciudades intermedias enfrentan procesos de especulación de valor del suelo y venta de terrenos, que definen la forma urbana con mayor rapidez que la intervención de los gobiernos locales. El valor del suelo urbano prioriza la demanda de agentes privados (Gasic, 2018), sin embargo, el Estado determina los límites de esta actuación (Sabatini y Arenas, 2000). Así, la segregación socio-espacial se relaciona con la disposición del mercado y las políticas poco adecuadas, moldeando el exceso de demanda u oferta del mercado inmobiliario y generando una dispersión en el estándar de vida urbano (Saleh, Hwa y Majid, 2016; López Navarrete y Peña Medina, 2017; Li, Sun, y Boersma, 2019). Ante ello, la regulación del suelo y su aplicación pueden promover o detener el desarrollo de zonas urbanas emergentes (Yu, Zhou y Yang, 2019). Estas condiciones son comunes en ciudades latinoamericanas de limitada acción pública (Sabatini y Arenas, 2000). Entre las causas de ello, se reconoce prácticas clientelistas, producto de fallas en las prácticas de libre mercado, intereses particulares, condiciones de ilegalidad, reglamentaciones ambiguas y una generalizada aceptación popular (Pimentel Sánchez, 2020; Espinoza y Fort, 2017).
El valor de suelo, el indicador más importante de la dinámica del mercado inmobiliario, no es fácil de estimar o predecir, aunque es común que las áreas consolidadas se encarezcan, volviendo la periferia más atractiva por su bajo precio (Glaeser y Ward, 2009; García y Peralta, 2016; Gasparenienea, Venclauskienea y Remeikiene, 2014). En el largo plazo, las conductas del mercado del suelo pueden aproximarse con series de tiempo (Gaete, 2021). No obstante, una aproximación con datos heterogéneos, o bien, escenarios de alta incertidumbre pueden usar la inteligencia artificial para clasificarlos (Durduran, 2015; Belhadia et al., 2020; Forestier y Wemmer, 2016). El algoritmo K-Means ha resultado útil y altamente adaptable para la clasificación de imágenes, el estudio del crecimiento urbano y el análisis espacial (Liu et al., 2021; Belhadia et al., 2020).
El Perú atraviesa su bicentenario y enfrenta grandes retos económicos y sociales. La Política Nacional de Vivienda y Urbanismo considera al bajo impacto de la planificación urbana-territorial y la limitada práctica de cumplimiento normativo un problema mayor (Ministerio de Vivienda Construcción y Saneamiento [MVCS], 2021). Los procesos del mercado inmobiliario, de naturaleza formal e ilegal o bajo figuras mixtas, son también frecuentes en ciudades peruanas (Espinoza y Fort, 2017; Pimentel Sánchez, 2020). Aun cuando la cartera de fondos de apoyo para la vivienda, como el Fondo Mivivienda (FMV), se multiplican, su implementación se limita por las adversas condiciones urbanas y el valor del suelo (Calderón, 2015). Durante el auge inmobiliario de 2018 a 2019, al menos el 70% de municipios distritales no contaba con planes de desarrollo urbano (FMV, 2018a, FMV, 2018b). En Huancayo, la principal ciudad del centro del Perú, la Municipalidad Provincial de Huancayo (2016) propone un desarrollo fundado en principios sostenibles e inclusivos, pero que requiere del conocimiento de la realidad urbana local y su caracterización objetiva.
Este artículo se plantea cómo clasificar espacialmente las zonas urbanas en la ciudad de Huancayo a partir de datos heterogéneos. La investigación propone la clasificación diferenciada de zonas urbanas incorporando métodos no asistidos y mixtos, y considerando el valor especulativo del suelo en el mercado inmobiliario, la proporción de suelo urbanizado, la distancia al viario principal y la pendiente del terreno. El trabajo se desarrolló en cuatro etapas articuladas: (1) construcción de mapas base; (2) procesamiento de imágenes satelitales para el análisis de la ocupación del suelo actual; (3) aplicación de métodos de machine learning para clasificación; y (4) caracterización poligonal de las zonas urbanas en la ciudad de Huancayo.
Debido al crecimiento poblacional, una mejor planificación de las ciudades representa un problema continuo en todo el mundo (Mouratidis, 2021). Esta temática ha capturado la atención nacional para promover su desarrollo desde un enfoque sostenible (Aceid y Fundación ACS, 2018; Naciones Unidas, 2018; Castillo-García, 2021), aunque durante la pandemia su reducida presencia fue resaltante (Moreno, Allam, Chabaud, Gall y Pratlong, 2021). Se necesita, en este contexto, una revisión de la idea de la proximidad en la economía urbana vinculada a la generación de valor del suelo (Tricaricoa y De Vidovich, 2021).
La planificación urbana requiere un equilibrio entre el uso del suelo y la expansión urbana, no siempre alineada a los modos de vida reales y la conducta del mercado inmobiliario (López Navarrete y Peña Medina, 2017). Existe una brecha entre la generación sostenible del espacio urbano y las prácticas reales en las zonas periurbanas que colindan con áreas rurales y espacios naturales, rápidamente devastados por procesos de urbanización formales e informales (Carvajal, Moreira, Salazar, Leguia y Jorquera, 2019).
La segregación socio-espacial se relaciona con la disposición del mercado inmobiliario y políticas poco adecuadas, y afecta directamente la planificación urbana (López Navarrete y Peña Medina, 2017; Glaeser y Ward, 2009; Migueltorena y Lan, 2013). El exceso de demanda u oferta del mercado inmobiliario y la dispersión generan variaciones en el estándar de vida (Saleh et al., 2016). La fluctuación del valor del suelo, el crecimiento urbano y la densidad inicial condicionan dichas variaciones (Glaeser y Ward, 2009; Li et al., 2019).
En una etapa de crecimiento del sector, muchas de las reglas que dirigen las acciones del mercado no son fáciles de adaptar a los instrumentos de gestión, ampliando las brechas en la planificación urbana (Glaeser y Ward, 2009). Entre estas, la reglamentación del acceso a servicios urbanos formales es la que más se ha agravado (Baer y Kauw, 2016). Estas disparidades pueden llegar a ser insalvables, repercutiendo también en la generación de nuevas políticas y la recaudación tributaria (Hindi, Moreira y Rossi, 2020; Foldvary y Minola, 2017). Además, el valor del suelo tiene mayor variabilidad que las edificaciones (Kok, Monkkonen y Quigley, 2014). Debido a ello, este valor no puede asignarse idóneamente para su uso en las reglamentaciones, hipotecas y prestamos, pues su fluctuación real está caracterizada por la especulación (Hwang, Park y Lee, 2013; Gasparenienea et al., 2014; Foldvary y Minola, 2017).
Contar con una vivienda es uno de los aspectos más importantes en la vida de las personas (Saleh et al., 2016). Aquellas financiadas con fondos sociales promueven la inversión inmobiliaria y tienen gran interés por la disponibilidad de terrenos sin urbanizar (Scotiabank, 2015; FMV, 2018c). Pero el valor del suelo urbano vacante está sujeto a especulación, y presenta menores precios en áreas periurbanas (Gedal y Ellen, 2018; Parias, 2008), lo cual promueve exclusiones al incrementarse la distancia física y de precio (Gaete, 2021; Klaufus, Van Lindert, Van Noorloos y Steel, 2017). De esta forma, se ingresa en un ciclo incremental del valor especulado que impide el alcance de condiciones más homogéneas (Amézquita, Rodríguez y Murillo, 2015; Gaete, 2021; Gasic, 2018; Araque Solano y Caballero Quintero, 2009; Glaeser y Gyourko, 2003).
El nivel de consolidación y la cercanía a vías constituyen indudables atractivos del suelo urbano (Peña-Zamalloa, 2018; Gedal y Ellen, 2018). Los espacios agrícolas con cierto acceso viario son, por lo tanto, objetivos de cambio de uso de suelo (Salazar, 2014; Cardó, 2017; Migueltorena y Lan, 2013). Al tratarse de lotes informales, se prioriza sobre ellos la autoconstrucción, con el objetivo de reducir los costos de vivienda sin medir los efectos a largo plazo (GRADE, 2020; Salazar, 2014). La búsqueda continua de mayores ganancias por venta del suelo socava la intención popular positiva de hacer ciudad (Delgadillo, 2016; Araque Solano y Caballero Quintero, 2009). La rápida variación de precios genera, en el territorio, una ocupación desorganizada y de baja densidad, aun cuando en ellos se promueve la vivienda social (Calderón, 2015). Ello afecta al entorno rural, natural y dificulta el acceso a servicios urbanos de áreas dispersas, así como el cumplimiento regulatorio (Carvajal et al., 2019; Li et al., 2019). Esta realidad se opone a la idea de ciudad compacta (Vorontsova, Vorontsova y Salimgareev, 2016).
La expansión urbana de baja densidad involucra altos costos en infraestructura urbana (Nabil y Eldayem, 2015). Frente a ese panorama, un modelo urbano óptimo prioriza la accesibilidad y se traduce en distancias cortas a múltiples centros urbanos y en una reducción del tiempo de movilidad (Yu et al., 2019; Gedal y Ellen, 2018; Graells-Garrido, Serra, Rowe, Cucchietti y Reyes et al., 2021). La idea de un urbanismo cronológico es, en efecto, un intento por mejorar la calidad de vida de los habitantes en diversas escalas geográficas (Moreno et al., 2021; Graells-Garrido et al, 2021).
Los procesos expansivos urbanos poco comprendidos, sin un análisis sistémico articulado, se dan de forma dispersa y en oposición a la capacidad de generar ciudades compactas (Vorontsova et al., 2016; Alfasi y Migdalovich, 2020). Adicionalmente, las métricas suelen ser unidimensionales (Tellier, 2020), cuando la complejidad urbana requiere el uso de métricas de análisis multidimensional para su clasificación (Steurer y Bayr, 2020; Tellier, 2020). El Machine learning ofrece una alternativa para la clusterización a partir de datos heterogéneos (Joshi, 2020). Esta clasificación puede ser asistida, no asistida o mixta (Liu et al., 2018; Steurer y Bayr, 2020).
En concreto, K-Means es uno de los algoritmos de clasificación no supervisada más usado en imágenes, datos aleatorios y no etiquetados (Liu et al., 2018; Zhou et al., 2017). Este algoritmo permite la generación de clústeres, agrupando los datos bajo características similares (Campesato, 2020) y diferenciando elementos como vegetación, espacios urbanos vacantes e, incluso, usos rurales (Feng, Peng y Wu, 2020). Aunque el análisis jerárquico de clúster, la media móvil y maximización de la expectativa podrían considerarse alternativas apropiadas, el uso de una distancia euclidiana permite que la clasificación hecha con K-Means pueda superponerse a coordenadas bidimensionales y sea adecuada para entornos geográficos (Campesato, 2020; Joshi, 2020; Liu et al., 2018).
La ciudad de Huancayo se encuentra en la parte central del país. Su geografía es moldeada por el río Mantaro y constituye uno de los más amplios valles en los Andes peruanos, disponiendo de una alta capacidad de suelo urbanizable que compite con el suelo rural. El alcance geográfico del estudio aquí expuesto, consideró los distritos Huamancaca y 3 de Diciembre, de la provincia anexa de Chupaca, además de los distritos de Pilcomayo, Chilca, Sapallanga, Huancán, El Tambo y Huancayo de la provincia de Huancayo, dada su ubicación geográfica en el margen derecho del río y la conexión directa que tienen con la ciudad. La ubicación se muestra en la Figura 1.
Fuente: Elaboración del autor.
La recolección de datos tuvo diversas fuentes: observación directa, imágenes satelitales y mapeos. Estos métodos fueron informatizados y procesados utilizando sistemas de información geográfica QGIS 3.12, SNAP Toolbox v8.0, la librería scikit-learn 0.24 y otras del lenguaje python. La secuencia del proceso puede visualizarse en la Figura 2, desde la construcción del mapa base hasta la generación final de los polígonos de sectores urbanos.
De acuerdo a lo anterior, se utilizó la imagen producida por el instrumento MultiSpectral Instrument (MSI), del satélite Sentinel-2, producto Level-2A que provee una imagen de reflectancia del fondo atmosférico derivada de la asociación del Level-1C, en un área compuesta de 100 x 100 km2 bajo una proyección cartográfica UTM/WGS84. Se requirió realizar un redimensionamiento para su adecuada superposición y re-proyección. Así, se procesó las imágenes con el software SNAP v8.0, realizando un redimensionado de la imagen para las bandas 12, 11 y 4, con las que se generó una imagen rgb en falso color. Una vez aisladas las bandas, se procedió a generar una clasificación usando el algoritmo de clasificación no supervisada K-Means. La cantidad de categorías se estableció después de examinar los resultados de entre 3 a 15 categorías, siendo 13 categorías las que expresaban mejor la diversidad de usos de suelo.
El mapeo de los bloques urbanos consolidados fue una tarea semi manual de identificación de polígonos vacantes dentro del límite urbano propuesto, desarrollada sobre las manzanas proyectadas del Plan de Desarrollo Metropolitano e imágenes satelitales de color real. El mapeo de los terrenos periféricos consideró un tamaño del lote mínimo de aproximadamente 100m2, similares a los 107m2 propuestos por el FMV (2018c). Se identificaron 9123 bloques con un total de 34.22 km2, que representan el 33.12% del total del territorio urbano considerado, que fue de 103.32 km2. Esta definición de bloques permitió la comparación caracterizada de las áreas que la imagen satelital. Las vías principales fueron identificadas en base a planes existentes presentes en el repositorio del Ministerio de Transporte e indicadas en el Plan de Desarrollo Metropolitano. Asimismo, se usaron las pendientes procesadas a partir de las curvas definidas en la carta nacional, las cuales se expresaron en forma porcentual. Luego, se recolectó la información de 228 lotes válidos de un total de 273 calculados para una muestra simple NC=90%, E=5%, p=50%. Los puntos de observación se distribuyeron aleatoriamente sobre el plano en cantidad proporcional a la densidad poblacional mostrada en el plan vigente. Las características de los puntos de observación que se consideraron se detallan en la Tabla 1 y han sido utilizadas como características para la determinación de la clasificación de las zonas urbanas a través de un algoritmo K-Means, implementado con la librería scikit-learn.
En la Figura 3, se visualiza la imagen producto Level-2A, capturada y procesada en falso color rgb, usando las bandas 12,11 y 4, respectivamente. Con ello se logra diferenciar en un color entre amarillo y violeta las posibles áreas edificadas y otros suelos. Para generar una escala que pueda ser manualmente discriminada, se clusterizó el falso color en 13 categorías usando el algorítmo K-Means. Después, se etiquetó cada cluster como edificado o no edificado, reduciendo los resultados a 2 categorías, las que se distinguen en color amarillo y negro. Debido a que otros tipos de suelo suelen confundirse, se consideró solo el área limitada de expansión urbana, mejorando la precisión del resultado. A partir de la tercera imagen se calculó el porcentaje de suelo urbano ocupado de los buffers definidos posteriormente.
En la Figura 4, se distingue la distribución de los puntos muestreados observados, distribuidos de forma aleatoria en la zona ocupada: la red vial principal indicada en los planos existentes, ambos superpuestos en el mapa de manzanas urbanas consolidadas y en proceso de urbanización. Con los datos de precio x m2 ofertados de suelo, se proyectó una imagen DEM generada usando una clasificación de división de optimización de Jenks de 9 categorías. Estas tareas se realizaron con la herramienta de software QGIS 3.12.
Empleando un buffer de 400 m de diámetro, que usó como centro a los puntos de observación, se promedió la distancia a la vía principal más cercana, el costo x m2 ofertado, la pendiente, el porcentaje de área urbana ocupada y su referencia de ubicación geográfica. A partir de estos datos, se alimentó al algorítmo K-Means, implementado con la librería de scikit-learn. Se utilizaron parámetros fijos de 10 re-runs y 300 iteraciones para un rango de 2 a 8 clusters. Estos se presentan en la Figura 5, usando los ejes de coordenadas UTM este y norte como x e y, respectivamente.
Para validar las diferencias entre los clústeres resultantes se efectuaron pruebas de ANOVA, todas las cuales resultaron significativas con un valor p<.0001. Las diferencias de distribución de los valores se muestran en la Figura 6, a través de gráficos de cajas, con una referencia del estadístico F de cada prueba. Mientras, las diferencias significativas entre grupos, realizadas con la prueba post-hoc de Games-Howell, se ilustran en la Tabla 2.
En la Figura 6, se identifica diferencias entre clústeres (C) por variable. La ubicación geográfica es significativamente distinta para todos los clústeres. La proporción de área urbana ocupada, para C7 y C6 es menor a 0.5 y para C4 y C5 es mayor a 0.7. El costo por m2, para el C4 es altamente variable y mayor al de otros clústeres; le siguen el C1, C2 y C8. La distancia a la vía principal más cercana se da un rango menor a 200 m para C8 y C4; menor a 300 m para C3, C5 y C2; entre 400 m a 800 m, para el C6 y C7; y de 100 m a 800 m para C1. Una pendiente mayor a 5% se aprecia en el C1 y menor a 5%, en los otros clústeres.
La Tabla 2 permite identificar diferencias significativas entre clústeres emparejados. La proporción de área urbana ocupada es significativamente diferente entre C1 y C4, C5 y C7; entre C2 y el intervalo que va desde C4 a C7; entre C3 y el intervalo que va desde C4 a C7; entre C4 y C6, C7 y C8; entre C5 y C6, C7 y C8; entre C6 y C8; y entre C7 y C8. La pendiente, por su parte, es significativamente diferente entre C1 y el intervalo que va desde C2 a C8; entre C2 y C3 y C8; entre C3 y C4, C5, C6 y C8; entre C4 y C8; y entre C5 y C8. La distancia a la vía principal es significativamente diferente entre C2 y C6 y C7; entre C4 y C6 y C7; entre C5 y C6 y C7; entre C6 y C8; y entre C7 y C8. Por último, el costo por m2 es significativamente diferente entre C1 y C4 y C6; entre C2 y el intervalo desde C4 a C6; entre C3 y C4, C5 y C8; entre C4 y el intervalo desde C5 a C8; entre C5 y C6 y C7; entre C1 y C7 y C8; y entre C7 y C8. En suma, se identificaron diferencias significativas en todas las variables.
Una vez validadas las diferencias significativas entre clústeres emparejados, se delimitó los polígonos urbanos superpuestos con los centroides y las áreas presentados en la Figura 5. El mapa resultante se expone en la Figura 7 a nivel de manzanas, distinguiendo las consolidadas y las que están en proceso de urbanización.
La investigación utilizó un modelo que prioriza el porcentaje de área ocupada por edificaciones, en contraste con Liu et al. (2018) y Steurer y Bayr (2020), quienes utilizan el crecimiento poblacional en base a la densidad cercana. En todos los casos, el algoritmo K-Means hizo posible la clasificación multidimensional. En este sentido, Steurer y Bayr (2020) proponen medios que pueden complementarse con los resultados para investigaciones futuras. En cuanto al ajuste de las fuentes de datos basados en imágenes, se encontró ruido en la clasificación del suelo urbano; sin embargo, su reducción no siguió los parámetros de Zhou et al. (2017), sino que se redujeron las capas clasificadas hasta obtener una imagen con datos de 2 valores, que representan el suelo ocupado.
Considerando que la conducta espacial de los fenómenos urbanos es compleja e incierta (Pickard y Meentemeyer, 2019), se requieren cambios para su adecuado estudio. Por tal razón los límites urbanos que habían sido definidos por la MPH (2016) debieron ser ajustados manualmente para poder abarcar las zonas de expansión periurbana y anexar los distritos colindantes en la margen izquierda del río Mantaro. Tras generar la clasificación de clúster, los polígonos de delimitación de la propuesta de MPH (2016) mantienen un contraste de variación que podría contemplarse en futuros planes urbanos. En este aspecto, se debe recordar que la compleja realidad demanda flexibilidad al momento de establecer los límites urbanos y no solo su consideración política y administrativa (Steurer y Bayr, 2020).
El desarrollo de la expansión urbana en Huancayo es disperso y de baja densidad: las diferencias entre clústeres identificadas con la prueba de Games-Howell revelan que las áreas colindantes al centro, C1 y C2, poseen una proporción mayor distinta a todos los otros 6 clústeres y que esta diferencia se extiende al precio, el cual es en extremo elevado en el C1 y C2, y menor en C3, pero más similar en los restantes. Esta conducta se asemeja al patrón de ocupación en el que se busca un constante precio más bajo y la valorización desproporcionada del mismo en las áreas cercanas a las zonas urbanas consolidadas (Baer y Kauw, 2016; Gasic, 2018). La forma de crecimiento en la ciudad de Huancayo parece contraponerse a la visión ideal de un urbanismo cronológico propuesto por Graells-Garrido et al. (2021) y Moreno et al. (2021). La creciente distancia de los centralizados servicios urbanos y un deficiente transporte deben ser prioritarios (Vorontsova et al., 2016).
Tal como Araque Solano y Caballero Quintero (2009) señalan, los precios en mercados informales ingresan a su formalización en condiciones similares que a sectores consolidados. En la ciudad de Huancayo, se distingue esta variación en los colindantes de los C2 y C3 que cierran un proceso de consolidación a un precio mayor. El fraccionamiento identificado podría estar vinculado a la escasa participación del sector público sobre el control del mercado (López Navarrete y Peña Medina, 2017). Este veloz incremento del precio periférico que persigue un incremento del capital es una situación común en otros escenarios como los analizados por Amézquita, Rodríguez y Murillo (2015), Gaete (2021) o Gasic (2018). A lo dicho hay que añadir los efectos reglamentarios e intervenciones económicas particulares o individuales como política de Estado (Li et al., 2019; Garza Puentes y Tovar Vanegas, 2009).
La presente investigación identifica que el algoritmo K-Means provee una forma viable de clasificación del suelo urbano usando variables heterogéneas y que la diferencia entre los clústeres generados puede probarse como multivariada y diferenciada mediante datos abiertos. A partir de esta clasificación, en la ciudad de Huancayo se identifica un fraccionamiento espacial que, principalmente, se determina por las variables proporción de suelo ocupado, precio ofertado y distancia al sistema vial principal.
Aunque la caracterización no asistida puede someterse a opiniones, se debe poner en alerta la situación que viene experimentando la expansión urbana en Huancayo y plantear alternativas para un análisis más objetivo de su ocupación, aprovechando los medios de análisis disponibles.
Intermediate cities face land sale and value speculation processes that define the urban shape more quickly than intervention by local governments. Urban land value prioritizes the demand of private agents (Gasic, 2018), even though the State sets the limits of this action (Sabatini & Arenas, 2000). Thus, socio-spatial segregation is related to the willingness of the market and inadequate policies, molding the excess demand or supply of the property market, and generating a disperse standard of urban life (Saleh, Hwa & Majid, 2016; López Navarrete & Peña Medina, 2017; Li, Sun & Boersma, 2019). Facing this, land regulation and its application can promote or stop the development of emerging urban areas (Yu, Zhou & Yang, 2019). These conditions are common in Latin American cities with limited public action (Sabatini & Arenas, 2000). Among the causes, clientelist practices are seen, the result of failures in free-market practices, private interests, illegal conditions, ambiguous regulations, and a generalized popular acceptance (Pimentel Sánchez, 2020; Espinoza & Fort, 2017).
Land value, the most important indicator of property market dynamics, is not easy to estimate or predict, although it is common that consolidated areas are overvalued, making the periphery more attractive due to its low price (Glaeser & Ward, 2009; García & Peralta, 2016; Gasparenienea, Venclauskienea & Remeikiene, 2014). In the long term, land market behaviors can come close to time series (Gaete, 2021). However, an approach with heterogeneous data, or scenarios of high uncertainty, can use artificial intelligence to classify them (Durduran, 2015; Belhadia et al., 2020; Forestier & Wemmer, 2016). The K-Means algorithm has been useful and highly adaptable to classify images, study urban growth, and for spatial analysis (Liu et al., 2021; Belhadia et al., 2020).
Peru is in its bicentenary and is facing major economic and social challenges. The National Housing and Urbanism Policy considers the low impact of urban-territorial planning and the limited use of regulatory compliance a major problem (Ministry of Housing, Construction, and Sanitation [MVCS in Spanish], 2021). Property market processes, formal, illegal, or under mixed setups, are also common in Peruvian cities (Espinoza & Fort, 2017; Pimentel Sánchez, 2020). Even though the portfolio of support funds for housing, like the Mivivienda Fund (FMV, in Spanish), multiply, their implementation is limited by adverse urban conditions and land value (Calderón, 2015). During the property boom of 2018 to 2019, at least 70% of district municipalities did not have urban development plans (FMV, 2018a; FMV, 2018b). In Huancayo, the main city in the heart of Peru, the Provincial Municipality of Huancayo (2016) proposes development based on sustainable and inclusive principles, but that requires knowledge of the local urban reality and its objective characterization.
The purpose of this article is to spatially classify the urban areas in the city of Huancayo using heterogeneous data. The research proposes the differentiated classification of urban areas, incorporating unassisted and mixed methods, and considering the speculative value of the land on the property market, the proportion of developed land, the distance from main roads, and the slope of the land. The work was carried out in four connected stages: (1) construction of base maps; (2) processing of satellite images to analyze current land occupation; (3) application of machine learning methods for classification; and (4) polygonal classification of the urban areas of the city of Huancayo.
Due to population growth, better city planning represents an ongoing issue worldwide (Mouratidis, 2021). This issue has captured national attention to promote its development from a sustainable approach (Aceid & Fundación ACS; 2018; United Nations, 2018; Castillo-García, 2021), although during the pandemic, its reduced presence stood out (Moreno, Allam, Chabaud, Gall & Pratlong, 2021). Thus, in this context, a revision of the idea of proximity in the urban economy, linked to the generation of land value, is needed (Tricaricoa & De Vidovich, 2021).
Urban planning requires a balance between land use and urban expansion, which is not always aligned with the real ways of life and the behavior of the property market (López Navarrete & Peña Medina, 2017). There is a gap between the sustainable generation of urban space and the real practices in peri-urban areas adjoining rural areas and natural spaces, that are quickly being devastated by formal and informal urbanization processes (Carvajal, Moreira, Salazar, Leguia & Jorquera, 2019).
Socio-spatial segregation is related to the willingness of the property market and inadequate policies, and directly affects urban planning (López Navarrete & Peña Medina, 2017; Glaeser & Ward, 2009; Migueltorena & Lan, 2013). Excess supply or demand of the property market and dispersion generate variations in living standards (Saleh et al., 2016). Fluctuations in land value, urban growth, and initial density condition these variations (Glaeser & Ward, 2009; Li et al., 2019).
In the growth stage of the sector, many of the rules that guide market actions are not easy to adapt to the management instruments, widening the gaps in urban planning (Glaeser & Ward, 2009). Among these, regulations of access to formal urban services have been made worse (Baer & Kauw, 2016). These disparities can be insurmountable, with repercussions on the generation of new policies and tax collection (Hindi, Moreira & Rossi, 2020; Foldvary & Minola, 2017). In addition, land value has greater variability than the buildings (Kok, Monkkonen & Quigley, 2014). As a result, this value cannot be suitably allocated for its use in regulations, mortgages, and loans, as its real fluctuation is characterized by speculation (Hwang, Park & Lee, 2013; Gasparenienea et al., 2014; Foldvary & Minola, 2017).
Having a dwelling is one of the most important aspects of peoples’ lives (Saleh et al., 2016). Those financed with social funds promote real estate investment and have great interest in the availability of undeveloped sites (Scotiabank, 2015; FMV, 2018c). However, the value of vacant urban land is subject to speculation with lower prices in peri-urban areas (Gedal & Ellen, 2018; Parias, 2008), which promotes exclusion on increasing physical distance and price (Gaete, 2021; Klaufus, Van Lindert, Van Noorloos & Steel, 2017). In this way, an incremental cycle of speculated value is entered which impedes reaching more homogeneous conditions (Amézquita, Rodríguez & Murillo, 2015; Gaete, 2021; Gasic, 2018; Araque Solano & Caballero Quintero, 2009; Glaeser & Gyourko, 2003).
The level of consolidation and proximity to roads are undeniable attractions of urban land (Peña-Zamalloa, 2018; Gedal & Ellen, 2018): Agricultural spaces with road access are, as a result, targets for change of land use (Salazar, 2014; Cardó, 2017; Migueltorena & Lan, 2013). On being informal lots, self-builds are prioritized, with the goal of reducing housing costs while disregarding long-term effects (GRADE, 2020; Salazar, 2014). The ongoing search for greater profit from land sales undermines the positive popular intention of urban planning (Delgadillo, 2016; Araque Solano & Caballero Quintero, 2009). Rapid price changes generate, in the territory, a disorganized and low-density occupation, even when social housing is promoted (Calderón, 2015). This affects the rural and natural environment and complicates access to urban services for spread-out areas, as well as regulatory compliance (Carvajal et al., 2019; Li et al., 2019). This reality flies in the face of the compact city (Vorontsova, Vorontsova & Salimgareev, 2016).
Low-density urban sprawl involves high costs in urban infrastructure (Nabil & Eldayem, 2015). Facing this outlook, an optimal urban model prioritizes accessibility and leads to short distances to multiple urban centers, and a reduction in mobility times (Yu et al., 2019; Gedal & Ellen, 2018; Graells-Garrido, Serra, Rowe, Cucchietti & Reyes et al., 2021). The idea of chronological urbanism is, in fact, an attempt to improve the quality of life of inhabitants on diverse geographical scales (Moreno et al., 2021; Graells-Garrido et al., 2021).
Little understood urban sprawl processes, without an articulated systemic analysis, occur randomly and go against the capacity of generating compact cities (Vorontsova et al., 2016, Alfasi & Migdalovich, 2020). In addition, the metrics tend to be single-dimensional (Tellier, 2020), when urban complexity requires using multidimensional analysis metrics for its classification (Steurer & Bayr, 2020; Tellier, 2020). Machine learning offers an alternative for clustering using heterogeneous data (Joshi, 2020). This classification can be assisted, unassisted, or mixed (Liu et al., 2018; Steurer & Bayr, 2020).
Specifically, K-Means is one of the most used unsupervised classification algorithms in images, random data, and unlabeled data (Liu et al., 2018; Zhou et al., 2017). This algorithm allows generating clusters, grouping data under similar traits (Campesato, 2020), and differentiating elements like vegetation, vacant urban spaces, and even rural uses (Feng, Peng & Wu, 2020). Although the hierarchical cluster analysis, mobile mean, and maximization of expectations could be considered as being suitable alternatives, the use of a Euclidean distance allows that the classification made with K-Means can be overlapped to two-dimensional coordinates, and is suitable for geographic settings (Campesato, 2020; Joshi, 2020; Liu et al., 2018).
The city of Huancayo is in the central part of the country. Its geography is molded by the Mantaro River, and it constitutes one of the widest valleys in the Peruvian Andes, with a high capacity of development land that competes with rural land. The geographic scope of the study presented here, considered the Huamancaca and 3 de Diciembre districts, of the adjoining Chupaca province, along with the districts of Pilcomayo, Chilca, Sapallanga, Huancán, El Tambo, and Huancayo in the Province of Huancayo, given their geographic location on the right bank of the river, and the direct connection they have with the city. The location is shown in Figure 1.
Data collection was made from different sources: direct observation, satellite images, and maps. These methods were digitalized and processed using geographic information systems, QGIS 3.12, SNAP Toolbox v8.9, scikit-learn 0.24 library, and others in python. The processing sequence can be seen in Figure 2, from the construction of the base map to the final generation of the urban sector polygons.
Following this, the image produced by the Multispectral Instrument (MSI), of the Sentinel-2 satellite, Level 2A product was used, which provides a reflectance image of the atmospheric background derived from the association of Level 1C, in an area comprising 100 x 100 km2, under a URM/WGS84 cartographic projection. Resizing was needed for a suitable overlapping and re-projection. Thus, the images were processed with the SNAP v8.0 software, resizing the image for bands 12, 11, and 4, through which an rgb false-color image was generated. Once the bands were isolated, a classification was generated using the unsupervised K-Means classification algorithm. The number of categories was set after examining the results of between 3 and 15 categories, with 13 categories best expressing the land-use diversity.
The mapping of the consolidated urban blocks was a semi-manual task of identifying vacant polygons within the proposed urban boundary, developed on the projected blocks of the Metropolitan Development Plan and real color satellite images. The mapping of the peripheries considered a minimum lot size of approximately 100m2, similar to the 107m2 proposed by the FMV (2018c). 9123 blocks were identified with a total of 34.22 km2, which represents 33.12% of all the urban territory considered, which was 103.32 km2. This block definition allowed a characterized comparison of the areas of the satellite image. The main roads were identified based on existing plans in the repository of the Ministry of Transport and indicated in the Metropolitan Development Plan. Likewise, the slopes processed from the curves defined in the national charter were used, which were expressed in percentages. After this, the information was collected from 228 valid lots of a total of 273 calculated for a simple sample, NC=90%, E=5%, p=50%. The observation points were spread randomly on the plain in an amount proportional to the population density shown in the current plan. The characteristics of the observation points that were considered, are detailed in Table 1 and have been used as characteristics to determine the classification of urban areas through a K-Means algorithm, implemented with the scikit-learn library.
The Level 2A product image is shown in Figure 3, captured and processed in false color rgb, using bands 11, 12, and 4, respectively. With this, it is possible to differentiate, in a color between yellow and violet, the possible built areas and other lands. To generate a scale that can be manually discriminated, the false color was clustered in 13 categories using the K-Means algorithm. Then, each cluster was labeled as built or not built, reducing the results to 2 categories, which are distinguished in yellow and black. As other types of land tend to be confused, just the boundary of urban expansion was considered, improving the accuracy of the result. The occupied urban land percentage of the buffers defined later was calculated using the third image.
The distribution of the sampled points observed is seen in Figure 4, distributed randomly in the occupied area: the main road network indicated in existing plans, both overlapped on the map of consolidated urban blocks and those being developed. With the offered land price data per m2, a DEM image was projected, using a 9-category Jenks optimization division classification. These tasks were carried out using the QGIS 3.12 software tool.
Using a 400 m diameter buffer, which was used as the center for the observation points, the distance to the closest main road, the cost per m2 offered, the slope, the percentage of urban area occupied, and its geographic location reference were averaged. The K-Means algorithm was fed using these data, implemented with the scikit-learn library. Fixed parameters of 10 re-runs and 300 iterations were used for a range of 2 to 8 clusters. These are presented in Figure 5, using the UTM east and north coordinates as x and y, respectively.
To validate the differences between the resulting clusters, ANOVA tests were run, all of which were significant with a value of p<0.001. The differences in the distribution of the values are shown in Figure 6, through box charts, with a reference to the F statistic of each test. Meanwhile, the significant differences between groups, made with the Games-Howell post-hoc test, are illustrated in Table 2.
Differences between clusters (C) by variable are identified in Figure 6. The geographic location is significantly different for all clusters. The proportion of occupied urban area, for C7 and C6 is less than 0.5, and for C4 and C5 is above 0.7. The cost per m2 for C4 is highly variable and greater than the other clusters. This is followed by C1, C2, and C8. The distance to the closest main road gives a range below 200 m for C8 and C4; less than 300 m for C3, C5, and C2; between 400 and 800 m for C6 and C7; and of 100m to 800m for C1. A slope above 5% is seen in C1, and less than 5% in the other clusters.
Table 2 allows identifying significant differences between paired clusters. The proportion of occupied urban area is significantly different between C1 and C4, C5 and C7; between C2 and the interval that runs from C4 to C7; between C3 and the interval that runs from C4 to C7; between C4 and C6, C7 and C8; between C5 and C6, C7 and C8; between C6 and C8; and between C7 and C8. Meanwhile, the slope is significantly different between C1 and the interval from C2 to C8; between C2 and C3 and C8; between C3 and C4, C5, C6 and C8; between C4 and C8; and between C5 and C8. The distance to the main road is significantly different between C2 and C6 and C7; between C4 and C6 and C7; between C5 and C6 and C7; between C6 and C8; and between C7 and C8. Finally, the cost per m2 is significantly different between C1 and C4 and C6; between C2 and the interval from C4 to C6; between C3 and C4, C5 and C8; between C4 and the interval from C5 to C8; between C5 and C6 and C7; between C1 and C7 and C8; and between C7 and C8. Overall, significant differences were identified in all the variables.
Once the significant differences between adjoining clusters were validated, the urban polygons overlapped with the centroids, and the areas presented in Figure 5 were marked out. The resulting map is presented in Figure 7 at a block level, distinguishing the consolidated ones and those that are being developed.
The research used a model that prioritizes the percentage of area occupied by buildings, in contrast to Liu et al., (2018) and Steurer and Bayr (2020), who use population growth based on a close density. In all the cases, the K-Means algorithm made multidimensional classification possible. In this sense, Steurer and Bayr (2020) propose means that can be complemented with the results for future research. Regarding the fit of image-based data sources, noise was found in the urban land classification. However, its reduction did not follow the parameters of Zhou et al. (2017), but rather the classified layers were reduced until obtaining an image with data of 2 values, which represent the occupied land.
Considering that the spatial behavior of urban phenomena is complex and uncertain (Pickard & Meentemeyer, 2019), changes are required to suitably study them. For this reason, the urban boundaries that had been defined by MPH (2016) had to be adjusted manually to be able to address peri-urban expansion areas and annex adjoining districts on the left bank of the Mantaro River. After generating the cluster classification, the marked-out polygons of the MPH proposal (2016) maintain a variation contrast that could be considered in future urban plans. In this aspect, it must be remembered that the complex reality demands flexibility when it comes to setting urban boundaries, and not just their political and administrative consideration (Steurer & Bayr, 2020).
The development of the urban sprawl in Huancayo is diffuse and low density: the differences between clusters identified with the Games-Howell test reveal that the areas around the center, C1 and C2, have a higher proportion which is different to all the other 6 clusters and that this difference extends to the price, which is extremely high in C1 and C2, and less in C3, but more similar for the rest. This behavior is similar to the occupation pattern where a constant lower price and the disproportionate valuation of it in the areas near consolidated urban areas is sought (Baer & Kauw, 2016; Gasic, 2018). The form of growth in Huancayo seems to go against the ideal vision of a chronological development proposed by Graells-Garrido et al. (2021) and Moreno et al. (2021). The growing distance of the centralized urban services and deficient transport must be priority issues (Vorontsova et al., 2016).
Just as Araque Solano and Caballero Quintero (2009) state, the prices in informal markets present their formalization under similar conditions as consolidated sectors. In the city of Huancayo, this variation is distinguished in the adjoining areas of C2 and C3 that close a consolidation process at a higher price. The fractioning identified could be linked to the limited participation of the public sector in market control (López-Navarrete & Peña-Medina, 2017). This rapid increase in the periphery price that follows a capital increase is a common situation in other scenarios like those analyzed by Amézquita, Rodríguez, and Murillo (2015), Gaete (2021), or Gasic (2018). Apart from this, the regulatory effects and specific or individual economic interventions like State policy have to be added (Li et al., 2019; Garza Puentes & Tovar Vanegas, 2009).
This research identifies that the K-Means algorithm provides a viable way of classifying urban land using heterogeneous variables and that the difference between the generated clusters, can be tested as multivariate and differentiated through open data. From this classification, spatial fractioning is identified in the city of Huancayo which is mainly determined by the variables, proportion of occupied land, offered price, and distance to the main road system.
Although unassisted characterized is subject to opinion, the situation that urban sprawl in Huancayo has been experiencing must be highlighted, outlining alternatives for a more objective analysis of its occupation, taking advantage of the available means of analysis that there are.