Optimización de los hiperparámetros de una máquina de regresión de soporte vectorial utilizando enjambre de partículas para el pronóstico de casos de COVID-19

Norbey Danilo Muñoz-Cañón; Jairo Andrés Romero-Triana

Artículos

Vector support regression machine hyperparameters optimization by utilizing particle swarms for COVID-19 cases forecasting

Norbey Danilo Muñoz-Cañón ndmunozc@correo.udistrital.edu.co

Universidad Distrital Francisco José de Caldas, Colombia

Jairo Andrés Romero-Triana jaaromerot@correo.udistrital.edu.co

Universidad Distrital Francisco José de Caldas, Colombia

Optimización de los hiperparámetros de una máquina de regresión de soporte vectorial utilizando enjambre de partículas para el pronóstico de casos de COVID-19

Revista UIS ingenierías, vol. 20, núm. 2, pp. 181-196, 2021

Universidad Industrial de Santander

Recepción: 09 Septiembre 2020

Aprobación: 12 Enero 2021

DOI: https://doi.org/10.7440/res64.2018.03

Resumen: En este trabajo se propone un método para la optimización de los hiperparámetros de una máquina de regresión de soporte vectorial mediante la adaptación de la metaheurística de enjambre de partículas. El método se utiliza para pronosticar la serie de tiempo del total de casos positivos acumulados de la reciente enfermedad COVID-19 en la ciudad de Bogotá, Colombia. Para validar el rendimiento del método se establece una comparación con la máquina de regresión de soporte vectorial sin hiperparámetros optimizados, en términos de métricas de medición del rendimiento como lo son el error cuadrático medio, error absoluto medio y el coeficiente de determinación. Con un valor en el error cuadrático medio de 0,000045, un coeficiente de determinación de 0,998884 y el valor-p de 0,0015, para la prueba no paramétrica de Wilcoxon, el método propuesto presenta un mejor desempeño en el pronóstico. Finalmente se pone a discusión la aplicabilidad de este tipo de métodos en el pronóstico de casos en las epidemias.

Palabras clave: covid-19, enjambre de partículas, hiperparámetro, inteligencia de enjambres, máquina de soporte vectorial, metaheurística, optimización, pronóstico, rendimiento, serie de tiempo.

Abstract: In the present article a hyperparameter optimization of a vectorial-support regression machine via adaptation of metaheuristics of a particle swarm is proposed. This method will be used so that a forecasting of the time series of the total amount of positive accumulated cases of COVID-19 in Bogotá, Colombia. In order to validate the performance of the method, a comparison with a regression vectorial-support machine whose hyperparameters have not been optimized will be made, being the metrics those of performance measurement like mean square error, mean absolute error, and determination coefficient. The proposed method finds itself at a greater level of performance when the mean square error value is that of 0,000045, the determination coefficient corresponds with the value of 0,998884 and the p-value of 0,0015, for the nonparametric Wilcoxon test. Finally, applicability of these sorts of methods for forecasting of cases-behavior amidst epidemics is discussed.

Keywords: covid-19, particle swarm, hyperparameter, optimization, forecasting, efficiency, time series.

1. Introducción

Con la aparición del síndrome respiratorio agudo severo coronavirus 2 (SARS-CoV-2), causante de la enfermedad COVID-19, el escenario de salud pública mundial entró en un estado de emergencia ante la amenaza global del nuevo tipo de coronavirus, generando pérdidas impredecibles en áreas como la economía y el empleo [1]. La enfermedad COVID-19 se ha expandido desde su epicentro en la provincia de Hubei en China, donde fue identificada por primera vez en diciembre de 2019, a prácticamente todo el mundo; desde el 11 de marzo de 2020 fue declarada pandemia por la Organización Mundial de la Salud (OMS) [2], [3]. Con menos de 30 casos a finales de diciembre de 2019 a más de 20.000.000 de casos confirmados (según datos existentes) al 10 de agosto de 2020 la enfermedad se expandió rápidamente en todo el mundo.

Al declararse pandemia y surgir la emergencia sanitaria, resulta esencial el acceso a modelos precisos de predicción de brotes para obtener información sobre la probabilidad de propagación y las consecuencias de la reciente enfermedad infecciosa [4]. Los gobiernos y otras instituciones legislativas se basan en los conocimientos de los modelos de predicción para sugerir nuevas políticas y asimismo evaluar la eficacia de las estrategias aplicadas [5]. Debido a que la enfermedad ha exhibido una naturaleza no lineal y compleja [6], ha surgido un problema a gran escala sobre el desarrollo de modelos epidemiológicos, por lo cual el aprendizaje automático (ML) ha llamado la atención recientemente para construir modelos de predicción de brotes, pronóstico de casos, estimación de muertes y proyección de recuperaciones [4].

Los métodos de ML han sido utilizados para modelar pandemias anteriores, por ejemplo, Ébola, Cólera, influenza H1N1, fiebre del dengue, Zika o norovirus de ostras [7]-[11]. Estas técnicas de ML se limitan a los métodos básicos de árbol de regresión, pronóstico aleatorio, redes neuronales, redes bayesianas, Naïve Bayes, y regresiones lineales simples o múltiples; sin embargo, existen métodos de ML más sofisticados, por ejemplo, híbridos o en conjunto, que otorgan mejores resultados al combinar varios algoritmos, utilizar técnicas de optimización o aplicar metaheurísticas. Durante los últimos años el interés por las metaheurísticas ha aumentado considerablemente en el campo de la optimización. Los mejores resultados swarm intelligence; support vector machine; metaheuristic; encontrados para muchos problemas en la ciencia y la industria se obtienen combinando herramientas de optimización como las metaheurísticas y ML, proporcionando algoritmos eficientes [12].

Las metaheurísticas se han empleado ampliamente para mejorar las tareas del aprendizaje automático, así como la optimización de parámetros o de configuraciones [13]. Algunas de estas metaheurísticas están basadas en la población y en los comportamientos colectivos en sistemas autoorganizados y descentralizados (distribuidos), por lo que representan una aplicación de la inteligencia de enjambres (SI). Los sistemas de SI están conformados por una población de agentes computacionales simples capaces de percibir y modificar su ambiente de manera local; tal capacidad hace posible la comunicación entre los individuos, que detectan los cambios en el ambiente generado por el comportamiento de sus semejantes [14]. La regresión y la clasificación son tareas de ML supervisada en la que se predice una categoría o clase predefinida a partir de un conjunto de atributos dado (variables continuas para regresión y variables discretas para clasificación) [15]. En particular, la regresión tiene como objetivo estimar las relaciones entre una variable de respuesta y una o más variables explicativas, y tiene una amplia gama de aplicaciones sobre las series de tiempo [13]. Normalmente, el uso del ML está relacionado con el entrenamiento de modelos de regresión avanzados por lo que resulta adecuado interpretar e implementar mejoras algorítmicas y de resultados con ayuda de otro tipo de técnicas de la inteligencia artificial o computacional, como los métodos de SI.

En este trabajo se presenta la aplicación de una técnica de optimización de inteligencia de enjambres sobre un modelo de regresión lineal de aprendizaje automático. El método planteado consiste en un modelo en conjunto (ensamblado) de una máquina de regresión de soporte vectorial (SVR) de tipo lineal simple con la optimización del algoritmo de enjambre de partículas tradicional (PSO) [16], denominado SVR+PSO. El criterio que especifica la cantidad de soluciones [17] fue el factor que determinó la selección de la metaheurística PSO en lugar de otras, como por ejemplo el algoritmo de colonia de hormigas (ACO), puesto que la primera es de tipo poblacional y la segunda de tipo trayectorial; dada la naturaleza del problema por abordar es necesario utilizar una técnica poblacional.

El propósito de la implementación del PSO es la optimización de los hiperparámetros de la máquina de regresión para obtener un mejor resultado, en términos de exactitud y rendimiento, del pronóstico de una serie de tiempo de casos confirmados de la enfermedad COVID-19 en la ciudad de Bogotá, Colombia. El rendimiento de la regresión depende en gran medida de la elección de los hiperparámetros [18]; en este documento el enfoque es sobre los siguientes hiperparámetros: e que controla el ancho de la zona insensible del modelo, C un factor de regularización que penaliza los errores de restricción, y y un parámetro de función del kernel. El documento continúa con una sección de trabajos relacionados que es útil como marco de referencia, la sección del método aplicado y las técnicas utilizadas, posteriormente la presentación de resultados y discusiones, y finalmente las conclusiones.

2. Trabajos relacionados

Las diferentes técnicas y herramientas proporcionadas por la inteligencia artificial (IA) permiten realizar predicciones en los ecosistemas actuales, que a diario presentan nuevos retos y escenarios inesperados para el hombre, quien se encuentra en la búsqueda constante de mecanismos que permitan reducir la incertidumbre con el objetivo de prepararse para dichos escenarios futuros. La IA no ha sido ajena a la aparición de diferentes virus que han desatado pandemias que a su vez han afectado a la humanidad y el caso actual del COVID-19 no es la excepción, teniendo en cuenta el limitante de la falta de información o el exceso de datos en otros casos, es importante la recopilación y análisis de los datos disponibles para poder entrenar las diferentes implementaciones en las que se utilizan herramientas propias de la IA y así realizar diferentes estimaciones que sean útiles para tomar decisiones que limiten daños e incluso permitan salvar vidas [19].

Paralelamente en la actualidad se han realizado diferentes trabajos investigativos sobre la dinámica y detección temprana de COVID-19 utilizando modelos matemáticos y técnicas de IA. Donde predomina la implementación de modelos Susceptible-Expuesto-Infectado-Recuperado (SEIR) y Susceptible-Infectado-Recuperado (SIR) con el uso de herramientas proporcionadas por la IA donde comúnmente se utilizan redes neuronales convolucionales (CNN) alimentadas por datos de casos de diagnósticos relacionados, imágenes médicas, estrategias de gestión, personal sanitario, demografía y movilidad. En gran variedad de propuestas se ha demostrado la eficacia en la aplicación de estas metodologías, herramientas y técnicas, quedando siempre la puerta abierta para la innovación, optimización y mejoramiento de modelos ya propuestos [20].

Del mismo modo, se han implementado otras técnicas menos utilizadas de predicción como regresión lineal y regresión vectorial para la anticipación del avance de esta pandemia, un claro ejemplo es el trabajo propuesto en India, donde se han realizado propuestas de aprendizaje de máquina para generar modelos de pronóstico de la pandemia en dicho país, empleando regresión lineal, perceptrón multicapa y método de regresión vectorial [21].

Además, técnicas como sistemas de membranas estocásticas (sistemas P) han sido utilizadas en el pasado para el modelado de pandemias, como es el caso de la influenza pandémica A (H1N1) en regiones geográficas aisladas para la predicción de enfermedades infecciosas dentro de áreas predefinidas y la evaluación de estrategias de intervención [22].

Mecanismos de optimización bioinspirados han sido utilizados para pronosticar casos confirmados de COVID-19 en países como China, donde sistemas de inferencia neuro-difusos adaptativos han sido combinados con algoritmos de polinización de flores y algoritmos de enjambre de salpas para potenciar el sistema mencionado y lograr así mejores resultados a la hora de hacer el pronóstico [23].

Finalmente, el método que involucra la optimización de hiperparámetros de una máquina de regresión de soporte de vectorial mediante el algoritmo de enjambre de partículas, se presenta en algunas aplicaciones de predicción que se encuentran en la literatura. Una primera aplicación es un método de pronóstico del flujo de tráfico a corto plazo; en este trabajo se optimizan los hiperparámetros e, C y y de la máquina de regresión de soporte vectorial de orden lineal [24]. Por otra parte, una segunda aplicación considera la optimización de cuatro hiperparámetros, los cuales son C, o, a y e. Este procedimiento se utiliza para predecir la sobrepresión de aire causada por voladuras de minas [25]. En estos trabajos la metodología de optimización de los hiperparámetros es similar a la presentada, con la diferencia en el caso de estudio.

3. Materiales y método

El planteamiento del método propuesto SVR+PSO consiste en la aplicación de una técnica de optimización basada en inteligencia de enjambres sobre el algoritmo de aprendizaje supervisado SVR, utilizado para problemas de clasificación y regresión.

En esta sección se presentan los procedimientos que involucran la obtención del conjunto de datos, el preprocesamiento de los datos (herramientas de extracción, transformación y carga - ETL), técnicas utilizadas, la descripción de los hiperparámetros, el método propuesto y las métricas de medición.

Para el desarrollo de la propuesta se utilizó el lenguaje de programación Python en su versión 3.7.8. Se empleó el entorno de desarrollo integrado Spyder, el cual es un proyecto de código abierto para programar en Python; este integra las librerias NumPy, Matplotlib, scikit-learn y Pandas, utilizadas en el algoritmo desarrollado. Las especificaciones del equipo de cómputo utilizado para la implementación de la propuesta son: procesador Intel Core I5 7200U, memoria RAM DDR4 de 8GB, y unidad de almacenamiento Disco Duro de 1000GB.

3.1. Conjunto de datos

El desarrollo del presente trabajo implicó el uso de los datos del número de casos confirmados por el laboratorio de COVID-19 de la ciudad de Bogotá. Estos datos pertenecen a la secretaría de salud de la ciudad, son actualizados con los reportes diarios del laboratorio y se encuentran abiertos al público [26]. Para la fecha en la cual se consultó el conjunto de datos, este contaba con un total de 166.685 registros, donde cada registro representa a un individuo con diagnostico positivo de COVID-19 y diferentes atributos pertenecientes al mismo. Para efectos del presente trabajo solo se tiene en cuenta la fecha de diagnóstico, atributo que corresponde a la fecha en la cual se confirmó el positivo por parte del laboratorio.

3.2. Técnicas utilizadas

Para obtener un conjunto de datos apropiado que sea utilizado por la máquina de regresión de soporte vectorial y el algoritmo PSO, es necesario hacer un tratamiento a los datos originales mediante la creación de scripts en Python utilizando la librería Pandas. Se realiza una agrupación mediante la "fecha de diagnóstico" que permita contar las veces que se repite la misma fecha para obtener el total de casos diarios. Una vez obtenido el número de casos por día se crea el atributo "casos acumulados", que registra el total de casos de COVID-19 por día, dato que será utilizado en la regresión.

El total de datos obtenidos para la implementación es de 164. De estos registros 10 se excluyeron para pruebas de pronóstico con los métodos, quedando disponibles 154. El método Holdout se utilizó para separar los datos en conjuntos de entrenamiento y de prueba para la propuesta SVR; este método consiste en la separación de manera aleatoria de los datos. Para el método propuesto SVR+PSO se utilizó Holdout con validación, esto la generación de un tercer conjunto de datos para ajustar determinados aspectos del modelo [27].

Por otro lado, la normalización de datos en el contexto de aprendizaje de máquina es una técnica utilizada en la etapa de preparación de datos, que permite generar una escala común para un conjunto de datos numéricos [28]. Al ser las máquinas de soporte vectorial una técnica de aprendizaje automático se recomienda aplicar dicha normalización a los datos de casos acumulados de COVID-19. Esto mediante la aplicación de la siguiente ecuación.

Donde:

𝑋_{𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑑𝑜}: Dato resultante de la normalización
𝑋: Dato original al cual se le realiza normalización
𝑋_𝑚𝑖𝑛: Dato mínimo del conjunto de datos
𝑋_𝑚𝑎𝑥: Dato máximo del conjunto de datos

Así mismo, para modelar esta serie temporal es necesario transformar los datos de la manera adecuada con el propósito de alimentar el método, para esto se implementa una función de retraso (lag function), que tiene en cuenta los valores en pasos de tiempo anteriores, transformando un problema de predicción de series de tiempo en un problema de aprendizaje supervisado, donde se busca predecir el valor en el momento (t + 1), dado el momento anterior (t - 1) [29].

Una vez realizado todo lo anterior, el conjunto de datos ya está listo para alimentar el método SVR+PSO, donde la máquina cumple el papel de realizar el proceso de aprendizaje mediante los hiperparámetros optimizados por el algoritmo PSO y no los hiperparámetros definidos por defecto.

3.3. Hiperparámetros

Los hiperparámetros son parámetros ajustables que se eligen para entrenar un modelo y que rigen el propio proceso de entrenamiento. Estos valores suelen permanecer constantes durante el proceso de entrenamiento. En escenarios de aprendizaje profundo o aprendizaje automático, el rendimiento del modelo depende en gran medida de los valores de hiperparámetros seleccionados. Para la adecuación de los hiperparámetros se requiere de un espacio de búsqueda, el tipo de hiperparámetros (discreto o continuo) y una técnica de muestreo [30].

3.4. SVR

La máquina de regresión de soporte vectorial es una técnica de ML, que construye una predicción de modelo lineal minimizando simultáneamente el riesgo empírico y la complejidad del modelo [31]. SVR se caracteriza por el uso de kernels, solución dispersa y control VC (teoría de Vapnik-Chervonenkis) del margen, y el número de vectores de soporte; es una herramienta eficaz en la estimación de funciones de valor real. Como enfoque de aprendizaje supervisado, SVR entrena usando una función de pérdida simétrica, que penaliza igualmente las estimaciones erróneas altas y bajas [32].

El rendimiento de SVR depende de la selección adecuada de los hiperparámetros, los cuales son e, C y y. Estos tres hiperparámetros son continuos. El hiperparámetro e controla el ancho de la zona insensible alrededor de la predicción del modelo; el número de vectores de soporte está relacionado directamente con el valor de e. Si se elige un valor grande de e, se seleccionan pocos vectores de soporte, lo que hace que el modelo sea más plano. Mientras que un valor pequeño de e permite seleccionar más vectores de soporte, lo que aumenta la complejidad del modelo. Para el hiperparámetro C, la elección de un valor bajo hace que la función sea plana. Sin embargo, tomando un valor C alto, el modelo selecciona más muestras como vectores de soporte para estimar correctamente todos los datos de entrenamiento. Por su parte, si el hiperparámetro del kernel y es demasiado pequeño, la influencia de los vectores de soporte es demasiado fuerte y ninguna cantidad de regularización podrá evitar el sobreajuste. Cuando y es muy grande, el modelo está demasiado restringido y no puede capturar la complejidad de los datos. Por tanto, cada hiperparámetro puede afectar la complejidad del modelo de forma diferente [18], [31], [33].

3.5. PSO

El uso del algoritmo PSO tiene como fundamento la optimización de los hiperparámetros C, e y y, propios de la máquina de regresión de soporte vectorial utilizada con miras a obtener resultados más precisos para el modelo de predicción.

Así mismo PSO se define como un algoritmo de optimización inspirado en el comportamiento óptimo de diferentes grupos de animales, donde la población social recibe el nombre de enjambre y cada individuo del enjambre se conoce como partícula [34], una partícula se compone por velocidades y posiciones de desplazamiento. Estos valores se van adaptando a medida que el proceso de aprendizaje se lleva a cabo con el objetivo de aproximarse a una posición deseada implica la optimización de una función objetivo.

De manera análoga el algoritmo se compone resumidamente por la siguiente serie de pasos [35]:

1. Determinar el tamaño del enjambre. Este valor no está predeterminado por alguna regla establecida, así pues, este valor se asigna como resultado de un proceso de ensayo y error.
2. Crear la población inicial de manera aleatoria, es decir hacer una inicialización aleatoria de la posición de las partículas en el espacio de búsqueda.
3. Inicializar y asumir las velocidades iniciales como v = 0.
4. Búsqueda del P_best y el G_best, donde el P_best representa el vector de partículas que ha presentado las mejores soluciones de cada partícula y el G_best representa el vector de partículas que ha presentado la mejor solución.
5. Hallar las nuevas velocidades para las partículas:

Donde:

C₁y C₂ son los ritmos de aprendizaje de la partícula y sociales respectivamente, este es un valor heurístico el cual es recomendable que tome el valor de 2.
r₁y r₂ son valores de probabilidad aleatorios.
i es el número de la iteración actual.
6. Generar el cambio en la posición de la partícula acorde a la tasa de cambio producida por la velocidad anteriormente calculada.

3.6. Método propuesto

La Figura 1 muestra el diagrama de flujo del método SVR+PSO de series de tiempo para el pronóstico de los casos confirmados de COVID-19.

Figura 1
Método SVR+PSO.
Fuente: elaboración propia.

SVR+PSO utiliza el algoritmo de enjambre para evaluar la mejor configuración de hiperparámetros en el regresor en cada iteración y de esta manera obtener los valores óptimos que minimicen el error y aumenten el rendimiento.

En la fase de optimización en la que se busca la mejor ubicación para cada partícula y la mejor partícula del enjambre, la función fitness para el entrenamiento del regresor se hace a través de la métrica del error cuadrático medio (MSE) existente entre el actual valor y el valor candidato, esto con el propósito de elegir la mejor solución del enjambre.

Donde p es el valor real, α el valor candidato y n la cantidad de observaciones del conjunto de datos.

Para la obtención de un rendimiento alto del método, se encontró que un valor apropiado de población inicial es 120 partículas. La dimensión del espacio de búsqueda está determinada por los hiperparámetros, para este caso es 3.

La posición de cada partícula en el espacio de búsqueda está definida por el vector (x,y,z) = (C,ε,y) y se inicializa aleatoriamente. El rango para el espacio de búsqueda de los hiperparámetros se definió de la siguiente manera (ver Tabla 1. Rango para el espacio de búsqueda de los hiperparámetros).

Tabla 1

Rango para el espacio de búsqueda de los hiperparámetros

Cabe resaltar que el criterio de detención en este caso es el número de iteraciones, que ha sido fijado en 10, ya que con pocas iteraciones se logra el resultado esperado y se observó que aumentando el número de iteraciones, muy pocas veces se presentó un cambio significativo en las métricas.

En cada iteración se evalúan cada una de las partículas para seleccionar la mejor partícula del enjambre. Con la mejor partícula se evalúa el regresor de manera que se guarda hasta que se encuentre uno mejor. Al finalizar las iteraciones, el mejor regresor con los hiperparámetros optimizados es utilizado para la evaluación con los datos, obtener el rendimiento y finalmente alcanzar el pronóstico.

3.7. Comparación de métodos

Para establecer el rendimiento esperado del método propuesto e implementado, se realiza una comparación con una máquina de regresión de soporte vectorial con hiperparámetros por defecto a través de las medidas de rendimiento que se enuncian en la siguiente subsección. Esta comparación permite evaluar el funcionamiento y validar el rendimiento del método propuesto de manera que se logre satisfacer la idea de la mejora que brinda las metaheurísticas para la optimización de modelos de ML y su aplicación sobre una serie de tiempo.

3.8. Comparación de métodos

La calidad del método propuesto se evalúa utilizando un conjunto de métricas de rendimiento de la siguiente manera:

• MSE

• RMSE

• MAE

• R²

Donde 𝑝 es el valor real, 𝑎 es el valor predicho, 𝑛 la cantidad de observaciones del conjunto de datos y 𝑝̅,𝑎̅ son los valores promedio.

El valor más bajo de MSE, RMSE y MAE se refiere a la mejor medida. El valor más alto de 𝑅² indica una mejor correlación para el método.

Los pasos del método propuesto son presentados en el Algoritmo 1.

4. Resultado y discusiones

En esta sección se presentan los rendimientos del método propuesto y la máquina de regresión de soporte vectorial para el pronóstico de la serie de tiempo de los casos de la enfermedad. En la parte final se presenta una discusión sobre algunas consideraciones que involucran este tipo de técnicas para el propósito presentado.

La Figura 2 muestra la totalidad de los datos de la serie de tiempo; representan la cantidad de casos acumulados por día desde que se informó sobre el primer caso en la ciudad el 6 de marzo de 2020.

Figura 2
Casos acumulados diarios en Bogotá.
Fuente: elaboración propia.

4.1. SVR

Con el objetivo de tener un punto de referencia con el cual poder realizar una comparación del método propuesto, se plantea la implementación de un algoritmo que únicamente utilice una máquina de regresión de soporte vectorial cuyos hiperparámetros no sean optimizados, es decir que serán utilizados con su configuración por defecto.

Para ello solamente se define el regresor sin necesidad de pasarle ningún parámetro; el valor por defecto de los hiperparámetros definido por la librería scikit learn es: C = 1,0, ε = 0,1 y y = 0,1. Luego se entrena el modelo y se evalúan los resultados.

L a Figura 3 y 4 muestran la serie de tiempo de los valores reales y predichos para el conjunto de datos normalizados de prueba y de entrenamiento respectivamente.

Figura 3
Serie de tiempo de los valores reales y predichos para el conjunto de datos de prueba normalizados para SVR.
Fuente: elaboración propia

Figura 4
Serie de tiempo de los valores reales y predichos para el conjunto de datos de entrenamiento normalizados para SVR.
Fuente: elaboración propia.

Para el conjunto de datos desnormalizados, la Figura 5 y 6 muestran serie de tiempo de los valores reales y predichos para los datos de prueba y los datos de entrenamiento respectivamente.

Figura 5
Serie de tiempo de los valores reales y predichos para el conjunto de datos de prueba desnormalizados para SVR.
Fuente: elaboración propia.

Figura 6
Serie de tiempo de los valores reales y predichos para el conjunto de datos de entrenamiento desnormalizados para SVR.
Fuente: elaboración propia.

Las métricas del rendimiento del modelo SVR son presentadas en la Tabla 2; incluye los resultados de las medidas para los datos de entrenamiento y los datos de prueba.

Tabla 2

Métricas del rendimiento del método SVR

La Tabla 3 presenta la configuración del regresor con los hiperparámetros establecidos por defecto.

Tabla 3

Configuración del regresor con los hiperparámetros por defecto

4.2. SVR+PSO

De acuerdo con la definición del método propuesto, las partículas que optimizarán los hiperparámetros de la máquina de regresión se inicializan aleatoriamente en el espacio de búsqueda. Para cada partícula se tiene un conjunto de coordenadas (x,y,z), que le indican la ubicación en el espacio y que corresponden respectivamente a los mejores valores de cada uno de los hiperparámetros (x,y,z) = (C,ε,y). La Figura 7 muestra la representación inicial aleatoria del enjambre de partículas en el espacio de búsqueda.

Figura 7
Distribución inicial aleatoria del enjambre de partículas en el espacio de búsqueda.
Fuente: elaboración propia.

El resultado del comportamiento de la función fitness durante la optimización, determinada por el error cuadrático medio, se muestra en la Figura 8. En la primera iteración el error es superior a 0,010, para la segunda el error decae a un valor cercano a cero y se mantiene hasta el final de la optimización. Esto describe que la aplicación del método propuesto mediante el enjambre de partículas permite llegar prontamente a un error mínimo. Para diferentes cantidades de iteraciones (10, 50, 100) el comportamiento es similar, variando únicamente por la naturaleza estocástica del método.

Figura 8
Comportamiento de la función fitness durante la optimización.
Fuente: elaboración propia.

Tras la ejecución del método, las partículas se han ubicado sobre el óptimo del espacio de búsqueda. La distribución resultante del enjambre sobre el espacio, al finalizar la optimización, se muestra en la Figura 9. Los valores de los hiperparámetros obtenidos por el método son 𝐶=5381,051481262206, 𝜀=1𝑒−08, 𝛾=0,001; el espacio de búsqueda corrobora gráficamente estos valores al encontrarse una densidad de partículas sobre 𝐶 cercano a 5000, 𝜀 cercano a 0,0001 y 𝛾 a 0.

Figura 9
Distribución resultante del enjambre de partículas sobre el espacio de búsqueda.
Fuente: elaboración propia.

La Figura 10 y 11 muestran la serie de tiempo de los valores reales y predichos para el conjunto de datos normalizados de prueba y de entrenamiento respectivamente.

Figura 10
Serie de tiempo de los valores reales y predichos para el conjunto de datos normalizados de prueba para SVR+PSO.
Fuente: elaboración propia.

Figura 11
Serie de tiempo de los valores reales y predichos para el conjunto de datos normalizados de entrenamiento para SVR+PSO.
Fuente: elaboración propia.

Para el conjunto de datos desnormalizados, la Figura 12 y 13 muestran serie de tiempo de los valores reales y predichos para los datos de prueba y los datos de entrenamiento respectivamente.

Figura 12
Serie de tiempo de los valores reales y predichos para el conjunto de datos desnormalizados de prueba para SVR+PSO.
Fuente: elaboración propia.

Figura 13
Serie de tiempo de los valores reales y predichos para el conjunto de datos desnormalizados de entrenamiento SVR+PSO.
Fuente: elaboración propia.

Las métricas del rendimiento del método son presentadas en la Tabla 4; incluye los resultados de las medidas para los datos de entrenamiento y los datos de prueba.

Tabla 4

Métricas del rendimiento del método SVR+PSO

La Tabla 5 presenta la configuración del mejor regresor obtenido con los hiperparámetros hallados por el enjambre y los establecidos por defecto.

Tabla 5

Configuración del mejor regresor obtenido con los hiperparámetros hallados por el enjambre

4.3. Comparación datos de prueba por fecha

La Tabla 6 presenta una comparativa de los datos con los cuales se realizó la prueba del método, estos datos han sido reservados previamente para verificar si el proceso de entrenamiento ha resultado un método válido para generar predicciones confiables en comparación con los datos reales registrados por el conjunto de datos original.

Tabla 6

Comparativa de las predicciones para datos de prueba

Es importante resaltar que para el caso propuesto de implementación del algoritmo SVR+PSO se utilizaron más datos de prueba, ya que el entrenamiento se realizó con menos datos en comparación con la implementación que solo utilizó SVR. Se aprecia que inicialmente SVR+PSO presenta un valor más cercano al valor real de contagios la gran mayoría de días, sin embargo, al finalizar el mes de Julio la proyección del algoritmo que solo implementa SVR se acerca mucho más, pero a medida que transcurre el mes de agosto esta proyección nuevamente vuelve a alejarse.

En la Figura 14 se observa gráficamente la evolución de las proyecciones de estos algoritmos en comparación con los datos reales para los días correspondientes. Por otro lado, en la Figura 15 se tienen en cuenta únicamente los días para los cuales se tienen predicciones tanto para SVR+PSO como para SVR.

Figura 14
Evolución de las proyecciones de la serie de tiempo para los métodos.
Fuente: elaboración propia.

Figura 15
Evolución de las proyecciones de la serie de tiempo para los métodos teniendo en cuenta la misma cantidad de días.
Fuente: elaboración propia.

En definitiva, se puede observar una proyección más regular y estable por parte del algoritmo que implementa SVR+PSO, mientras que el algoritmo que solo implementa SVR no logra una estabilidad en un periodo de tiempo prolongado; la proyección de contagiados inicialmente se encuentra considerablemente por encima, logra acercarse con el transcurso del tiempo, pero al cabo de un par de días nuevamente se aleja, esta vez por debajo del valor real de contagios.

4.4. Comparación del pronóstico

Se propone realizar una predicción de diez días, utilizando estos dos algoritmos, sin tener conocimiento aún de los datos reales reportados por la secretaría de salud de Bogotá; esta predicción arroja los resultados que se encuentran en la Tabla 7 para el periodo comprendido desde el día 6 de agosto de 2020, hasta el día 16 de agosto de 2020.

Tabla 7

Comparativa de los pronósticos para los dos métodos

Se puede apreciar que con el pasar de los días esta brecha de proyección entre ambos algoritmos aumenta significativamente.

4.5. Análisis comparativo de resultados

Con el propósito de satisfacer la hipótesis planteada acerca de la mejora que brinda el algoritmo PSO en el cálculo de los hiperparámetros y sus resultados sobre la serie de tiempo respecto al método SVR, se presenta en la Tabla 8 la comparación de los resultados obtenidos para ambos métodos.

Tabla 8

Comparativa de las métricas para los dos métodos.

Para el método propuesto SVR+PSO las métricas de medición del rendimiento MSE, RMSE y MAE, que deben acercarse a cero, se presentan con mejores resultados en comparación a las de SVR. Para la métrica R², que entre más cercana a 1 es mejor, SVR+PSO presenta un valor de 0,998884 que es significativamente más alto en comparación con el 0,778894 obtenido por SVR.

Para concluir de forma contundente que el desempeño del método propuesto es mejor que el tradicional SVR, se realiza la prueba no paramétrica de significancia estadística de Wilcoxon, la cual permite comparar pares de muestras. En este caso se aplica la prueba no paramétrica a las diferencias entre los dos grupos. A partir del valor - p que se obtiene y de la significancia elegida (alpha = 0,05) se determina el cumplimiento o no de la mejora de los resultados a través de la propuesta.

Como se desea probar si el rendimiento en el método SVR+PSO es mejor que en el método SVR, se toma la muestra de los resultados de los datos de prueba para aplicar el test no paramétrico de Wilcoxon. El resultado del valor - p es 0,0015. Como este resultado es menor que la significancia 0,05, se rechaza la hipótesis nula y se concluye con contundencia que hay evidencia estadística suficiente para indicar que el rendimiento en la propuesta SVR+PSO es mejor que en el método SVR.

4.6. Discusiones

¿Por qué utilizar PSO junto a SVR?

La revisión de la literatura realizada por [13] muestra la amplia aplicación de metaheurísticas para mejorar los métodos de ML y los resultados efectivos que los modelos en conjunto presentan en comparación con las técnicas aplicadas individualmente. En la presente investigación los resultados cuantitativos y cualitativos obtenidos al aplicar PSO junto a SVR son significativamente mejores respecto a la técnica SVR aplicada individualmente, esto en referencia a un conjunto de métricas de medición de rendimiento.

En particular, los hiperparámetros de SVR determinan el rendimiento del modelo predictivo. Sin el uso de PSO la configuración de SVR debe ser "manual", en el sentido que los hiperparámetros deben ser configurados a elección arbitraria y bajo la idea de ensayo-error. Esto implica tener un conocimiento a detalle de las SVR y la naturaleza de los datos que construyen la serie de tiempo. Al utilizar PSO junto a SVR la configuración de los hiperparámetros es ajustada por optimización del enjambre, siendo necesario únicamente el establecimiento del espacio de búsqueda que limite la búsqueda de las partículas.

Aunque el ajuste de los hiperparámetros mediante PSO es mejor que el método de ensayo-error propio de SVR, este sigue siendo dependiente de la configuración de parámetros propios de la metaheurística como la cantidad de partículas o la inercia para ajustar la velocidad de cada partícula, esto sin dejar de lado la naturaleza estocástica de la metaheurística que genera un resultado diferente en cada ejecución.

¿Por qué es importante la optimización de los hiperparámetros?

Los hiperparámetros son parámetros ajustables que se eligen para entrenar un modelo y que rigen el propio proceso de entrenamiento; en escenarios de aprendizaje profundo o aprendizaje automático, el rendimiento del modelo depende en gran medida de los valores de hiperparámetro seleccionados [30].

El objetivo de la exploración de los hiperparámetros es buscar entre diversas configuraciones de hiperparámetros hasta encontrar un resultado con un rendimiento aceptable. Normalmente, el proceso de exploración de hiperparámetros es un trabajo manual laborioso, dado que el espacio de búsqueda es muy extenso y la evaluación de cada configuración puede ser costosa. Con la optimización de los hiperparámetros se llega a una configuración que, si bien es posible que no sea óptima, es una configuración aceptable y "buena" que resulta importante al momento de simplificar la labor de encontrar los hiperparámetros.

¿Por qué no es recomendable utilizar este método para el pronóstico en una pandemia?

Si bien el método SVR+PSO muestra resultados con alta exactitud en el ajuste y regresión, para el proceso de pronóstico en una pandemia no es el más indicado, sin dejar de ser útil, dadas las variables y condiciones que exige un modelo epidemiológico. En los trabajos de [23], [36] métodos de regresión y optimización son aplicados para el modelamiento y pronóstico de casos de la enfermedad, sin embargo, no se tienen en consideración modelos epidemiológicos. La pandemia de la enfermedad COVID-19 exhibe una naturaleza no lineal y compleja [4] por lo que un modelo de regresión no considera todas las variables necesarias. Los trabajos de [37]-[39] presentan ajustes de parámetros de modelos epidemiológicos SIR, SEIR y SEIJR mediante la interpretación de las variables, las ecuaciones diferenciales presentes y la optimización con PSO. Estos modelos, en términos epidemiológicos, consideran más variables por lo que son más apropiados.

5. Conclusiones

En este trabajo se aplicó un método de optimización de los hiperparámetros C,ε y y, para una máquina de regresión de soporte vectorial utilizando el algoritmo bioinspirado de optimización de enjambre de partículas, con el propósito de mejorar el desempeño de la máquina en el pronóstico de una serie de tiempo. El método implementado se aplicó y validó para la predicción de los casos positivo de la enfermedad COVID-19 en la ciudad de Bogotá.

La optimización de los hiperparámetros mediante PSO permite una mejora significativa en la tasa de predicción de una máquina de regresión de soporte vectorial, generando proyecciones confiables para periodos de tiempo cortos. El método SVR+PSO presentó un error cuadrático medio de 0,000045 que supera el de SVR, el cual fue de 0,003047. Para el coeficiente de determinación el resultado obtenido para el método SVR+PSO fue 0,998884 mientras que para el SVR fue 0,778894. El valor - p de 0,0015 obtenido tras la aplicación de la prueba no paramétrica de significancia estadística de Wilcoxon permite concluir que el desempeño cuantitativo del método propuesto es mejor.

Si bien el método SVR+PSO presentó un rendimiento aceptable para la serie de tiempo respecto a la técnica de aprendizaje automático SVR, se considera que no es el más indicado para el pronóstico en una pandemia dado que la literatura presenta modelos epidemiológicos sofisticados que utilizan técnicas de inteligencia artificial y de optimización, y que tienen en cuenta la cantidad de variables que se ajustan a la naturaleza no lineal y compleja de la enfermedad.

Aunque el método SVR+PSO presenta un comportamiento aceptable para la optimización de los hiperparámetros y el pronóstico de la serie de tiempo, los resultados están determinados por la naturaleza estocástica de la metaheurística, esto es que, para configuraciones diferentes de cantidad de partículas, número de iteraciones e inercia, los resultados presentarán una variación probabilística. Sin embargo, si bien cada prueba del método describe unos valores diferentes, estos no se dispersan de un rango definido que actúa como límite del espacio de búsqueda. Por otra parte, aunque el algoritmo PSO presenta la característica de convergencia rápida, en la actual propuesta no se controló por motivo de la obtención de los resultados esperados con el desempeño adecuado y la naturaleza misma del caso del estudio.

Referencias

[1] J. Zheng, "SARS-coV-2: An emerging coronavirus that causes a global threat," Int. J. Biol. Sci., vol. 16, no. 10, pp. 1678-1685, 2020, doi: 10.7150/ijbs.45053

[2] A. B. A. Al-Hussein, R. Tahir, "Epidemiological Characteristics of COVID-19 Ongoing Epidemic in Iraq," Bull. World Heal. Organ., Apr. 2020, doi: 10.2471/BLT.20.251561

[3] E. Estrada, "COVID-19 and SARS-CoV-2. Modeling the present, looking at the future," Phys. Rep., vol. 869, pp. 1-51, Jul. 2020, doi: 10.1016/j.physrep.2020.07.005

[4] S. Ardabili et al., "COVID-19 Outbreak Prediction with Machine Learning," SSRNElectron. J., Apr. 2020, doi: 10.1101/2020.04.17.20070094

[5] A. Remuzzi, G. Remuzzi, "COVID-19 and Italy: what next?," Lancet, vol. 395, no. 10231, pp. 1225-1228, Apr. 2020, doi: 10.1016/S0140-6736(20)30627-9

[6] D. Ivanov, "Predicting the impacts of epidemic outbreaks on global supply chains: A simulation-based analysis on the coronavirus outbreak (COVID-19/SARS-CoV-2) case," Transp. Res. Part E Logist. Transp. Rev., vol. 136, p. 101922, Apr. 2020, doi: 10.1016/j.tre.2020.101922

[7] F. Koike, N. Morimoto, "Supervised forecasting of the range expansion of novel non-indigenous organisms: Alien pest organisms and the 2009 H1N1 flu pandemic," Glob. Ecol. Biogeogr., vol. 27, no. 8, pp. 991-1000, Aug. 2018, doi: 10.1111/geb.12754

[8] N. Agarwal, S. Reddy Koti, S. Saran, A. S. Kumar, "Data mining techniques for predicting dengue outbreak in geospatial domain using weather parameters for New Delhi, India," Curr. Sci., vol. 114, no. 11, 2018, Accessed: Aug. 20, 2020. [Online]. Available: 10.18520/cs/v114/i11/2281-2291

[9] S. S. Chenar, Z. Deng, "Development of artificial intelligence approach to forecasting oyster norovirus outbreaks along Gulf of Mexico coast," Environ. Int., vol. 111, pp. 212-223, Feb. 2018, doi: 10.1016/j.envint.2017.11.032

[10] L. Tapak, O. Hamidi, M. Fathian, M. Karami, "Comparative evaluation of time series models for predicting influenza outbreaks: Application of influenzalike illness data from sentinel sites of healthcare centers in Iran," BMC Res. Notes, vol. 12, no. 1, pp. 1-6, Jun. 2019, doi: 10.1186/s13104-019-4393-y

[11] R. Liang et al., "Prediction for global African swine fever outbreaks based on a combination of random forest algorithms and meteorological data," Transbound. Emerg. Dis., vol. 67, no. 2, pp. 935-946, Mar. 2020, doi: 10.1111/tbed.13424

[12] E.-G. Talbi, "Machine Learning for Metaheuristics - State of the Art and Perspectives," in International Conference on Knowledge and Smart Technology (KST), Apr. 2019, pp. XXIII-XXIII, doi: 10.1109/kst.2019.8687812

[13] L. Calvet, J. De Armas, D. Masip, A. A. Juan, "Learnheuristics: Hybridizing metaheuristics with machine learning for optimization with dynamic inputs," Open Math., vol. 15, no. 1, pp. 261-280, Jan. 2017, doi: 10.1515/math-2017-0029

[14] M. A. Muñoz, J. A. López, E. F. Caicedo, "Inteligencia de enjambres: sociedades para la solución de problemas (una revisión) Swarm intelligence: problem-solving societies (a review)," Rev. Ing. E Investig., vol. 28, no. 2, pp. 119-130, 2008.

[15] E.-G. Talbi, "Machine learning into metaheuristics: A survey and taxonomy of data-driven metaheuristics," 2020. Accessed: Aug. 20, 2020. [Online]. Available: Available: https://hal.inria.fr/hal-02745295/document.

[16] J. Kennedy, R. Eberhart, "Particle swarm optimization," in Proceedings of ICNN'95 -International Conference on Neural Networks, 1995, vol. 4, pp. 1942-1948, doi: 10.1109/ICNN.1995.488968

[17] M. Márquez Gómez, "Las metaheurísticas: tendencias actuales y su aplicabilidad en la ergonomía," Ing. Ind. Actual. y Nuevas Tendencias, vol. 4, no. 12, pp. 108-120, Jan. 2014.

[18] K. Smets, B. Verdonk, E. M. Jordaan, "Evaluation of performance measures for SVR hyperparameter selection," in IEEE International Conference on Neural Networks - Conference Proceedings, 2007, pp. 637-642, doi: 10.1109/IJCNN.2007.4371031

[19] W. Naudé, "Artificial intelligence vs COVID-19: limitations, constraints and pitfalls," AI Soc., vol. 1, p. 3, Apr. 2020, doi: 10.1007/s00146-020-00978-0

[20] Y. Mohamadou, A. Halidou, P. T. Kapen, "A review of mathematical modeling, artificial intelligence and datasets used in the study, prediction and management of COVID-19," Appl. Intell., pp. 1-13, Jul. 2020, doi: 10.1007/s10489-020-01770-9

[21] R. Sujath, J. M. Chatterjee, A. E. Hassanien, "A machine learning forecasting model for COVID-19 pandemic in India," Stoch. Environ. Res. Risk Assess., vol. 34, no. 7, pp. 959-972, Jul. 2020, doi: 10.1007/s00477-020-01827-8

[22] L. Xu, "Modelling to contain pandemic influenza A (H1N1) with stochastic membrane systems: A work-in-progress paper," in Lecture Notes of the Institute for Computer Sciences, Social-Informatics and Telecommunications Engineering, 2012, vol. 87 LNICST, pp. 74-81, doi: 10.1007/978-3-642-32615-8_10

[23] M. A. A. Al-Qaness, A. A. Ewees, H. Fan, M. A. El Aziz, "Optimization method for forecasting confirmed cases of COVID-19 in China," Appl. Sci., vol. 9, no. 3, p. 674, Mar. 2020, doi: 10.3390/JCM9030674

[24] W. Hu, L. Yan, K. Liu, H. Wang, "A Short-term Traffic Flow Forecasting Method Based on the Hybrid PSO-SVR," Neural Process. Lett., vol. 43, no. 1, pp. 155-172, Feb. 2016, doi: 10.1007/s11063-015-9409-6

[25] M. Hasanipanah, A. Shahnazar, H. Bakhshandeh Amnieh, D. Jahed Armaghani, "Prediction of air-overpressure caused by mine blasting using a new hybrid PSO-SVR model," Eng. Comput., vol. 33, no. 1, pp. 23-31, Jan. 2017, doi: 10.1007/s00366-016-0453-2

[26] Secretaría Distrital de Salud de Bogotá, "Número de casos confirmados por el laboratorio de COVID- 19 -Bogotá D.C. Datos Abiertos Bogotá," Apr. 07, 2020. https://datosabiertos.bogota.gov.co/dataset/44eacdb7-a535-45ed-be03-16dbbea6f6da

[27] J. D. Kelleher, B. Mac Namee, A. D'Arcy, Fundamentals of Machine Learning for Predictive Data Analytics. The MIT Press, 2015.

[28] "Normalizar datos: referencia para los módulos -Azure Machine Learning | Microsoft Docs," Feb. 22, 2020. https://docs.microsoft.com/es-es/azure/machine-learning/algorithm-module-reference/normalize-data

[29] R. Adhikari, R. K. Agrawal, "An Introductory Study on Time Series Modeling and Forecasting," L. Lambert Acad. Publ., Feb. 2013, Accessed: Aug. 20, 2020. [Online]. Available: Available: http://arxiv.org/abs/1302.6613.

[30] Microsoft, "Ajuste de los hiperparámetros de un modelo - Azure Machine Learning | Microsoft Docs," Documentación Microsoft, 2020. https://docs.microsoft.com/es-es/azure/machine-learning/how-to-tune-hyperparameters

[31] R. Laref, E. Losson, A. Sava, M. Siadat, "On the optimization of the support vector machine regression hyperparameters setting for gas sensors array applications," Chemom. Intell. Lab. Syst., vol. 184, pp. 22-27, Jan. 2019, doi: 10.1016/j.chemolab.2018.11.011

[32] M. Awad, R. Khanna, M. Awad, R. Khanna, "Support Vector Regression," in Efficient Learning Machines, Apress, 2015, pp. 67-80.

[33] G. Barrero, "Optimización de hiperparámetros de algoritmos de aprendizaj automático usados para el análisis de la calidad del software," Res. Gate, no. January, 2019, doi: 10.13140/RG.2.2.15055.74405

[34] S. Kefi, N. Rokbani, A. M. Alimi, "Impact of ant size on ant supervised by PSO, AS-PSO, performances," in Advances in Intelligent Systems and Computing, Nov. 2017, vol. 552, pp. 567-577, doi: 10.1007/978-3-31952941-7 56

[35] K. S. Raghuwanshi, "A Qualitative Review of Two Evolutionary Algorithms Inspired by Heuristic Population Based Search Methods: GA & PSO," in Lecture Notes in Networks and Systems, vol. 18, Singapore: Springer, 2018, pp. 169-175.

[36] K. Demertzis, D. Tsiotas, L. Magafas, "Modeling and forecasting the covid-19 temporal spread in Greece: An exploratory approach based on complex network defined splines," Int. J. Environ. Res. Public Health, vol. 17, no. 13, pp. 1-18, Jul. 2020, doi: 10.3390/ijerph17134693

[37] S. Sun, Y. Zheng, "Prediction of 2019-nCov in Italy based on PSO and inversion analysis," medRxiv, May 2020, doi: 10.1101/2020.05.08.20095869

[38] A. Godio, F. Pace, A. Vergnano, "Seir modeling of the italian epidemic of sars-cov-2 using computational swarm intelligence," Int. J. Environ. Res. Public Health, vol. 17, no. 10, May 2020, doi: 10.3390/ijerph17103535

[39] M. Paggi, "Simulation of Covid-19 epidemic evolution: are compartmental models really predictive?," arXiv.org, Apr. 2020, Accessed: Aug. 20, 2020. [Online]. Available: Available: http://arxiv.org/abs/2004.08207

Notas

Como citar: N. D. Muñoz-Cañón, J. A. Romero-Triana, "Optimización de los hiperparámetros de una máquina de regresión de soporte vectorial utilizando enjambre de partículas para el pronóstico de casos de COVID-19," Rev. UIS Ing., vol. 20, no. 2, pp. 181-196, 2021, doi: 10.18273/revuin.v20n2-2021015