Resumen
Introducción.: Se estima que ocurren 4,2 millones de muertes anuales en los primeros 30 días postoperatorios. La Comisión de Lancet en Cirugía Global resalta la importancia de medir y reducir esta mortalidad. Este estudio desarrolló una calculadora de mortalidad perioperatoria específica para la población colombiana, pretendiendo identificar e intervenir tempranamente los pacientes con alto riesgo.
Métodos.: Se utilizaron datos del estudio multicéntrico ColSOS, en el que se incluyeron 3807 pacientes de 54 centros en Colombia. Se recopilaron variables clínicas, sociodemográficas y perioperatorias; se manejaron los datos faltantes con imputación múltiple. La selección de variables se realizó mediante análisis bivariado, regresión Lasso y Recursive Feature Elimination (RFE). Se compararon modelos predictivos utilizando regresión logística y XGBoost, evaluando su rendimiento con validación cruzada.
Resultados.: El modelo XGBoost fue seleccionado por mostrar una mejor sensibilidad y menor número de falsos negativos que la regresión logística. Se destacó la importancia en la predicción de la clasificación ASA, enfermedad pulmonar obstructiva crónica, inestabilidad hemodinámica y urgencia del procedimiento. El modelo predijo mortalidad con un área bajo la curva (AUC) de 0,87.
Conclusión.: El presente estudio ha desarrollado la primera calculadora de mortalidad perioperatoria diseñada para la población colombiana, incluyendo múltiples especialidades quirúrgicas. El modelo de machine learning seleccionado presenta una sensibilidad y especificidad que la hacen equiparable a las mejores herramientas internacionales. La implementación de esta herramienta permite identificar y manejar tempranamente a los pacientes en riesgo, con lo que se podría mejorar la atención quirúrgica en Colombia.
Palabras claves: Inteligencia artificial, cirugía general, medición de riesgo, mortalidad hospitalaria, predicción.
Abstract
Introduction.: It is estimated that 4.2 million deaths occur annually within the first 30 postoperative days. The Lancet Commission on Global Surgery highlights the importance of measuring and reducing this mortality. This study developed a specific perioperative mortality calculator for the Colombian population, aiming to identify and intervene early in high-risk patients.
Methods.: Data from the multicenter ColSOS study were used, in which 3807 patients from 54 centers in Colombia were included. Clinical, sociodemographic, and perioperative variables were collected; missing data were handled with multiple imputations. Variable selection was performed through bivariate analysis, Lasso regression, and Recursive Feature Elimination (RFE). Predictive models were compared using logistic regression and XGBoost, evaluating their performance with cross-validation.
Results.: The XGBoost model was selected because of its superior sensitivity and fewer false negatives than logistic regression. The importance in predicting ASA classification, COPD, hemodynamic instability, and urgency of the procedure was highlighted. The model predicted mortality with an area under the curve (AUC) of 0.87.
Conclusion. : This study has developed the first perioperative mortality calculator designed for the Colombian population, including multiple surgical specialties. The selected machine learning model demonstrates sensitivity and specificity comparable to the best international tools. The implementation of this tool allows for early identification and management of patients at risk, which could improve surgical care in Colombia.
Keywords: Artificial intelligence, general surgery, risk assessment, hospital mortality, forecasting.
ARTÍCULO ORIGINAL
Inteligencia Artificial en Cirugía: Creación y validación de una calculadora colombiana de riesgo de mortalidad perioperatoria
Artificial Intelligence in Surgery: Development and validation of a Colombian perioperative mortality risk calculator
Received: 27 July 2024
Accepted: 08 August 2024
Published: 08 November 2024
Se estima que en el mundo ocurren 4,2 millones de muertes anuales en los primeros 30 días posoperatorios, de las cuales casi la mitad se consideran prevenibles 1. Así mismo, las intervenciones quirúrgicas contribuyen aproximadamente al 30 % de la carga de enfermedad mundial 1. Por esta razón, se creó la Comisión de Lancet en Cirugía Global buscando mejorar la atención quirúrgica global y postularon seis indicadores para evaluar las fortalezas y debilidades de los sistemas de salud, reconociendo la necesidad de su intervención para mejorar la atención quirúrgica 1,2. La mortalidad perioperatoria es el cuarto indicador de esta comisión y ha sido estimado en distintas poblaciones alrededor del mundo 3-6, incluyendo aproximaciones en nuestro país 7-9.
Se considera que el primer gran paso es la medición y la estimación de la mortalidad perioperatoria, pero también se requiere la generación de intervenciones para mejorar este indicador y la atención quirúrgica. Algunos países, como Etiopía y Nigeria, han iniciado procesos de planes nacionales de cirugía 10,11, sin embargo, es necesario buscar estrategias que impacten el ámbito clínico. Entre las intervenciones utilizadas para reducir la mortalidad se encuentra la identificación de pacientes con un riesgo elevado de muerte. Aunque múltiples estudios han descrito modelos predictivos, estos suelen ser específicos para determinados procedimientos o categorías quirúrgicas 12 y muchos otros son solo formulados, pero no están disponibles para su uso o aplicación.
El Colegio Americano de Cirujanos (ACS) creó un modelo predictivo para distintos desenlaces posoperatorios, entre ellos mortalidad, primero por medio de una regresión logística 12 y posteriormente utilizando una metodología avanzada de machine learning13. Esta herramienta fue entrenada con 1.414.006 pacientes y presentó un área bajo la curva (AUC) de 0,94 12-14.
Aunque esta herramienta está disponible en forma de calculadora, no fue entrenada ni validada en población colombiana. Por lo tanto, el objetivo de este estudio fue desarrollar una calculadora de mortalidad perioperatoria basada en un modelo predictivo específico para la población colombiana, para identificar de forma preoperatoria a los pacientes con alto riesgo de mortalidad y así poder intervenirlos o monitorizarlos tempranamente.
Fuente de información y población
Los datos fueron obtenidos del estudio de cohorte prospectiva multicéntrico ColSOS, en el cual se recolectaron datos de 3807 pacientes de 54 centros alrededor de Colombia. Este estudio buscó describir los desenlaces perioperatorios de mortalidad y complicaciones intrahospitalarias hasta 30 días posteriores al procedimiento, la muerte o el egreso del paciente. Se incluyeron pacientes mayores de 18 años que fueron sometidos a un procedimiento quirúrgico en un quirófano, excluyendo procedimientos endoscópicos o por radiología intervencionista. La recolección de datos de distintos procedimientos y especialidades quirúrgicas se llevó a cabo entre mayo de 2022 y enero de 2023 9,15. Este estudio siguió la metodología TRIPOD para el reporte de este modelo predictivo 16.
Variables
Se incluyeron variables clínicas y sociodemográficas como edad, sexo, comorbilidades, antecedentes de tabaquismo, índice de masa corporal (IMC), clasificación ASA (American Society of Anesthesiologists), tipo de afiliación al sistema de salud, estrato socioeconómico, estado de infección y vacunación por COVID-19. También se consideraron variables perioperatorias como el procedimiento a realizar, descrito por los códigos únicos de procedimientos en salud (CUPS), la categoría quirúrgica (cirugía general, ortopedia, gineco-obstetricia, cirugía plástica, entre otros), el abordaje quirúrgico (abierto, video-asistido, robótico, endovascular, entre otros), la complejidad del procedimiento, y si el procedimiento fue electivo o urgente. Además, se registró la condición del paciente previo a la cirugía, dado por el estado hemodinámico y la presencia de paro cardiaco preoperatorio. Las definiciones de las variables incluidas en el estudio se pueden encontrar en el protocolo 15.
La variable desenlace fue mortalidad perioperatoria, obtenida del cuarto indicador de la comisión de Lancet en cirugía global 17. Esta se define como toda mortalidad secundaria a cualquier causa antes del alta hospitalaria, o dentro de un máximo de 30 días de estancia hospitalaria, en un paciente que se sometió a un procedimiento quirúrgico en un quirófano 18.
Manejo e imputación de los datos
Las variables de IMC, esquema de vacunación y diagnóstico de COVID-19 fueron imputadas, dado que presentaban datos faltantes en un 18 %, 1,8 % y 1,8 %, respectivamente. Para ello se utilizaron dos técnicas de imputación múltiple: MICE (Multivariate Imputation by Chained Equations) para el caso del IMC y una imputación iterativa con clasificador de bosques aleatorios para las variables categóricas. Ambas técnicas se evaluaron usando validación cruzada (cross-validation), en la cual se imputaron datos faltantes sembrados de forma aleatoria. Se obtuvo una exactitud del 82 % en las variables categóricas y una mediana de error absoluto menor a 3 kg/m² en el índice de masa corporal, como se observa en la Figura 1.

Selección de variables
Se utilizaron tres técnicas para la selección de variables: análisis bivariado, regresión Lasso y Recursive Feature Elimination (RFE).
En el análisis bivariado, se evaluó la distribución de los datos cuantitativos con las pruebas de Kolmogorov-Smirnov y Shapiro-Wilk. Luego, se aplicaron las pruebas T de Student o U de Mann-Whitney, según la distribución. Los datos categóricos se analizaron con las pruebas de Chi-cuadrado y Kruskal-Wallis, considerando un valor de p < 0,05 como significativo. La regresión Lasso se realizó con una lambda obtenida mediante validación cruzada, optimizada por precisión balanceada y AUC (área bajo la curva). Este modelo penaliza la magnitud de los coeficientes. Es decir, a las variables que tienen poco o ningún efecto sobre mortalidad les da un valor de coeficiente 0, excluyéndolas del modelo. El RFE es un clasificador logístico para seleccionar el mejor modelo con n variables, desde una hasta todas las variables disponibles. Los modelos se compararon usando el Criterio de Información de Akaike (AIC), eligiendo el de menor AIC.
Finalmente, se compararon las variables seleccionadas por las tres metodologías, conservando aquellas preservadas por al menos dos de los tres métodos (Tabla 1).

Desarrollo de los modelos predictivos
Se utilizaron dos estrategias en el desarrollo de los modelos predictivos para mortalidad, seleccionadas en base a su interpretabilidad y el uso en calculadoras y modelos predictivos quirúrgicos previos. Primero, se realizó una estimación mediante regresión logística binaria, incluyendo las variables seleccionadas y obteniendo el AUC y las curvas ROC (Receiver Operating Characteristic). Posteriormente, se utilizó el modelo de machine learning XGBoost, un modelo de clasificación binaria que crea múltiples árboles de decisión para predecir la probabilidad de que una observación pertenezca a una clase positiva. El modelo se ajustó para optimizar la sensibilidad, es decir, la proporción de verdaderos positivos entre los positivos, penalizando los falsos negativos y, por lo tanto, evitando al máximo la predicción de supervivencia en casos de mortalidad.
Por otro lado, se realizaron distintos modelos según el tratamiento realizado a la variable de tipo de cirugía (CUPS); esta clasificación tiene la capacidad de ser altamente específica pero también regresar a categorías más generales. Por lo cual, se evaluó la variable como procedimiento específico, procedimiento general y categoría de procedimiento. De igual manera, al tener algunos procedimientos con menos casos, se siguió la metodología propuesta por Bilimoria KY, et al. 12, de incluir los CUPS con un número mínimo de procedimientos, con punto de corte en 30 y 20 casos. Todos los análisis fueron realizados en el lenguaje de programación Python (Wilmington, Estados Unidos: Python Software Foundation) y R Studio 4.3.3 (Vienna, Austria: R Foundation for Statistical Computing).
Los modelos fueron comparados mediante validación cruzada, utilizando las medidas de sensibilidad, especificidad, precisión global y balanceada, AUC de la curva ROC con su gráfica, el índice de Brier y la distribución gráfica de las predicciones en una matriz de confusión. Las definiciones e interpretaciones de estas medidas se presentan en la Tabla 2. El mejor modelo fue seleccionado según estos estadísticos.

Comparación de los modelos
La regresión logística mostró una sensibilidad del 76,5 %, especificidad del 83 %, precisión balanceada del 79,7 % y un AUC de 0,88. El modelo de machine learning XGBoost presentó una sensibilidad del 80 %, especificidad del 82 %, precisión balanceada del 81 % y un AUC de 0,87. Al evaluar la matriz de confusión, se observó que el modelo XGBoost tenía un menor número de falsos negativos y una mejor sensibilidad, lo cual se consideró prioritario; con un rendimiento similar en otros parámetros, se decidió seleccionar el modelo XGBoost.
Al evaluar el mejor tratamiento del tipo de procedimiento por CUPS, se encontró que al usar dos dígitos del código (categoría general del procedimiento), el modelo presentaba el mejor rendimiento, por lo que fue el modelo final elegido (Tabla 3).

Características del modelo
El modelo XGBoost escogido utilizó las 16 variables seleccionadas, dando gran importancia a las variables de clasificación de ASA, antecedente de EPOC, inestabilidad hemodinámica preoperatoria y si el procedimiento era urgente o electivo (Figura 2).

El modelo arroja una predicción de mortalidad entre 0 a 100 %. Al evaluar su comportamiento en un conjunto de prueba (20 % de los pacientes) se estimó un número significativo de falsos positivos, pero el 75 % de los mismos presentaban una predicción menor del 75 %, mientras que los pacientes verdaderos positivos tenían predominantemente valores superiores al 80 % (Figura 3). Por otro lado, los verdaderos negativos fueron identificados con una alta certeza, como era de esperarse al optimizarlo por sensibilidad.

Al graficar la curva ROC para el modelo, se calculó un área bajo la curva de 87 % y un umbral óptimo de corte del 60 % para determinar si un paciente va a presentar una mortalidad perioperatorio o no (Figura 4).

Unos 300 millones de procedimientos quirúrgicos se realizan globalmente, con un estimado de mortalidad de 1-4 % en el perioperatorio 22. De hecho, sin la atención adecuada al cuidado quirúrgico, el periodo postoperatorio continuará siendo una causa prevenible de muerte y morbilidad 23. Es por esto por lo que la estimación de riesgos preoperatorios es de suma importancia para el cirujano, los pacientes y sus familiares. Hasta hace poco no había una herramienta disponible que funcionará para múltiples especialidades quirúrgicas, entrenada y validada en población colombiana, por lo que este estudio propuso la creación de una calculadora de mortalidad perioperatoria basada y validada con datos de pacientes colombianos, obtenidos del estudio multicéntrico ColSOS 15.
Los modelos predictivos involucran el uso de métodos y herramientas matemáticas y/o computacionales para crear modelos que permitan pronosticar desenlaces futuros 24. Aunque los modelos predictivos en la actualidad han ganado popularidad y se han extendido en la práctica clínica, el concepto de la predicción para apoyar las decisiones médicas ha sido usado desde tiempos Babilónicos 25,26. Esto mismo ocurre en cirugía, donde la literatura ha presentado varios modelos predictivos de mortalidad perioperatoria para procedimientos específicos.
Ramkumar T, et al. 27, compararon herramientas predictivas para la mortalidad postoperatoria en pacientes sometidos a resección colorrectal. Utilizaron datos de 347 pacientes (321 electivos y 26 urgentes) y evaluaron POSSUM (Clasificación de Severidad Fisiológica y Psicológica para la Enumeración de Mortalidad y Morbilidad), obteniendo un área bajo la curva (AUC) de 0,75, y P-POSSUM, que utiliza una regresión lineal con diferentes componentes para la misma clasificación, logrando una AUC de 0,749.
Otro ejemplo es el de Mathlouthi A, et al. 28, quienes desarrollaron un modelo predictivo para la mortalidad perioperatoria posterior a la reparación endovascular de aneurisma. El modelo se entrenó con datos de 36.133 pacientes, de los cuales el 1,1 % presentó el desenlace, obteniendo un estadístico C de 0,749. Así como estos modelos, encontramos predicciones específicas de mortalidad postoperatoria en pacientes cirróticos 29, en cirugía de trasplante 30, cirugía vascular 31, cirugía cardiovascular 32 y cirugía general 33, entre otros. Pero su utilidad es limitada dado que la mayoría son realizados en un único centro o con pacientes que tienen características muy específicas, que los hacen poco generalizables.
Mientras tanto, la calculadora de desenlaces posoperatorios diseñada por Bilimoria KY, et al. 12, sí incluye distintas especialidades quirúrgicas. Este modelo predictivo fue basado en los datos del ACS NSQIP, que es el programa del Colegio Americano de Cirujanos para la mejora de la calidad, incluyendo más de 1.400.000 pacientes. Es de resaltar que en este modelo se incluyeron los CPT (Current Procedural Terminology), que son equiparables a los CUPS utilizados en Colombia. El modelo obtenido presentó una AUC de 0,94 para mortalidad y 0,81 para morbilidad, lo cual indica un alto grado de discriminación.
Es importante hacer énfasis en que las herramientas predictivas son muy útiles, pero pueden ser utilizadas de manera incorrecta si son usadas en pacientes, poblaciones o contextos para las cuales no fueron creadas 27,34. Está es la razón por la que son tan relevantes los datos presentados en este estudio, dado que es una calculadora entrenada y diseñada para la población y el contexto colombianos.
Esta herramienta diseñada para mortalidad perioperatoria en Colombia presentó un AUC de 0,87, la cual indica una buena discriminación del desenlace. Al compararlo con los estudios iniciales de la calculadora de desenlaces posoperatorios del ACS, se evidencia una menor discriminación, con un reporte de AUC de 0,94 12, pero validaciones posteriores evidencian un menor AUC, de 0,88 13 y de 0,77 14. Por lo que se considera que la discriminación del modelo presentado es equiparable a otras herramientas, lo que lo hace viable para ser estudiado y considerado en la práctica clínica.
El modelo predictivo que finalmente fue utilizado fue el XGBoost, que es un modelo derivado del machine learning. Esta comparación también fue llevada a cabo por Liu Y, et al. 13, en donde se estimó el AUC de la predicción por medio de regresión logística y por medio del XGBoost, encontrando una discriminación ligeramente superior del XGBoost sobre la regresión (AUC 0,829 vs 0,825), por lo cual consideraron actualizar la calculadora de desenlaces postoperatorios del ACS al método de machine learning. Se considera, en base a nuestros resultados y la literatura internacional, que el uso de XGBoost es superior a la regresión logística, pero aun así, se aclara que la regresión presenta una adecuada discriminación y podría ser utilizada para la predicción de desenlaces.
Limitaciones y fortalezas
Es importante entender las limitaciones y fortalezas del estudio para el uso de la calculadora y el método de predicción. Los datos fueron entrenados y validados usando la base del estudio ColSOS, un estudio que recogió datos a nivel nacional, pero con una preponderancia de la región Andina y poca afluencia de las zonas periféricas del país. Adicionalmente, incluyó únicamente pacientes mayores de 18 años, por lo que no está diseñada para uso pediátrico.
En cuanto a las fortalezas, se destaca una alta sensibilidad de la calculadora sin comprometer las otras métricas, lo que indica una priorización del modelo para categorizar correctamente los casos de mortalidad. Esto puede llevar en algunas ocasiones a un aumento de falsos positivos, que es donde disminuye la discriminación del modelo. Sin embargo, esto se ve atenuado por los riesgo elevados que otorga la calculadora en los verdaderos positivos comparado con los falsos positivos.
Dentro de las fortalezas más relevantes, se encuentra que la calculadora fue diseñada y entrenada con datos colombianos, por lo que genera predicciones más realistas en esta región, que otras calculadoras existentes; y está disponible para su uso (https://app.ai-med.co). Finalmente, el uso de inteligencia artificial para su clasificación destaca el análisis estadístico actualizado y complejo del modelo predictivo.
El presente estudio ha desarrollado y validado una calculadora de mortalidad perioperatoria específicamente diseñada para la población colombiana, utilizando datos del estudio multicéntrico ColSOS. Se compararon modelos predictivos de regresión logística y machine learning (XGBoost), encontrando que el modelo XGBoost ofreció una mejor sensibilidad y un menor número de falsos negativos, lo cual es crítico para la identificación temprana de pacientes en riesgo. El modelo XGBoost, con un AUC de 0,87, mostró un rendimiento similar a otras herramientas internacionales, pero con la ventaja de estar ajustado a las características y contextos específicos de la población colombiana.
La implementación de esta herramienta en la práctica clínica mejora significativamente la atención quirúrgica en Colombia, permitiendo la identificación y el manejo temprano de pacientes en riesgo, contribuyendo así a la reducción de la mortalidad perioperatoria. Esta calculadora no solo cumple con el cuarto indicador de la Comisión de Lancet en Cirugía Global, sino que también posiciona a Colombia como líder regional en el uso de herramientas avanzadas para la atención quirúrgica.
El presente estudio no podría haberse llevado a cabo sin el apoyo técnico y tecnológico de AIMed y ST&T Ltda., quienes fueron fundamentales para el desarrollo de la calculadora y el posicionamiento de la herramienta en una página web (https://ai-med.co/), haciéndola accesible para todos los cirujanos, médicos y demás personal de salud.
aCorrespondencia: Nicolás Lozano-Suárez, Calle 10A # 22 - 04, Medellín, Colombia. Teléfono: +57 3138926759. Dirección electrónica: lozanos.nicolas@uces.edu.co






