Máquinas de aprendizaje y soft sensores de tipo nariz y lengua electrónica para la detección de cáncer

Laura M. García-García; Marcela Vallejo; Edilson Delgado-Trejos

Revisión

Machine Learning and Soft Sensors of Electronic Nose and Tongue Type for Cancer Detection

Laura M. García-García lauragarcia265352@correo.itm.edu.co

Instituto Tecnológico Metropolitano, Grupo Calidad Metrología y Producción (CM&P), Laboratorio AMYSOD, Medellín-Colombia, Colombia

Marcela Vallejo marcelavallejo@itm.edu.co

Instituto Tecnológico Metropolitano, Grupo Calidad Metrología y Producción (CM&P), Laboratorio AMYSOD, Medellín-Colombia, Colombia

Edilson Delgado-Trejos edilsondelgado@itm.edu.co

Instituto Tecnológico Metropolitano, Grupo Calidad Metrología y Producción (CM&P), Laboratorio AMYSOD, Medellín-Colombia, Colombia

Máquinas de aprendizaje y soft sensores de tipo nariz y lengua electrónica para la detección de cáncer

TecnoLógicas, vol. 28, núm. 63, pp. 1-21, 2025

Instituto Tecnológico Metropolitano

Declaración de privacidad: los datos personales incluidos en la presente publicación son propiedad de sus titulares quienes autorizan que los mismos sean tratados conforme lo indica la política de tratamiento de datos del ITM en su Resolución 395 de 2014, como «Políticas para el tratamiento y la protección de datos personales», disponible en su sitio web. Particularmente y para efecto de mediciones y reporte de producción científica, estos datos serán tratados en consonancia con las leyes vigentes en la materia, especialmente la Ley 1581 de 2012 de Colombia y podrán ser compartidos para efectos estadísticos, de medición y en función de las actividades propias de la misión institucional del ITM.

Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.

Recepción: 24 Octubre 2024

Aprobación: 03 Julio 2025

Publicación: 22 Agosto 2025

DOI: https://doi.org/10.22430/22565337.3296

Resumen: El cáncer tiene alta incidencia y mortalidad a nivel mundial, y un diagnóstico temprano mejora significativamente la supervivencia. Por ello, se buscan herramientas no invasivas y económicas, como los soft sensores, para analizar Compuestos Orgánicos Volátiles (COV) que pueden actuar como biomarcadores de la enfermedad. Este artículo tuvo como objetivo revisar el estado del arte sobre el uso de narices y lenguas electrónicas como soft sensores para la detección de cáncer, junto con el procesamiento de datos mediante máquinas de aprendizaje. Se empleó una metodología cualitativa basada en la revisión de literatura científica publicada en bases de datos como ScienceDirect, IEEEXplore, Sage Journals y Scopus. Se seleccionaron 54 artículos relevantes, a partir de un proceso basado en la metodología PRISMA, publicados entre 2010 y 2024. Los resultados revelaron el uso de soft sensores para detectar cáncer de pulmón, próstata, vejiga, mama, ovario, colon, estómago y cavidad bucal, utilizando muestras como orina, aliento, saliva y sangre. La discusión incluyó comparaciones entre técnicas de análisis y decisiones, además se destacan tendencias, desafíos y oportunidades de investigación en el área. Se concluye que combinar la soft metrología, los soft sensores y el aprendizaje automático permite detectar biomarcadores del cáncer con una precisión alrededor del 90 %. No obstante, aún existen retos y oportunidades de investigación para optimizar las arquitecturas y lograr sistemas más confiables.

Palabras clave: Compuestos orgánicos volátiles, diagnóstico no invasivo, espacio de representación, soft metrología, técnicas de aprendizaje.

Abstract: Cancer has high incidence and mortality rates worldwide and early diagnosis significantly improves survival outcomes. Consequently, there is a growing interest in non-invasive and cost-effective diagnostic tools, such as soft sensors for the analysis of Volatile Organic Compounds (VOCs), which can serve as biomarkers for the disease. This article aimed to present a comprehensive review on the use of electronic noses and tongues as soft sensors for cancer detection, along with data processing through machine learning algorithms. A qualitative methodology was employed, based on a literature review of databases including ScienceDirect, IEEEXplore, Sage Journals, and Scopus, resulting in the selection of 54 relevant articles published between 2010 and 2024. The articles were selected using a process aligned with the PRISMA methodology. The findings highlight the application of soft sensors for the detection of lungs, prostate, bladder, breast, ovarian, colorectal, gastric cancers, and oral cavity conditions, using samples such as urine, exhaled breath, saliva, and blood. The discussion addresses comparative analyses of representation and decision-making techniques, as well as emerging trends, challenges, and research opportunities in the field. The study concludes that integrating soft metrology with soft sensors and machine learning enables the accurate measurement of cancer biomarkers from biological substances, achieving detection accuracies of approximately 90%. However, significant research challenges and opportunities related to system architecture optimization remain to enhance reliability.

Keywords: Volatile Organic Compounds, non-invasive diagnosis, feature space, soft metrology, learning techniques.

Highlights

Los soft sensores pueden detectar cáncer mediante análisis de biomarcadores en fluidos corporales.

Las narices y lenguas electrónicas proveen una forma no invasiva para detectar cáncer.

Las técnicas de aprendizaje dan alta precisión para detectar cáncer, pero con baja sensibilidad.

Eficacia de narices y lenguas electrónicas integradas al aprendizaje automático y profundo.

La orina, saliva, aliento y sangre son sustancias con biomarcadores para la detección de cáncer

Highlights

Soft sensors can detect cancer by analyzing biomarkers in body fluids.

Electronic noses and tongues provide a non-invasive method for cancer detection.

Machine learning techniques offer high accuracy in cancer detection, but with low sensitivity.

Effectiveness of integrated electronic noses and tongues with machine learning and deep learning.

Urine, saliva, breath, and blood contain biomarkers for cancer detection.

1. INTRODUCCIÓN

Según la Organización Mundial de la Salud, el cáncer es una de las enfermedades con mayor prevalencia y mortalidad del mundo con 19.3 millones de nuevos casos y casi 10 millones de muertes en 2020. Se proyecta que estas cifras continuarán en aumento en los próximos años [1], [2]. La tasa de mortalidad por cáncer se encuentra estrechamente relacionada con la oportunidad en el diagnóstico; sin embargo, el alto costo y la naturaleza invasiva de los exámenes dificultan su realización oportuna, lo que conlleva a diagnósticos tardíos y, en consecuencia, a menores probabilidades de éxito en los tratamientos [3], [4]. Por esta razón, existe un interés creciente en el desarrollo de pruebas de detección de cáncer que sean de bajo costo, mínimamente invasivas y de fácil acceso.

Una alternativa prometedora en este contexto es el estudio de los Compuestos Orgánicos Volátiles (COV), los cuales actúan como biomarcadores que pueden ser detectados en fluidos como la orina, la saliva y el aliento exhalado, y han demostrado potencial para la detección de diferentes tipos de cáncer. No obstante, técnicas convencionales para el análisis de COV, tales como la cromatografía de gases y la espectrometría de masas, continúan siendo costosas y complejas [4], [5]. Ante ello, se ha propuesto el análisis mediante sistemas que combinan sensores de bajo costo y algoritmos de aprendizaje de máquina para inferir el valor de variables difíciles o costosas de medir, denominados soft sensores[6]. Estos sistemas son conocidos con diversas denominaciones según el contexto de aplicación. Por ejemplo, el término soft sensor se suele utilizar en la industria química y de procesos, mientras que en aplicaciones de vehículos y aires acondicionados la denominación más común es de sensores virtuales. En la industria de los semiconductores se habla de sistemas de metrología virtual y en contextos relacionados con alimentos y aplicaciones biomédicas se encuentran los términos de narices y lenguas electrónicas. Pese a estas diferencias en la denominación, todos estos sistemas tienen en común una estructura en la cual se utilizan variables fáciles de medir como entradas a un modelo de inferencia a fin de estimar aquellas que no se pueden medir directamente o su medición es muy costosa.

Las narices y lenguas electrónicas, objeto de análisis de este trabajo, están formadas por matrices de sensores de gases de muchos tipos y buscan analizar los compuestos presentes en una sustancia específica. Las narices electrónicas están orientadas a la detección de compuestos en fase gaseosa, por lo que resultan adecuadas para el análisis del aliento exhalado o del aire acumulado sobre muestras biológicas, donde se liberan COV [7]. Por su parte, las lenguas electrónicas están diseñadas para detectar sustancias presentes en fase líquida, tales como iones, metabolitos o aminoácidos disueltos en fluidos como orina, saliva o suero [8]. Ambos tipos de dispositivos han sido explorados como herramientas de apoyo en el diagnóstico de diversos tipos de cáncer, mostrando un potencial considerable [9], [10]. No obstante, muchos estudios reportan niveles de sensibilidad o especificidad que aún requieren ser mejorados para consolidar su uso clínico confiable [11], por lo que es un área abierta de investigación actualmente.

En este trabajo se realizó una revisión del estado del arte sobre el uso de técnicas de aprendizaje automático aplicadas a narices y lenguas electrónicas en la detección de cáncer. Se analizaron las principales ventajas y limitaciones de los métodos propuestos en la literatura, así como los desafíos y oportunidades que enfrenta actualmente esta área de conocimiento. El resto del documento se estructura de la siguiente manera: en la sección 2 se expone el desarrollo metodológico, en la sección 3 se presentan los resultados y discusiones de la revisión según las preguntas de investigación y, por último, en la sección 4 se reportan las conclusiones de este trabajo.

2. ASPECTOS METODOLÓGICOS

La metodología empleada consistió en un enfoque de investigación cualitativa mediante un método de revisión de la literatura que incluyó una búsqueda sistemática en bases de datos especializadas como ScienceDirect, IEEEXplore, Sage Journals y Scopus. Los datos cualitativos consistieron en examinar distintos enfoques sobre el uso de soft sensores tipo nariz y lengua electrónica para la detección de cáncer y el procesamiento de la información mediante máquinas de aprendizaje, considerando las recomendaciones consignadas en cada uno de los reportes. En este sentido, esta revisión consolidó las posturas halladas en cuanto a la estructura y optimización de arquitecturas de cómputo para lograr sistemas más confiables. La búsqueda se hizo utilizando palabras clave según se muestra en la Tabla 1, donde también se especifica la cantidad de publicaciones encontradas.

Tabla 1

Resultados de la búsqueda en bases de datos científicas


Términos	Science Direct	Scopus	IEEE Xplore	Sage Journals	Fecha de revisión
Electronic nose AND cancer	1184	309	12	36	16/07/2024
Electronic tongue AND cancer	409	16	0	8	22/07/2024
Machine learning AND cancer	39380	25583	1217	2572	24/07/2024
Machine learning AND electronic nose AND cancer	282	39	4	4	29/07/2024
Machine learning AND electronic tongue AND cancer	71	6	0	0	30/07/2024

Fuente: elaboración propia

La cantidad de resultados con la combinación “Machine learning AND cancer” fue muy elevada y la mayoría de ellos estaban basados en el uso de imágenes diagnósticas de varios tipos, por lo que esta ecuación se eliminó de la búsqueda. Para la elección de los demás artículos se definieron criterios de inclusión y de exclusión.

Criterios de inclusión

· Artículos de investigación o de revisión.

· Artículos cuyo tema fundamental fuera la detección de cáncer a partir de datos provenientes de narices o lenguas electrónicas, sin importar el tipo de cáncer.

· Artículos en los que se utilizan técnicas de aprendizaje de máquina para analizar datos de narices o lenguas electrónicas para la detección de cáncer.

· Artículos que reportaran resultados concretos de clasificación entre pacientes de cáncer y sujetos sanos a partir del uso de narices o lenguas electrónicas.

· Artículos relacionados con las preguntas de investigación.

Criterios de exclusión

· Artículos en los que se detecte cáncer a partir de aprendizaje de máquina con imágenes diagnósticas.

· Artículos de detección de cáncer a partir de biomarcadores analizados por espectrografía o cromatografía.

· Artículos para la detección de enfermedades diferentes al cáncer a partir de narices o lenguas electrónicas.

Con el fin de dar contexto y alcance a la selección de los artículos, se establecieron las siguientes preguntas de investigación:

· ¿Hasta qué punto las máquinas de aprendizaje han permitido la detección de cáncer a partir de datos tomados con narices y lenguas electrónicas?

· ¿Cuáles son las ventajas y las limitaciones del uso de las máquinas de aprendizaje con narices y lenguas electrónicas para la detección de cáncer?

· ¿Cuáles son los retos y oportunidades en la detección de cáncer mediante soft sensores y máquinas de aprendizaje?

La selección de los estudios se realizó en 4 etapas: eliminación de duplicados, lectura sólo del título y palabras clave, lectura del resumen y finalmente revisión del artículo completo. Posteriormente, se realizó un análisis de artículos adicionales basados en las citaciones de los artículos elegidos. En la Figura 1 se presenta el diagrama de flujo del proceso.

Figura 1.
Diagrama de flujo PRISMA en cuatro niveles
Fuente: elaboración propia.

Después de este primer proceso de selección, en el que quedaron incluidos 54 artículos, se siguió la metodología ilustrada en la Figura 2. Se procedió a analizar (identificar y registrar) las diferentes perspectivas que se reportaron sobre la detección de cáncer basada en soft sensores de tipo nariz y lengua electrónica, sin perder de vista aquellos elementos que ayudaran a dar respuesta a las preguntas de investigación, según los hallazgos en la literatura disponible. Las etapas de revisión y análisis permitieron discutir sobre ventajas y limitaciones de la integración de soft sensores y máquinas de aprendizaje para la detección de cáncer, además de los retos y oportunidades de la soft metrología en las máquinas de aprendizaje, donde también se discutió sobre los tipos de sustancia, las matrices de sensores, las técnicas de representación y las estrategias para la toma de decisiones.

Figura 2.
Etapas de la metrología
Fuente: elaboración propia.

Así, este proceso metodológico permitió garantizar la calidad y pertinencia de la información recopilada, asegurando que los documentos seleccionados contribuyeran de manera significativa a los temas de análisis y discusión en función de las preguntas de investigación.

3. RESULTADOS Y DISCUSIÓN

Si bien la literatura consultada muestra variedad en los esquemas de procesamiento de las señales de narices y lenguas electrónicas para la detección del cáncer a partir de COV, es posible determinar una estructura general común como la que se muestra en la Figura 3, donde se parte de una sustancia orgánica del cuerpo humano que se analiza mediante una matriz de sensores. Las señales generadas por dicha matriz son procesadas mediante técnicas de representación para extraer características discriminantes que luego se utilizan como entrada para alguna técnica de toma de decisiones, que tiene como objetivo brindar un soporte diagnóstico que consiste en la valoración de la presencia o ausencia de patrones característicos de cáncer. Las siguientes subsecciones serán abordadas siguiendo el esquema de los bloques de la Figura 3, como estructura de la revisión.

Figura 3.
Esquema general de procesamiento
Fuente: elaboración propia.

3.1 Tipos de sustancia analizadas

Los COV se encuentran en muchas sustancias del cuerpo humano, como la orina y la saliva, entre otras. La observación de algún cambio en los COV endógenos del cuerpo humano puede indicar la presencia de procesos patológicos, que pueden variar en función del tipo de anomalía [12]. En la Tabla 2 se presentan los tipos de cáncer para los cuales se han encontrado COV asociados con la sustancia analizada. En particular, la sustancia para la que se ha encontrado mayor potencial diagnóstico es el aliento exhalado, aunque también se encuentran trabajos para orina, saliva y suero o plasma.

Tabla 2

Sustancias en las que se han encontrado COV asociados a cáncer


Sustancia	Tipo de cáncer
Aliento exhalado	Cáncer colorrectal [4], [13], [14], [15]
	Cáncer de pulmón [16]-[29]
	Cáncer gástrico [30], [31]
	Cáncer de mama [16]
	Cáncer de ovario [32]
	Cáncer de vejiga [33]
Orina	Próstata [34]-[37]
	Cáncer colorrectal [38], [39] Cáncer de ovario [32]
	Vejiga [40], [41]
Saliva	Cáncer de cavidad bucal [10]
Suero o plasma	Cáncer colorrectal [42]
	Cáncer de ovario [32]
	Nasofaríngeo [43]

Fuente: elaboración propia.

Algunos estudios han probado análisis en diferentes sustancias de forma simultánea para mejorar el potencial diagnóstico. Para el caso de cáncer de ovario, se usó una combinación de aliento exhalado analizado con nariz electrónica, junto con plasma y orina analizadas con lengua electrónica. Según los autores, la combinación de sustancias tiene mayor potencial diagnóstico que el uso de una sola de ellas [32]. Para cáncer de próstata se presenta un estudio que analizó aliento exhalado mediante nariz electrónica y orina con nariz y lengua electrónica [44].

En cuanto a la relación entre la sustancia y el tipo de equipo, las narices electrónicas se han usado para el análisis de aliento exhalado [13], [17], [31], así como para los olores despedidos por la orina [35], [38]; mientras que las lenguas electrónicas se han usado en orina, saliva y suero o plasma [10], [45], [46]. En la Figura 4 se muestra tanto el tipo de sustancia como el tipo de cáncer para los que han sido usados cada uno de los dispositivos.

Figura 4.
Uso de nariz y lengua electrónica según sustancia analizada y tipo de cáncer
Fuente: elaboración propia.

3.2 Matriz de sensores

Las narices y lenguas electrónicas son dispositivos compuestos por matrices de sensores que pueden estar basados en diferentes principios [47]. Las narices electrónicas están diseñadas para detectar compuestos presentes en estado gaseoso [48], por lo que es común en su construcción el uso de semiconductores de óxidos metálicos (MOS, por sus siglas en inglés), que se basan en el cambio de la conductividad eléctrica del material cuando es expuesto a diferentes gases [13], [23], [49]. También pueden usarse sensores nanocompuestos de película delgada, en los cuales la capa sensible está formada por un material nanocompuesto que suele combinar una matriz (polímero, óxido metálico, o carbono) con nanopartículas, nanotubos, grafeno u otros nanomateriales para mejorar propiedades como la sensibilidad [50]. Otra opción es usar sensores electroquímicos, en los cuales se usan tres electrodos en un electrolito en los cuales ocurre una reacción química al entrar en contacto con el gas objetivo [17], [20]. No se descartan los sensores piezoeléctricos tipo micro balanza de cristal de cuarzo, que detectan cambios de masa en la superficie del sensor cuando esta absorbe una sustancia [27]; sensores de hilo caliente, donde el cambio de resistencia en un filamento calefactor, usualmente de platino o tungsteno, se relaciona con la presencia de gases [17]; y sensores basados en películas de fagos con color, que son sensores biológicos que utiliza fagos modificados genéticamente como elementos de detección para identificar compuestos químicos, especialmente, biomarcadores de enfermedades o contaminantes [18].

Por su parte, las lenguas electrónicas pueden construirse con sensores potenciométricos que utilizan electrodos selectivos de iones para generar una variación en un potencial eléctrico proporcional a la concentración de un analito [45]; o también con sensores voltamétricos que analizan soluciones líquidas mediante la medición de corrientes eléctricas generadas por reacciones redox (oxidación-reducción) [32]. Otra opción es el uso de sensores capacitivos, donde se detectan cambios en la capacidad de una matriz de capacitores debido a la interacción con un analito [10]; o sensores colorimétricos, compuestos de una estructura de papel filtro con receptores no específicos, como colorantes orgánicos, complejos inorgánicos y nanopartículas, que cambian de color ante la presencia de ciertas sustancias [46].

En la Tabla 3 se especifican los equipos usados en la literatura, discriminando si se trata de dispositivos comerciales o de elaboración propia de los investigadores, referenciando además el tipo de sustancia y de cáncer a estudiar y definiendo el tipo de sensores que lo componen.

Tabla 3

Tipos de equipos y sensores que se han usado en la literatura


Tipo de equipo	Sustancia	Tipo de cáncer	Referencia o descripción
Narices comerciales	Aliento	Colorrectal	Aeonose (3 sensores MOS) [13]
		Colorrectal	PEN3 (10 sensores MOS) [14]
		Pulmón	Aeonose [24] [51]
		Pulmón	Cyranose320 (32 sensores nanocompuestos de película delgada) [22][50]
		Mama	Aeonose [16]
		Gástrico	Aeonose [30]
	Orina	Colorrectal	PEN3 [38]
	Orina	Próstata	Cyranose320 [35][37]
Narices de desarrollo propio	Aliento	Pulmón	Dos sensores electroquímicos (ME3-C7H8 y CO–B4), un sensor de hilo caliente (MR516), un sensor por combustión catalítica (NAP-55A) y siete sensores de óxidos metálicos (WSP2110, TGS2600, TGS2602, TGS2620, TGS822, TGS826, TGS8669) [17]
			Dos sensores electroquímicos (CH20/M-10, 4-CH3SH-10), once sensores de óxidos metálicos (TGS822, TGS 2600, TGS 2602, TGS826, TGS8669, SP3-AQ2-01, MP901, MP801, MQ3B, MQ138, WSP2110) y un sensor de fotoionización (PID-AH) [20]
			Cinco sensores de óxidos metálicos (TGS 2600, TGS 2620, TGS 2610, TGS 822, TGS 826) [23]
			Sensor nanomecánico tipo MSS (Membrane-type Surface stress Sensor) de desarrollo propio [52]
			Nariz de fagos derivada de ADN. Matriz múltiple de películas de fagos con color, que exhiben diferentes respuestas ante materiales objetivo [18]
			Nariz electrónica desarrollada por SEXTANT. Catorce sensores de gas de óxidos metálicos de Figaro y Nissha FIS [49]
			Dos sensores electroquímicos (ME3-C7H8, CO–B4), un sensor de hilo caliente (MR516), un sensor de combustión catalítica (NAP-55A) y siete sensores de óxidos metálicos (WS2110, TGS2600, TGS2602, TGS2620, TGS822, TGS826, TGS8669) [17]
			Seis sensores químicos de gas interdigitados basados en nanohilos de WO3 puros o dopados con metales (Au/WO3, Pt/WO3, Au/Pt/WO3, Ni/WO3 y Fe/WO3) fabricados mediante deposición química de vapor asistida por aerosol [21]
			Fabricada en la Universidad de Zhejiang. Dieciséis sensores de óxido metálico (TGS800, TGS813, TGS813, TGS816, TGS821, TGS822, TGS822, TGS826, TGS830, TGS832, TGS800, TGS2620, TGS2600, TGS2602, TGS2610, TGS2611) [25]
			Cinco sensores de óxidos metálicos (TGS 826, TGS 822, TGS 2600, TGS 2610, TGS 2620) [53]
			Matriz de ocho sensores piezoeléctricos (micro balanzas de cristal de cuarzo) [27]
		Ovario	Desarrollada en la Universidad de Roma. Matriz de siete sensores piezoeléctricos (micro balanza de cristal de cuarzo) [32]
		Próstata	Siete sensores de óxido metálico (CCS811, BME-680, SPG30, MICS 4514, MICS 6814, GM-502B, CCS801) [44]
	Orina	Colorrectal	Ocho sensores electroquímicos amperométricos (Alphasense), dos sensores ópticos infrarrojos no dispersivos (NDIR) (Clairair) y un sensor por fotoionización (Mocon) [39]
		Próstata	Seis sensores de óxidos metálicos (específicamente TiO₂, ZnO y SnO₂, no se especifica referencia) [36]
		Próstata	Siete sensores de óxidos metálicos (CCS811, BME-680, SPG30, MICS 4514, MICS 6814, GM-502B, CCS801) [44]
Lengua electrónica comercial	Orina	Próstata	Potenciostato portátil multicanal modelo μStat 8000 de DropSens [44]
Lengua electrónica de desarrollo propio	Orina	Próstata	Incluye 28 sensores potenciométricos con diferentes tipos de membrana [45]
		Ovario	Sensores voltamétricos. Sistema de tres electrodos: referencia (Ag), contraelectrodo (Pt) y de trabajo (Au) [32]
		Vejiga	Sensores voltamétricos. Ocho electrodos de trabajo metálicos (Ir, Rh, Pt, Au, Ag, Co, Cu y Ni) encapsulados en dos cilindros de acero inoxidable. Se utilizó un electrodo de calomel saturado como electrodo de referencia [40]
		Vejiga	Incluye 28 sensores potenciométricos con diferentes tipos de membrana [41]
	Saliva	Cavidad bucal	Dispositivo microfluídico de respuesta única compuesto de una pieza única de PDMS con cuatro pares de microcables de acero inoxidable 304, modificados con películas de óxidos de SiO2, NiO2, Al2O3 y Fe2O3. Las unidades de detección fueron cortocircuitadas, estableciendo una matriz de capacitores conectados en paralelo [10]
	Sangre	No específico- presencia de antígeno CEA y otros (125, 15-3 y 19.9)	Consiste en una estructura de papel filtro con receptores no específicos, como colorantes orgánicos, complejos inorgánicos y nanopartículas (NP). Se usaron dos tipos de NP de oro (AuNP) bi-funcionalizadas con mezclas de ácido poliglutámico (PGA)-cisteamina (Cys), y arginina (Arg)-ácido tánico (TA) [46]
	Sangre	Ovario	Sensores voltamétricos. Sistema de tres electrodos: referencia (Ag), contraelectrodo (Pt) y de trabajo (Au) [32]

Fuente: elaboración propia.

A diferencia de las técnicas de análisis basadas en cromatografía o espectrometría, el uso de narices y lenguas electrónicas no necesariamente se concentra en identificar compuestos específicos al utilizar sensores de baja selectividad [48]. En su lugar, según el tipo de sensor utilizado, cada equipo puede ser sensible a una gama de compuestos. Por ejemplo, los sensores de óxidos metálicos, que son tan comunes en narices electrónicas, suelen estar diseñados para detectar la presencia de diferentes gases incluyendo COV como etanol, isopreno, acetona, tolueno o etano, entre otros; y gases inorgánicos como el monóxido de carbono, amoniaco, dióxido de nitrógeno y gas de hidrógeno, entre otros [48]. A su vez, los sensores potenciométricos, comunes en lenguas electrónicas, son sensibles a sustancias iónicas como el cloruro de sodio o el fosfato, entre otras; y polares como la creatinina o la urea [8].

Es importante observar que, sin importar el tipo específico de sensor usado, las señales generadas por lenguas y narices electrónicas suelen requerir un preprocesamiento que básicamente consiste en un filtrado de paso-bajo y normalización. La aplicación del filtro busca eliminar el ruido eléctrico de alta frecuencia que comúnmente perturba la señal [39], [54], mientras la normalización se utiliza para reducir la variabilidad no informativa entre sensores. Entre las estrategias de normalización más utilizadas se tienen la normalización min-max, que ajusta los valores a un rango específico; la estandarización z-score, que centra y escala los datos en función de su media y desviación estándar; el escalamiento robusto, que emplea medidas como la mediana y el rango intercuartílico, siendo útil en presencia de valores atípicos; y la normalización por cuantiles, que iguala la distribución estadística de los datos entre muestras, garantizando que tengan una forma de distribución común, lo cual resulta especialmente útil en contextos donde se requiere comparar perfiles de señal con variabilidad sistemática [55], [56].

3.3 Técnicas de representación

Las señales preprocesadas consisten en gráficas de voltaje o corriente contra el tiempo para cada uno de los sensores que componen la matriz. Estas pueden ser directamente usadas como entrada a las técnicas de toma de decisiones, pero en muchas ocasiones se procesan previamente para obtener características a partir de las cuales puedan encontrarse patrones discriminantes.

La caracterización de las curvas suele estar asociada con descriptores de la señal, que pueden ser temporales (tiempo en que aparece el valor máximo u otros valores específicos [53]), de amplitud o valor de estado estacionario (valor máximo [14], [20], [50], valor promedio [53] o diferencia entre el máximo y el mínimo [43]), parámetros estadísticos (media, varianza, mediana, desviación estándar y percentiles 25-75 [20], [25], [27], [38],[53]) o funciones específicas como área bajo la curva [21], [22], información de fase [25], promedio móvil exponencial de la derivada [25] o pendiente de la curva [20], [22].

Independientemente de si se usan las señales completas o características derivadas de ellas, es importante garantizar que las entradas a partir de las cuales se haga el análisis para el soporte diagnóstico realmente contengan información discriminante asociada a la presencia o ausencia de evidencia de cáncer. Por este motivo, muchos trabajos utilizan técnicas de representación orientadas a garantizar que la información que ingresa a las técnicas de toma de decisiones sea relevante y efectiva para la búsqueda de patrones discriminantes, por lo que se pueden incluir algoritmos de selección y/o extracción de características.

Los algoritmos de selección buscan eliminar características redundantes o irrelevantes que, de ser incluidas en el modelo de toma de decisiones, podrían reducir su precisión. En el tema de esta revisión, se han usado técnicas como:

· Coeficiente de Correlación de Pearson [41]: esta técnica evalúa la relación lineal entre dos variables mediante un valor entre -1 y 1. En el contexto de selección de características, se utiliza para identificar aquellas variables que están fuertemente correlacionadas con la variable de salida y débilmente correlacionadas entre sí. Esto permite reducir la redundancia entre variables y enfocar el modelo en aquellas que aportan información única.

· Algoritmo de Boruta (AB) [36]: es un método de selección de características de tipo wrapper, basado en modelos de bosques aleatorios (Random Forest). Funciona creando versiones aleatorias (permutadas) de cada variable original —llamadas shadow features— y comparando la importancia que el modelo asigna a cada variable real frente a estas versiones artificiales. Si una variable original tiene consistentemente mayor importancia que las sombras, se considera relevante.

· Sparse Group Lasso (SGL) [19]: es una técnica que combina los principios de Lasso (que elimina variables irrelevantes) y Group Lasso (que selecciona grupos de variables completos). SGL permite imponer simultáneamente una penalización sobre grupos de variables y sobre variables individuales dentro de esos grupos. Esto es útil cuando las variables pueden agruparse lógicamente (por ejemplo, salidas de sensores similares) y se desea conservar sólo los grupos y variables más relevantes. Su ventaja es que puede manejar estructuras complejas de datos, favoreciendo modelos más interpretables y con menor riesgo de sobreajuste.

Por su parte, la extracción de características se refiere a aplicar operadores de transformación sobre las características existentes a fin de crear un espacio de representación efectivo para la diferenciación entre pacientes sanos y con evidencia de cáncer. En la literatura consultada para esta revisión, se reporta con frecuencia las siguientes técnicas:

· Análisis de Componentes Principales (PCA, por sus siglas en inglés) [14], [16], [17], [23], [34], [35], [45]: constituye la técnica de extracción de características más usada en este campo para la mayoría de las sustancias y tipos de cáncer. Su objetivo es proyectar un conjunto de variables a un espacio de variables ortogonales no correlacionadas, denominadas componentes principales, las cuales se ordenan de acuerdo con la explicación de la varianza. Esta transformación permite reducir la dimensionalidad del conjunto de datos de entrada preservando la mayor proporción de información relevante, en pro de la visualización y la eficiencia computacional de los modelos predictivos.

· Kernel PCA (KPCA) [17]: es una extensión no lineal de PCA. Esta técnica emplea funciones núcleo (kernel) para mapear los datos originales en un espacio de características de mayor dimensionalidad, en el cual las relaciones no lineales entre las variables se vuelven linealmente separables. En dicho espacio transformado se aplica el algoritmo PCA convencional.

· Transformada Wavelet Discreta (DWT, por sus siglas en inglés) [25]: es una herramienta eficaz para la descomposición de señales en distintos niveles de resolución temporal y frecuencial. A diferencia de la transformada de Fourier, que proporciona únicamente información en el dominio de la frecuencia, la DWT ofrece una representación conjunta tiempo-frecuencia, permitiendo identificar la localización temporal de eventos relevantes dentro de la señal. Esta característica resulta especialmente valiosa para analizar respuestas dinámicas no estacionarias.

· Análisis Discriminante por Mínimos Cuadrados Parciales (PLSDA, por sus siglas en inglés) [40]: es una técnica supervisada que combina el modelo de regresión PLS con un enfoque discriminante. Su finalidad es identificar un espacio latente que maximice la separabilidad entre clases previamente definidas. A diferencia de métodos no supervisados como PCA, PLSDA incorpora la información de clase durante el proceso de modelado, lo que lo convierte en una herramienta eficaz para problemas de clasificación en contextos donde existe una estructura de etiquetas conocida.

En la Tabla 4 se presentan las técnicas de representación de uso frecuente en la literatura junto con los resultados obtenidos. Se observa que los resultados de precisión dependen de la combinación entre la técnica de representación y la técnica de toma de decisión aplicada. Asimismo, algunos autores no utilizan técnicas de representación, si no que pasan directamente al uso de estrategias para la toma de decisiones

Tabla 4

Técnicas de representación y resultados según tipo de sensor, sustancia y tipo de cáncer en la literatura


Tipo de sensor	Sustancia	Tipo de cáncer	Técnica	Resultados
				Precisión	Sensibilidad	Especificidad	Ref.
				(%)	(%)	(%)	Ref.
Nariz	Aliento exhalado	Colorrectal	PCA		93.33	10	[14]
		Pulmón	PCA	79.31	0.7	84.21	[23]
			PCA	88.06	87.31	89	[17]
			KPCA	93.59	95.6	91.09	[17]
			DWT	87.5			[25]
			SGL	94.25			[19]
			PLSDA	91	75	96	[27]
		Mama	PCA	100			[16]
		Próstata	PCA	100			[44]
		Ovario	PLSDA	88.3	86	88	[32]
	Orina	Próstata	PCA	82
				85.6	82.7	88.5	[35]
				69.7	76.8	62.3	[37]
				100			[44]
			AB	82.1	85.2	79.1
			PLSDA		91	73	[8]
Lengua	Orina	Próstata	PCA	97	100	93	[45]
		Próstata	PCA	91.2			[44]
		Ovario	PLSDA	88.3	86	88	[32]
		Vejiga	PLSDA		84.4	88.2	[40]
		Vejiga	Pearson	72	71	58	[41]
	Saliva	Cavidad bucal	PCA	86.7			[10]
	Sangre	Ovario	PLSDA	88.3	86	88	[32]

Fuente: elaboración propia.

3.4 Estrategias para la toma de decisiones

El espacio de características obtenido con las técnicas de la subsección anterior constituye la entrada para técnicas de toma de decisiones en las cuales se buscan patrones discriminantes que permitan llevar a un soporte diagnóstico en el que se brinda un concepto sobre si existe o no evidencia de cáncer. En este sentido, se han usado diversidad de técnicas de naturaleza lineal como Regresión Logística (LR, por sus siglas en inglés) [22], [41], [45], que modela la probabilidad de pertenencia a una clase en función lineal de las variables predictoras; el Análisis Discriminante Lineal (LDA, por sus siglas en inglés) [10], que proyecta los datos en una dirección que maximiza la separación entre clases asumiendo varianzas iguales; o Análisis Discriminante Canónico (CDA, por sus siglas en inglés) [21], que generaliza LDA para múltiples variables dependientes y busca combinaciones lineales que maximicen la separación entre grupos. No obstante, estudios comparativos han reportado un mejor desempeño de métodos no lineales cuando los problemas de clasificación son complejos [10], [41].

Otros autores han optado por algoritmos de aprendizaje de máquina no lineales, como Bosques Aleatorios (RF, por sus siglas en inglés) [20], [23], [36], [38], que construyen múltiples árboles de decisión a partir de subconjuntos aleatorios de datos y características, mejorando la generalización mediante votación agregada; k-vecinos más cercanos (KNN, por sus siglas en inglés) [10], [25], que se basa en la distancia entre las muestras y asigna la clase más común entre los k ejemplos más próximos; y las Máquinas de Soporte Vectorial (SVM, por sus siglas en inglés) [10], [41], que encuentran un hiperplano óptimo de separación entre clases, incluso en espacios no lineales mediante el uso de funciones kernel. También, se han utilizado métodos de conjunto que combinan múltiples modelos débiles (generalmente árboles de decisión) para crear un modelo robusto y de alto rendimiento, como el caso de Extreme Gradient Boosting (XGBoost) [17], [20], [23].

También hay autores que han propuesto el uso de Aprendizaje Profundo (o Deep Learning) en busca de modelos altamente versátiles que integren tanto la extracción de características como la clasificación en un solo esquema de cómputo. En este contexto se han utilizado las Redes Neuronales Artificiales (ANN, por sus siglas en inglés) [13], [30], [31], [38], que son modelos computacionales compuestos por capas de nodos interconectados capaces de modelar relaciones complejas no lineales. También se han empleado Redes Neuronales Probabilísticas (PNN, por sus siglas en inglés) [14], que utilizan funciones de densidad de probabilidad para realizar clasificación basada en estimaciones bayesianas. Por último, las Redes Neuronales Convolucionales (CNN, por sus siglas en inglés) [18], ampliamente utilizadas en procesamiento de imágenes, han sido adaptadas para extraer patrones espaciales y temporales relevantes en señales sensoriales mediante operaciones de convolución y agrupamiento jerárquico. En la Tabla 5 se presentan los resultados de los diferentes sistemas según la técnica usada, clasificados según el tipo de cáncer, la sustancia analizada y el tipo de soft sensor.

Tabla 5

Técnicas de toma de decisiones y resultados según tipo de sensor, sustancia y tipo de cáncer en la literatura


Tipo de sensor	Sustancia	Tipo de cáncer	Técnica	Resultados
Tipo de sensor	Sustancia	Tipo de cáncer	Técnica	Precisión (%)	Sensibilidad (%)	Especificidad (%)	Ref.
Nariz	Aliento exhalado	Colorrectal	ANN	81	88	75	[13]
		Colorrectal	PNN	37.78	93.3	10	[14]
		Pulmón	XGBoost	93.59	95.6	91.09
				73.1	68.3	81.6	[20]
				79.31	70	84.21	[23]
			RF	71.1	68.3	76.6
				72.41	60	78.95	[23]
				80.9	83	80.7	[52]
				79	85	73	[50]
			ANN	83	83	84	[24]
			ANN	89	77	100	[50]
			CNN	75.15	-	-
			CNN	86	90	83	[49]
			LR	95.8	95.8	92.3	[22]
			LR	-	94.7	49.2	[51]
			SVM	89.78	93.24	85.18	[17]
			SVM	95	90	100	[50]
			CDA	98.6	-	-
			KNN	87.5	-	-	[25]
			LDA	93.14	88.63	95.62
			PLSDA	91	75	96	[27]
		Mama	LDA	100	-	-	[16]
		Ovario	PLSDA	88.3	86	88	[32]
		Próstata	SVM	100	-	-	[44]
			KNN	73.5	-	-	[44]
			RF	93.8	-	-	[44]
		Gástrico	ANN	77.6	66.7	82.9
		Gástrico	ANN	75	81	71	[30]
	Orina	Colorrectal	RF	80	82	55	[38]
			ANN	81	91	55
			KNN	-	78	79
		Próstata	CDA	85.6	82.7	88.5	[35]
			LDA	69.7	76.8	62.3	[37]
			SVM	100	-	-	[44]
			KNN	75.2	-	-	[44]
			RF	82.1	85.2	79.1	[36]
			RF	97.3			[44]
Lengua	Orina	Próstata	LR	97	100	93	[45]
			SVM	92	-	-	[44]
			RF	91.2	-	-	[44]
			KNN	92	-	-	[44]
		Ovario	PLSDA	88.3	86	88	[32]
		Vejiga	PLSDA	-	84.4	88.2	[40]
			LR	70	66	64	[41]
			RF	66	63	53	[41]
			SVM	71	67	63	[41]
			XGBC	67	63	59	[41]
			VC	72	71	58
	Saliva	Cavidad bucal	LR	70	-	-	[10]
			LDA	71.7	-	-	[10]
			KNN	78.3	-	-	[10]
			SVM	86.7	-	-	[10]
			RF	80	-	-	[10]
	Sangre	No específico- presencia de antígeno CEA y otros (125, 15-3 y 19.9)	HCA, PLS	100	-	-	[46]
	Sangre	Ovario	PLSDA	88.3	86	88	[32]

Fuente: elaboración propia.

Un punto importante para señalar es que las técnicas de toma de decisiones involucran una serie de parámetros que deben ser ajustados para alcanzar mejores resultados. La optimización en el ajuste de parámetros para las técnicas de aprendizaje profundo y aprendizaje de máquina es esencial para maximizar el rendimiento de los modelos, permitiendo una mejor generalización y precisión en las predicciones. En estos sistemas existen dos tipos de parámetros: los parámetros de entrenamiento, que son aprendidos por el modelo (como los pesos de una red neuronal), y los hiperparámetros, que deben configurarse antes del entrenamiento (como la tasa de aprendizaje, el número de capas y neuronas en redes neuronales, o el tamaño del batch) [57]. Adicionalmente, los aspectos previos a la aplicación de estas técnicas, tales como el procesamiento de los datos y la construcción y selección de características, influyen en la precisión de los resultados [58].

El proceso de ajuste de todos estos aspectos afecta directamente la capacidad del modelo para minimizar la función de pérdida sin caer en el sobreajuste (overfitting) o el subajuste (underfitting). También se debe considerar que entre mayor sea la cantidad de parámetros e hiperparámetros, la optimización es más crítica, pues hay mayor propensión a problemas como el desvanecimiento o explosión del gradiente [59].

En síntesis, el ajuste de parámetros en los sistemas de detección de cáncer es crítico, ya que influye directamente en la sensibilidad, especificidad y, por ende, en la confiabilidad del sistema como herramienta de apoyo al diagnóstico, condicionando su aceptación clínica. No obstante, existen escasas referencias sobre metodologías sistemáticas de optimización de parámetros en este contexto. Un ejemplo destacado es el estudio donde los autores optimizaron un clasificador SVM con kernel radial gaussiano, utilizando validación cruzada de 10 iteraciones y selección de características mediante el método SGL. Esta estrategia permitió identificar un conjunto reducido de variables relevantes provenientes de 13 sensores, logrando una precisión del 94.25 %, sensibilidad del 97.83 % y especificidad del 90.24 % en la detección de cáncer de pulmón. En contraste, otros trabajos omiten los detalles en el proceso de optimización de parámetros.

3.5 Ventajas y limitaciones de la integración de soft sensores y máquinas de aprendizaje

El uso de soft sensores integrados con máquinas de aprendizaje, tal y como se muestra en las Tablas 4 y 5, evidencia ventajas relacionadas con la capacidad para almacenar y analizar grandes cantidades de datos, con altos márgenes de detección de cáncer, incluso cuando existen problemas y limitaciones en los datos [10]. Otra ventaja es que los soft sensores proporcionan una solución eficaz en variables que son difíciles de medir, haciendo uso de variables de fácil acceso mediante una representación multivariada conocida como espacio de representación [60].

En contraste, existen limitaciones relacionadas con la divergencia en los resultados debidos a la falta de optimización en el ajuste de los parámetros para cada algoritmo [61], un tamaño de muestra relativamente pequeño en comparación con el grupo de control sano [13], y la falta de selectividad y variabilidad de las muestras biológicas [10]. Por ejemplo, en la recolección de muestras de aliento exhalado mediante nariz electrónica, se evidencia con frecuencia la falta de cooperación por parte del paciente o la habilidad con la técnica por parte del encargado de tomar la muestra, siendo más factible el análisis de orina, al ser más sencilla de obtener y almacenar [35].

Adicional a la optimización de hiperparámetros, encontrar la combinación adecuada de técnicas en el esquema que se presentó en la Figura 2 puede resultar difícil, pues la técnica más apropiada para generar el espacio de características puede variar en función del algoritmo de toma de decisiones usado. Así, por ejemplo, en [17] se probaron varias combinaciones de técnicas para la detección de cáncer de pulmón con aliento exhalado, pues al usar PCA se tuvieron mejores resultados con SVM, mientras que al usar KPCA la mayor precisión se halló con XGBoost. En [23] también se usó PCA en la misma aplicación, pero en este caso se compararon RF con XGBoost, siendo este último el de mejor desempeño. Otro estudio comparativo se presenta en [10], en este caso para cáncer de cavidad bucal en muestras de saliva, también se usó PCA, y se compararon LR, LDA, KNN, RF y SVM, siendo el último el que alcanzó mayor precisión.

La elección de la sustancia a analizar también es de suprema importancia. Cuando se compara entre diferentes estudios, en el caso de cáncer colorrectal, los mejores resultados se han obtenido con aliento exhalado utilizando ANN; para cáncer de pulmón, se obtienen buenos resultados con aliento exhalado y CDA; y para cáncer de próstata se destaca la precisión usando orina y LR. Sin embargo, dichas comparaciones se vuelven menos relevantes cuando se considera que cada estudio cuenta con una muestra de pacientes diferente tanto en tamaño como en características, por lo que la comparación directa de resultados se dificulta.

3.6 Retos y oportunidades de la soft metrología en máquinas de aprendizaje

El uso de las máquinas de aprendizaje sobre datos de narices y lenguas electrónicas para la detección de cáncer es un área en desarrollo que ha mostrado resultados promisorios pero que debe enfrentar retos importantes para llegar a constituirse en un sistema de soporte diagnóstico clínico confiable y aceptado por médicos y pacientes.

Un primer reto para enfrentar es la creación de bases de datos robustas que permitan un entrenamiento efectivo de las máquinas de aprendizaje. Esto implica reclutar tanto pacientes con la enfermedad confirmada como personas sanas con la edad de los pacientes con cáncer para la toma de muestras, considerando los requerimientos en términos de ética para el tratamiento de datos de los pacientes. Asimismo, existe un reto en relación con las dificultades de la comparación entre estudios, pues al no existir bases de datos públicas robustas y al presentarse diferencias importantes en los tamaños y características de las muestras usadas en cada estudio, es muy difícil establecer de manera precisa cuales métodos de la literatura son realmente más eficientes que otros.

Si bien es cierto que el estudio de los COV ha dado resultados prometedores, también se resalta que el análisis de sustancias como el aliento exhalado, aún es un campo de investigación muy joven, pues los mecanismos bioquímicos relacionados con el cáncer son en gran medida desconocidos. Así, hay retos en cuanto a la determinación de las sustancias más adecuadas para el análisis en relación con el tipo de cáncer. Se debe profundizar mucho más en la determinación simultánea de biomarcadores ideales de diferentes niveles moleculares para aumentar la precisión diagnóstica.

Otro reto se relaciona con la precisión de los métodos usados tanto para la caracterización como para la toma de decisiones, pues algunos estudios presentan datos de sensibilidad o especificidad bajos. Esto varía mucho según el tipo de cáncer analizado, pues para algunos se tienen resultados de mayor precisión que para otros. Aquí, es importante anotar que un punto neurálgico para mejorar el desempeño es la inclusión de metodologías para optimizar la elección de hiperparámetros y la combinación entre técnicas de representación y de toma de decisiones.

Por último, este tipo de sistemas debe enfrentar desafíos relacionados con la aceptación de estos sistemas por parte de personal médico y pacientes. Pues todavía existen oportunidades de investigación importantes en cuanto al aseguramiento de validez de las mediciones y el reconocimiento de anormalidades en la práctica clínica, cuando se vincula el esfuerzo computacional en la representación o toma de decisiones.

4. CONCLUSIONES

En este artículo se desarrolló una revisión del estado del arte con enfoque en el uso de soft sensores de tipo nariz y lengua electrónica, donde la etapa de adquisición de datos se integra al análisis de biomarcadores asociados con la detección de cáncer, mediante análisis estadístico multivariado y bajo diversas rutinas de máquinas de aprendizaje. Se debe considerar que esta revisión se ha concentrado en la identificación de las estructuras usadas en la literatura en cuanto al tipo de sensor y las técnicas de representación y de toma de decisiones, pero no se ha profundizado en cuanto a la composición química de los compuestos estudiados y a la relación entre los tipos de sensores con sustancias objetivo-específicas.

De acuerdo con la literatura de detección de cáncer, se concluye que la integración de la soft metrología con los soft sensores y las máquinas de aprendizaje permite el aseguramiento en la medición de biomarcadores desde sustancias que se encuentran presentes en el cuerpo humano, tales como, la orina, el aliento exhalado, la saliva y la sangre. Con las mediciones logradas se construyen espacios de representación multivariada, donde es posible trazar hiperespacios de regresión para la inferencia de valores nuevos o fronteras de decisión en función de la clasificación de estados funcionales de normalidad o patología asociados con el cáncer.

A partir de la literatura consultada se puede destacar que existe una tendencia creciente hacia técnicas de aprendizaje automático pues, aunque algunos trabajos utilizan modelos simples como el LDA, se evidenció una fuerte adopción de algoritmos de machine learning y deep learning como herramientas principales para el reconocimiento de patrones a partir de las señales multivariadas generadas por los sensores. Con respecto al desempeño, aunque muchos estudios reportan precisiones globales superiores al 90 %, los valores de sensibilidad y especificidad tienden a ser menores al 85 %, lo que sugiere limitaciones en la robustez de los modelos, especialmente frente a variaciones interindividuales y en etapas tempranas de la enfermedad. Esto puede relacionarse con el hecho de que pocos trabajos refieren un proceso de optimización de hiperparámetros o de la combinación de técnicas entre las diferentes etapas del proceso (elección de la sustancia, técnicas de representación y rutinas para la toma de decisiones). Se observa un papel crítico de las técnicas de preprocesamiento y reducción de dimensionalidad (como PCA, KPCA, DWT, PLS-DA), que influyen directamente en el desempeño de los clasificadores posteriores, pero también dependen de la naturaleza de los datos de entrada. En este sentido, los estudios de corte comparativo que permitan contrastar el potencial diagnóstico de diversas sustancias y bajo diferentes esquemas de procesamiento serían una opción importante para encontrar estructuras robustas.

Otro punto importante es la versatilidad de las narices y lenguas electrónicas para la detección del cáncer, puesto que han sido aplicadas con éxito en diferentes tipos, mostrando adaptabilidad a diversas sustancias volátiles y no volátiles asociadas con estados fisiopatológicos. Como punto adicional, una ventaja importante del uso de lenguas y narices electrónicas en conjunto con máquinas de aprendizaje para la detección de cáncer consiste principalmente en su naturaleza mínimamente invasiva, la capacidad de cómputo para almacenar y analizar grandes cantidades de datos, el costo asequible y la tasa de precisión que se consigue.

A pesar de los resultados prometedores, también existen limitaciones importantes para el uso de soft sensores en la detección de cáncer, como la necesidad de tener una gran cantidad de datos para un análisis eficiente. Esto implica, no sólo encontrar voluntarios que hayan sido diagnosticados previamente con el cáncer a estudiar, sino también reclutar personas sanas que coincidan con la edad o con algunas características de los pacientes con cáncer para que los resultados tengan algún nivel de comparación para la aceptación o el rechazo de las hipótesis de cómputo. Adicionalmente, la base de datos debe construirse de acuerdo con un protocolo que garantice la calidad y completitud de la información, incluyendo no sólo las muestras físicas, si no las características del paciente. Todo esto debe hacerse en el contexto de unos métodos aprobados por los comités de ética. Asimismo, se debe considerar una definición previa de criterios de inclusión y exclusión de los pacientes y las muestras adquiridas. Por último, es importante decir que, a pesar del potencial demostrado, la mayoría de los trabajos revisados no incluyen validaciones clínicas formales ni criterios rigurosos de inclusión/exclusión de muestras, lo que limita concluir sobre la aplicabilidad en entornos reales. Esto sugiere que faltan mejores estrategias de apropiación del conocimiento que sensibilicen el segmento correspondiente a personal médico especializado sobre la confiabilidad de estrategias derivadas de la integración de los soft sensores y la inteligencia artificial para el procesamiento de los datos en función del soporte de diagnóstico clínico.

Agradecimientos

Los autores agradecen al programa de jóvenes investigadores e innovadores del Instituto Tecnológico Metropolitano ITM de Medellín y al Laboratorio AMYSOD de Parque i. Asimismo, a MinCiencias por la financiación del proyecto con código 1121-890-82391 mediante contrato RC0803-2022.

REFERENCIAS

[1] Organización Mundial de la Salud (OMS), “Cáncer,” who.int. Accessed: May. 08. 2023. [Online]. Available: https://www.who.int/es/news-room/fact-sheets/detail/cancer

[2] H. Sung et al., “Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries,” CA Cancer J. Clin., vol. 71, no. 3, pp. 209–249, May. 2021. https://doi.org/10.3322/caac.21660

[3] N. Rodríguez Hernández, T. Romero Pérez, M. L. López Prieto, C. A. Cobas Santos, and Y. Martínez Carmona, “Nivel de conocimiento sobre exámenes diagnósticos para la detección precoz del cáncer colorrectal,” Rev. Cien. Méd. Pinar del Río, vol 23, no. 2, pp. 286–294, Mar. 2019. http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1561-31942019000200286

[4] H. Amal et al., “Breath testing as potential colorectal cancer screening tool,” Int. J. Cancer, vol. 138, no. 1, pp. 229–236, Jan. 2016. https://doi.org/10.1002/ijc.29701

[5] S. Chandrapalan, and R. P. Arasaradnam, “Urine as a biological modality for colorectal cancer detection,” Expert Rev. Mol. Diagn., vol. 20, no. 5, pp. 489–496, Mar. 2020. https://doi.org/10.1080/14737159.2020.1738928

[6] M. Vallejo, N. Bahamón, L. Rossi, and E. Delgado-Trejos, “Handbook of Metrology and Applications,” in Soft Metrology: Concept and Challenges from Uncertainty Estimation, D. K. Aswal, S. Yadav, T. Takatsuji, P. Rachakonda, and H. Kumar, Eds., Singapore: Springer, 2023, pp. 1–31. https://doi.org/10.1007/978-981-19-1550-5_67-1

[7] Y. Li, X. Wei, Y. Zhou, J. Wang, and R. You, “Research progress of electronic nose technology in exhaled breath disease analysis,” Microsyst. Nanoeng., vol. 9, no. 1, p. 129, Oct. 2023. https://doi.org/10.1038/s41378-023-00594-0

[8] L. Pascual et al., “Detection of prostate cancer using a voltammetric electronic tongue,” Analyst, vol. 141, no. 15, pp. 4562–4567, Aug. 2016. https://doi.org/10.1039/c6an01044j

[9] M. Alamin Talukder, M. Manowarul Islam, M. Ashraf Uddin, A. Akhter, K. Fida Hasan, and M. Ali Moni, “Machine learning-based lung and colon cancer detection using deep feature extraction and ensemble learning,” Expert Syst. Appl., vol. 205, p. 117695, Nov. 2022. https://doi.org/10.1016/j.eswa.2022.117695

[10] D. C. Braz et al., “Using machine learning and an electronic tongue for discriminating saliva samples from oral cavity cancer patients and healthy individuals,” Talanta, vol. 243, p. 123327, Jun. 2022. https://doi.org/10.1016/j.talanta.2022.123327

[11] J. Fitzgerald, and H. Fenniri, “Cutting edge methods for non-invasive disease diagnosis using e-tongue and e-nose devices,” Biosensors, vol. 7, no. 4, p. 59, Dec. 2017. https://doi.org/10.3390/bios7040059

[12] Z. Zhang et al., “Electronic nose based on metal oxide semiconductor sensors for medical diagnosis,” Progress Nat. Sci.: Mater. Int., vol. 34, no. 1, pp. 74–88, Feb. 2024. https://doi.org/10.1016/j.pnsc.2024.01.018

[13] E. G. M. Steenhuis et al., “Feasibility of volatile organic compound in breath analysis in the follow-up of colorectal cancer: A pilot study,” Eur. J. Surg. Oncol., vol. 46, no. 11, pp. 2068–2073, Nov. 2020. https://doi.org/10.1016/j.ejso.2020.07.028

[14] D. F. Altomare et al., “The use of the PEN3 e-nose in the screening of colorectal cancer and polyps,” Tech. Coloproctol., vol. 20, no. 6, pp. 405–409, Jun. 2016. https://doi.org/10.1007/s10151-016-1457-z

[15] K. E. Van Keulen, M. E. Jansen, R. W. M. Schrauwen, J. J. Kolkman, and P. D. Siersema, “Volatile organic compounds in breath can serve as a non-invasive diagnostic biomarker for the detection of advanced adenomas and colorectal cancer,” Aliment. Pharmacol. Ther., vol. 51, no. 3, pp. 334–346, Feb. 2020 https://doi.org/10.1111/apt.15622

[16] R. Thriumani et al., “Cancer detection using an electronic nose: A preliminary study on detection and discrimination of cancerous cells,” in IECBES 2014, Conf. Proc. - 2014 IEEE Conf. Biomed. Engin. Sci., Kuala Lumpur, Malay, 2014, pp. 752–756. https://doi.org/10.1109/IECBES.2014.7047609

[17] K. Chen et al., “Recognizing lung cancer and stages using a self-developed electronic nose system,” Comput. Biol. Med., vol. 131, p. 104294, Apr. 2021. https://doi.org/10.1016/j.compbiomed.2021.104294

[18] J.-M. Lee et al., “A DNA-derived phage nose using machine learning and artificial neural processing for diagnosing lung cancer,” Biosens. Bioelectron., vol. 194, p. 113567, Dec. 2021. https://doi.org/10.1016/j.bios.2021.113567

[19] B. Liu et al., “Lung cancer detection via breath by electronic nose enhanced with a sparse group feature selection approach,” Sens. Actuators B Chem., vol. 339, p. 129896. Jul. 2021. https://doi.org/10.1016/j.snb.2021.129896

[20] J. Qian, F. Tian, Y. Luo, M. Lu, and A. Zhang, “A Novel Multisensor Detection System Design for Low Concentrations of Volatile Organic Compounds,” IEEE Transact. Ind. Electr., vol. 69, no. 5, pp. 5314–5324, May. 2022. https://doi.org/10.1109/TIE.2021.3080218

[21] T. Saidi et al., “Non-invasive prediction of lung cancer histological types through exhaled breath analysis by UV-irradiated electronic nose and GC/QTOF/MS,” Sens. Actuators B: Chem., vol. 311, p. 127932, May. 2020. https://doi.org/10.1016/j.snb.2020.127932

[22] M. Tirzïte, M. Bukovskis, G. Strazda, N. Jurka, and I. Taivans, “Detection of lung cancer with electronic nose and logistic regression analysis,” J. Breath Res., vol. 13, no. 1, Nov. 2019. https://doi.org/10.1088/1752-7163/aae1b8

[23] V. A. Binson, M. Subramoniam, and L. Mathew, “Detection of COPD and Lung Cancer with electronic nose using ensemble learning methods,” Clin. Chimica Acta, vol. 523, pp. 231–238, Dec. 2021. https://doi.org/10.1016/j.cca.2021.10.005

[24] R. Van de Goor, M. Van Hooren, A. M. Dingemans, B. Kremer, and K. Kross, “Training and Validating a Portable Electronic Nose for Lung Cancer Screening,” J. Thorac. Oncol., vol. 13, no. 5, pp. 676–681, May. 2018. https://doi.org/10.1016/j.jtho.2018.01.024

[25] X. Zhan, Z. Wang, M. Yang, Z. Luo, Y. Wang, and G. Li, “An electronic nose-based assistive diagnostic prototype for lung cancer detection with conformal prediction,” Measur., vol. 158, p. 107588, Jul. 2020. https://doi.org/10.1016/j.measurement.2020.107588

[26] G. Rocco et al., “A Real-World Assessment of Stage I Lung Cancer Through Electronic Nose Technology,” J. Thorac. Oncol., vol. 19, no. 9, pp. 1272–1283, Sep. 2024. https://doi.org/10.1016/j.jtho.2024.05.006

[27] A. Zompanti et al., “Sensor technology advancement enhancing exhaled breath portability: Device set up and pilot test in the longitudinal study of lung cancer,” Sens. Actuators B: Chem., vol. 423, p. 136735, Jan. 2025. https://doi.org/10.1016/j.snb.2024.136735

[28] H. Xiong et al., “Recent advances in biosensors detecting biomarkers from exhaled breath and saliva for respiratory disease diagnosis,” Biosens. Bioelectron., vol. 267, p. 116820, Jan. 2025. https://doi.org/10.1016/j.bios.2024.116820

[29] V. Chaudhary et al., “Nose-on-Chip Nanobiosensors for Early Detection of Lung Cancer Breath Biomarkers,” ACS Sens., vol. 9, no. 9, pp. 4469–4494, Sep. 2024. https://doi.org/10.1021/acssensors.4c01524

[30] V. N. E. Schuermans et al., “Pilot Study: Detection of Gastric Cancer from Exhaled Air Analyzed with an Electronic Nose in Chinese Patients,” Surg. Innov., vol. 25, no. 5, pp. 429–434, Jun. 2018. https://doi.org/10.1177/1553350618781267

[31] I. Polaka, E. Gašenko, O. Barash, H. Haick, and M. Leja, “Constructing Interpretable Classifiers to Diagnose Gastric Cancer Based on Breath Tests,” Procedia Comp. Sci., vol. 104, pp. 279–285, 2017. https://doi.org/10.1016/j.procs.2017.01.136

[32] R. Angioli et al., “Use of Sensor Array Analysis to Detect Ovarian Cancer through Breath, Urine, and Blood: A Case-Control Study,” Diagnostics, vol. 14, no. 5, p. 561, Mar. 2024. https://doi.org/10.3390/diagnostics14050561

[33] P. Bassi et al., “Improved non-invasive diagnosis of bladder cancer with an electronic nose: A large pilot study,” J. Clin. Med., vol. 10, no. 21, p. 4984, Nov. 2021. https://doi.org/10.3390/jcm10214984

[34] C. Bax, L. Capelli, F. Grizzi, S. Prudenza, and G. Taverna, “A novel approach for the non-invasive diagnosis of prostate cancer based on urine odour analysis,” in 2022 IEEE Int. Symp. Olfact. Electr. Nose (ISOEN), Aveiro, Portugal, 2022, pp. 1–4. https://doi.org/10.1109/isoen54820.2022.9789651

[35] A. Filianoti et al., “Volatilome Analysis in Prostate Cancer by Electronic Nose: A Pilot Monocentric Study,” Cancers (Basel), vol. 14, no. 12, p. 2927, Jun. 2022. https://doi.org/10.3390/cancers14122927

[36] G. Taverna et al., “Accuracy of a new electronic nose for prostate cancer diagnosis in urine samples,” Int. J. Urol., vol. 29, no. 8, pp. 890-893, Aug. 2022. https://doi.org/10.1111/iju.14912

[37] H. Heers et al., “VOC‐based detection of prostate cancer using an electronic nose and ion mobility spectrometry: A novel urine‐based approach,” Prostate, vol. 84, no. 8, pp. 756–762, Jun. 2024. https://doi.org/10.1002/pros.24692

[38] H. Tyagi, E. Daulton, A. S. Bannaga, R. P. Arasaradnam, and J. A. Covington, “Non-Invasive Detection and Staging of Colorectal Cancer Using a Portable Electronic Nose,” Sensors, vol. 21, no. 16, p. 5440, Aug. 2021. https://doi.org/10.3390/s21165440

[39] E. Westenbrink et al., “Development and application of a new electronic nose instrument for the detection of colorectal cancer,” Biosens. Bioelectron., vol. 67, pp. 733–738, May. 2015. https://doi.org/10.1016/j.bios.2014.10.044

[40] J. Monreal-Trigo et al., “New bladder cancer non-invasive surveillance method based on voltammetric electronic tongue measurement of urine,” iScience, vol. 25, no. 9, p. 104829, Sep. 2022. https://doi.org/10.1016/j.isci.2022.104829

[41] R. Belugina, E. Karpushchenko, A. Sleptsov, V. Protoshchak, A. Legin, and D. Kirsanov, “Developing non-invasive bladder cancer screening methodology through potentiometric multisensor urine analysis,” Talanta, vol. 234, p. 122696, Nov. 2021. https://doi.org/10.1016/j.talanta.2021.122696

[42] D. Lin et al., “Colorectal cancer detection by gold nanoparticle based surface-enhanced Raman spectroscopy of blood serum and statistical analysis,” Opt. Express, vol. 19, no. 14, pp. 13565-13577, Jul. 2011. https://doi.org/10.1364/OE.19.013565

[43] S. Feng et al., “Nasopharyngeal cancer detection based on blood plasma surface-enhanced Raman spectroscopy and multivariate analysis,” Biosens. Bioelectron., vol. 25, no. 11, pp. 2414–2419, Jul. 2010. https://doi.org/10.1016/j.bios.2010.03.033

[44] C. M. Durán Acevedo, J. K. Carrillo Gómez, C. A. Cuastumal Vasquez, and J. Ramos, “Prostate Cancer Detection in Colombian Patients through E-Senses Devices in Exhaled Breath and Urine Samples,” Chemosen., vol. 12, no. 1, p. 11, Jan. 2024. https://doi.org/10.3390/chemosensors12010011

[45] S. Solovieva et al., “Potentiometric multisensor system as a possible simple tool for non-invasive prostate cancer diagnostics through urine analysis,” Sens. Actuators B Chem., vol. 289, pp. 42–47, Jun. 2019. https://doi.org/10.1016/j.snb.2019.03.072

[46] M. Mahdi Bordbar et al., “A colorimetric electronic tongue based on bi-functionalized AuNPs for fingerprint detection of cancer markers,” Sens. Actuators B Chem., vol. 368, p. 132170, Oct. 2022. https://doi.org/10.1016/j.snb.2022.132170

[47] D. Tibaduiza et al., “Electronic Tongues and Noses: A General Overview,” Biosens., vol. 14, no. 4, p. 190, Apr. 2024. https://doi.org/10.3390/bios14040190

[48] J. Rana, and S. Desai, “Recent advances in e-nose for potential applications in Covid-19 infection,” Talanta Open, vol. 10, p. 100363, Dec. 2024. https://doi.org/10.1016/j.talo.2024.100363

[49] M.-R. Lee et al., “Cross-site validation of lung cancer diagnosis by electronic nose with deep learning: a multicenter prospective study,” Respir. Res., vol. 25, no. 1, p. 203, May. 2024. https://doi.org/10.1186/s12931-024-02840-z

[50] K.-C. Chen, S.-W. Kuo, R.-H. Shie, and H.-Y. Yang, “Advancing accuracy in breath testing for lung cancer: strategies for improving diagnostic precision in imbalanced data,” Respir. Res., vol. 25, no. 1, p. 32, Jan. 2024. https://doi.org/10.1186/s12931-024-02668-7

[51] S. Kort et al., “Diagnosing Non-Small Cell Lung Cancer by Exhaled Breath Profiling Using an Electronic Nose,” Chest, vol. 163, no. 3, pp. 697–706, Mar. 2023. https://doi.org/10.1016/j.chest.2022.09.042

[52] Y. Saeki et al., “Lung cancer detection in perioperative patients’ exhaled breath with nanomechanical sensor array,” Lung Cancer, vol. 190, p. 107514, Apr. 2024. https://doi.org/10.1016/j.lungcan.2024.107514

[53] V. A. Binson, M. Subramoniam, and L. Mathew, “Prediction of lung cancer with a sensor array based e-nose system using machine learning methods,” Microsyst. Technol., vol. 30, no. 11, pp. 1421–1434, Nov. 2024. https://doi.org/10.1007/s00542-024-05656-5

[54] L. Zhao et al., “A Weighted Discriminative Extreme Learning Machine Design for Lung Cancer Detection by an Electronic Nose System,” IEEE Trans. Instrum. Meas., vol. 70, no. 2509709, pp. 1–9, May. 2021. https://doi.org/10.1109/TIM.2021.3084312

[55] S. Zhang, J. Luo, and M. Lu, “Study on Repeatability, Normalization and Feature Selection of Medical Electronic Nose for Lung Cancer Diagnosis,” in 2020 IEEE 10th Int. Conf. Electr. Infor. Emerg. Communic. (ICEIEC), Beijing, Chi, 2020, pp. 358–361. https://doi.org/10.1109/ICEIEC49280.2020.9152322

[56] S. Zhang et al., “A Universal Calibration Method for Electronic Nose Based on Projection on to Convex Sets,” IEEE Trans. Instrum. Meas., vol. 70, no. 2516012, pp. 1–12, Oct. 2021. https://doi.org/10.1109/TIM.2021.3120149

[57] A. Helen Victoria, and G. Maragatham, “Automatic tuning of hyperparameters using Bayesian optimization,” Evolving Systems, vol. 12, no. 1, pp. 217–223, Mar. 2021. https://doi.org/10.1007/s12530-020-09345-2

[58] D. Theng, and K. K. Bhoyar, “Feature selection techniques for machine learning: a survey of more than two decades of research,” Knowl. Inf. Syst., vol. 66, pp. 1575–1637, Mar. 2023. https://doi.org/10.1007/s10115-023-02010-5

[59] G. Simon, and C. Aliferis, “Overfitting, Underfitting and General Model Overconfidence and Under-Performance Pitfalls and Best Practices in Machine Learning and AI,” in Artificial Intelligence and Machine Learning in Health Care and Medical Sciences, G. Simon and C. Aliferis, Eds., Minneapolis, USA: Springer, 2024, pp. 477-524. https://doi.org/10.1007/978-3-031-39355-6_10

[60] C. Shang, F. Yang, D. Huang, and W. Lyu, “Data-driven soft sensor development based on deep learning technique,” J. Process Control, vol. 24, no. 3, pp. 223–233, Mar. 2014. https://doi.org/10.1016/j.jprocont.2014.01.012

[61] Y. Xu, L. Ju, J. Tong, C. M. Zhou, and J.-J. Yang, “Machine Learning Algorithms for Predicting the Recurrence of Stage IV Colorectal Cancer After Tumor Resection,” Sci. Rep., vol. 10, no. 1, p. 2519, Feb. 2020. https://doi.org/10.1038/s41598-020-59115-y

Notas

CONFLICTO DE INTERÉS :

Los autores manifiestan no tener algún tipo de conflicto de intereses con este trabajo y el manuscrito.

CONTRIBUCIÓN DE AUTORÍA :

Laura M. García-García: búsqueda en bases de datos, esquematización del mapa conceptural y selección de información.

Marcela Vallejo: procesamiento de información, análisis de documentos, estructuración del artículo y discusión de resultados.

Edilson Delgado-Trejos: procesamiento de información, análisis de documentos, estructuración del artículo y discusión de resultados.

Notas de autor

edilsondelgado@itm.edu.co

Información adicional

Cómo citar / How to cite: L. M. García-García, M. Vallejo, and E. Delgado-Trejos, “Máquinas de aprendizaje y soft sensores de tipo nariz y lengua electrónica para la detección de cáncer,” TecnoLógicas, vol. 28, no. 63, e3296, 2025. https://doi.org/10.22430/22565337.3296

Información adicional

redalyc-journal-id: 3442

Enlace alternativo

https://revistas.itm.edu.co/index.php/tecnologicas/article/view/3296 (html)