Enfoque del Modelo ParFase para el Apoyo a la Toma de Decisiones en el Diagnóstico de Enfermedades
ParFase Model approach to support decision making on diseases diagnosis
Enfoque del Modelo ParFase para el Apoyo a la Toma de Decisiones en el Diagnóstico de Enfermedades
Ciencia e Ingeniería, vol. 38, núm. 2, pp. 113-122, 2017
Universidad de los Andes
Resumen: En el presente estudio se desarrolló un modelo denominado ParFase que sirve de base para la construcción de un sistema experto. Este es aplicado como herramienta de apoyo a la toma de decisiones en el diagnóstico de enfermedades. ParFase está conformado por (µ1; µ2), construidos sobre dos enfoques de razonamiento diferentes: µ1 está basado en el aprendizaje automático utilizando C4;5; µ2 utiliza la estadística descriptiva y el simplex inverso; ambos métodos aportan resultados en paralelo para mayor precisión. El caso de estudio se ubica dentro del área veterinaria, en el pre-diagnóstico de las enfermedades caninas diabetes mellitus e hipotiroidismo. Se caracterizaron las enfermedades a partir de sintomatología y expedientes clínicos. La experimentación de ParFase se basa, para µ1, en el entrenamiento de una base de casos clínicos para la clasificación de la enfermedad, y validado con k-fold cross validation; para µ2, se crea un modelo matemático, que cuenta con una ecuación como función objetivo y la caracterización de las restricciones posibles, para obtener la precisión porcentual de pertenencia. Los resultados experimentales obtenidos están sobre 90% de precisión.
Palabras clave: Diagnostico asistido por computadora (DAC), estadística descriptiva, pre-diagnóstico de enfermedades, sistema experto.
Abstract: In this work we develop a model called ParFase that is the basis for building a Expert system. This is applied as a tool to support decision making in the diagnosis of diseases. ParFase consists of (µ1; µ2), built approached from two perspectives: µ1 is based on automatic learning using C4:5; µ2 uses descriptive statistics and the reverse simplex; Both methods provide results in parallel for greater accuracy. The case study is located within the veterinary area, in the pre-diagnosis of canine diseases; diabetes mellitus and hypothyroidism. Diseases were characterized by symptoms and medical records. ParFase experimentation is based, for µ1, base clinical cases training for the classification of the disease, and confirmed with k-fold cross validation; for µ2, a mathematical model is created, which has an objective function equation and the characterization of possible restrictions in order to obtain Percentage of ownership accuracy. The experimental results are about 90% of accuracy.
Keywords: Descriptive statistics, computer aided diagnosis, pre-diagnosis of diseases, expert system.
1 Introducción
Los sistemas de soporte a la toma de decisiones (SSTD) han evolucionado de forma considerable a lo largo de las últimas décadas. Actualmente para las instituciones es de suma importancia contar con sistemas de este perfil, debido a que proporcionan un contexto de conocimiento más amplio sobre las áreas de estudio. Este tipo de sistemas han mostrado un desarrollo acelerado en su desempeño y los especialistas en el área se apoyan de esta característica para tomar decisiones con mayor precisión. El impacto de adoptar los SSTD en organizaciones ha logrado que este enfoque sea una importante área de investigación (Alavi y Leider, 2001). Debido a su utilidad los SSTD han incursionado en las áreas de gestión clínica y de salud, proporcionando a los usuarios importantes herramientas que son utilizadas para tomar decisiones clínicas sobre un paciente específico (Osheroff, 2009), (Kuper y col., 2007). Los beneficios que se derivan de utilizar este tipo de sistemas permite mejorar la calidad de la atención y reducir el exceso de tratamiento en los pacientes que padecen la enfermedad, así mismo este tipo de sistemas nos permiten entrenar a jóvenes médicos en razonamiento diagnóstico; por lo que en consenso por especialistas del área son de relevante importancia (McGinn y col., 2001), (Berner y col., 2003).
Un área derivada que nos es tan notoria pero no deja de ser importante es el área de medicina veterinaria, en la que, el enfoque es la toma de decisiones basada en evidencias; esta ha sido poco atendida, por lo que, el caso de estudio en esta investigación, se usa para el diagnóstico de enfermedades caninas. En el presente trabajo se muestra el desarrollo de un sistema experto (Russell y Norving, 2002), el cual tiene que alimentar su base de conocimientos de forma a priori para tener un dominio amplio del área, esta información se definen como casos de estudio en el que previamente se diagnosticó la enfermedad con resultado positivo o negativo, a partir de pruebas médicas, análisis clínicos, sintomatología y experiencia de médicos. El módulo ParFase (PFs) representa el núcleo para el procesamiento de datos. El motor de inferencia PFs, por una arista, toma la información de una base de conocimientos de datos históricos con el fin de encontrar similitudes en la base y la sintomatología del paciente que se está analizando, por otra, procesa la información en un modelo matemático propuesto, para complementar la precisión del diagnóstico.
La implementación del sistema experto en cuestión se basa en la arquitectura modelo-vista-controlador (mvc), que permite separar los datos y la lógica de negocio, de la interfaz de usuario. Este sistema presenta módulos de administración clínica de pacientes, consultas, reportes, y el módulo de diagnóstico de la enfermedad. A través de este artículo se realiza una descripción del fundamento teórico de ParFase, la metodología utilizada, los resultados y la experimentación obtenida, así como algunas observaciones del proceso de validación cruzada en los resultados, finalmente en la sección de conclusiones se describe las ventajas de utilizar este modelo.
2 Sistemas de soporte a la toma de decisiones
A. Sistemas de Soporte a la Toma de Decisiones Clínicas.
Los sistemas de soporte a la toma de decisiones clínicas (SSTDC) han aportado credibilidad a los profesionales de la salud, de acuerdo con Miller y Geissbuhler un sistema de soporte a la toma de decisiones es un algoritmo sistematizado que asiste a profesionales en la salud con uno o más pasos sobre el proceso de diagnóstico (Miller y Randolph, 2007); Musen lo describe como una pieza de software que aplica el enfoque sistémico sobre una situación clínica y produce una salida de inferencias que ayudan a los profesionales a la toma de decisiones, esta pieza de software puede ser interpretada como ïnteligente"para los usuarios finales (Musen y col., 2000); recientemente Greenes lo ha definido como el uso de la computadora para brindar conocimiento relevante a ser utilizado en el cuidado de la salud y el bienestar del paciente (Greenes, 2001), (Berner, 2007); el sistema desarrollado en este trabajo se define como un SSTDC que cumple con el enfoque sistémico y que tiene propiedades de razonamiento lógico, precisa una fase de entrenamiento sobre conocimiento clínico histórico y que puede inferir resultados como sugerencias para el pre diagnóstico, este sistema sirve de apoyo a los profesionales de la salud para corroborar su decisión. El área de veterinaria y zootecnia ha sido poco atendida, existen relativamente pocos sistemas reportados en el estado del arte, más aun pocos aplicados a la atención de datos en diagnóstico de enfermedades caninas.
B. Diagnóstico Asistido por Computadora (DAC).
La incursión de las nuevas tecnologías en el ámbito médico ha sido inminente debido al desarrollo de las tecnologías de la información de los últimos años. En el área médica se han incorporado herramientas de software que ayudan a los especialistas a delicada tarea de diagnosticar enfermedades con grandes resultados. A este conjunto de sistemas computacionales se les considera como sistemas para el Diagnostico Asistido de Computadoras.
C. Sistemas Expertos
La capacidad de procesamiento de un gran conjunto de información histórica alimentada por especialistas en el área, para que una computadora emule el razonamiento de un experto, se considera un sistema experto (SE). Estos sistemas son capaces de analizar múltiples posibilidades y solucionar un conjunto de problemas complejos. Este proceso debe pasar por dos etapas en el motor de inferencia: la parte de entrenamiento, seguido por la parte del motor de inferencia para la clasificación de los datos requeridos. Además el sistema experto debe tener la capacidad para seguir alimentando su base de conocimiento con nuevo conocimiento, generado por el mismo o por nuevos casos clínicos que los especialistas puedan introducir al sistema. En este artículo se presenta a PFs como un motor de inferencia para clasificar entre las dos enfermedades en estudio.
3 Modulo ParFase.
ParFase está conformado de dos módulos (µ1; µ2), construidos sobre dos enfoques de razonamiento diferentes: µ1 está basado en el aprendizaje automático utilizando el algoritmo C4;5; µ2 utiliza la estadística descriptiva y el simplex inverso; ambos métodos aportan resultados en paralelo para obtener mayor precisión. Para realizar el diagnostico el especialista debe ingresar al sistema los signos del paciente y los resultados de las pruebas rápidas; se verifica si existe un historial clínico del paciente, de lo contrario es necesario crearlo, los datos se validan para verificar su veracidad y son almacenados en la base de datos, seguido de esto se inicia el proceso de diagnóstico en el que los datos ingresados por el especialista son procesados por (µ1; µ2) de forma paralela; al final se presentan los resultados de ambos módulos para complementar el resultado, este proceso se muestra de forma gráfica en la Fig. 1.

Diagrama de flujo del proceso de diagnóstico
A. Modulo (µ1) Algoritmo C4;5
El algoritmo C4;5 (Ramakrishnan, 2009) genera un árbol de decisiones con el conjunto de datos para crear de forma lógica todos los caminos posibles desde las hojas hasta la raíz, utilizando el concepto de entropía de información. Los caminos se van analizando con el fin de medir su eficiencia. Para la etapa de entrenamiento se forma el conjunto indicado en 1 de datos clínicos ya clasificados. Cada caso clínico es un vector donde se representan los atributos o características del ejemplo, como en 1. Los datos de entrenamiento son aumentados con un vector donde se representan la clase a la que pertenece cada muestra o caso clínico. Para PFs el objetivo es clasificar si la enfermedad es diabetes mellitus o hipotiroidismo. En cada nodo del árbol se elige un atributo de los datos que más eficazmente divide el conjunto de muestras en subconjuntos enriqueciendo una clase u otra. El criterio es normalizado para ganancias de información (diferencia de entropía) que resulta en la elección de un atributo para dividir los datos. El atributo con la mayor ganancia de información normalizada se elige como parámetro de decisión.
(1)
(2)Los atributos que se tomaron en cuenta para cada caso clínico que forma el conjunto de entrenamiento son: Condición Corporal (CC), Densidad Urinaria, Hiperglucemia, Glucosuria, Poliuria, Polidipsia, Polifagia, Perdida de peso repentina, Problemas Oticos, Problemas Ópticos, Proteinuria, Obesidad; estos se puede apreciar en la Fig. 2.

Las muestras clínicas representadas por cada clase de la enfermedad, así como los casos objetivos que tiene que ser clasificados, son evaluados en el árbol de decisión. En la Fig. 3, se presenta el árbol lógico generado por el algoritmo, este muestra los datos normalizados para evaluar cada nodo y elegir la clase con mayor ganancia de información.

Las muestras clínicas representadas por cada clase de la enfermedad, así como los casos objetivos que tiene que ser clasificados, son evaluados en el árbol de decisión. En la Fig. 3, se presenta el árbol lógico generado por el algoritmo, este muestra los datos normalizados para evaluar cada nodo y elegir la clase con mayor ganancia de información.
B. Modulo (µ2) Modelo matemático.
El modelo matemático, está definido en ParFase como µ2, este modelo cuenta con una serie de ecuaciones. Estas ecuaciones son el resultado de utilizar la estadística descriptiva y el método de simplex inverso.
La estadística descriptiva se refiere a la recolección, descripción, analisis e interpretación de una colección de datos. Se utilizó en este trabajo para obtener del conjunto de datos, conclusiones sobre las muestras, después de analizar la información de los expedientes, estas se dividieron en tres rangos: razas chicas, razas medianas y razas grandes.

Se puede observar en la Fig. 4, que los datos del conjunto muestra la raza con mayor incidencia en ambas enfermedades, es la raza grande", por lo tanto es un factor de gran importancia que se considera en el diagnóstico médico. En µ2 se define una ecuación como función objetivo y adicionalmente la caracterización de las restricciones posibles, el resultado es obtener la precisión porcentual de pertenencia de la clase.
La función objetivo: es la ecuación en la forma ideal que caracteriza todos los factores para determinar cada una de las enfermedades. Se define ƒ (dm) para diabetes mellitus, y ƒ (ht) para hipotiroidismo, la forma general de la ecuación se muestra en 3.
(3)donde Ci es una constante.
Las restricciones: son las ecuaciones formuladas con base en la experiencia de los médicos veterinarios y las probabilidades que existen de que aparezca la enfermedad. La forma general de la ecuación de restricción se puede observar en (4).
(4)Dado el espacio muestral, se tiene la necesidad de conocer la probabilidad de encontrar un solo elemento. La ecuación para calcular dicha probabilidad (Martin, y col., 1998), se observa en (5).
(5)Donde:
#(Xi) Es el numero de ocurrencias del evento.
Es el total de
las muestras.
Esta fórmula es aplicable para conocer los denominados pesos de las funciones de ƒ (dm) y ƒ (ht). Con base a histogramas de cada tamaño de raza, se obtuvieron los valores medios de cada variable (signos) que presenta cada muestra y posteriormente se obtuvieron los pesos principales. Los datos representativos de los datos de los signos de cada una de las enfermedades se pueden observar en la Fig. 5, y la Fig. 6.

Histograma de muestras de diabetes mellitus

Adicionalmente los valores obtenidos de las probabilidades y los valores medios de cada variable de las enfermedades de diabetes mellitus e hipotiroidismo se muestran en la Tabla 1, y la Tabla 2. Estos representan a los valores de las constantes de la Función Objetivo.


Los rasgos representativos de cada variable del conjunto de las Xi, representan las constantes en la Función Objetivo (FO) principal. Para el caso de diabetes mellitus, la forma general de FO se presenta en (6).
(6)Donde:

El siguiente paso es determinar el sistema de ecuaciones de las restricciones, esto es determinar los pesos de las condiciones que los médicos expertos nos proporcionan con base a FO. Tenemos la ecuación general de las restricciones como en (4), de esta manera la ecuación para la obtención de los pesos se presenta en (7).
(7)Donde:
Peso a calcular es=Yi
Valor de la constante en la FO=Ci
La sum de las constantes de la FO que estan contenidas en
las restricciones: 
Para finalizar, las ecuaciones de las restricciones resultantes se presentan en (3). Este sistema de ecuaciones se resuelve utilizando el método Simplex, método clásico para la resolución en programación lineal en sistemas que intervienen más de tres variables. Se utilizó el álgebra matricial y el proceso de eliminación por medio Gauss-Jordán para resolver el sistema de ecuaciones lineales.
(8)Para fines prácticos se utilizó winQSB para obtener los resultados del sistema de ecuaciones. Después de la resolución del sistema de ecuaciones propuesto en (3), se observó que las variables que tienen más peso para el diagnóstico de la enfermedad de diabetes mellitus son: X1;X2;X4;X6.
Para el caso de Hipotiroidismo, la forma general de FO se presenta en (9).
(9)Donde:

4 Base de conocimiento
La base de conocimientos se construyó a partir de datos de expedientes o registros de caninos, los cuales ya están diagnosticados con alguna enfermedad en particular. El hospital de medicina veterinaria de la Universidad Nacional Autónoma de México utiliza un sistema proporcionado por la empresa Banfield, el cual contiene registros de toda la población canina que se atiende en el hospital, este sistema es consultado por los médicos veterinarios.
El sistema Banfield contiene más de diez mil registros divididos por enfermedades. Para la búsqueda de expedientes con alguna enfermedad en particular es necesario contar con el número que identifica al paciente, de no tenerlo, se envía una petición a la empresa Banfield, quien se encarga de consultar su base de datos para regresar la respuesta con una lista de números y nombres de los pacientes que tienen dicha enfermedad. Este proceso de solicitud y consulta de información causa un costo monetario adicional, y una inversión de tiempo excesiva, desventajas que se pretenden cubrir con sistemas como el de este trabajo.
Para alimentar a la base de conocimientos se hace uso de 100 expedientes. El sistema analiza dos enfermedades pertenecientes al área médica de Endocrinologia: diabetes mellitus, hipotiroidismo. Se analizó la información de acuerdo al contenido de los expedientes y la mayoría de los casos presentan los siguientes datos para determinar un diagnostico preliminar:
a) Resultados de pruebas rápidas. Son los valores de cada una de las pruebas que le hacen al paciente en el momento de la consulta.
b) Síntomas que presenta el canino. Son los signos visibles y el resumen de los resultados de las pruebas rápidas.
c) Diagnostico presuntivo. Muestra el listado de las enfermedades relacionadas que posiblemente puede tener el paciente.
d) Lista de exámenes médicos. Selección de los exámenes a realizar para los distintos diagnósticos.
Se presentan dos ejemplos de expedientes que fueron analizados y diagnosticados de forma positiva con diabetes mellitus, así como casos diagnosticados con hipotiroidismo. Estos datos se observan en la Tabla 3, y la Tabla 4. Los datos que recopila el especialista en salud de un paciente, debe relacionarse con alguna de estas enfermedades.


5 Experimentación y Resultados.
5.1 A. Motor de Inferencia ParFase
Como se plantea al inicio ParFase se compone de dos módulos (µ11; µ2), estos forman el motor de inferencia. El modulo (µ1) tiene dos fases en el proceso del diagnóstico, la fase de entrenamiento descrita en la sección anterior, y la fase de clasificación. El modulo (µ2) presenta al modelo matemático con su Función Objetivo (FO). El objetivo principal es que la información se procesa en paralelo sobre estos dos módulos. Los resultados obtenidos al final se complementan para alcanzar una mejor precisión. El desarrollo de la experimentación para (µ1) se describe en la fase de clasificación, después de la fase de entrenamiento se presenta un nuevo caso a (µ1), obtenidos en la interfaz de usuario del sistema de ParFase, se genera un vector normalizado con los datos y este es procesado para obtener con base a su similitud la clasificación de alguna de las dos enfermedades que se proponen, en caso contrario también puede diagnosticar el caso clínico como sano. En la Fig. 6, se observa como son estructurados los datos a clasificar.

Los resultados de (µ1), se pueden observan en la Fig. 7, el dato esperado es presentar para el nuevo caso, la sugerencia de pertenencia a la enfermedad.

La experimentación para (µ2) está basado en datos reales y la experiencia de los médicos especialistas en el área. El modelo FO aportará como resultado el porcentaje de la enfermedad que presenta el paciente canino. Para obtener esta información primero se analizan los valores de pruebas médicas rápidas que son introducidas en la interfaz de usuario del sistema experto de ParFase. Esta actividad se pude apreciar en la Fig.9.

Datos de las pruebas médicas para el modelo matemático.
El médico especialista también necesita introducir las observaciones pertinentes de acuerdo a las observaciones del médico. Estas observaciones se introducen en una interfaz gráfica, que se observa en la Fig. 10. El sistema experto de ParFase contiene un analizador léxico que identifica las palabras clave de los síntomas de la enfermedad.

Después se genera una lista que relaciona las palabras clave introducidas por el médico, con la lista que identifica la enfermedad en cuestión. La lista de síntomas del tipo de enfermedad se puede apreciar en la Fig. 10. A partir de esta lista y de acuerdo a los síntomas que encontró el especialista se genera un vector de signos identificados, este vector es normalizado y estos datos son tomados en cuenta para que el modelo matemático calcule la pertenencia de la enfermedad. En la Fig. 11, se pude observar los vectores generados con base en las observaciones del médico veterinario.


El vector normalizado es procesado por el modelo matemático, después se calcula la FO. Los resultados son mostrados en una interfaz gráfica para el usuario, como se puede apreciar en la Fig. 13.

5.2 B. Validación de ParFase
Para determinar la probabilidad de acierto del algoritmo de
clasificación en el módulo (µ1) ante nuevos casos, se utiliza el método de
validación cruzada conocido como k ̶ fold cross validation [13], en el que
básicamente consiste en dividir el conjunto total de casos en K subconjuntos
disjuntos. De estos k subconjuntos,
uno se reserva como datos de validación para probar el motor de inferencia, y
los restantes
se utilizan como datos de entrenamiento. El
proceso se repite K veces (con cada uno de los k, usados solo una vez como
datos de validación).
En la Tabla 5, se muestra el análisis y los resultados de la validación cruzada realizados en la base de conocimientos de diabetes mellitus. Podemos observar el comportamiento del resultado del algoritmo al cambiar el tamaño de las muestras (folds). Se muestra que para el k ̶ fold = 15, el porcentaje de error al momento de comparar etiquetas, resulta con el porcentaje de error más bajo en comparación con los demás. Por lo tanto, de acuerdo con los resultados que se muestran en la Tabla 5, se indica que con una muestra de fold con k= 15 el algoritmo tiene un mejor desempeño en su aprendizaje.

5.3 C. Resultados.
Para verificar el funcionamiento del motor de inferencia de ParFase, se hicieron pruebas con 75 muestras: 25 con diabetes mellitus, 25 con hipotiroidismo, y 25 casos clínicos saludables. El enfoque final que se tomo es complementar los resultados aportados por (µ1), y complementarlos con los resultados del modelo matemático (2). Los resultados obtenidos se puede observar en la gráfica de la Fig. 14. La descripción de las etiquetas de la Fig. 3, es: Conjunto, son todas las muestras clasificadas por (µ1) de forma correcta con el porcentaje de 85;33% obtenido del modelo; Ayuda FO, son todas aquellas muestras donde la clasificación de (µ1) fue errónea, pero que el modelo de (µ2) obtuvo porcentajes altos, en alguna de las clases; Erroneos, son aquellas muestras donde ambos (µ1) y (µ2) tuvieron falsos negativos, el porcentaje fue 8%. Finalmente si complementamos los resultados de (µ1) y (µ2) obtenemos una precisión del 91;99%, al momento de clasificar.

6 Conclusiones
En este trabajo se presenta una alternativa para el analisis, clasificación, y la inferencia del pre diagnóstico de enfermedades caninas. Se presenta a ParFase como un modelo que complementa los resultados de (µ1) y (µ2). Los resultados obtenidos demuestran una mayor precisión. Esta alternativa define un buen aporte para la medicina veterinaria, originada a partir de la experiencia de los médicos que se definen en el modelo matemático. Cabe mencionar que cualquier enfermedad puede ser analizada bajo este esquema; se define su FO y las restricciones para proveer a ParFase como un sistema experto que puede crecer.
Agradecimientos
Se agradece el apoyo recibido para el desarrollo de este proyecto a la Universidad Politécnica Metropolitana de Hidalgo - UPMH, y a PROMEP - SEP-23-03, México.
Referencias
Alavi M., and Leidner D. E., 2001, Knowledge management and knowledge management systems: Conceptual foundations and research issues, MIS quarterly, pp. 107-136.
Osheroff J. A., 2009, Improving Medication Use and Outcomes with Clinical Decision Support: A Step by Step Guide. HIMSS.
Kuperman G. J., Bobb, A., Payne T. H., Avery A. J., Gandhi T. K., Burns G. and Bates D. W., 2007, Medication-related clinical decision support in computerized provider order entry systems: a review, Journal of the American Medical Informatics Association: JAMIA, 14(1), 29-40.
McGinn T. G., McCullagh L., Kannry J., Knaus M., Sofianou A., Wisnivesky J. P. and Mann D. M., 2013, Efficacy of an evidence-based clinical decision support in primary care practices: a ran omized clinical trial. JAMA internal medicine, 173(17), 1584-1591.
Berner E. S., Maisiak R. S., Heudebert G. R. and Young Jr K. R., 2003, Clinician performance and prominence of diagnoses displayed by a clinical diagnostic decision support system. In AMIA Annual Symposium Proceedings, Vol. 2003, p. 76, American Medical Informatics Association.
Russell S. and Norvig P., 2002, Artificial Intelligence: A Modern Approach (2dn Edition), Prentice Hall.
Miller, Randolph A. G., 2007, Diagnostic decision support systems, Clinical Decision Support - Theory and Practice, Prentice, Hall Second Edition - Capítulo 5.
Musen, Mark A., Shahar, Yuval, Shortliffe Edward H., 2000, Clinical decision-support systems, Chapter 16 in Medical Informatics: Computer Applications in Health Care and Biomedicine.
Greenes, A. Robert, 2006, Clinical Decision Support: The Road Ahead, Academic Press.
Berner, E. S., 2007, Clinical decision support systems, Vol. 233, New York: Springer Science+ Business Media, LLC.
Ramakrishnan Naren, 2009, Algorithms in data mining - C4.5, CRC Press, New York.
Martín, J. A. G., and Callejón, J. M. P., 1998, Sistemas expertos probabilísticos (Vol. 20). Univ de Castilla La Mancha.
Stone, M., 1974, Cross-validatory choice and assessment of statistical predictions. Journal of the royal statistical society.
Series B (Methodological), 111-147.
Notas de autor