PROPUESTA SUPERVISADA DE APRENDIZAJE DE MÁQUINA PARA LA ESTIMACIÓN DE LA EDAD BIOLÓGICA HUMANA BASADA EN ODONTOLOGÍA FORENSE

SUPERVISED MACHINE LEARNING PROPOSAL FOR THE ESTIMATION OF HUMAN BIOLOGICAL AGE BASED ON FORENSIC DENTISTRY

Johana Gabriela Becerra Álvarez
Universidad Tecnológica de Pereira, Colombia
Jimy Alexánder Cortés Osorio
Universidad Tecnológica de Pereira, Colombia

PROPUESTA SUPERVISADA DE APRENDIZAJE DE MÁQUINA PARA LA ESTIMACIÓN DE LA EDAD BIOLÓGICA HUMANA BASADA EN ODONTOLOGÍA FORENSE

Revista EIA, vol. 17, núm. 34, pp. 1-19, 2020

Escuela de Ingeniería de Antioquia

Recepción: 27 Diciembre 2019

Aprobación: 18 Junio 2020

Resumen: Código de Procedimiento Penal Colombiano avala el uso apropiado de las piezas dentales para la identificación de individuos, por lo que esta técnica resulta una herramienta de gran importancia en las instituciones que apoyan la administración de justicia. Los métodos clásicos de identificación humana, en especial, los usados para la determinación de la edad biológica de muerte en adultos, han sido desarrollados usando información de poblaciones con características morfológicas, métricas y culturales diferentes a las de Colombia. En consecuencia, se han obtenido tasas de error altas en sus resultados. En esta investigación, se calculó inicialmente la edad biológica usando el método clásico de Lamendin. Posteriormente, con las medidas directas e indirectas, también usadas en el método de Lamendin, se realizó el entrenamiento de las técnicas de aprendizaje de máquina conociendo la edad cronológica de los individuos de la muestra. Se compararon los resultados de las técnicas de regresión de aprendizaje de máquina supervisado: Máquinas de Soporte Vectorial (SVM), Procesos Gaussianos por Regresión (GPR) y Conjuntos de Árboles (Ensembles of Trees), entre otras. Se estudió una muestra de 48 piezas dentales de una sola raíz pertenecientes a 45 individuos de nacionalidad colombiana, con edades cronológicas de fallecimiento conocidas dentro del rango de edades desde los 19 años hasta los 81 años. Por otro lado, se utilizaron el pie de rey digital y el macroscopio de comparación para estimar las alturas de las características morfológicas en las piezas dentales. La mejor exactitud en la estimación de la edad biológica se alcanzó con GPR que presentó una raíz del error medio cuadrático (RMSE) de 3,37 años en la identificación, la cual se contrastó con la exactitud alcanzada por el método de Lamendin con un RMSE de 15,52 años. Esta investigación evidencia que el aprendizaje de máquina con regresión GPR, en especial para el caso colombiano, resulta una herramienta válida para la estimación de la edad biológica de muerte con errores muy inferiores a los entregados por técnicas tradicionales de origen europeo.

Palabras clave: aprendizaje de máquina, dientes, edad biológica, identificación humana, Lamendin.

Abstract: Colombian Criminal Procedure Code supports the appropriate use of dental pieces for the identification of individuals, so this technique is a tool of great importance for the administration of justice institutions. The classic methods of human identification, especially those used to estimate the biological age of death in adults such as Lamendin, have been developed using information from populations with morphological, metric and cultural characteristics different from those in Colombia. Consequently, Colombian forensic specialists have obtained high error rates in age estimation results. In this research, the biological age was initially calculated using the classic method of Lamendin. Subsequently, with the direct and indirect measures, also used in the Lamendin method, the training of machine learning techniques was carried out knowing the chronological age of the individuals in the sample. The results of the supervised machine learning regression techniques were compared: Vector Support Machines (SVM), Gaussian Regression Processes (GPR) and Ensembles of Trees (EoT), among others. A sample of 48 single-root dental pieces belonging to 45 individuals of Colombian nationality was studied, with chronological ages of death known within the age range from 19 to 81 years.

Additionally, the digital caliper gauge and the comparison microscope were used to measure the heights of the morphological characteristics in the dental pieces. The best accuracy in the estimation of the biological age was achieved with the GPR regression that showed a root mean square error (RMSE) of 3.37 years in the identification, which was compared with the accuracy reached by the Lamendin method with a RMSE of 15.52 years. This research shows that the GPR machine learning regression, especially for the Colombian case, is a valid tool for estimating the biological age of death with much lower errors than those achieved by traditional European techniques.

Keywords: biological age, forensic dentistry, human identification, Lamendin, Machine learning, tooth.

I. Introducción

Si bien las técnicas de aprendizaje de máquina han sido usadas en diversas aplicaciones como lo son la identificación de instrumentos musicale Tobón & Cortés. (2018) s. Métodos para clasificar las regiones promotoras en organismos eucariotas que toman como entrada las secuencias de ADN Bedoya & Bustamante. (2011). Estas aproximaciones a la solución de problemas se pueden utilizar también para las ciencias forenses.

En Colombia el artículo 251 del Código de Procedimiento Penal, respalda el uso apropiado de las evidencias dentales para la identificación de individuos Pretelt de la Vega. (2004). La existencia de víctimas mortales por parte del conflicto armado “a través de la historia” ha sido uno de los factores que promueven el uso de los dientes en la identificación; debido al mal estado en el cual se encuentran los cadáveres, en la mayoría de los casos, por diferentes factores como: el paso del tiempo, la humedad, fuego, etc. Vilcapoma Guerra. (2012).

En muchos casos, los dientes son la única evidencia humana con la que se cuenta para poder realizar la identificación de un individuo. En el proceso, por medio del uso de las muestras dentales, se puede reconstruir la osteobiografía general: sexo, hábitos, ascendencia y edad Suárez Ponce. (2014).

Uno de los primeros casos reconocidos del uso de los dientes para la identificación humana, ocurrió en Paris (1897). El doctor cubano Oscar Amoedo realizó la identificación de cadáveres haciendo uso de evidencias dentales Krenzer. (2005).

Pronto, la odontología forense llega para definir sobre el manejo y el examen adecuado de la evidencia dental, teniendo como finalidad la identificación humana. Esta presenta aplicaciones en: el derecho laboral, penal y civil.

Como ya se indicó, la edad de un individuo se puede estimar haciendo uso de la evidencia dental. Esta se denomina edad biológica, pues esta es un indicativo del grado de desgaste en los órganos. En contraste la edad cronológica, se define en función del tiempo transcurrido desde el nacimiento del individuo Alvarado Garcia & Salazar Maya. (2014). El método clásico de estimación de la edad biológica en adultos mayores de 25 años es conocido como Lamendin. Este usa dos características dentales: la Períodontosis y la Translucidez Radicular en dientes de una sola raíz Lamendin, et al. (1992).

A diferencia del método reconocido de Lamendin, las técnicas de aprendizaje de máquina supervisado por regresión tienen la ventaja de valerse de datos continuos que son verificables, para aprender de ellos y poder así dar soluciones pertinentes a necesidades y problemáticas Garcia Cambronero & Gomez Moreno. (2006).

En esta investigación, en la primer parte, se calculó el valor RMSE del método de Lamendin para predecir la edad biológica en la muestra dental propuesta. Posteriormente, se contrastó respecto al error obtenido del entrenamiento de las técnicas de aprendizaje de máquina supervisado: Máquinas de Soporte Vectorial (SVM), Procesos Gaussianos por Regresión (GPR) y Conjuntos de Árboles (Ensembles of Trees). Finalmente, en este artículo, se evaluó y comparó cuál de las técnicas de aprendizaje de máquina supervisado, predice la tasa de RMSE menor de la edad cronológica en comparación con la tasa de error de la edad biológica estimada por el método de Lamendin.

En términos de justicia, paz y verdad el uso de las técnicas de aprendizaje de máquina supervisado se propone como una herramienta que puede apoyar con elementos de verdad en un proceso de identificación y restitución de derechos.

A. Método de estimación de la edad biológica

Lamendin (1988), propuso una ecuación para estimar la edad biológica en adultos mayores de 25 años, en la cual se tenían como parámetros principales la periodontosis y la translucidez radicular. En este método se utilizan dientes monorradiculares que ya hayan emergido en su totalidad de las encías, que se encuentren en buen estado y que no tengan enfermedades periodontales. La muestra original utilizada por los autores fue de 306 dientes de una sola raíz, pertenecientes a 208 individuos franceses (135 hombres y 73 mujeres), y con edades cronológicas conocidas (22-90 años). El error medio obtenido fue de 10 años; esté error era la diferencia promedio entre la edad cronológica y edad biológica.

B. Técnicas de aprendizaje de máquina supervisado

Aprendizaje de máquina radica en enseñar a la computadora para que aprenda de la experiencia a través de datos conocidos. Los algoritmos de aprendizaje automático utilizan métodos estratégicos para manejar la información directamente de los datos sin depender de una ecuación única predeterminada como modelo Garcia Cambronero & Gomez Moreno. (2006). Por lo tanto, los algoritmos se tienen que nutrir con información que favorezca en el aprendizaje. Su rendimiento puede, en algunos casos, depender del tamaño de la muestra de datos proporcionada. Fundamentalmente, existen dos tipos de técnicas afines al aprendizaje de máquina. La aproximación que encuentra patrones ocultos o estructuras intrínsecas en los datos de entrada se denomina aprendizaje no supervisado. Por otro lado, el aprendizaje supervisado crea un modelo con los datos conocidos y sus salidas verdaderas para predecir resultados a la salida. Pueden ser de clase o de regresión Pelaez Chávez. (2012). Como caso particular del aprendizaje supervisado, los algoritmos de regresión predicen respuestas continuas, para predecir salidas numéricas Baviera. (2017).

Las máquinas de soporte vectorial (SVM) por regresión se consideran una técnica no paramétrica porque se basa en las funciones del kernel. Para ellas, el conjunto de datos de entrenamiento contiene variables predictores y valores de respuesta observados. Esta técnica encuentra una función que se desvíe poco de los valores de entrenamiento , y de ser posible, sea lo más plano posible Drucker, et al. (1997); Vapnik, et al. (1997).

Los modelos de regresión de un proceso gaussiano (GPR) son probabilísticos basados en un kernel no paramétrico. A partir del entrenamiento de datos se obtienen funciones que siguen una distribución gaussiana, las cuales obtienen escalares que siguen el comportamiento de esta en conjunto. Este tipo de comportamiento aporta un número elevado de escalares que provienen de una función Gaussiana.

Los algoritmos de conjuntos de árboles pueden ser generados a partir de un conjunto de datos artificiales, mediante el muestreo aleatorio de puntos del espacio de la instancia. Las etiquetas de las clases predichas son asignadas por el clasificador de conjunto para aprender un conjunto de reglas o árboles de decisión de este nuevo conjunto de datos, y su complejidad aumenta mucho más con el tamaño del conjunto de datos Witten, et al. (2011).

C. Métodos de reducción y selección de características

El método de validación cruzada proporciona una buena estimación de la precisión predictiva del modelo final entrenado utilizando el conjunto completo de datos. El método requiere múltiples ajustes, pero hace un uso eficiente de todos los datos, por lo que funciona bien para conjuntos de datos pequeños. La forma estándar de predecir la tasa de error de una técnica de aprendizaje dada una única muestra fija de datos es utilizar una validación cruzada estratificada diez veces. Los datos son divididos aleatoriamente en k partes en las que la clase se representa en aproximadamente las mismas proporciones que en el conjunto de datos completo. Así, el procedimiento de aprendizaje se ejecuta un total de k veces en diferentes conjuntos de entrenamiento (cada conjunto tiene mucho en común con los demás) Witten, et al. (2011). Por otro lado, la selección de características disminuye la dimensionalidad de los datos al seleccionar un subconjunto de variables predictoras para crear un modelo. Los criterios de selección implican reducción de una medida específica de error predictivo para los modelos que se ajustan a diferentes subconjuntos. Restringiendo las características seleccionadas y el tamaño del subconjunto Guyon & Elisseeff. (2003).

II. Materiales y métodos

La muestra dental utilizada para esta investigación estaba compuesta por caninos, incisivos centrales e incisivos laterales, véase la Figura 1. El número total de la muestra fue de 48 piezas dentales monorradiculares, pertenecientes a 45 individuos colombianos, proveniente de cuerpos exhumados en el año 2002 del cementerio central de Bogotá, con edades conocida entre los 19 a los 81 años. La doctora Luz Dary Escobar, servidora de la Fiscalía General con sede en Bogotá; facilitó la muestra para este estudio bajo los parámetros de confidencialidad requeridos. Así mismo, cabe aclarar que los datos objeto a verificar, no fueron suministrados durante las prácticas, solo hasta que fueron requeridos dentro del proceso de desarrollo investigativo.

(a) Incisivo central superior. (b) Incisivo lateral superior (c) Canino superior
Figura 1.
(a) Incisivo central superior. (b) Incisivo lateral superior (c) Canino superior

A. Protocolo de medición la transparencia radicular (T) y la períodontosis (P)

El protocolo de medición de la transparencia radicular (T) y la altura gingival o períodontosis (P) se realizó en el Laboratorio de Identificación Humana de la Fiscalía General de la Nación, Seccional Risaralda, donde se midieron: la altura de la raíz, altura de la períodontosis y altura de la translucidez radicular, por tres observadores distintos usando el mismo instrumento.

Las medidas directas realizadas fueron:

· La medida de la altura de la raíz (HR (mm)): se realizó desde el ápice hasta la unión del cemento-esmalte en la superficie vestibular. Véase Figura 2(a).

· La medida de la altura de la períodontosis (HPER (mm)): se aprecia como un área suave y amarillenta debajo del esmalte y es más oscura que éste, pero más clara que el resto de la raíz. Se realizó entre la unión cemento-esmalte y la línea de inserción del tejido blando. Véase Figura 2(b).

· La medida de la altura de la translucidez radicular (HTRANS (mm)): esta no aparece antes de los 20 años y se produce por el depósito de cristales de hidroxiapatita dentro de los túbulos dentinarios. Se realizó desde el ápice hasta la unión del cemento-esmalte en la superficie, haciendo uso de un negatoscopio para poder apreciar la zona de medida. Véase Figura 2(c) y 2(d).

Para realizar cada una de estas medidas se debe marcar con lápiz las zonas mencionadas; lo anterior sin destruir el diente. Cada una de las alturas medidas, se muestran en la Figura 2.

(a) Altura de la Raíz. (b) Altura de la Periodontosis.  (c) Altura de la Translucidez Radicular. (d) Altura de la translucidez radicular vista con negatoscopio Vilcapoma Guerra. (2014)
Figura 2.
(a) Altura de la Raíz. (b) Altura de la Periodontosis. (c) Altura de la Translucidez Radicular. (d) Altura de la translucidez radicular vista con negatoscopio Vilcapoma Guerra. (2014)

Posteriormente las medidas fueron realizadas con fines comparativos con el Macroscopio de Comparación marca LEICA Software: LAS V 4.10 (Rango: (0,4-8) X), como se observa en la Figura 3. Cabe mencionar que cada instrumento contaba con su debida calibración a la fecha. Adicionalmente, el Comité de Bioética de la Universidad Tecnológica de Pereira, avaló la realización del proyecto.

Alturas medidas con el macroscopio de comparación. (a) Incisivo lateral superior (b) Canino superior.
Figura 3.
Alturas medidas con el macroscopio de comparación. (a) Incisivo lateral superior (b) Canino superior.

A partir de las medidas realizadas se calcularon la Periodontosis (P) y la Translucidez radicular (T) usando (1) y (2), respectivamente.

(1)

(2)

La ecuación propuesta por Lamendin para estimar la edad biológica es presentada en (3):

(3)

En la Tabla 1, se presentan la información parcial tabulada para la construcción de cada una de las bases de datos de los instrumentos de medida propuestos.

Tabla 1.
Base de datos parcial e ilustrativa, realizada para cada instrumento con tres observadores. Los datos corresponden a un canino inferior.
ObservadorMuestraTipo de DienteHR (mm)HPER (mm)HTRANS (mm)PTEdadBiológicaEdad CronológicaRotulado
Observador 11Canino Inferior17,591,483,118,4117,683526143
217,571,5838,9917,073426
317,561,463,38,3118,793526
Observador 2117,531,271,567,248,903126
217,671,582,368,9413,363326
317,541,852,3310,5513,283326
Observador 3117,691,723,559,7220,063626
217,221,83,2710,4518,993526
317,611,753,459,9419,593626

Las edades cronológicas de los individuos y las edades biológicas, obtenidas por medio del método de Lamendin, fueron utilizadas para realizar el cálculo de la raíz del error medio cuadrático (RMSE), error absoluto y el cálculo del coeficiente de determinación.

B. Implementación de las 3 técnicas de aprendizaje de máquina supervisado

Las tres técnicas de aprendizaje de máquina supervisado básicas de regresión fueron: máquinas de soporte vectorial (SVM), procesos gaussianos por regresión (GPR) y conjuntos de árboles (Ensembles of Trees). Las bases de datos se construyeron a partir de las medidas directas realizadas por tres observadores expertos igualmente utilizadas para el método de Lamendin: HR (mm), HPER (mm), HTRANS (mm). Seguidamente, se calcularon las medidas indirectas para P y T. Se tomó un total 2592 medidas directas (3 medidas x 3 observadores x 3 atributos directos x 48 piezas dentales monorradiculares x 2 instrumentos) y 1728 indirectas (3 medidas x 3 observadores x 2 atributos indirectos x 49 piezas dentales monorradiculares x 2 instrumentos) para un total de 4320. Esto permitió obtener 432 instancias para cada instrumento de medida. En la Tabla 2 se presenta una muestra del conjunto de características usadas para construir la base de datos de cada uno de los instrumentos.

Tabla 2
Información parcial ilustrativa de las bases de datos, utilizada para implementar las técnicas de aprendizaje de máquina supervisado. Los datos corresponden a un canino inferior.
HR (mm)HPER (mm)HTRANS (mm)PTEdad Cronológica
17,591,483,118,4117,6826
17,571,5838,9917,0726
17,561,463,38,3118,7926
17,531,271,567,248,9026
17,671,582,368,9413,3626
17,541,852,3310,5513,2826
17,691,723,559,7220,0626
17,221,83,2710,4518,9926
17,611,753,459,9419,5926

En cuanto al método de validez, se usó validación cruzada con K=5. También se realizó selección de características para su reducción. Esta se hizo, dividiendo la información en tres grupos: medidas directas (HR (mm), HPER (mm), HTRANS (mm)), medidas indirectas (P y T) y el número total de características. La evaluación de los métodos se llevó a cabo en una computadora de escritorio con procesador core i5, memoria RAM de 16Gb, 1T disco duro y Windows 8. para la implementación y evaluación de los algoritmos de regresión de aprendizaje de maquina se usó MATLAB R2017a.

C. Técnicas de evaluación

Para evaluar el comportamiento de cada uno de las técnicas de aprendizaje de máquina supervisado utilizadas, se consideraron los errores: la raíz del error medio cuadrático (RMSE), error medio cuadrático (MSE), el coeficiente de determinación el error medio absoluto (MAE), error absoluto (E) y el error relativo .

La raíz del error medio cuadrático (RMSE), se define en (4) como Willmott & Matsuura. (2005):

(4)

El error medio cuadrático (MSE), se presenta en (5) como:

(5)

El coeficiente de determinación o , se determina como la medida del grado de fiabilidad o bondad del ajuste del modelo adaptado a un conjunto de datos Martinez Rodriguez. (2005). El error medio absoluto se ilustra en (6)Willmott & Matsuura. (2005).

(6)

Por otro lado, error absoluto (7) es el resultado de una medición menos un valor verdadero del mensurando JCGM 100. (2008).

(7)

El error relativo (8) es el error de medición dividido por un valor verdadero del mensurando JCGM 100. (2008).

(8)

: es el valor obtenido de la magnitud medida.

: es el valor verdadero de la magnitud medida.

III. Resultados y discusión

A. Estimación de la edad Biológica por medio del Método de Lamendin

Las edades biológicas obtenidas por medio del método de Lamendin, utilizando el pie de rey digital y el macroscopio de comparación se muestran en las Tablas 3 y 4.

Tabla 3
Edades biológicas calculadas por décadas (35 posibles edades cronológicas únicas) usando el método de Lamendin con el pie de rey digital como instrumento de medición.
Consecutivo de muestraEdad Biológica (años)Edad Cronológica (años)
15819
22821
33522
43324
53726
63427
73428
84129
93730
103532
114433
123736
135037
144238
153540
164841
174142
Consecutivo de muestraEdad Biológica (años)Edad Cronológica (años)
183943
194645
204046
214049
224250
234551
244953
254055
264258
274562
283764
294670
305271
315672
324675
334677
344379
355981

Tabla 4
Edades biológicas calculadas por décadas (35 posibles edades cronológicas únicas) usando el método de Lamendin con el macroscopio de comparación como instrumento de medición.
Número de EdadesEdad Biológica (años)Edad Cronológica (años)
15419
24021
33722
44624
53626
62827
73328
83129
93530
103132
113133
123936
133437
143138
154240
163541
174942
Número de EdadesEdad Biológica (años)Edad Cronológica (años)
184143
193445
204546
213749
224050
234551
244753
253555
264058
274462
283564
294470
304971
315372
324675
334377
344279
355181

En la gráfica de la Figura 4, se aprecian las barras de la raíz del error medio cuadrático, obtenido de la estimación de la edad biológica en la muestra.

Comparación de la raíz del error medio cuadrático usando el método de Lamendin estimado por cada instrumento en años.
Figura 4
Comparación de la raíz del error medio cuadrático usando el método de Lamendin estimado por cada instrumento en años.

En la gráfica de la Figura 5, se muestra el coeficiente de determinación, el cual se calculó para las edades biológicas obtenidas del método de Lamendin.

Coeficiente de determinación del método de Lamendin para cada instrumento.
Figura 5.
Coeficiente de determinación del método de Lamendin para cada instrumento.

Según lo expuesto en la Tablas 3 y 4, de las edades biológicas estimadas por el método de Lamendin y las Figuras 4 y 5; se evidenció que el instrumento de medición más pertinente para realizar la toma de medida de cada una de las alturas HR, HPER y HTRANS, en base al método de Lamendin, fue el pie de rey digital, la raíz de su error medio cuadrático se estimó de 15,52 años; este instrumento permitió realizar la medida de los dientes en sus tres dimensiones. Por el contrario, el macroscopio de comparación toma una imagen en dos dimensiones, lo que marca un leve aumento en la estimación de su RMSE el cual fue de 16,00 años.

B. Implementación de las 3 técnicas de aprendizaje de máquina supervisado

En este apartado se muestra la información obtenida de realizar el entrenamiento de las bases de datos haciendo uso de la aplicación Regression Learner y de un pie de rey como instrumento de medición en las Tablas 4, 5 y 6.

Los resultados obtenidos del entrenamiento, utilizando la selección de características: períodontosis y translucidez radicular, que se muestran en la Tabla 6. Estos evidencian que la técnica de aprendizaje de máquina procesos Gaussianos por regresión, en específico el kernel Exponential, se destacó por tener una raíz del error medio cuadrático de 8,99 años un coeficiente de determinación de 0,75; siendo esta la técnica que realizó la mejor predicción. En este caso se tiene que, para dos características, el que presentó una mayor velocidad de predicción fue: SVM Quadratic de 17000 obs/s. El modelo que menor tiempo de entrenamiento tuvo fue SVM Coarse Gaussian con 0,28701s.

Tabla 5
Resultados del entrenamiento con la base de datos del pie de rey con 2 características P y T.
MODELOSRESULTADOS
características: P y T.RMSE (años)Coeficiente de determinaciónMSE (años)2MAE (años)Velocidad de predicción (obs/s)Tiempo de entrenamiento (s)
ETBagged Tres10,020,69100,347,3741001,9613
Boosted Trees9,70,7194,067,0345002,4638
GPRExponential8,990,7580,845,86110002,5631
Matern 5/29,610,7192,366,48110002,5381
Rational Quadratic9,390,7388,216,2253009,3124
Squared Exponential9,960,6999,166,85120002,6984
SVMCoarse Gaussian14,540,34211,5410,68150000,28701
Cubic13,30,45177,019,77140001,6235
Fine Gaussian9,870,797,366,05150000,34771
Medium Gaussian10,930,63119,497,69150000,3195
Linear15,910,22253,1711,0897001,4376
Quadratic14,540,35211,3510,86170000,72458

Una vez más los resultados obtenidos del entrenamiento utilizando la selección de características: HR, HPER y HTRANS, que son mostrados en la Tabla 7, permiten verificar que la técnica de aprendizaje de máquina GPR Rational Quadratic arrojó un RMSE de 3,37 años y un R-squared de 0,96, siendo ella la que realizó la mejor predicción. En este caso se tiene que, para tres características, los modelos que presentaron una mayor velocidad de predicción fueron: SVM Quadratic y SVM Coarse Gaussian, ambos con 16000 obs/s. Por otro lado, el modelo que menor tiempo de entrenamiento entregó fue SVM Coarse Gaussian con 0,29378s.

Tabla 6
Resultados del entrenamiento con la base de datos del pie de rey con 3 características HR, HPER y HTRANS.
MODELOSRESULTADOS
Características: HR, HPER y HTRANS.RMSE (años)Coeficiente de determinaciónMSE (años)2MAE (años)Velocidad de predicción (Obs./s)Tiempo de entrenamiento (s)
ETBagged Tres9,220,7485,047,2538002,2513
Boosted Trees8,450,7871,486,2537002,6788
GPRExponential3,580,9612,851,88830014,185
Matern 5/23,690,9613,632,01110004,1169
Rational Quadratic3,370,9611,341,75270018,71
Squared Exponential3,840,9514,732,21120003,3164
SVMCoarse Gaussian15,180,29230,5211,05160000,29378
Cubic11,740,57137,738,5150002,6862
Fine Gaussian4,490,9420,22,95140000,40458
Medium Gaussian8,620,7774,316,37140000,34922
Linear15,810,23249,9911,2276001,8356
Quadratic13,830,41191,3710,49160000,6515

Los resultados obtenidos del entrenamiento en la aplicación Regression Learner utilizando selección de características: HR, HPER, HTRANS, P y T. Mostrados en la Tabla 8, medidos con el pie de rey digital, demuestran que la técnica de aprendizaje de máquina GPR exponential arrojó un RMSE de 3,94 años y un R-squared de 0,95, siendo esta la técnica que realizo la mejor predicción. En este caso se tiene que, para cinco características, el que presentó una mayor velocidad de predicción fue: Support Vector Machine Regression Coarse Gaussian con 16000 obs/s. Por otro lado, modelo que menor tiempo de entrenamiento tuvo fue Support Vector Machine Regression Coarse Gaussian con 0,27344s.

Tabla 7
Resultados del entrenamiento con la base de datos del pie de rey con 5 características HR, HPER, HTRANS, P y T.
MODELOSRESULTADOS
Características: HR, HPER, HTRANS, P y T.RMSE (años)Coeficiente de determinaciónMSE (años)2MAE (años)Velocidad de predicción (obs/s)Tiempo de entrenamiento (s)
ETBagged Tres8,020,864,265,9438002,5854
Boosted Trees7,260,8452,655,4123006,5732
GPRExponential3,940,9515,492,09110004,6326
Matern 5/24,350,9418,942,23100002,7825
Rational Quadratic40.9515.982,08320017,749
Squared Exponential4,850,9323,472,5120002,6514
SVMCoarse Gaussian15,070,3227,0710,85160000,27344
Cubic11,890,56141,377,781500061
Fine Gaussian5,050,9225,513,18150000,40331
Medium Gaussian8,330,7969,326,05150000,32848
Linear15,820,22250,3611,1629004,3699
Quadratic13,430,44180,329,77140002,4344

En la Figura 6, se muestra la tasa de error obtenida del entrenamiento de cada técnica de aprendizaje de máquina supervisado por regresión, haciendo uso del pie de rey como instrumento de medición. En este gráfico de barras, las azules representan los conjuntos de árboles, las rojas representan los procesos gaussianos y las verdes representan las máquinas de soporte vectorial. Para cada técnica de aprendizaje de máquina se tiene la información del kernel destacado según el número de características del entrenamiento.

Mejores tasas de la raíz del error medio cuadrático presentadas por las 3 técnicas de aprendizaje de máquina supervisado, utilizando los tres grupos de características de la base de datos del pie de rey digital.
Figura 6
Mejores tasas de la raíz del error medio cuadrático presentadas por las 3 técnicas de aprendizaje de máquina supervisado, utilizando los tres grupos de características de la base de datos del pie de rey digital.

Conforme a la Figura 6, claramente se puede apreciar que los procesos gaussianos representados por las barras rojas, se destacan por que su estimación de la tasa de error. Finalmente las máquinas de soporte vectorial y los conjuntos de árboles obtuvieron resultados de predicción menos favorables.

La información obtenida del entrenamiento realizado con las mediciones adquiridas con el macroscopio de comparación se observan en las Tablas 9, 10 y 11.

Los resultados obtenidos del entrenamiento utilizando selección de características: P y T. Mostrados en la Tabla 9, demuestran que la Técnica de aprendizaje de máquina GPR Rational Quadratic arrojó un RMSE de 10,33 años y un Coeficiente de determinación de 0,67. Siendo esta la técnica que realizo la mejor predicción. En este caso se tiene que, para dos características, los que tuvieron una mayor velocidad de predicción fueron: SVM Quadratic y SVM Cubic de 19000obs/s. El modelo que menor tiempo de entrenamiento tuvo fue SVM Coarse Gaussian con 0,25708s.

Tabla 8
Resultados del entrenamiento con los datos del Macroscopio de comparación con 2 características P y T.
MODELOSRESULTADOS
Características: P y TRMSE (años)Coeficiente de determinaciónMSE (años)2MAE (años)Velocidad de predicción (obs/s)Tiempo de entrenamiento (s)
ETBagged Tres12,060,55145.348,6343002,3693
Boosted Trees12,210,54149,048,6525007,7079
GPRExponential10,520,66110,66,63110002,9393
Matern 5/210,520,66110,716,62120003,1148
Rational Quadratic10,330,67106,736,44500010,174
Squared Exponential10,770,641166,89120002,818
SVMCoarse Gaussian15,320,27234,5610,89180000,25708
Cubic15,140,29229,1810,57190005,04
Fine Gaussian11,480,59131,826,96170000,30777
Medium Gaussian14,890,31221,2910,29160000,29039
Linear15,80,23249,6711,3110001,9312
Quadratic15,60,25243,2511,16190000,80896

Los resultados obtenidos del entrenamiento en la aplicación Regression Learner utilizando selección de características: HR, HPER y HTRANS; son mostrados en la Tabla 10, demuestran que la técnica de aprendizaje de máquina GPR Matern 5/2 arrojó un RMSE de 5,21 años y un R-squared de 0,92, siendo esta la técnica que realizo la mejor predicción. Para este caso se tiene que, para tres características, los modelos que tuvieron una mayor velocidad de predicción fueron: SVM Quadratic y SVM Coarse Cubic, con 17000 obs/s. El modelo que menor tiempo de entrenamiento tuvo fue SVM Coarse Gaussian con 0,3135s.

Tabla 9
Resultados del entrenamiento con la base de datos del macroscopio de comparación, en la aplicación Regression Learner con 3 características HR, HPER y HTRANS.
MODELOSRESULTADOS
Características: HR, HPER y HTRANSRMSE (años)Coeficiente de determinaciónMSE (años)2MAE (años)Velocidad de predicción (obs/s)Tiempo de entrenamiento (s)
ETBagged Tres9,450,7289,316,8831005,3777
Boosted Trees9,230,7485,146,5426004,9079
GPRExponential5,360,9128,732,56120003,1059
Matern 5/25,20,9227,12,44100002,8498
Rational Quadratic5,390,9129,052,4660008,771
Square dExponential5,350,9128,62,76110002,7535
SVMCoarse Gaussian15,050,3226,4910,7160000,3135
Cubic13,160,46173,179,261700012,334
Fine Gaussian5,910,8934,933,38130000,36159
MediumGaussian11,230,61126,137,62160000,45644
Linear15,330,27234,8810,96110001,3106
Quadratic14,830,32220,0710,4170001,5036

Los resultados obtenidos del entrenamiento en la aplicación Regression Learner utilizando selección de características: HR, HPER, HTRANS, P y T, mostrados en la Tabla 11, demuestran que la técnica de aprendizaje de máquina GPR Exponential arrojó un RMSE de 5,2 años y un R-squared de 0,92. En este caso se tiene que, para cinco características, los modelos que tuvieron una mayor velocidad de predicción fueron: SVM Quadratic y SVM Coarse Cubic, con 18000 obs/s. El modelo que menor tiempo de entrenamiento tuvo fue SVM Medium Gaussian con 0,29635s.

Tabla 10
Resultados del entrenamiento con la base de datos del macroscopio de comparación con 5 características HR, HPER, HTRANS, P y T.
MODELOSRESULTADOS
Características: HR, HPER, HTRANS, P y TRMSE (años)Coeficiente de determinaciónMSE (años)2MAE (años)Velocidad de predicción (obs/s)Tiempo de entrenamiento (s)
ETBagged Tres9,420,7288,816,7139002,2984
Boosted Trees9,270,7385,846,4329003,91186
GPRExponential5,210,9226,992,51120003,027
Matern 5/25,290,9127,942,64110002,452
Rational Quadratic5,230,9227,42,5853008,7505
Squared Exponential5,510,9130,372,87110002,5522
SVMCoarse Gaussian15,110,29228,3910,67150000,30469
Cubic11,830,57139,97,991800065,652
Fine Gaussian6,190,8838,373,47160000,339
Medium Gaussian11,710,58137,027,79160000,29635
Linear15,440,26238,4110,94100002,1526
Quadratic13,450,44181,029,21180007,5129

Al igual que en la Figura 6, en la Figura 7, se muestra la tasa de error obtenida del entrenamiento de cada técnica de aprendizaje de máquina supervisado por regresión, haciendo uso en este caso del macroscopio de comparación, como instrumento de medición. En este gráfico de barras, las azules representan los conjuntos de árboles, las rojas representan los procesos Gaussianos y las verdes representan las máquinas de soporte vectorial. Para cada técnica de aprendizaje de máquina se tiene la información del kernel destacado según el número de características del entrenamiento.

Mejores tasas de la raíz del error medio cuadrático presentadas por las 3 técnicas de aprendizaje de máquina supervisado, utilizando los tres grupos de características de la base de datos del macroscopio de comparación.
Figura 7.
Mejores tasas de la raíz del error medio cuadrático presentadas por las 3 técnicas de aprendizaje de máquina supervisado, utilizando los tres grupos de características de la base de datos del macroscopio de comparación.

En la Figura 8, se muestra la proyección del histograma de los datos representado en los boxplot. De esta se puede apreciar que los datos del Pie de Rey están menos dispersos y que su error promedio es menor comparado con el macroscopio de comparación.

Comparación de los errores absolutos estimados para el método de Lamendin con cada instrumento de medición.
Figura 8.
Comparación de los errores absolutos estimados para el método de Lamendin con cada instrumento de medición.

En la Tabla 12, están los datos obtenidos para cada instrumento, obtenidos de la comparación del método de Lamendin, respecto al error absoluto estimado, el mínimo, primer cuartil, la mediana, tercer cuartil y el máximo.

Tabla 11
Resultados del error absoluto, obtenido de la comparación del método de Lamendin con cada instrumento.
InstrumentoMínimoCuartil 1MedianaCuartil 3Máximo
Pie De Rey Digital0,145,238,1818,6138,46
Macroscopio De Comparación0,075,628,8016,9141,04

En la Figura 9, se tiene la proyección del histograma de los datos representado en los boxplot. Nuevamente, el Pie de Rey presenta un error absoluto promedio menor que el Macroscopio de comparación para la técnica de regresión Procesos Gaussianos.

Comparación de los errores absolutos estimados para la técnica de aprendizaje de máquina supervisado, con cada instrumento de medición.
Figura 9
Comparación de los errores absolutos estimados para la técnica de aprendizaje de máquina supervisado, con cada instrumento de medición.

En la Tabla 13, los datos obtenidos para cada instrumento, obtenidos de la comparación de la técnica de procesos gaussianos por regresión., respecto al error absoluto estimado, el mínimo, primer cuartil, la mediana, tercer cuartil y el máximo.

Tabla 12
Resultados del error absoluto, obtenido de la comparación de la técnica de procesos gaussianos por regresión.
InstrumentoMín.Cuartil 1MedianaCuartil 3Máx.
Pie De Rey Digital0,040,320,742,1428,68
Macroscopio De Comparación0,000,420,982,9725,69

IV. Conclusiones

El método clásico de Lamendin, en la literatura científica presenta usualmente un error medio de 10,00 años cuando se usaron muestras dentales monorradiculares de origen francés. En contraste, al utilizar muestras al utilizar muestras dentales monorradiculares de origen colombiano se presenta una tasa de error de 15,52 años, es decir, este método se ve afectado por las variaciones morfológicas, fisiológicas y ancestrales, según las características de la población. Como se evidencia en los resultados obtenidos por medio del Método de Lamendin, al usar el pie de rey y el macroscopio de comparación, como instrumento de medición se demuestra que el RMSE entre la edad biológica y la edad cronológica fue mucho mayor, en comparación con el error promedio obtenido por Lamendin et al.

Se puede concluir que el método de Lamendin es una ecuación estática simple, que usa mediciones directas para estimar la edad biológica de un sujeto; sin embargo, no es muy exacta en términos de predecir un valor cercano de la edad cronológica de la muestra de estudio colombiana.

Se concluye que para la predicción de la edad cronológica, fue posible ampliar el rango de estimación de la edad en adultos, de 19 años hasta los 81 años para adultos. En contraste con el rango de error definido por Lamendin que se encuentra definido entre 25 y 60 años.

Se concluye que el uso de aprendizaje de máquina supervisado, especialmente el modelo de regresión de procesos gaussianos es el más indicado para estimar la edad cronológica, porque permiten calcular la distribución predictiva, lo cual corresponde a la predicción media, al intervalo de confianza de las predicciones y la alta exactitud del modelo.

El realizar un análisis de selección de características previo, permitió evidenciar que este influye de manera significativa en los resultados de la estimación en términos de disminución del error. Se comprobó que las características más relevantes se encuentran en las medidas directas realizadas sobre la raíz del diente, y no en las características indirectas que usa el método de Lamendin.

Si bien la técnica de Lamendin es universalmente aceptada en la odontología forense, su raíz del error medio cuadrático en la estimación de la edad biológica está por encima de los valores propuestos cuando se aplica a una población colombiana. Por el contrario, la propuesta de aprendizaje de máquina utilizando procesos gaussianos por modelos de regresión, redujo la raíz del error medio cuadrático (RMSE) a 3,37 años en la estimación. Los autores de esta investigación proponen considerar esta técnica alternativa como una herramienta que brinda soporte científico a la estimación de la edad biológica en adultos a los administradores de justicia, y en especial a los colombianos donde las técnicas tradicionales entregan un marcado error.

Agradecimientos

El presente trabajo de investigación fue realizado bajo la asesoría, de las peritas odontólogas María del Pilar Ramírez Plitt y Yadira Roa Ruiz, servidoras del Laboratorio de Identificación Humana de la Fiscalía General de la Nación, Seccional Risaralda, a quienes los autores brindan su más sincero agradecimiento por el tiempo y disposición para guiar en todo momento el desarrollo y evolución de esta investigación.

De igual forma, se agradece a la perita odontóloga Luz Dary Escobar, por facilitar la muestra dental de estudio del presente proyecto.

Referencias

Morales, D.; Betancourt, C.; Mesa, L. (2010). Cálculo de la incertidumbre de medida al equipo de movimiento rectilíneo uniforme del grupo de investigación dicoped. Scientia et Technica, Issue 46, pp. 206-210.

Pretelt de la Vega, S. (2004). Código de Procedimiento Penal. Available at: https://www.oas.org/juridico/mla/sp/col/sp_col-int-text-cpp-2005.html [Último acceso: Noviembre 2017].

Prince, D. A.; Ubelaker, D. H. (2002). Application of Lamendin's adult dental aging Technique to a diverse skeletal sample. Journal Forensic Science, pp. 107-116.

Willmott, C.; Matsuura, K. (2005). Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance. Climate research, Volumen 30, pp. 79-82.

Alvarado Garcia, A. M.; Salazar Maya, A. M. (2014). Análisis del concepto de envejecimiento. Gerokomos., 25(2), pp. 57-62.

Baviera, T. (2017). Técnicas para el análisis del sentimiento en Twitter: Aprendizaje Automático Supervisado y SentiStrength. Revista Dígitos, 1(3), pp. 33-50.

Bedoya, O.; Bustamante, S. (2011). CNN-PROMOTER, NEW CONSENSUS PROMOTER PREDICTION PROGRAM BASED ON NEURAL NETWORKS. Revista EIA, 8(15), pp. 153-164.

Drucker, H.; Burges, C. J. C.; Kaufman, L.; Smola, A.; Vapnik, V. (1997). Support vector machine. Advances in neural information processing systems, Enero.pp. 155-161.

Foti, B.; Adalian, P.; Signoli, M.; Ardagna, Y. (2001). Limits of the Lamendin method in age determination. Forensic Science International, pp. 101-106.

Garcia Cambronero, C.; Gomez Moreno, I. (2006). Algoritmos de aprendizaje: KNN & KMEANS. [Inteligencia en Redes de Telecomuncicación, Universidad Carlos III de Madrid..

Guyon, I., Elisseeff, A. (2003). An Introduction to Variable and Feature Selection. Journal of Machine Learning,pp. 1157-1182.

JCGM 100. (2008). Guide to the expression of uncertainty in measurement. En: J. C. f. G. i. Metrology, ed. Evaluation of measurement data. s.l.:s.n., pp. 36-37.

Krenzer, U. (2005). Odontología forense. En: Tomo VI Antropología Dental. Guatemala: CAFCA, pp. 52-58.

Krenzer, U. (2006). Cambio en las dientes. En: Tomo III Estimación de la edad Osteológica en adultos. Guatemala: CAFCA, pp. 14-16.

Lamendin, H.; Baccino, E.; Humbert, J. F.; Tavernier, J. C.; Nossintchouk, R. M.; Zerilli, A. (1992). A simple Technique for age estimation in adult corpses: The two criteria dental method. Journal of forensic sciences, pp. 1373-1379.

Martinez Rodriguez, E. (2005). Errores frecuentes en la interpretación del coeficiente de determinación lineal. Anuario jurídico y económico escurialense, Issue 38, pp. 315-331.

Pelaez Chávez, N. (2012). Aprendizaje no supervisado y el algoritmo WAKE-SLEEP en redes neuronales. s.l.:s.n.

Suárez Ponce , D. G. (2014). Reconstrucción osteobiográfica. Odontología Sanmarquina, pp. 44-46.

Tobón, I.; Cortés, J. (2018). Identificación de instrumentos musicales de cuerdas pulsadas de la región andina colombiana en solo, mediante técnicas de aprendizaje de máquina. Revista EIA, 15(30), pp. 177-193.

Vapnik, V.; Golowich, S.; Smola, A. (1997). Support Vector Method for Function Approximation, Regression Estimation, and Signal Processing. Advances in neural information processing systems, pp. 281-287.

Vilcapoma Guerra, H. J. (2012). Método dental modificado para la estimación de la edad en individuos adultos. Odontología Sanmarquina, pp. 27-30.

Witten, I. H.; Frank, E.; Hall, M. A. (2011). Cross Validation. En: Data Mining Practical Machine Learning. USA: Morgan Kaufmann, pp. 152-154.

Witten, I. H., Frank, E., Hall, M. A. (2011). Ensemble learning. En: Data Mining Practical Machine Learning. s.l.:Morgan Kaufmann, pp. 352-362.

HTML generado a partir de XML-JATS4R por