Resumen: Estimación de proteína en semolina de arroz, mediante aplicación de regresiones en el infrarrojo cercano . El objetivo de este trabajo fue la comparación empírica de las técnicas de regresión por mínimos cuadrados parciales (MCP) y por componentes principales (RCP) en la predicción del porcentaje de proteína para la semolina de arroz. Las estimaciones se realizaron utilizando los valores de absorbancia en la zona del infrarrojo cercano. Se obtuvieron 135 muestras de semolina de arroz recolectadas entre el 2004 y 2012, procedentes de diversas fábricas para la elaboración de alimentos para animales en Costa Rica. Se validó la convergencia de los resultados mediante técnicas de simulación de Bootstrap. Las observaciones se dividieron en dos grupos: un conjunto de datos para la estimación del mejor modelo de regresión (n=120), y un conjunto de datos de validación (n=15). Para el conjunto de datos de estimación, los modelos presentaron dificultades a nivel de los valores extremos, lo cual produjo la eliminación de un valor para obtener el mejor modelo en el caso del MCP. En la validación de los modelos de regresión, los estadísticos de bondad y de ajuste del error estándar de predicción de medias (EEPM), la raíz del error estándar de predicción de medias (REEPM), el error estándar de predicción (EEP), la razón de desviación de predicción (RDP) y gráficos de valores observados contra predichos, confirmaron mejores ajustes para la regresión por MCP (EEP=0,304) respecto al RPC (EEP=0,312). El método de simulación mostró una mejor convergencia en los resultados de la regresión por MCP para predecir el porcentaje de proteína en la semolina de arroz.
Palabras clave:regresión por componentes principalesregresión por componentes principales, mínimos cuadrados parciales mínimos cuadrados parciales, espectroscopia del infrarrojo cercano espectroscopia del infrarrojo cercano, Bootstrap Bootstrap.
Abstract: Estimate of protein content in rice semolina by applying regressions in the near infrared region . The objective of this study was the empirically compare the partial least squares (PLS) regression model and the principal components regression (PCR) model to predict the protein percentage in rice semolina. The estimates were carried out using the absorbance values in the near infrared region. 135 samples of rice semolina were collected between 2004 and 2012 from several pet food plants in Costa Rica. The convergence of the results was validated through Bootstrapping techniques. The observations were split in two groups: one data set to estimate the best regression model (n=120) and a data set of validation (n=15). The models estimated in the data set showed difficulties with outliers, consequently an observation was removed to obtain the best PLS model. In the validation of the regression model, the goodness of fit referred to statistics of the mean standard error of prediction (MSEP), the root mean square error of prediction (RMSEP), the standard error of prediction (SEP), the ratio of performance to deviation (RPD), and the graphics of observed against predicted values confirmed better adjustments for the PLS regression (SEP=0.304) in comparison to the PCR model (SEP=0.312). The simulation method showed a better convergence in the results of the PLS regression technique, to predict the percentage of protein in rice semolina.
Keywords: principal components regression, partial least squares, near infrared spectroscopy, Bootstrap.
Estimación de proteína en semolina de arroz, mediante aplicación de regresiones en el infrarrojo cercano1
Estimate of protein content in rice semolina by applying regressions in the near infrared region
Recepción: 02 Septiembre 2015
Aprobación: 10 Noviembre 2015
La semolina de arroz es un subproducto procedente del grano de arroz entero, que se obtiene a partir de la fricción del grano de arroz, al ser sometido a una máquina “descascaradora” (Campabadal y Murillo, 1985a). Formada principalmente por las capas aleurónicas del grano, la semolina representa todos los pulimentos que se eliminan del grano después de que este es despojado de la cáscara (lema y palea, también conocido popularmente como cascarilla). Al final de este proceso, se obtiene la semolina de arroz, una harina pajosa de color crema, con composiciones ligeramente grasosas (Campabadal et al., 1982; Campabadal y Murillo, 1985b).
Conocer los parámetros de nutrición o la composición química de la semolina de arroz es fundamental en la elaboración de las dietas destinadas a los animales. La optimización en el crecimiento o engorde de los animales, dependerá de los porcentajes promedio aplicados en las dietas de alimentación (Carmiol et al., 1982). La aplicación de dietas sin conocer la composición química, no solo limitaría los procesos de crecimiento en los animales, sino que también podría tener consecuencias en la digestión de los animales y ocasionar posibles perjuicios en las personas (Sauvant, 2005; Guyomard et al., 2006; FAO, 2010).
Al determinar la composición química de un producto, existen dos enfoques de la química analítica. El primero es el clásico, en el cual se utilizan herramientas tales como pipetas, buretas, matraces, balanzas, entre otros, para así conocer mediante determinados métodos la composición química. El segundo es el instrumental, el cual se basa en la interacción entre la energía y la materia, para lograr caracterizar esta última (Workman et al., 2003; Rouessac, 2004).
La aplicación de la química analítica instrumental necesita conceptos físicos en la interacción de la materia, la delimitación de una zona en el espectro electromagnético, la aplicación de una técnica en la extracción de la información, la utilización de algoritmos para la correcta lectura de la información y la utilización de equipos especiales para la obtención de la composición química de la materia (Bro, 1996; Büning-Pfaue, 2003). En este enfoque, una de las técnicas de extracción es la espectroscopia del infrarrojo cercano, la cual mide la interacción de la luz del infrarrojo cercano con la nube electrónica en los enlaces químicos (Rouessac y Rouessac, 1998; Blanco, 2002). Esta se fundamenta en la absorción de la radiación infrarroja en un material de análisis, permitiendo, por medio de la detección de vibraciones, caracterizar ciertos enlaces químicos y efectuar los análisis de las funciones químicas expuestas en un producto (Dubernet y Dubernet, 2000; Otto, 2007).
El análisis efectuado por química analítica instrumental permite obtener resultados en un tiempo considerablemente menor con un grado de precisión aceptable. Para la determinación de la composición química, se necesita el análisis empírico de las observaciones extraídas de la interacción de la materia, o la información física (Tippens, 2001). Usualmente, se suelen presentar archivos de datos con más de 500 variables. En el caso de la espectroscopia del infrarrojo cercano, se poseen mediciones de absorbancia en las longitudes de onda, las cuales, por su naturaleza, son medidas que están altamente correlacionadas entre ellas al tratarse de observaciones consecutivas en el espectro electromagnético de la zona del infrarrojo cercano (Kubista et al., 1993; Blanco, 2002).
Los métodos de reducción de variables en las técnicas de regresión, tales como la regresión por componentes principales (RCP) y por mínimos cuadrados parciales (MCP), son dos opciones que permiten analizar datos de absorbancia provenientes de la zona del infrarrojo cercano (Ergon y Esbensen, 2002). Estos métodos brindan una adecuada reducción de la dimensión de las variables, además de crear componentes ortogonales, lo cual eliminaría las dificultades de alta multicolinealidad (Ergon, 2003; Ergon, 2006). El objetivo de este trabajo fue la comparación empírica de las técnicas de regresión por mínimos cuadrados parciales (MCP) y por componentes principales (RCP) en la predicción del porcentaje de proteína para la semolina de arroz.
Materiales
Para la aplicación de las técnicas de regresión, la variable dependiente correspondió a la medición del porcentaje de proteína en la semolina de arroz mediante química húmeda. Las variables independientes se obtuvieron mediante el método de espectroscopia en la zona del infrarrojo cercano; se extrajeron los valores de absorbancia para cada longitud de onda, utilizando un espectrómetro infrarrojo. Los análisis de regresión se realizaron en SAS 9.4, mediante la PROC SQL, PROC MCP y macro programas para la sección de simulación de Bootstrap.
El presente estudio contó con 135 muestras de semolina de arroz recolectadas entre el 2004 hasta el 2012, procedentes de diversas fábricas para la elaboración de alimentos de nutrición animal en el territorio de Costa Rica, en diferentes épocas del año.
Métodos de estimación
El método de regresión por componentes principales (RCP) se define como la descomposición de la matriz X en puntajes T y cargas factorial P de la siguiente forma:
Se regresa la variable dependiente Y respecto a una matriz ortogonal Xj, produciendo una disminución de las variables que corresponden a las primeras j columnas de los puntajes T. La descomposición se expresa como:
Xj ≈ Xj + εX = TaPʹa+εX
En este caso, T representa los puntajes, P el vector de cargas factorial y e el vector de error específico. Los valores de Xj logran describir lo mejor posible la matriz Xp, tal como en el análisis de componentes principales (Beebe, 1987).
Al regresar la Y en los puntajes T y el cambio de base B, la ecuación para los coeficientes de regresión se expresa como:
Para el método de regresión por MCP, se prosigue de la siguiente forma:
1. Se define el valor de la matriz X.
2. Se define el valor de la matriz Y.
3. Se define el valor de la matriz S.
S=XʹY
4. Se calculan los vectores singulares de la Matriz S; el primer vector izquierdo y derecho, w y q (los pesos para la matriz X y vector Y ), son usados como ponderaciones para X y para Y , y de esta forma se obtienen los puntajes t y u , tal que:
t = Xw = Ew
u = Yq = Fq
E y F son los valores inicializados de X y de Y respectivamente, expresados como:
X0 = E
Y0 = F
5. Los puntajes t de X , se normalizan, tales que:
6. Seguidamente se obtienen las cargas iniciales de X y de Y regresando esta contra el vector de t , para así obtener los nuevos vectores p y q :
p = E’t
q = F’t
La matriz de datos debe ser corregida: la información relacionada con las variables latentes que provienen de la forma de los productos tp’ y tq’ , es restada de los datos actuales de la matriz E y F , tal que:
En+1 = En - tpʹ
Fn+1 = Fn - tpʹ
7. Las estimaciones del próximo componente comienzan con la descomposición del valor singular del producto de la matriz En+1 y Fn+1 . Es decir:
S = X1ʹY1 = (En+1)ʹ(Fn+1)
En cada iteración los vectores w, t, p y q son almacenados como columnas en matrices W, T, P y Q , respectivamente.
8. Las columnas de la matriz W no pueden ser comparadas directamente y deben ser derivadas de la corrección sucesiva de las matrices E y F . Se relacionan los valores de todas las columnas de la matriz X , y luego se establece la siguiente descomposición:
R = W(PʹW)-1
9. Se llega a los mismos resultados del RCP: en lugar de Y con X , se utilizan los puntajes T para calcular los coeficientes de regresión, luego se convierten estos de vuelta al campo de las variables originales, pre multiplicando estos por la matriz R (dado que T = XR ). Finalmente, la estimación de los coeficientes estaría dada por la función (Tenenhaus, 1995; Mevik y Cederkvist, 2004):
La diferencia en la estimación de los betas es que en el RCP se utiliza la matriz P , mientras que en el MCP se utiliza la matriz R , la cual incluye la información de la variable dependiente Y en los procesos de estimación.
Metodología de análisis
El análisis de regresión del porcentaje de proteína en la semolina de arroz se llevó a cabo de la siguiente forma. Primero se dividió el archivo de datos en dos partes: un conjunto para estimar el modelo de regresión2, y el otro conjunto para validar los modelos estimados3 (Martens y Naes, 1989). En la estimación de los modelos de regresión se definió previamente el número de componentes a ser utilizados. Seguidamente, se analizaron los supuestos del modelo, para lo cual se realizaron los diagnósticos respectivos. Diversos modelos eran candidatos en ambas técnicas de regresión, por lo que se calcularon estadísticos de bondad y de ajuste para definir el mejor modelo de regresión según cada técnica. Posteriormente, se realizaron las predicciones del conjunto de validación. Se calcularon los estadísticos de bondad y de ajuste para cada uno de los conjuntos de validación con el fin verificar cuál modelo brindó los mejores resultados (Neter et al., 1996). Finalmente, al poseer una pequeña muestra de casos, se verificó la convergencia de los estadísticos de bondad y de ajuste. Para esto se realizaron simulaciones de Bootstrap modificando a su vez el número de componentes con el objetivo de comprobar la sensibilidad de los resultados (Efron y Gong, 1983; Efron et al., 2004).
Estadísticos de bondad y de ajuste
Para la selección del número de componentes, se utilizaron los estadísticos de la raíz media del PRESS, la T de Hotelling y el R2. Estos se definen a continuación (Tenenhaus, 1998):
Por otra parte, los estadísticos de bondad y de ajuste utilizados son el error estándar de predicción media (EEPM4), la raíz del error estándar de predicción media (REEPM5), el error estándar de predicción (EEP6) y la razón de desviación de predicción (RDP7). Cada estadístico se define según la siguiente fórmula (Mevik y Cederkvist, 2004):
El estadístico de Hotelling y el menor valor de PRESS indicaron mejores soluciones para el modelo por MCP que se plantea para once componentes principales. Sin embargo, la Figura 1 muestra que la solución óptima argumentó a favor de diez componentes principales estimados; análisis posteriores (diagnósticos y estadísticos de bondad y de ajuste) apoyaron la solución de once. Una estimación del modelo con once componentes brindó un porcentaje de variancia explicada del 92,2%. Para el caso del RCP el estadístico de Hotelling y el menor valor de PRESS, indicaron que las mejores soluciones se hallaron en trece componentes principales. La Figura 2 muestra que la solución óptima fue para nueve. Análogamente, análisis posteriores favorecieron la solución de dos cifras. Una solución de trece componentes brindó un porcentaje de variancia explicada del 85,1%. Por consiguiente, los modelos por MCP y RCP se estimaron para once y trece componentes, respectivamente.
Figure 1. Selection of the number components in the partial least squares (PLS) model to predict the protein percentage in rice semolina. Costa Rica. 2012.
Figure 2. Selection of the number of components in the principal components regression model (PCR) to predict the protein percentage in rice semolina. Costa Rica. 2012.
Diagnóstico de los modelos de regresión
En el caso de la regresión por MCP, los diagnósticos del modelo presentaron dificultades para el análisis de los valores extremos. El análisis de normalidad, heteroscedasticidad y linealidad fueron satisfactorios, al igual que todos los diagnósticos para el caso de la regresión por RCP. Sin embargo, se constató que una misma observación constituyó un posible punto de influencia en ambos modelos de regresión. No se utilizó ninguna medida remedial dado el cumplimiento satisfactorio de los supuestos. No obstante, se decidió estimar los modelos de regresión sin el valor extremo y con todos los casos en ambos métodos de regresión, para verificar la posible mejora a nivel de los estadísticos de bondad y de ajuste.
Valoración de los primeros modelos estimados
En el caso del método por MCP, se observó cómo los estadísticos del EEPM, REEPM y el EEP atribuyeron los resultados óptimos al modelo con once componentes sin la observación extrema (Cuadro 1). Este modelo fue utilizado para predecir las observaciones del conjunto de validación. Por otra parte, de acuerdo con el método por RCP los mejores resultados, según los estadísticos de EEPM, EEPM y EEP, fueron para un modelo con trece componentes, con todas las observaciones (Cuadro 2). De esta forma, este modelo se utilizó para predecir los valores del conjunto de validación.
Table 1. Goodness of fit measures of partial least squares (PLS) to estimate the percentage of protein in rice semolina in the regression model estimation set. Costa Rica. 2012.
n n: número de muestras, EEPM: error estándar de predicción media, REEPM: raíz del error estándar de predicción media, EEP: error estándar de predicción / n: sample size, MSEP: mean standard error of prediction, RMSEP root mean square error of prediction, SEP: standard error of prediction.
Table 2. Goodness of fit measures in regression model estimation set to determine the best model in principal components regression (PCR) model to predict the percentage of protein in rice semolina. Costa Rica. 2012.
n n: número de muestras, EEPM: error estándar de predicción media, REEPM: raíz del error estándar de predicción media, EEP: error estándar de predicción / n: sample size, MSEP: mean standard error of prediction, RMSEP: root mean square error of prediction, SEP: standard error of prediction.Estadísticas de bondad y de ajuste en el conjunto de validación
De acuerdo con las Figuras 3 y 4 de los valores observados contra los valores predichos, se observó que ambos modelos de regresión estimaron correctamente los valores del porcentaje de proteína en el conjunto de validación. Todas las observaciones se encontraban dentro de los límites estadísticos; además, la totalidad de las predicciones fueron inferiores al EEP establecido como límite de confianza. Por otra parte, los estadísticos de bondad y de ajuste para el conjunto de validación en la comparación de los métodos por MCP y RCP, constataron que los estadísticos de EEPM, REEPM y EEP presentaron mejores valores con el método de MCP (Cuadro 3). De igual forma, el RDP argumentó a favor del MCP como mejor método de estimación en el conjunto de validación.
Figure 3. Observed against predicted values in the validation of the estimated models for the prediction of protein percentage in rice semolina in the partial least squares (PLS) model. Costa Rica. 2012.
Figure 4. Observed against predicted values in the validation of the estimated models for the prediction of protein percentage in rice semolina in the principal components regression (PCR) model. Costa Rica. 2012.
Table 3. Goodness of fit measures to predict the percentage of protein in rice semolina on the validation of the estimated models according to the partial least squares (PLS) model and principal components regression (PCR) model. Costa Rica. 2012.
n número de muestras, DS: desviación estándar, EEPM: error estándar de predicción media, REEPM: raíz del error estándar de predicción media, EEP: error estándar de predicción, RPD: razón de predicción predicha / n: sample size, SD: standard deviation, MSEP: mean standard error prediction, RMSEP: root mean square error prediction, SEP: standard error of prediction, RPD: ratio of performance to deviation.Análisis de convergencia de los estadísticos: simulaciones por Bootstrap
Los resultados de convergencia de los dos métodos de regresión indicaron que, en el caso del MCP, a partir de un tamaño de 50 000 todos los estadísticos del EEP se estabilizaron (Cuadro 4). El valor del EEP simulado fue concordante con el valor estimado (EEP=0,471); en el caso del RCP, también a partir de 50 000 re-muestreos todos los estadísticos del EEP se estabilizaron (Cuadro 5). El valor del EEP simulado por el Bootstrap fue ligeramente sobrestimado de 0,02 con respecto al EEP estimado.
Table 4. Analysis of convergence for the statistic of the standard error of prediction (SEP) in the partial least squares (PLS) model. Costa Rica. 2012.
Table 5. Analysis of convergence for the statistic of standard error of prediction (SEP) in the principal components regression (PCR) model. Costa Rica. 2012.
Dada la relación lineal de la variable dependiente y los componentes ortogonales creados a partir de las regresiones por MCP y RCP, la estimación y el arreglo de ciertas características en los modelos de regresión fue suficiente para obtener resultados satisfactorios en las predicciones de ambos métodos, corroborando desde diversos enfoques analíticos, para la presente aplicación, la mejor estimación del porcentaje de proteína en la semolina de arroz para el método por MCP. Las múltiples relaciones que se pueden dar en los estudios NIR han provocado el desarrollo constante de nuevas técnicas de estimación, aún más reciente que el MCP y RCP, así como otros métodos para poder asociar los datos químicos y físicos. Las técnicas más novedosas de regresión fueron capaces de determinar cualquier tipo de relación asimétrica en las variables, aunque no se pudo interpretar la relación obtenida por las ecuaciones (Dos Santos, 2009).
Figure 1. Selection of the number components in the partial least squares (PLS) model to predict the protein percentage in rice semolina. Costa Rica. 2012.
Figure 2. Selection of the number of components in the principal components regression model (PCR) to predict the protein percentage in rice semolina. Costa Rica. 2012.
Table 1. Goodness of fit measures of partial least squares (PLS) to estimate the percentage of protein in rice semolina in the regression model estimation set. Costa Rica. 2012.
n n: número de muestras, EEPM: error estándar de predicción media, REEPM: raíz del error estándar de predicción media, EEP: error estándar de predicción / n: sample size, MSEP: mean standard error of prediction, RMSEP root mean square error of prediction, SEP: standard error of prediction.Table 2. Goodness of fit measures in regression model estimation set to determine the best model in principal components regression (PCR) model to predict the percentage of protein in rice semolina. Costa Rica. 2012.
n n: número de muestras, EEPM: error estándar de predicción media, REEPM: raíz del error estándar de predicción media, EEP: error estándar de predicción / n: sample size, MSEP: mean standard error of prediction, RMSEP: root mean square error of prediction, SEP: standard error of prediction.Figure 3. Observed against predicted values in the validation of the estimated models for the prediction of protein percentage in rice semolina in the partial least squares (PLS) model. Costa Rica. 2012.
Figure 4. Observed against predicted values in the validation of the estimated models for the prediction of protein percentage in rice semolina in the principal components regression (PCR) model. Costa Rica. 2012.
Table 3. Goodness of fit measures to predict the percentage of protein in rice semolina on the validation of the estimated models according to the partial least squares (PLS) model and principal components regression (PCR) model. Costa Rica. 2012.
n número de muestras, DS: desviación estándar, EEPM: error estándar de predicción media, REEPM: raíz del error estándar de predicción media, EEP: error estándar de predicción, RPD: razón de predicción predicha / n: sample size, SD: standard deviation, MSEP: mean standard error prediction, RMSEP: root mean square error prediction, SEP: standard error of prediction, RPD: ratio of performance to deviation.Table 4. Analysis of convergence for the statistic of the standard error of prediction (SEP) in the partial least squares (PLS) model. Costa Rica. 2012.
Table 5. Analysis of convergence for the statistic of standard error of prediction (SEP) in the principal components regression (PCR) model. Costa Rica. 2012.