Servicios
Servicios
Buscar
Idiomas
P. Completa
Estimación de parámetros en el modelo estadístico lineal de rango incompleto a través de la inversa generalizada: ventajas, desventajas y análisis.
Felvir Rivas
Felvir Rivas
Estimación de parámetros en el modelo estadístico lineal de rango incompleto a través de la inversa generalizada: ventajas, desventajas y análisis.
Estimation of parameters in the linear statistical model of incomplete range through the generalized inverse: advantages, disadvantages and analysis.
Ciencia e Ingeniería, vol. 39, núm. 3, pp. 231-238, 2018
Universidad de los Andes
resúmenes
secciones
referencias
imágenes

Resumen: En un modelo de rango incompleto la matriz del sistema de ecuaciones normales no tiene inversa ordinaria y por lo tanto se origina un problema para encontrar los estimadores del parámetro ya que, a pesar de ser un sistema de ecuaciones consistente, admite infinitas soluciones. Para dar solución a dicho problema se recurre a ciertas técnicas, las más comunes son aquellas donde se hacen restricciones sobre los parámetros, a pesar de que al utilizar estas restricciones se pueden obtener diferentes resultados. Por tal razón, cuando se trabaja con un modelo de rango incompleto deben de considerarse solo parámetros o funciones de parámetros que tengan estimadores idénticos. La inversa generalizada o condicional es una alternativa para dar solución al sistema de ecuaciones normales en un modelo de diseño de rango incompleto sin realizar restricciones sobre los parámetros. En este trabajo se comparan los parámetros estimados en el modelo estadístico lineal de rango incompleto a través de la inversa generalizada (o condicional) con los estimados por vía mínimos cuadrados y máxima verosimilitud, por medio del coeficiente de determinación y los intervalos de confianza. Se encontró que los métodos de estimación empleados están uniformes en cuanto a resultados, ya que el vector de respuesta es el mismo a pesar de que el vector de parámetros estimado es diferente por cada vía. El método de estimación por inversa generalizada da un coeficiente de determinación del modelo similar a los otros métodos de estimación utilizados, sin embargo fue en éste donde se obtuvo la longitud más pequeña de los intervalos de confianza de los parámetros, y el método más deficiente fue el modelo reducido.

Palabras clave:Modelo estadístico lineal de rango incompletoModelo estadístico lineal de rango incompleto, inversa generalizada inversa generalizada, método de mínimos cuadrados método de mínimos cuadrados, método de máxima verosimilitud método de máxima verosimilitud, funciones estimables funciones estimables.

Abstract: In an incomplete model range the matrix of normal equations system has no ordinary inverse and therefore it causes a problem to find the estimators of the parameter , since, although being a consistent equations system, admits infinite solutions. To solve this problem resorts to certain techniques, the most common are those where restrictions are made about parameters, although using these restrictions can get different results. For this reason, when working with an incomplete model range should be considered only parameters or functions of parameters having identical estimators. The generalized inverse or conditional is an alternative to solve the system of normal equations in a model of incomplete design range without making restrictions on the parameters. In this work compares the estimated parameters in the statistical model range line incomplete through the generalized inverse (or conditional) with estimated minimal squares route and maximal likelihood, using the coefficient of determination and confidence intervals. It found that the estimation methods used are uniforms in terms of results, as the response vector is the same even though the estimated parameter vector is different for each route. The estimation method for generalized inverse gives a determination coefficient of the similar model to the others estimation methods used, however this was where it got the shorter length of the confidence intervals of the parameters, and the most deficient method was the reduced model.

Keywords: Statistical lineal model of incomplete range, generalized inverse, minimal square method, maximal likelihood method, estimable functions.

Carátula del artículo

Artículos

Estimación de parámetros en el modelo estadístico lineal de rango incompleto a través de la inversa generalizada: ventajas, desventajas y análisis.

Estimation of parameters in the linear statistical model of incomplete range through the generalized inverse: advantages, disadvantages and analysis.

Felvir Rivas
Universidad Nacional Experimental de los Llanos Occidentales Ezequiel Zamora, Venezuela
Ciencia e Ingeniería, vol. 39, núm. 3, pp. 231-238, 2018
Universidad de los Andes

Recepción: 30 Julio 2017

Aprobación: 01 Marzo 2018

1 Introducción

El problema de estimación en un modelo lineal de rango incompleto puede ser abordado mediante el concepto de estimabilidad de Bose (Bose 1959), concepto que es discutido con cierto detalle Graybill (Graybill1976). En este modelo estadístico, se presta menor atención a la presentación y desarrollo de la hipótesis lineal general; concretamente al problema de las condiciones que deben cumplir las funciones que componen dicha hipótesis. Cuando se trata el problema se suele suponer la condición de estimabilidad de las funciones componentes (Searle 1997) ya que el numerador del test F que se espera, por analogía al caso de rango completo, seria invariante frente a las infinitas soluciones de las ecuaciones normales.

La estimación de parámetros se realiza mediante el de Análisis de Varianza, y este a su vez es una consecuencia de los métodos de mínimos cuadrados o máxima verosimilitud, los cuales garantizan estimaciones insesgadas. El problema radica cuando la matriz de diseño es de rango incompleto, ya que el número de parámetros a estimar es superior al número de ecuaciones distintas no colineales que pueden ser planteadas.

Existen y se estudiaran tres formas de solucionar el problema:

  • Reparametrizar.

    Imponer restricciones a las soluciones para aumentar el rango columna de X. Serán tantas restricciones comop-rang(x).

    Utilizar la inversa generalizada o la inversa condicional.

Aunque cualquiera de estas alternativas funciona, en el sentido que se obtienen “buenas” estimaciones de los parámetros, la última forma permite un tratamiento teórico más consistente y general, debido a que considera todas las ecuaciones del sistema de ecuaciones normales y no usa funciones lineales de los parámetros no estimables, por lo que se hará especial énfasis en este caso, y comparar con los otros, desde el punto de vista del coeficiente de determinación y la longitud de los intervalos de confianza.

2 Marco Teórico

Los datos corresponden a un Trabajo de Investigación “Cambios en la actividad biológica del suelo e influencia del tipo de uso de la tierra sobre la fertilidad del suelo” de la Universidad Nacional Experimental Francisco de Miranda del Estado falcón.

Se plantea un diseño factorial 2x3 con efectos fijos e interacción, es decir, un diseño con dos factores A y B, con dos niveles el primer factor a1y a2, tres niveles para el segundo factor b1, b2 y b3.

El modelo viene dado por:

(1)

donde

X es la matriz de diseño.

El modelo también puede ser escrito como:

donde

Yijk =Cambio de la actividad biológica del suelo e influencia del tipo de uso de la tierra sobre la fertilidad del suelo en la escuela técnica San Luis, estado Falcón.

μ =

τ i = Efecto del i - ésimo implante la media global

α j = Efecto del j - ésimo balance de nitrógeno sobre la media global

( τ α )ij = Efecto combinado del i - ésimo implante y el j - ésimo balance de nitrógeno sobre la media global.

ε ijk = Error experimental aleatorio asociado ali - ésimo implante, el j- ésimo balance de nitrógeno en la k - ésima réplica.

La matriz de diseño, es una matriz de orden x de rango 6, por lo tanto se tiene un modelo de diseño de rango incompleto por columnas.

Se sabe que el método mínimos cuadrados y el método de máxima verosimilitud (bajo el supuesto de normalidad) conducen al mismo sistema de ecuaciones (XtX) β =XtY. Ahora bien, como se está trabajando con un modelo de rango incompleto (XtX)-1 no existe, es por ello que para resolver el problema se analizarán los enfoques señalados en este trabajo que son: mediante un modelo reducido, a partir de funciones estimables o mediante restricciones identificables sobre los coeficientes del modelo. También se analizará utilizando la inversa generalizada y condicional para así comparar dichos métodos por medio del coeficiente de determinación y los intervalos de confianza de cada β .

3 Resultados y Discusión
3.1 Modelo reducido.

Se tomará X1 la matriz de orden (90 x 6) con las 6= rang columnas (X) linealmente independientes de la matriz de diseño XyX2 la matriz de orden (90x6) formada con las demás columnas de X, es decir,

X1 = [ Xi1Xi2Xi4Xi5Xi7Xi8], para i = , 2, ..., 90

X2 = Xi3Xi6Xi9Xi10Xi11Xi12], para i = 1, 2, ..., 90

Luego, la matriz V de orden (6x6), que cumpla con la condiciónX2 = X1V viene dada por:

Así X β = X1 β β 2 = X1( β β *, donde β 1 de orden (6x1) y β 2 de orden (6x1).

Por lo tanto, el modelo Y = X1 β ε β β *=(x1tX1)-1X1tY

Las matrices (X1tX1)y (X1tY)vienen dadas por:

Así, el vector de parámetros estimado para el modelo de rango completo reducido es:

Y la respuesta estimada y ^ β ̂

En la cual,

y*11 = y*21 = ... = y*151 = 0,2553

y*161 = y*171 = ... = y*301 = 1,4564

y*311 = y*321 =...= y*451 = 1,5878

y*461 = y*471 = ...= y*601 = 1,4564

y*611 = y*621 = ...= y*751 = 0,9422

y*761 = y*771 =...= y*901 = 1,2269

El coeficiente de determinación viene dado por:

(2)

donde,

Luego,

Y los intervalos de confianza:

3.2 Imponiendo restricciones.

Se debe encontrar un conjunto de 12-6=6 vectores vi de dimensión 12x1 linealmente independientes que sean también linealmente independientes de las filas de X. Se tomará:

Así,

Donde,

En la cual,

y11 = y21 =...= y151 = 0,2553

y161 = y171 =...= y301 = 1,4564

y311 = y321 =...= y451 =1,5878

y461 = y471 =...= y601 = 1,4564

y611 = y621 =...= y751 =0,9422

y761 = y771 =...= y901 = 1,2269

El coeficiente de determinación es:

Los intervalos de confianza son:

Este método, presenta el siguiente inconveniente: “las ecuaciones lineales de los parámetros que se agregan tienen la particularidad de no ser estimables ya que no son contrastes”. Es por ello, que un problema interesante para el investigador es establecer si las funciones de interés son o no estimables

4.3. Funciones estimables.

Para encontrar dichas funciones se utilizaran las ecuaciones normales las cuales vienen dadas por:

(4)

(5)

(6)

De donde se tiene que, μ + τ i + α j + ( τ α ) ij para i = 1,2 y j = 1,2,3 forma un conjunto base de funciones estimables que corresponde a las expresiones:

El mejor estimador de τ i es y _ i.. - y _ ... y el mejor estimador de α i es γ ¯ y _ ....

El vector de parámetros utilizando funciones estimables es:

Y la respuesta estimada:

En la cuael,

y11 = y21 =...= y151 = 0,2554

y161 = y171 =...= y301 = 1,5878

y311 = y321 =...= y451 = 0,9422

y461 = y471 =...= y751 = 1,4564

y761 = y771 =...= y901 =1,2269

El coeficiente de determinación es:

En este caso, los intervalos de confianza vienen dados por:

(7)

(8)

(9)

Así,

3.4. Inversa generalizada.

Se debe encontrar una estimación de β , bien sea utilizandola inversa generalizada, β ˆ = (xtx)-XtY ó la inversa condicional, β ˆ = (XtX)cXtY de (XtX)

Se calcula la inversa generalizada de la matriz (XtX). Para ello se utiliza la función "pinv" del softwarematematico MATLAB 7.5.0, la cual retorna la inversa generalizada de Moore-Penrose de una matriz dada. Luego.

Así,

En la cual,

y11 = y21 =...= y151 =0,2553

y161 = y171 =...= y301 = 1,4564

y311 = y321 =...= y451 = 1,5878

y461 = y471 =...= y601 = 1,4564

y611 = y621 =...= y751 = 0,9422

y761 = y771 =...= y901 = 1,2269

El coeficiente de determinación viene dado por:

Los intervalos de confianza vienen dados por:

Ahora bien, se calculará β ̂ utilizando la inversa condicional de (XyX). El método para encontrar esta inversa es el siguiente:

  • Tome una submatriz de (XtX) de rango completo y orden igual al rango de (XtX) (sub matriz no singular). Llame a esa submatrizB de orden (6 X 6) donde 6=rang (X).

    Invierta B

    Transponga B-1

    Reemplace con los elementos de B-1 los elementos homólogos en(XtX) y sustituir con ceros el resto para obtener la matriz C de orden (12 x 12).

    Trasponer C para obtener la inversa condicional (XtX) de (XtX).

Por lo tanto

En este caso,

En la cual,

y11 = y21 =...= y151 = 0,2553

y161 = y171 =...= y301 =1,4564

y311 = y321 =...= y451 =1,5878

y461 = y471 =...= y601 = 1,4564

y611 = y621 =...= y751 = 0,9422

y761 = y771 =...= y901 = 1,2269

Los intervalos de confianza son:

Conclusiones

Las ventajas que se pueden señalar a lo largo del trabajo son las siguientes:

  1. 1. Los métodos mínimos cuadrados y máxima verosimilitud no garantizan estimaciones insesgadas para el estimador .

    Consideran todas las ecuaciones del sistema de ecuaciones normales y no usa funciones lineales de los parámetros no estimables.

    Se pueden utilizar para dar solución al sistema de ecuaciones normales de un modelo de diseño de experimentos sin realizar restricciones sobre los parámetros, ya que al utilizar restricciones sobre los parámetros se pueden obtener diferentes resultados, es decir, si dos investigadores aplican técnicas diferentes de restricción de parámetros para un mismo problema, estos pueden llegar a diferentes conclusiones.

    Reducen al mínimo la suma de cuadrados del error.

    Permiten caracterizar las soluciones de los sistemas consistentes y en los sistemas inconsistentes permite hallar soluciones aproximadas.

    La longitud de los intervalos de confianza de los parámetros estimados es más pequeña, es decir, permite una estimación más precisa.

Como desventaja del uso de la inversa generalizada y/o condicional se puede mencionar en el caso de la condicional que no es única y en el caso de la generalizada sería más que todo el cálculo que fue su problema original, sin embargo hoy en día con ayuda de los software Matlab, NumPy y SciPy se puede resolver este problema.

Material suplementario
Referencias
Bose RC, 1959, Analysis of Variance. Unpublished lecture notes, University of North Carolina.
GraybillFA, 1976, Theory and application of the linear model.Duxbury press. Massachusetts.
Searle SR, 1997, --Linear Models.Wiley Classics Library. New York: John Wiley & Sons, Inc.
Notas
Buscar:
Contexto
Descargar
Todas
Imágenes
Visor de artículos científicos generados a partir de XML-JATS4R por Redalyc