Patrones de consumo alimenticios del venezolano usando Análisis de Componentes Principales

Venezuelan Food Consumption Patterns Using Analysis of Main components

Víctor Márquez Pérez *
Universidad Técnica de Manabí, Ecuador
Franklin Camacho **
Universidad de Investigación de Tecnología Experimental, Yachay Tech, Urcuquí, , Ecuador
Miguel Manzanilla ***
Universidad de Los Andes., Venezuela
Ana Ides Chacón ****
Universidad de Los Andes, Venezuela

Patrones de consumo alimenticios del venezolano usando Análisis de Componentes Principales

Economía, vol. XLII, núm. 44, 2017

Universidad de los Andes

Recepción: 20/10/16

Revisado: 21/10/16

Aprobación: 11/11/16

Resumen: En este trabajo se describen patrones de consumo alimenticio del venezolano utilizando una técnica estadística del Análisis Multivariante, conocida como Análisis de Componentes Principales. La descripción de cada patrón obtenido se obtiene a partir de variables suplementarias. Cada patrón resultante es descrito con base en: el nivel educativo del jefe de familia, el estrato social y la entidad a la que pertenecen. Esta descripción permite conocer las características de las familias en cuanto al consumo de alimentos.

Palabras clave: consumo de alimentos, Encuesta Nacional de Presupuestos Familiares, Análisis de Componentes Principales.

Abstract: In this work, we describe the Venezuelan food consumption pa! erns. We used a statistic technical, of the Multivariate Analysis, known as Principal Component Analysis. The description of each pa! ern is made from the supplement variables. Each resulting pa! ern is described on basis: The head of household’s education level, his/her social class and the city where lives the family. This description gives some information about the household as regards to food consumption.

Keywords: food consumption, National Survey about Household Budget, Principal Component Analysis.

1. Introducción

En los últimos años la economía venezolana ha sufrido importantes transformaciones demostradas por los distintos indicadores económicos y sociales que desarrollan los organismos generadores de estadísticas en el país. Se hace imprescindible mantener actualizadas las estructuras y niveles de los principales indicadores y cuentas que reflejan, tanto la evolución de la actividad económica como su incidencia en el bienestar social de la población venezolana. Por ello, el Instituto Nacional de Estadística (INE) y el Banco Central de Venezuela (BCV), en el marco del Sistema Estadístico Nacional, realizaron la Tercera Encuesta Nacional de Presupuestos Familiares (III ENPF). A ese trabajo se unió la Corporación Venezolana de Guayana y la Universidad de Los Andes (BCV, 2007).

Con la información obtenida en la referida encuesta se han generado distintas investigaciones relacionadas con la descripción y caracterización de los fenómenos socioeconómicos de los hogares venezolanos (Márquez, 2007). Así como también la construcción de índices de percepción económica (Rivera et al., 2015), calidad de vida y percepción económica (Varela et al., 2014), entre otras investigaciones.

Por otra parte, la descripción de patrones de consumo de los hogares venezolanos permite generar políticas en pro del desarrollo social en materia de consumo alimenticio. Además, conlleva a tener conocimiento sobre la dieta del venezolano y afianzar, o proponer, medidas para generar una sociedad saludable. Esta información también es de utilidad para las empresas que están dirigidas a prestar servicios de consumo en el país.

Para la búsqueda de los patrones, en el presente trabajo se emplea una técnica de estadísticas multivariantes: el Análisis de Componentes Principales (ACP). Esta puede ser presentada según el enfoque geométrico de Pearson (1901) o según el enfoque clásico de Hohelling (1933). De acuerdo con el primero enfoque, el ACP tiene por objeto la búsqueda de planos de representación óptima de una nube de puntos, según el criterio de mínimos cuadrados.

Para el segundo enfoque, el ACP tiene por objeto obtener combinaciones lineales de las variables originales, con propiedades especiales en términos de varianza y correlación. En ambos casos se obtienen nuevas variables, denominadas componentes principales, las cuales deben retener lo esencial de la información contenida en las variables originales en cuanto a variabilidad e intercorrelación.

El primer componente principal será la combinación lineal de las variables originales que tenga varianza máxima. Los valores de este primer componente en los n individuos se representarán por un vector z1, dado por z1= X, donde es un vector columna con n entradas desconocida y X la matriz de datos estandarizada de tamaño n×p con p el número de variables. Como las variables originales tienen media cero también z1 tendrá media nula. Su varianza será:

Donde S es la matriz de varianzas y covarianzas de las observaciones.

Se podría maximizar la varianza sin límite, aumentando el módulo del vector . Para que la maximización de [1] tenga solución se impone una restricción al módulo del vector , y, sin pérdida de generalidad, se asume que . Con esta restricción, mediante el multiplicador de Lagrange , y maximizando esta expresión de la forma habitual (derivando respecto a los componentes de e igualando a cero) se obtiene . Cuya solución es:

Lo que implica que es un vector propio de la matriz S y λ su correspondiente valor propio. Para determinar qué valor propio de S es la solución de la ecuación [2] se tiene en cuenta que, multiplicando por la izquierda por esta ecuación y se concluye, por [1], que λ es la varianza de z1. Como esta es la cantidad que se quiere maximizar, λ será el mayor valor propio de la matriz S. Su vector asociado , define los coeficientes de cada variable en el primer componente principal.

El segundo componente también es una combinación lineal de las variables originales, que junto con el primer componente se obtiene un mejor plano de proyección de las variables X. Se calcula estableciendo como función objetivo que la suma de las varianzas de z1= X Yz2 = X sea máxima, donde y son los vectores que definen el plano. La función objetivo será:

Incorporando las restricciones que las direcciones deben tener módulo unitario, =1con i=1,2. Derivando e igualando a cero, se tiene que: y . Luego, la solución de este sistema es: y . Indicando que y son los vectores propios de S. Como se supone que los vectores propios son de norma uno y sustituyendo en [3], se obtiene que, en el máximo, la función objetivo es . son los dos autovalores mayores de la matriz S y además y sus correspondientes autovectores. Obsérvese que la covarianza entre z1 y z2, dada por S es cero ya que , y así, las variables z1 y z2 estarán incorreladas.

De forma general, llamando Z a la matriz cuyas columnas son los valores de los p componentes en los n individuos, estas nuevas variables están relacionadas con las originales mediante: Z = XA donde A es la matriz de los autovectores, y así, A’A=I. Calcular los componentes principales equivale a aplicar una transformación ortogonal A a las variables X (ejes originales) para obtener unas nuevas variables Z incorreladas entre sí. Esta operación puede interpretarse como elegir unos nuevos ejes coordenados, que coincidan con los “ejes naturales” de los datos.

Para la selección del número de componentes, se considera que la suma de varianzas de las variables originales (xi) coincide con la suma de las varianzas de los componentes principales (yi) y con la suma de los autovalores de la matriz de covarianzas muestral. De esta manera se puede calcular el porcentaje de varianza total explicado por la componente principal i-ésima:

Así, se puede determinar el porcentaje de la variabilidad total recogido por las m primeras componentes principales (m<p) a través de la ecuación . Ahora bien, se selecciona el menor número de componentes principales, generalmente son tres, de forma que recojan el porcentaje máximo de variabilidad total. Otro criterio para seleccionar el número de componentes consiste en incluir solo aquellos valores propios que sean mayores que 1 (Bajo, 2014).

Marín (2009) asegura que después de seleccionar los r (componentes principales) definitivos, los datos originales X de tamaño n×p, se transforman utilizando las ecuaciones de los Componentes Principales (CP) en una nueva matriz de datos Z, de tamaño n×r en donde: zij=aj1xi1+aj2xi2+…+ajpxip, representando el j-ésimo CP del i-ésimo individuo. Así, Zj, con j=1,…,p, pasa a ser una nueva variable, y como tal, debe tener un nombre para ser utilizada en futuros análisis estadísticos. El nombre de Zj depende de los valores que poseen sus coeficientes. Un coeficiente es significativo si su valor absoluto es cercano, igual o superior a 0,4; esto dependerá de la presencia de las variables originales en la conformación de cada componente, es decir, se seguirá uno de los criterios de significancia asegurando que los componentes sean mutuamente excluyentes, lo que facilitará el nombre del CP, el cual debe ser consistente con todas las variables que forman parte de este, tanto en magnitud como en el signo de sus coeficientes. Para una lectura más completa acerca de ACP, ver Jolliffe (2002) y Tapia (2007).

En este trabajo, el ACP será usado para conseguir nuevas variables que resuman la información contenida en las 24 variables de consumo alimenticio extraídas de la Tercera Encuesta Nacional de Presupuestos Familiares. Y con la ayuda de variables sociodemográficas auxiliares, llamadas variables suplementarías, se describen patrones de consumo de los hogares venezolanos.

La presente investigación esta estructura en cuatro secciones. En la primera sección se describe el procesamiento de los datos para obtener la matriz X de tamaño n×p, que es el punto de partida para realizar el análisis de componentes principales. Luego, en la segunda sección, se caracterizan y analizan los patrones de consumo obtenidos del análisis de componentes principales. En la tercera sección se resumen los principales resultados. Y, en la cuarta sección, se presentan las observaciones y perspectivas de este trabajo.

2. Materiales y métodos

Se quiere describir patrones de consumo alimenticios de los hogares venezolanos a partir de la III ENPF. La investigación realizada es de tipo descriptiva. La población a considerar son los hogares venezolanos. La muestra fue obtenida en el Área Metropolitana de Caracas y sus zonas cercanas; en ciudades principales como Maracaibo, Valencia y Barquisimeto; en ciudades medianas y pequeñas con poblaciones que oscilan desde 50.000 hasta 250.000 habitantes y desde 5.000 hasta 50.000 habitantes, respectivamente. Además en localidades con menos de 5.000 habitantes. El muestreo fue polietápico donde la última unidad de muestreo fue el hogar venezolano con un tamaño de muestra de 8.384 hogares. El diseño muestral fue realizado por el BCV y el INE en el marco de la III ENPF (BCV, 2007). A continuación se describe el procedimiento de manipulación de los datos.

2.1. Procesamiento de los datos

La base de datos obtenida está dividida en un total de 186 tablas clasificadas en 6 grandes grupos: vivienda, hogares, personas, factores de expansión y nomenclador, de las cuales se tomaron en cuenta las siguientes:

Una vez identificadas las tablas que proporcionan la información necesaria para el estudio, se realizó un proceso de filtrado que permite eliminar los campos y datos innecesarios, esto último específicamente para la tabla Persona_gd ya que en ella se encuentra no solo los gastos en comida sino en otros productos. Debido a que Personas_gd y Personas_gdc contienen gastos en comida de individuos diferentes, estas deben unirse en una sola tabla, por lo tanto ambas deben tener iguales campos, estos son los mostrados en el cuadro 1.

Cuadro 1.
Campos considerados para la construcción de la tabla definitiva de datos
Campos considerados para la
construcción de la tabla definitiva de datos
Elaboración propia con información de BCV (2007).

La variable grupo no forma parte de los campos originales establecidos por el BCV, esta fue creada a partir de la variable cod_gasto conformada por seis dígitos, de los cuales los dos últimos representan cada producto alimenticio mientras los tres primeros simbolizan el grupo al que este pertenece; la variable grupo está formada entonces por los primeros tres dígitos de cod_gasto. Finalmente, grupo representa los productos alimenticios considerados en la investigación. En total son 24 rubros, cada uno constituido por un subconjunto de productos establecidos por el BCV. Estos se identifican en el cuadro 2.

Cuadro 2.
Rubros
Rubros
Elaboración propia con información de BCV (2007).

Mediante el uso del software para bases de datos ACCESS 2016, se pudo obtener una representación adecuada de los datos originales. Se muestra la información más relevante de cada individuo: el gasto pagado (val_pagado) por cada producto (grupo), los números identificadores de su posición en la familia (NU_MIEMBRO), del hogar (NU_HOGAR), del estrato (CO_ESTRATO), de la entidad (CO_ENTIDAD) y de control (NU_CONTROL). El gasto realizado por cada persona en cada rubro se obtuvo sumando los valores de la variable val_pagado de cada subgrupo; todo esto con el fin de realizar una consulta de cuadros de referencias cruzadas y así obtener la información de cada familia en función de cada rubro. Finalmente se agregaron campos adicionales, así, las variables suplementarías representan el nivel educativo de cada familia (representado por el jefe de la familia), estrato social y entidad (ciudad) donde pertenecen los hogares. Esta agregación dependió de los campos NU_MIEMBRO y NU_HOGAR del cuadro obtenido hasta ahora y el cuadro Personas_car. La presentación quedó tal como se muestra en el cuadro 3.

Cuadro 3.
Formato final para la presentación de los datos para la aplicación del ACP
Formato final para la
presentación de los datos para la aplicación del ACP
Elaboración propia con información de BCV (2007).

Una vez organizados los datos proporcionados por la III ENPF en un cuadro idóneo, se procedió a la aplicación del análisis de componentes principales que se explicará a continuación.

3. Resultados y discusiones

Esta sección se inicia con la identificación de los componentes principales, luego la matriz factorial y, finalmente, se realiza el análisis respecto a las variables suplementarias y los grupos que mejor representan la variabilidad de los datos después del análisis de los componentes principales.

3.1. Identificación de los componentes principales

Debido a que el orden de magnitud y unidad de medida de las variables aleatorias no es el mismo se decidió llevar a cabo el ACP sobre la matriz de correlación, dándole igual importancia a todas las variables consideradas en el estudio. De esta manera, los resultados considerados fueron 24 factores, los cuales explican el 100% de la variabilidad de los datos; de allí se decidió tomar solo los tres primeros factores, teniendo un porcentaje de variabilidad acumulada de 33,06%, todo esto con el fin de poder construir una fi gura representativa. Sin embargo, se puede reafirmar esta decisión tomando en cuenta un segundo criterio, el cual se basa en un gráfico de sedimentación como el de la figura 1, formado por un eje de abscisas donde se encuentran cada uno de los factores obtenidos Fi con , y un eje de ordenadas, donde se plasma el autovalor (o valor propio) de cada componente. Allí se puede observar el factor sobre el que se genera un punto de inflexión considerable (F3), indicando que hasta ese factor se tomarán los componentes principales.

 Gráfico de Sedimentación
Figura1.
Gráfico de Sedimentación
Elaboración propia.

3.2. Matriz factorial

En el cuadro 4 se tiene la matriz factorial para los tres primeros factores o componentes principales. En cada uno se puede notar aquellos rubros que son significativos o representativos para la construcción del componente respectivo. Serán tomados en cuenta aquellos cuyo valor absoluto sea igual o superior a 0,4. Este valor se fija para poder construir los grupos en función de los factores escogidos.

Cuadro 4.
Matriz Factorial
Matriz Factorial
Elaboración propia con información de BCV (2007).

Con base en lo anterior se forman 4 grupos de variables. Estos son:

Considerando los dos primeros factores o componentes que explican la mayor variabilidad y el criterio de tomar como significativos aquellos rubros cuyo valor absoluto en la matriz factorial sea cercano, igual o superior a 0,4; y cuidando a su vez que los componentes sean mutuamente excluyentes, se pudo construir una fi gura que muestre la interacción entre las variables involucradas en el estudio, tal como se ve en la figura 2, la cual confirma la clasificación de los rubros en los grupos Productos Básicos de Alimentos (Grupo 01, descrito en la Figura 2 a través de un círculo) y Alimentos Consumidos Fuera del Hogar (Grupo 02, descrito en la Figura 2 a través de un ovalo), respectivamente.

Representación de las
variables en el plano factorial
Figura 2.
Representación de las variables en el plano factorial
Elaboración propia.

3.3. Análisis respecto a las variables suplementarias

a) Nivel educativo respecto a los grupos 01 y 02: como ya se sabe el componente 1 representa los productos básicos de alimentos que consumen los venezolanos y el componente 2 representa los productos alimenticios consumidos fuera del hogar. La figura 3 representa el gráfico de distribución o tendencia de consumo de estos dos grupos de alimentos en función del nivel educativo de cada hogar, el cual está representado por el nivel educativo del jefe de familia. Allí también se observa un orden natural en el nivel educativo con respecto al segundo componente, que está relacionado con Grupo 02. Esto indica que los hogares representados en el tercer y cuarto cuadrante del plano factorial son aquellos que consumen pocos alimentos afuera del hogar y el jefe del hogar tiene un bajo nivel educativo. Por otra parte, los hogares con jefes con alto nivel educativo están representados en los cuadrantes superiores del plano factorial, lo que indica un alto consumo de alimentos fuera del hogar.

Consumo de Grupo 01 y
Grupo 02 en función del Nivel Educativo de la familia
Figura 3.
Consumo de Grupo 01 y Grupo 02 en función del Nivel Educativo de la familia
Elaboración propia.

Se puede decir que las familias venezolanas cuya formación académica es universitaria o postgrado son las que marcan el consumo de alimentos básicos, contrario a aquellas familias cuyo jefe tiene un nivel educativo bajo. Igualmente se observa que el consumo de alimentos fuera del hogar está definido por familias cuyo jefe posee un nivel de educación superior, incluyendo el nivel Técnico Superior Universitario (TSU), a diferencia de aquellas familias cuyo jefe tiene una formación académica de bajo nivel. Esto indica que las familias venezolanas cuyo jefe posee un nivel de preparación académica alto tienen la posibilidad no solo de cubrir sus necesidades alimenticias básicas, sino también las necesidades secundarias como lo es el consumo de alimentos fuera del hogar.

Por último, se puede decir que el factor 2 representa un modelo que permite clasificar a las familias venezolanas según su consumo de alimentos fuera del hogar, debido al orden natural con respecto al nivel educativo mostrado anteriormente. Revela que a medida que mejora el nivel educativo del jefe de familia mayor es su consumo fuera del hogar.

b) Estrato social respecto a los grupos 01 y 02: con base en la figura 4, solo dos tipos de estrato marcan una tendencia en el consumo de alimentos básicos y el consumo de alimentos fuera del hogar, ellos son el estrato 1 y el estrato 5. Siendo las familias que pertenecen al estrato 1 aquellas que definen el consumo de alimentos básicos y las del estrato 5 las que definen el consumo de alimentos fuera del hogar. Esto se debe a que los hogares de estratos bajos están limitados al consumo de alimentos básicos solamente, a diferencia de los hogares de estrato alto cuyo ingreso le permite gastos alimenticios fuera de lo básico. Por otra parte, los niveles de estratos intermedios no revelan una tendencia palpable.

Consumo de Grupo01 y
Grupo02 en función del Estrato
Figura 4.
Consumo de Grupo01 y Grupo02 en función del Estrato
Elaboración propia.

c) Entidad respecto a los grupos 01 y 02: en este caso se tiene que los patrones de consumo de alimentos se ven determinados por la entidad donde reside cada familia, tal y como se observa en la figura 5. Se percibe que el consumo de los productos alimenticios básicos se da con mayor énfasis en estados como Amazonas, Lara, Miranda y Vargas. Para el caso del consumo de alimentos fuera del hogar, solo se destaca el estado Nueva Esparta.

Gráfico de consumo de
Grupo01 y Grupo02 en función de la Entidad
Figura 5.
Gráfico de consumo de Grupo01 y Grupo02 en función de la Entidad
Elaboración propia.

4. Conclusiones

Los patrones de consumo de alimentos obtenidos mediante la aplicación de un ACP quedan expresados de la siguiente manera:

5. Observaciones y perspectivas

A través de una técnica de análisis de multivariante: el ACP, se describen las relaciones existentes entre las variables que miden el consumo alimenticio del venezolano. Dicha información permite identificar patrones de consumo. Que además de arrojar resultados coherentes y lógicos, estos permiten mostrar una metodología que valida y cuantifica los resultados que a primera vista parecieran ser obvios. Es decir, el hecho que den resultados evidentes indica que efectivamente los factores encontrados caracterizan el consumo del venezolano.

Por otra parte, desde el 2007 no se actualiza la III ENPF en Venezuela. Por esta razón, no se puede hacer un análisis con datos más recientes. En este trabajo se mostraron las bondades del ACP, que representa una herramienta útil para desarrollar investigaciones con encuestas similares realizadas en otros países.

6. Referencias

BCV (23 de julio de 2007). Banco Central de Venezuela. Recuperado el 03 de mayo de 2010, de h! p://www.bcv.org.ve/epf0405/epf.html

Bajo Traver, Mario (2014). Aplicaciones prácticas del análisis de componentes principales en gestión de carteras de renta fi ja (I). Determinacion de los principales factores de riesgo de la curva de rendimientos. Analisis Financiero (124), 20-36.

Hottelling, Harold (1933). Analysis of a Complex of Statistical Variables Into Principal Components. Journal of Educational Psychology, 24, 417-441 y 498-520.

Jolliffe, Ian (2002). Principal Component Analysis. New York: Springer- Verlag New York; Inc. Second edition.

Marín, Juan Miguel (2009). Analisis Estadistico Multivariado. Universidad Carlos III de Madrid, España.

Márquez, Víctor (2007). Descripción y caracterización socioeconómicas de las familias venezolanas. Revista Economia, 21, enerodiciembre, pp. 85-100.

Pearson, Karl (1901). On lines and planes of closest fit to systems of points in space. Philosophical Magazine, Serie 6, Vol. 2, N° 11, pp. 559-572.

Rivera, Christian; Varela, José; Ponsot, Ernesto y Rivas, Douglas (2015). Efecto del bienestar económico percibido sobre el consumo en hogares venezolanos: Un modelo de estructura de covarianza. Actualidad Contable FACES, 18, 30, pp. 96-122.

Tapia, Jesús (2007). Introduccion al Analisis de Datos Multivariantes. Barinas, Venezuela: Ediciones de la Universidad Ezequiel Zamora.

Varela, José; Ponsot, Ernesto; Rivera, Christian; Rivas, Douglas y Márquez, Víctor (2014). Medición de algunos indicadores del bienestar económico en Venezuela. Vision Gerencial, 13, 1, enerojunio, pp. 137-156.

Notas de autor

* Doctor en Estadística de la Universidad Central de Venezuela. Instituto de Ciencias Básicas. Universidad Técnica de Manabí, Portoviejo, Ecuador. Correo electrónico: vmarquez@utm.edu.ec.
** Doctor en Matemática de la Universidad de Los Andes. Escuela de Ciencias Matemáticas y Tecnología Informática. Universidad de Investigación de Tecnología Experimental, Yachay Tech, Urcuquí, Ecuador. Correo electrónico: cfranklinj@gmail.com.
*** Ingeniero en Sistemas de la Universidad de Los Andes. Facultad de Ingeniería de la Universidad de Los Andes. Correo electrónico: miguel86manza@gmail.com.
**** Cátedra de Bioestadística. Facultad de Farmacia. Universidad de Los Andes, Mérida, Venezuela. Correo electrónico: anaidesch@gmail.com.
HTML generado a partir de XML-JATS4R por