Generador de variable aleatoria bivariado aplicado a DEA

Jhon Jairo Vargas-Sánchez; José Adalberto Soto-Mejía

resúmenes

secciones

referencias

imágenes

Resumen: La aplicación de modelos DEA estocásticos utilizando Estadística Bayesiana es una técnica que está surgiendo en los últimos años, para ser usada se debe hacer simulación de distribuciones de probabilidad multivariadas. En este artículo se presenta un generador bivariado para variable continua. Adicionalmente se ha creado una discretización de este para lograr simulaciones de distribuciones a posteriori de una manera fácil de aplicar. Se presentará la aplicación del generador a dos funciones de densidad de probabilidad bivariadas, una de ellas normal, con sus respectivas pruebas de bondad de ajuste. Se usaron datos del sector educativo en base de datos del DANE (Departamento Administrativo Nacional de Estadística) Colombia para resolver el problema de un modelo DEA estocástico Bayesiano. Los resultados muestran la utilidad, potencia y facilidad del uso del generador propuesto en este tipo de problema.

Palabras clave: análisis envolvente de datosanálisis envolvente de datos,DEA BayesianoDEA Bayesiano,DEA estocásticoDEA estocástico,eficienciaseficiencias,distribución normal multivariadadistribución normal multivariada,generador bivariadogenerador bivariado,sector educativosector educativo,simulaciónsimulación,funciones de densidad de probabilidadfunciones de densidad de probabilidad,programación no linealprogramación no lineal,conos convexosconos convexos,optimizaciónoptimización.

Abstract: The application of stochastic DEA models using Bayesian Statistics is a technique that has been emerging in recent years, to be used it, simulation of multivariate probability distributions is necessary. A bivariate generator for continuous variable will be presented. Additionally, a discretization has been created on it to achieve simulations of a posteriori distributions with easy way to apply it. Application of the generator to two functions of bivariate probability density will be presented, one of them normal, with their respective tests of goodness of fit. Data from the education sector was used in the database of the DANE (National Administrative Department of Statistics) Colombia to solve the problem of a Bayesian stochastic DEA model. The results show the utility, power and easy implementation of the generator proposed in this type of problem.

Keywords: data envelopment analysis, Bayesian DEA, stochastic DEA, efficiencies, multivariate normal distribution, bivariate generator, education sector, simulation, probability density functions, nonlinear programming, convex cones, optimization.

Carátula del artículo

Artículos

Generador de variable aleatoria bivariado aplicado a DEA

Generator of stochastic bivariate variable applied to stochastic Bayesian DEA

Jhon Jairo Vargas-Sánchez jvargass@unimagdalena.edu.co

Universidad del Magdalena, Colombia

José Adalberto Soto-Mejía jomejia@utp.edu.co

Universidad Tecnológica de Pereira, Colombia

Revista UIS ingenierías, vol. 20, núm. 2, pp. 139-150, 2021
Universidad Industrial de Santander

Recepción: 10 Octubre 2020

Aprobación: 07 Diciembre 2020

DOI: https://doi.org/10.7440/res64.2018.03

1. Introducción

DEA (por sus siglas en inglés "Data Envelopment Analysis") es una técnica que ha sido ampliamente usada para evaluar el desempeño de diferentes sistemas organizacionales. DEA es una técnica no paramétrica usada para evaluar las eficiencias relativas de un conjunto de DMU's (Decisión Making Units). Una variedad de modelos DEA han sido desarrollados para satisfacer ciertas situaciones y características de las variables [1]. Una característica estudiada es la variabilidad en los datos, dentro de los cuales se encuentran los modelos DEA estocásticos que buscan incorporar variabilidad e incertidumbre en los modelos DEA determinísticos [2].

Como una continuación de los trabajos estocásticos se considera el esfuerzo por realizar inferencia estadística en DEA. Históricamente aparece el concepto de Boostrap aplicado a DEA en Simar y Wilson [3] y Simar y Wilson [4]. Esta técnica consiste en un procedimiento iterativo para generar, de un modelo dado, una simulación de un gran conjunto de datos que podrían haber sido observados. Una discusión de la inferencia estadística y eficiencia no paramétrica se puede ver en Dyson y Shale [5]. Otra comparación de DEA estocástico y Bootstrap en DEA lo realizan Ceyhan y Banneyan [6].

Una fuerte crítica al método Bootstrap en DEA se ha hecho en Tsionas y Papadakis [7] con el argumento de que en la técnica bootstrap no hay garantía de buen desempeño en la búsqueda de inferencia porque su utilización ha sido para DEA no estocástico y que las muestras generadas por bootstrap nunca fueron observadas.

Debido a lo anterior, Tsionas y Papadakis [7] han propuesto una metodología Bayesiana que permite que la simulación logre realizar inferencia en los puntajes de eficiencia (score). Siguiendo al artículo últimamente nombrado, Mitropoulus et al. [8] han propuesto un método que da nuevas oportunidades al DEA estocástico. Su inspiración se ha basado en el trabajo de Cooper et al. [9] quienes aseguran que la metodología Bayesiana en DEA estocástico puede ir más allá en las características de eficiencia usando dos indicadores de probabilidad. El primero indica si una DMU es completamente eficiente o suficientemente eficiente. Segundo, basado en la distribución marginal de los puntajes se construyen finitas muestras con intervalos de probabilidad Bayesianos. Otros trabajos recientes en DEA Bayesiano se pueden encontrar en Friesner et al. [10].

El presente artículo pretende aportar en las incursiones de DEA estocástico Bayesiano, mostrando formas prácticas de aplicarlo y que sean fácilmente adaptables. Se propone en el presente artículo un generador bivariado que se puede adaptar a esta metodología DEA, pues esta exige que una generación de números aleatorios sea llevada a cabo de una distribución a posteriori. El resto del artículo está organizado como sigue. En la sección 2 se revisan los conceptos de DEA y DEA estocástico. En la sección 3 el método Bayesiano de Tsionas y Papadakis [7]. En sección 4 el generador bivariado propuesto. En la sección 5 aplicamos el generador al método Bayesiano usando datos del DANE Colombia y encontrando intervalos de confianza para las eficiencias, demostrando que las soluciones conseguidas son óptimos globales. En la sección 6 las conclusiones.

2. DEA estocástico

DEA estima la medida de eficiencia de una DMU específica por comparación relativa de su desempeño con las otras. DEA asume que hay NDMUs (j = 1,2,...,N). El desempeño de cada DMU es caracterizada por su proceso de producción de m entradas (xlj para l = 1,...,m) para producir S salidas (yrj para r = 1,..., S).

Uno de los métodos clásicos para tratar la incertidumbre en DEA es el CCP (por sus siglas en inglés "chance-constrained programming"), es ampliamente tratado en Land et al. [12, 13, 14, 15]. El modelo (1) es un CCP extendido del CCR (Chames et al. [11]) en su forma primal.

El modelo (1) está basado en los multiplicadores u y v los cuales son variables que hacen que se encuentre la máxima , si una DMU es ineficiente no es porque se hayan asignado mal sus multiplicadores sino porque en verdad es ineficiente.

Se puede consultar en Cooper et al. [16] cómo el modelo (1) se transforma en su equivalente determinístico (2).

En modelo (2), 𝐾 _{(1−𝛼𝑗 )}=ϕ−1(1 - 𝛼_𝑗 ) y ϕ⁻¹ es la función fractile asociada con la distribución normal estándar. 𝛴_𝑗 es la matriz de covarianza y las 𝜂_𝑗 son llamadas “splitting variables”.

Sin embargo, para la aplicación del generador propuesto a DEA estocástico Bayesiano, en el presente artículo la postura parte del modelo CCP dual definido en Subhash [17]:

En el modelo (3), ϕ es la medida de eficiencia o score, los xj son los valores de la variable de entrada en la DMU j, yj son los valores de la variable de salida en la DMU j; los λj son valores que hacen que se maximice ϕ y son valores que ayudan a construir la frontera de eficiencia; xo y yo son los valores de entrada y salida respectivamente para la DMU observada; N simboliza el número de DMUs, así que este modelo se corre N veces para hallar las eficiencias relativas de todas las DMUs.

Este modelo se transforma a su equivalente determinístico a través de la creación de una nueva variable aleatoria u usando ecuación (4) la cual se distribuye normalmente con parámetros dados en ecuaciones (5) y (6). Dicha transformación se puede consultar en Subhash [17].

Continuando con la transformación y haciendo reemplazos correspondientes se llega al modelo (7).

De esta forma el modelo CCP dado en (3), que es dual, se transforma en su equivalente determinístico (9).

3. Métodos Bayesianos en DEA estocástico

En Tsionas y Papadakis [7] se clarifica la necesidad de un modelo estadístico en el modelo DEA estocástico a usar. En este artículo se menciona la metodología para resolver un DEA Bayesiano. Se parte de la naturaleza aleatoria de las variables dada en ecuación (10).

Donde μ es un vector de medias de tamaño (M+K)×1 y Σ es la matriz de covarianza de tamaño (M + K) × (M +K) y los Zi se asumen independientes. M el número de salidas, K el número de entradas y N es el número de DMUs. La función de verosimilitud está dada por (11).

Al asumir una probabilidad a priori p(θ) para el vector de parámetros y usar el teorema de Bayes la distribución a posteriori queda determinada por la expresión (12).

Se define un operador T∶ Z → Ω ⊆ ℜℯ^𝑆 el cual va del espacio muestral a un espacio s dimensional. El operador produce un conjunto de resultados r(Z;θ) ⊆ ℜℯ𝑆 que puede abarcar muchas medidas, pero en este caso interesa que s = 1, y así contenga el espacio de las medidas de eficiencia.

A diferencia del bootstrap, DEA estocástico Bayesiano no usa la variabilidad de la muestra para justificar la naturaleza aleatoria de r(Z;θ), para ello usa la distribución a posteriori p(θ|Z) para obtener p(r|Z). Esto lo logra mediante tres pasos. Primero obtener un vector θ j de la distribución posterior p(θ|Z). Segundo usar el operador T para obtener el respectivo ri. Tercero, aproximar la distribución p(r|Z) por técnicas de densidad de Kernel.

A continuación, se presenta la forma como se obtiene la distribución a posteriori para lograr el primer paso. Basados en la literatura DEA estocástico la matriz Σ está dada por

donde ΣY es de tamaño M × M y ΣX es de tamaño K × K. Se tiene que yi ∼ N(μY ,ΣY ) y xi ∼ N(μX,ΣX). La verosimilitud para (μY ,ΣY ) está dada por

donde tr es la traza y 𝑆𝑌=Σ^N_i=(𝑦_𝑖−μ_𝑌)(𝑦_𝑖−μ_𝑌) ́. Una recomendación en Tsionas y Papadakis [7] es usar como a priori lo cual permite llegar a la distribución a posteriori dada en

La marginal de μ𝑌 en ecuación (15) es de la forma Student multivariada y la de ΣY es de la forma Wishart. La posterior para 𝑝(μ𝑌,Σ𝑋|𝑋) es de la misma estructura y forma que ecuación (15) pero con variable X y parámetro K en lugar de M.

4. Metodología

En esta sección se presenta el planteamiento de un generador bivariado que permita simular una distribución bivariada dada. Este planteamiento se había iniciado en [18] para variable aleatoria continua, mas no para variable aleatoria discreta. La idea básica nace en los conceptos de gradiente y derivadas direccionales.

4.1. Fundamentos teóricos

El gradiente y la derivada direccional son los fundamentos matemáticos y base para la propuesta del generador bivariado. Se parte del hecho de que la derivada direccional de una distribución de probabilidad acumulada F(x,y) nos indica la velocidad a la que se acumula probabilidad en un punto (x,y) en una dirección dada por un vector unitario U. Para el caso univariado, si en una función de densidad f (x) un valor x¡ tiene mayor densidad de probabilidad que un valor X2 entonces se cumple que . Es claro que si se toma un incremento Δx = x² − x¹ y se calcula la pendiente estaríamos observando la velocidad a la que se acumula probabilidad en un intervalo Δx. Por ejemplo en la distribución normal, si se parte de la media μ, y formamos un intervalo (μ,μ+ Δx) se espera más tasa de acumulación de probabilidad en este intervalo que en otro intervalo, digamos (P95, P95 + Δx). Dicho de otra manera, , siendo P95 el percentil 95. Este concepto es llevado al caso bivariado y se propone un algoritmo a partir de esta idea. Dicho algoritmo será capaz de generar números aleatorios que sigan una distribución de probabilidad bivariada. Si f es una función en dos variables x e y, y las derivadas parciales f_x y f_y existen, entonces el gradiente de f denotado ∇f está definido por la ecuación (16).

Y la derivada direccional se puede escribir como el producto punto entre un vector unitario y el vector gradiente.

donde es la derivada parcial de la función 𝑓 (𝑥,𝑦) y describe la variación de f en la dirección positiva del eje es la derivada parcial de la función f (x,y) y describe la variación de f en la dirección positiva del eje y; U = cosθi + sinθj representa el vector unitario que forma un ángulo de θ radianes con la parte positiva del eje x; y 𝐷𝑈 𝑓 (𝑥,𝑦) =𝑓_𝑥 (𝑥,𝑦)𝑐𝑜𝑠𝜃+ 𝑓_𝑦 (𝑥,𝑦)𝑠𝑖𝑛𝜃 representa la derivada direccional de f en la dirección U. Una derivada direccional de una función diferenciable puede obtenerse mediante el producto punto del gradiente y un vector unitario de la dirección deseada, ecuación (17). El valor máximo de DU f (x0, y0) ocurre cuando cosα = 1 o cuando α = 0 en la ecuación (18).

El algoritmo consiste en conseguir direcciones aleatorias volviendo a U un vector aleatorio. Podemos generar aleatoriamente puntos (x,y) con x ∈ X y y ∈ Y y calcular las derivadas direccionales máximas aplicando ‖∇F(x,y)‖ y obtener mediante procesos iterativos dicha derivada direccional máxima. Una vez obtenida DU máx se puede encontrar la derivada direccional en un punto aleatorio (x,y) con la dirección del vector aleatorio U y hacer la relación ´ la cual es menor a 1 y x e y son valores aleatorios generados por ecuaciones (19) y (20), donde los respectivos Ri son variables aleatorias uniformes en el intervalo (0,1).

En las ecuaciones (19) y (20) a y b son, respectivamente, el límite inferior y superior de la variable aleatoria X; c y d son, respectivamente, el límite inferior y superior de la variable aleatoria Y. Un vector aleatorio U será generado con ecuaciones (21), (22) y (23).

4.2. Fundamentos teóricos

● Paso 1. Encontrar la función de distribución mediante

● Paso 2. Calcular DU F(x,y) máxima usando DU F(x,y) = ‖∇𝐹(x,y)‖y ecuaciones (19) y (20).

● Paso 3. Hacer G(x,y,R3) = DUF(x,y) = U · ∇F(x,y)

● Paso 4. Hacer

● Paso 5. En paso 4 sustituir y = c + (d − c) ∗ R5 y despejar x, donde x = H (R3, R4, R5)

● Paso 6. Generar R3, R4 y R5, sustituir en x = H (R3, R4, R5) y obtener la pareja (x, y) = (H (R3, R4, R5), c + (d − c) ∗ R5)

Al repetir este algoritmo se obtienen parejas aleatorias (x, y) que siguen una función de densidad de probabilidad f (x, y)

5. Resultados

5.1. Uso del algoritmo en una función bivariada

Supóngase que se van a generar números aleatorios que sigan la función dada por la ecuación (24).

A continuación, se presentan lo pasos resueltos después de los desarrollos algebraicos.

• Paso 1.

• Paso 2.

• Paso 3. Hacer G (x,y,R3)

• Paso 4. Hacer R₄

• Paso 5.

• Paso 6. Generar R₃, R₄ y R₅, sustituir en x = H (R₃, R₄, R₅) y obtener la pareja (x, y) = (H (R₃, R₄, R₅), c + (d − c) ∗ R₅). Con este paso se generaron 3586 parejas de números aleatorios. La forma como se distribuyeron se encuentra en tabla 1.

Tabla 1
Frecuencias observadas en la generación bivariada de la función de la ecuación (24)

Fuente: elaboración propia.

Las integrales dobles se consiguieron para revisar la frecuencia esperada a la luz de ecuación (24) y se usaron junto con las frecuencias de la taba 1 para aplicar el estadístico el cual dio un resultado de 26,296 indica que 21.7831 que comparado con Xq₀₅₁₆ los números generados se distribuyen como (24).

5.2. Uso del algoritmo en una función bivariada

En esta subsección se presenta una adaptación del generador mostrado en [18]. Debido a que en muchas ocasiones es difícil obtener la integral doble en el paso 1 del algoritmo y tampoco resulta factible despejar x en forma explícita en el paso 5, se ha extendido el generador propuesto al caso discreto. Esta discretización del algoritmo propuesto se ha aplicado a una distribución normal bivariada.

Simulamos 100 vectores bivariados aleatorios que sigan la distribución X ∼ N(μ,Σ), donde μ = (3,9658,7,7132) y .

Paso 1 y 2. Estos pasos se resolvieron de la siguiente forma. Lo que se hizo fue elegir valores posibles x₁ e X₂ que pertenezcan al dominio de la función. Se eligió un paso pequeño de 0.1, con este construimos una matriz de puntos bivariados, como una malla de puntos en una cuadrícula. Mediante una estructura de programación "for anidado" se fueron encontrando los volúmenes bajo la curva estableciendo las alturas de acuerdo con la función bivariada. Los volúmenes se acumularon para encontrar una función de distribución aproximada. Los gradientes se construyeron de acuerdo con el paso = 0,1 y a la nueva función acumulada discretizada. La tabla 2 presenta en las columnas 2 y 3 x₁ y X₂ respectivamente.

Tabla 2
Discretización del algoritmo propuesto

Fuente: elaboración propia.

En dicha tabla se presentan los registros 1500 a 1510 solamente, ya que esta tiene 6222 registros. La columna 4 corresponde a las probabilidades acumuladas o los volúmenes bajo la curva acumulados.

Paso 3, 4, 5 y 6. Se continúa construyendo la tabla 2. Las columnas 5 y 6 corresponde al componente gradiente de x₁ y componente gradiente en x₂ respectivamente. La columna 7 es la norma del gradiente construido de las anteriores dos columnas. La columna 8 es la derivada direccional. La columna 9 el cociente entre derivada direccional y derivada direccional máxima. Una vez se tiene la tabla 2 lo que sigue es ordenar la tabla completa por la columna 9, de esta forma es fácil generar un número aleatorio que recorra la tabla hasta que este sea menor a algún valor de esta última columna ordenada de menor a mayor, de acuerdo con este resultado se selecciona el vector (x₁ , x₂) respectivo.

Las figuras 1 y 2 muestran las pruebas Mardia y Henze-Zirkler de bondad de ajuste normal multivariadas corridas en el Rcomander [19]. Un diagrama Q-Q fue construido en Matlab en la figura 3, basado en la ecuación (25), donde se puede mostrar que si los Yi siguen una distribución normal multivariada, ui en ecuación (26) tiene distribución Beta con α = p/2 y β = (n − p − 1)/2 con p el número de variables n las observaciones. La prueba de bondad de ajuste de ui a una Beta se ve en la figura 4 que es una salida del software Infostat.

Figura 1
Prueba de normalidad MardiaTest.

Figura 2
Prueba de normalidad Henze-Zirkler.

Figura 3
Diagrama Q-Q para los datos simulados.

Figura 4
Prueba de bondad para los u_i.

5.3. Aplicación a DEA Bayesiano

Una vez logrado que el generador bivariado tanto discreto como continuo pasen las pruebas de bondad de ajuste, se puede poner en práctica al utilizarlo en un modelo DEA estocástico Bayesiano. Para correr dicho DEA Bayesiano se han tenido en cuenta varios aspectos. Primero se usaron datos de DANE Colombia (ver siguiente subsección "descripción de los datos"). Segundo se transformó un DEA estocástico expresándolo en forma de conjuntos convexos para garantizar que las soluciones de un problema no lineal son óptimos globales. Tercero se corrió el modelo estocástico transformado utilizando la distribución a posteriori de las variables de salida. Cuarto se obtuvieron, gracias a los aspectos anteriores, los determinados interevalos de confianza, las distribuciones de probabilidad de las eficiencias y las comparaciones con DEA clásico. En las siguientes subsecciones se amplía cada uno de los anteriores aspectos.

5.3.1. Aplicación a DEA Bayesiano

Se han usado datos del DANE Colombia, en un estudio sobre la investigación de educación formal en Colombia. Este estudio está enfocado a los niveles de preescolar, básica primaria, básica secundaria y educación media [20]. En dicho estudio se cuenta con una base de datos llamada indicadores de eficiencia 2004-2014 (es la versión más actual encontrada que está organizada por departamentos) que contiene la información de porcentajes de alumnos aprobados, reprobados, desertores y transferidos de todos los municipios de Colombia.

Para probar el generador aplicado al DEA estocástico Bayesiano, se seleccionaron 4 variables medidas en el año 2014, dos de entrada y dos de salida. Como variables de entradas se definieron el porcentaje de estudiantes reprobados y porcentaje de estudiantes desertores. Como variables de salida el porcentaje de estudiantes aprobados y porcentaje de transferidos. Como DMUs se tuvieron en cuenta los 19 municipios de mayor tamaño de Colombia. Con estas 4 variables se desea crear una medida comparativa de resultados para los municipios. La lógica es que las salidas mientras más altas mejor, es decir mientras más estudiantes aprobados y transferidos mejor. Las entradas mientras menores mejor, así que mejor será que haya menor reprobados y menos desertores para la educación en Colombia. Se tienen en cuenta las siguientes definiciones de acuerdo con el Ministerio de Educación Nacional [21]:

Reprobados. Son los alumnos que durante el período electivo no logran cumplir con todos los requisitos académicos para ingresar al siguiente período escolar.
Desertores. Son los estudiantes que abandonan el sistema escolar durante el período académico, o que finalizan el período lectivo, pero no regresan en el período siguiente.
Aprobados. Son alumnos que durante el periodo lectivo cumplen con todos los requisitos académicos para ingresar al siguiente período escolar.
Transferidos. Son los alumnos que se encontraban matriculados en un establecimiento educativo y que cambiaron de institución educativa durante el año escolar, por lo tanto, siguen siendo cubiertos por el sistema educativo.

5.3.2. Problema no lineal convexo

En [22] se puede consultar el problema de optimización cono compuesto como sigue:

donde C bebe satisfacer los siguientes requerimientos. Sea x^t ∈ 𝑅^𝑛𝑡 , t = 1,...,k vectores incluidos en las variables de decisión, entonces se define: C := { 𝑥 ∈ 𝑅^𝑛∶𝑥^𝑡 ∈ 𝐶_𝑡 ,𝑡 = 1,2,...,𝑘} o donde Ct debe tener una de las siguientes formas:

• Conjunto R:

𝐶𝑡= {𝑥 ∈ 𝑅^𝑛𝑡}

• Cono cuadrático:

• Cono cuadrático rotado:

Basado en los conceptos anteriores, se transformó el modelo (9) en un problema convexo usando un cono cuadrático y restricciones lineales para garantizar de que, a pesar de tener un problema no lineal, se puedan lograr soluciones óptimas globales. Se puede cambiar el primer conjunto de restricciones de la salida creando nuevas variables y obteniendo conos cuadráticos. Entonces el primer conjunto de restricciones de (9) queda así: que se puede expresar como:

Reemplazando el lado izquierdo por una variable x₁ como el cono cuadrático tenemos:

Si por ejemplo la DMU observada es la 19, entonces se pueden hacer los siguientes reemplazamientos:

Ahora, para la DMU 19, se puede expresar (28) así:

que es un cono cuadrático convexo. Las restricciones del modelo se completan con las siguientes restricciones lineales que parten de (29).

Las variables x1, x2,... , x20 son todas expresiones de tipo lineal. Un procedimiento muy similar se realiza para las restricciones de la segunda salida. De esta forma se demuestra que el problema es de programación no lineal con restricciones convexas.

5.3.3. Uso de la distribución a posteriori

Se programó en el software Matlab el generador bivariado discretizado propuesto en el presente artículo para simular valores que siguieran la distribución a posteriori (15) cuya marginal para μy es de Student multivariada la cual está definida por ecuaciones (32) y (33) de acuerdo con siguiente definición:

Sea Y un vector aleatorio continuo K × 1. Que μ sea un vector K × 1, V una matriz simétrica definida positiva y n ∈ ℜⅇ++. Se dice que, Y tiene distribución Student multivariada con media μ, matriz de escala V y n grados de libertad si su función de densidad de probabilidad conjunta es:

Donde:

Para las matrices de varianzas y covarianzas se usó la simulación de Wishart de Matlab. Al obtener las medias y varianzas necesarias que provienen de distribuciones a posteriori, se alimenta el modelo DEA estocástico (9).

Para evaluar la incertidumbre de los parámetros de la distribución a posteriori, se tuvo en cuenta que, como era de esperarse, la parte derecha de la expresión (15) es normal multivariada ya que la marginal de μy es Student multivariada. Se hizo la prueba de multinormalidad de Henze-Zirkler a los datos obtenidos del generador discretizado que sigue la distribución a posteriori en expresión (15) y dicha prueba fue superada de acuerdo con la figura 5.

Figura 5
Prueba de normalidad Henze-Zirkler a posteriori.

De acuerdo con la figura 5 se puede obtener que P ((84,09 < μY 1< 93,29)|Y ) = 0,90 y P ((0,27<μY2< 9,13)|Y ) = 0,90

5.3.4. Obtención de eficiencias

En las subsecciones anteriores se logró obtener p(θ|Z), lo que permite llegar al cálculo de las eficiencias p(r|Z). De esta forma se ha podido llegar al cálculo de las eficiencias de los principales municipios de Colombia teniendo en cuenta las medidas del DANE Colombia. Se usaron rutinas del programa Mosek [22], específicamente el toolbox Mosekopt, para correrse en Matlab. Estas rutinas usadas son diseñanadas por Mosek para resolver un problema de optimización cónica a través de de conos convexos. Para cada municipio (DMU) se corrió el modelo estocástico Bayesiano 30 veces. La tabla 3 muestra los puntajes de DEA clásico orientado a las salidas con retorno a escala contante (CRS por sus siglas en inglés) comparado con del DEA Bayesiano estocástico. De este último se presenta también la media, desviación estándar y los intervalos de confianza del 95% construidos con el estadístico t student (usando el teorema del límite central), donde L.I significa límite inferior y L.S el límite superior. También se presentan el ranking alcanzado por DEA clásico y Bayesiano.

Tabla 3
Resultados empíricos

Fuente: elaboración propia.

Las pruebas de bondad de ajuste para tres distribuciones de probabilidad adecuadas de acuerdo con los histogramas que presentaron las eficiencias de los municipios son presentadas en la tabla 4.

Tabla 4
Pruebas de bondad de ajuste Kolmogorov

Fuente: elaboración propia.

La figura 6 muestra una de las corridas que se usó en la DMU 19 usando software MOSEK. En la figura 7 se muestra una de las corridas hechas, para la DMU 19, se puede apreciar que la solución es óptima debido a que el problema primal y dual llegaron al mismo resultado.

Figura 6
Salida Mosek.

Figura 7
Solución óptima usando software Mosek.

Las pruebas de bondad de ajuste para tres distribuciones de probabilidad adecuadas de acuerdo con los histogramas que presentaron las eficiencias de los municipios son presentadas en la tabla 4.

6. Conclusiones

El propósito de este artículo fue desarrollar un generador bivariado basado en gradientes y derivadas direccionales. Este es aplicado a variables continuas cuando es posible lograr expresar una variable en forma explícita en términos de la otra variable y de variables aleatorias uniformes. Conociendo las dificultades de la expresión explícita para algunas funciones, se logró adaptar el generador propuesto para simular variables continuas con una estrategia de discretización. Su utilidad se ha puesto a prueba en un problema DEA estocástico Bayesiano que permite establecer intervalos de confianza en los puntajes de eficiencia. Mediante conversiones a conos convexos y restricciones lineales, se logró demostrar que el problema DEA tratado presentó soluciones óptimas. La metodología presentada permitirá trabajar de manera más sencilla las técnicas de solución que, a través de estimación Bayesiana, están surgiendo en la literatura DEA.

Material suplementario

Referencias

[1] W. Cook, L. Seiford, "Data envelopment analysis (dea) - thirty years on", European Journal of Operational Research, vol. 192, no. 1, pp. 1-17, 2009, doi: 10.1016/j.ejor.2008.01.032

[2] M. Bruni, D. Conforti, P. Beraldi, E. Tundis, "Probabilistically constrained models for efficiency and dominance in dea", International Journal Production Economics, vol. 117, no. 1, pp. 219-228, 2009, doi: 10.1016/j.ijpe.2008.10.011

[3] L. Simar, P. Wilson, "Sensitivity analysis of efficiency scores: How to bootstrap in nonparametric frontier models", Management Science., vol. 44, no. 1, pp. 49-61, 1998, doi: 10.1287/mnsc.44.1.49

[4] L. Simar, P. Wilson, "Statistical inference in non-parametric frontier models: the state of the art", Journal of Productivity Analysis, vol. 13, pp. 49-78, 2000, doi: 10.1023/A:1007864806704

[5] R. Dyson, E. Shale, "Data envelopment analysis, operational research and uncertainty", Journal of Operational Research Society, vol. 61, pp. 25-34, 2010, doi: 10.1057/jors.2009.145

[6] M. Ceyhan, J. Banneyan, "Handling estimated proportions in public sector data envelopment analysis", Annals of Operational Research, vol. 221, pp. 107-132, 2014, doi: 10.1007/s10479-011-1007-z

[7] E. Tsionas, E. Papadakis, "A bayesian approach to statistical inference in stochastic dea", Omega, vol. 38, no. 5, pp. 309-314, 2010, doi: 10.1016/j.omega.2009.02.003

[8] P. Mitropoulos, M. Talias, I. Mitropoulos, "Combining stochastic dea with bayesian analysis to obtain statistical properties of the efficiency scores: An application to greek public", Mathematical and Computer Modelling hospitals, vol. 243, no. 1, pp. 302-311, 2015, doi: 10.1016/j.ejor.2014.11.012

[9] W. Cooper, Z. Huang, S. Li, "Change constrained DEA", en Handbook on data envelopment analysis, 2nded. Boston: Springer US, 2011, pp. 211-240.

[10] D. Friesner, R. Mittelhammer, R. Rosenman, "Inferring the incidence of industry inefficiency from dea estimates", European Journal of Operational Research, vol. 224, no, 2, pp. 414-424, 2013, doi: 10.1016/j.ejor.2012.08.003

[11] A. Charnes, W. Cooper, E. Rhodes, "Measuring the efficiency of decision making units", European Journal of Operation Research, vol. 2, no. 6, pp. 429-444, 1978.

[12] K. Land, C. Lovell, S. Thore, "Productive efficiency under capitalism and state socialism: An empirical inquiry using chance-constrained data envelopment analysis", Technological Forecasting and Social Change, vol. 46, no. 2, pp. 139-152, 1994, doi: 10.1016/0040-1625(94)90022-1

[13] K. Land, C. Lovell, S. Thore, "Chance-constrained data envelopment analysis", Managerial and Decision Economics, vol. 14, pp. 541-554, 1993, doi: 10.1002/mde.4090140607

[14] K. Land, C. Lovell, S. Thore, "Productive e fficiency under capitalism and state socialism: the chance constrained programming approach", Supplement to Public Finance, vol. 47, pp. 109-121, 1992.

[15] K. Land, C. Lovell, S. Thore, "Chance constrained data envelopment analysis", Managerial and Decision Economics, vol. 14, no. 6, pp. 541-554, 1993, doi: 10.1002/mde.4090140607

[16] W. Cooper, L. Seiford, K. Tone, Data envelopment analysis: a comprehensive text with models, aplications, references and DEA-solver software, Second edition. New York, NY, USA: Springer, 2007.

[17] C. Subhash, Data envelopment analysis: theory and techniques for economics and operations research. New York, NY, USA: Cambrige University Press, 2004.

[18] J. Vargas, Simulación Basada en Probabilidad. Manizales: Universidad Autónoma de Manizales, 2013.

[19] S. Korkmaz, D. Goksuluk, G. Zararsiz, "MVN: An r package for assessing multivariate normality", The R Journal, vol. 6, no. 2, pp. 151-162, 2014.

[20] DANE, "Educación formal educ," [En línea]. Disponible en: http://www.dane.gov.co/index.php/estadisticas-por-tema/educacion/poblacion-escolarizada/educacion-formal

[21] R. d. C. Ministerio de Educación Nacional, "Educación de calidad," [En línea]. Disponible en: http://www.mineducacion.gov.co/1621/article-123912.html

[22] A. Mosek, "The mosek optimization toolbox for matlab manual", Mosek ApS, Denmark, Tech. Rep. version 7.1, revision 6.0.

Notas

Como citar: J. J. Vargas-Sánchez, J. A. Soto-Mejía, "Generador de variable aleatoria bivariado aplicado a DEA estocástico Bayesiano," Rev. UISIng., vol. 20, no. 2, pp. 139-150, 2021, doi: 10.18273/revuin.v20n2-2021012

Tabla 1
Frecuencias observadas en la generación bivariada de la función de la ecuación (24)

Fuente: elaboración propia.

Tabla 2
Discretización del algoritmo propuesto

Fuente: elaboración propia.

Figura 1
Prueba de normalidad MardiaTest.

Figura 2
Prueba de normalidad Henze-Zirkler.

Figura 3
Diagrama Q-Q para los datos simulados.

Figura 4
Prueba de bondad para los u_i.

Figura 5
Prueba de normalidad Henze-Zirkler a posteriori.

Tabla 3
Resultados empíricos

Fuente: elaboración propia.

Tabla 4
Pruebas de bondad de ajuste Kolmogorov

Fuente: elaboración propia.

Figura 6
Salida Mosek.

Figura 7
Solución óptima usando software Mosek.