Patricia A. Iñiguez
Facultad de Ciencias Económicas. Universidad Nacional de Río Cuarto
piniguez@fce.unrc.edu.ar
Juan M. Gallardo
Facultad de Ciencias Económicas. Universidad Nacional de Río Cuarto
jgallardo@fce.unrc.edu.ar
Mariana Arburua
Facultad de Ciencias Económicas. Universidad Nacional de Río Cuarto
marburua@fce.unrc.edu.ar
Pablo Pagano
Facultad de Ciencias Económicas. Universidad Nacional de Río Cuarto
ppagano@fce.unrc.edu.ar
Abstract
A variable selection method based on a multi-attribute indicator for efficiency evaluation of units observed in more than one period is presented. The proposed search algorithm allows choosing a common set of variables for the T periods; controlling the number of selected variables, without the evaluator in each iteration analyzing the added value of the variables to be added; operating directly with the original variables, without reducing dimensionality by composing artificial variables and; deriving a collection of empirical models. The application is illustrated with the case of the efficiency evaluation of provincial public management hospitals in the province of Córdoba, Argentina.
Keywords: Data Envelopment Analysis, Variables Selection, Panel Data.
MSC Subject classifications: 90-08, 90C08, 90B50.
Introducción
La metodología de estimación de fronteras no paramétricas permite evaluar la eficiencia relativa de las unidades de producción, aún en aquellos casos en que se utilicen múltiples inputs y outputs. De los métodos desarrollados, el que registra mayor uso y avances, es el Análisis Envolvente de Datos (DEA1). En efecto, (Cooper, Seiford, and Zhu 2011) muestran que DEA es uno de los métodos más aplicados para analizar la eficiencia y la productividad de varios sistemas: empresas, bancos, hospitales, industrias, regiones, países, etc. Las cuatro décadas posteriores a (Charnes, Cooper, and Rhodes 1978) han sido muy provechosas para el método DEA tanto por los muchos desarrollos teóricos, como por los estudios empíricos que se registran en innumerables artículos. No obstante, esta interesante evolución de los últimos años, una cuestión de estudio aún vigente en la literatura es el problema de la selección de los inputs y outputs a considerar en el modelo empírico.
Este interés persistente obedece a que al ser DEA un enfoque no paramétrico, surge el problema de la discriminación cuando, por ejemplo, existe un número relativamente grande de variables en comparación con las Decision Making Units (DMUs) ((Adler and Yazhemsky 2010)). Tener un número bajo de unidades en evaluación en comparación con el número de inputs y outputs conduce a encontrar una gran proporción de unidades eficientes o con índices de eficiencia con valores optimistas. Esta clase de problemas, puede conducir a que la evaluación de eficiencia no cumpla con su propósito.
Lo cierto es que, en la práctica, generalmente, no se dispone de muestras grandes y los investigadores procuran analizar conjuntos de observaciones relativamente pequeños, de allí la necesidad de hallar metodologías para la selección de un conjunto de variables que mejoren la discriminación del modelo empírico.
Una variedad de métodos se ha propuesto, en particular para datos de corte transversal y, si bien, se han hecho diversas comparaciones a través de pruebas empíricas y/o simulación Monte Carlo ((Adler and Yazhemsky 2010), (Nataraja and Johnson 2011) y (Eskelinen 2017)), todos poseen ventajas y desventajas, por lo que a ninguno se le puede atribuir la característica de inmejorable. Adicionalmente, la cuestión de elegir un conjunto de inputs y outputs, se dificulta cuando la evaluación de eficiencia comprende más de un período de tiempo. Aunque resulta factible seleccionar para cada uno de ellos un conjunto distinto de variables, ello no resulta razonable si se pretende comparar los resultados de los diferentes períodos o medir la evolución y cambio, por ejemplo, a través del índice de Malmquist. Esta circunstancia obliga a aplicar algún método que ayude a seleccionar un conjunto de inputs y outputs común para todos los períodos en los que se pretenda evaluar la eficiencia.
De la diversidad de métodos que se hayan en la literatura, relativamente pocos –(González-Araya, Campo Hernández, and Acosta Espejo 2013) y (Peyrache, Rose, and Sicilia 2020)-, abordan el problema de la selección de variables con DMUs observadas en más de un período.
El primer método propuesto por (González-Araya, Campo Hernández, and Acosta Espejo 2013) parte del desarrollado por (Soares De Mello et al. 2004) para datos de corte transversal para seleccionar, en función de la frecuencia relativa de elección de los inputs u outputs en cada período, un conjunto de variables común para todos los períodos. Si bien, en cada año, se consideran dos criterios -el mejor ajuste a la frontera y la máxima discriminación-, en la conformación del conjunto común solo se tiene en cuenta la frecuencia relativa y, se retoma la máxima eficiencia media, en caso de empate.
En el segundo método presentado por los mencionados autores se aplica el formulado por (Soares De Mello et al. 2004) una sola vez a la totalidad de los datos del panel.
La propuesta de (Peyrache, Rose, and Sicilia 2020) define dos versiones del programa lineal entero mixto que permiten seleccionar un conjunto común de inputs y outputs. En la primera, se maximiza la eficiencia agregada de todas las observaciones en todos los períodos y, en la segunda, la eficiencia de la DMU promedio.
Con el propósito de facilitar la elección de un conjunto común de inputs y outputs para todos los períodos que integran el panel de datos que considere tanto el mejor ajuste a la frontera, como la máxima discriminación, la menor variación interanual y diversos escenarios, se propone un método de varias etapas integrando diversos métodos basados en técnicas de decisión multicriterio para datos de corte transversal – (Soares De Mello et al. 2004), (Castro Senra et al. 2007) -, y los propuestos por (González-Araya, Campo Hernández, and Acosta Espejo 2013) . Se define un indicador multiabributo que, a pesos iguales, agrega la eficiencia media de los T períodos, la media de los desvíos de la eficiencia de las N DMUs en los T períodos, la media de DMUs eficientes considerando los T períodos y el desvío de DMUs eficientes de los T períodos.
Con esta propuesta se busca contribuir con un procedimiento de selección de variables que, considerando otros atributos, además, de la eficiencia media o agregada, evalúe una colección de modelos empíricos o escenarios que brinde al decisor o investigador la posibilidad de elegir aquel modelo empírico con mayor sentido conceptual y práctico.
Así, en este artículo se presenta el Método de Selección de Variables para Datos de Panel2 con Base en un Indicador Multiatributo y se ilustra la aplicación con el caso de la evaluación de eficiencia de los hospitales de gestión pública provincial de la provincia de Córdoba de Argentina.
A continuación, en la sección 2 se describen brevemente los modelos básicos del DEA, luego, en la sección 3, sin aspirar a ser exhaustiva, se resume una revisión de la literatura. En la sección 4, se reseñan brevemente las propuestas de (Soares De Mello et al. 2004), (Castro Senra et al. 2007) y de (González-Araya, Campo Hernández, and Acosta Espejo 2013), para luego exponer, en la sección 5, el Método de Selección de Variables para Datos de Panel con Base en un Indicador Multiatributo, sintetizando la aplicación empírica en la sección 6, para presentar las principales conclusiones, en la sección 7.
El Análisis Envolvente de Datos
Como se comentó al inicio, uno de los principales enfoques para analizar la eficiencia se conoce como el Análisis Envolvente de Datos (DEA). Este enfoque fue desarrollado por dos prestigiosos investigadores de la Investigación Operativa, Abraham Charnes y William Cooper, quienes junto a Edwardo Rhodes, publican el artículo fundamental, (Charnes, Cooper, and Rhodes 1978). Este trabajo se inspira en el importante escrito, aunque relativamente desconocido hasta ese momento, de un destacado economista, (Farrell 1957). En efecto, dicho autor, propuso considerar como referente eficiente la mejor práctica observada de entre la muestra de unidades productoras objeto de estudio y, de este modo, calcular los índices de eficiencia de cada una por comparación con la/s que presenta/n un mejor comportamiento. Así, se obtiene una medida de eficiencia que tiene un carácter relativo, es decir, depende de la muestra.
El objetivo del DEA es comparar el desempeño de las DMUs, que utilizan los mismos inputs y producen los mismos outputs, entre sí. El DEA calcula un índice de eficiencia para cada una de las DMUs, de modo que las DMUs con un indicador igual a uno se encuentran en la denominada frontera eficiente. Aquellas que se encuentran fuera de la frontera de eficiencia se consideran de menor desempeño y, un análisis adicional, facilita la información respecto de lo que pueden hacer para mejorar su eficiencia.
El método DEA generaliza la medida de la eficiencia para un único output e input de una DMU, medida por el cociente output/input formulando un programa fraccional que transforma los múltiples outputs e inputs para cada DMU en un único output e input virtual.
La eficiencia técnica relativa de una DMU se calcula mediante el cociente entre la suma ponderada de outputs y la suma ponderada de inputs, donde los pesos para los outputs e inputs de cada DMU son seleccionados de modo que la medida de la eficiencia responda al criterio de eficiencia de Pareto, sujeto a la restricción de que ninguna DMU puede tener una eficiencia relativa superior a la unidad.
DEA obtiene la frontera de producción a partir de las mejores prácticas observadas, es decir, en caso de una medida producto orientada, el máximo output alcanzable por cualquier DMU, dado un nivel de input.
La propuesta de (Charnes, Cooper, and Rhodes 1978) dio lugar al Modelo Básico conocido en la literatura como Modelo CCR 3 o modelo de retornos constantes a escala y se diseñó para estimar índices de eficiencia técnica. Luego, (Banker, Charnes, and Cooper 1984) plantean un modelo lineal conocido como Modelo BCC4 o modelo de retornos variables a escala. A continuación, se presentan los modelos lineales de la envolvente (CCR: (1) y BCC: (2)) que permiten estimar eficiencia técnica producto orientada.
\[\label{Equation 1}
\begin{split}
max\ \varphi \\
sujeto\ a: \\
\varphi y_o-Y_\mu & \leq 0 \\
X_\mu & \leq x_o \\
\mu & \geq 0
\end{split}\qquad(1)\]
\[\label{Equation 2}
\begin{split}
max\ \varphi_B \\
sujeto\ a: \\
\varphi_B y_o-Y_\mu & \leq 0 \\
X_\mu &\leq x_o \\
\varepsilon \mu & \leq 1 \\
\mu & \geq 0
\end{split}\qquad(2)\]
Donde \(\mathrm{x=(x_{1},x_{2},…, x_{M})\in R_{+}^M }\) es el vector de M inputs; \(\mathrm{y=(y_{1},y_{2},…, y_{S})\in R_{+}^S }\) es el vector de S outputs; X e Y las matrices de los M inputs y S outputs de las N DMUs observadas; \(\mathrm{\mu}\) es el vector de escalares; \(\mathrm{\varepsilon}\) es un vector de N componentes iguales a 1, y \(\mathrm{\varphi}\) y \(\mathrm{\varphi_B}\) los índices de eficiencia técnica.
Antecedentes
El interés por mejorar la discriminación de los modelos empíricos de evaluación de eficiencia, como se comentó al inicio, sigue siendo una cuestión vigente en la literatura. En este marco, diversos enfoques se han divulgado en los últimos treinta años, los que pueden reunirse en dos grandes grupos: a) los que seleccionan solo un subconjunto de las variables originales; b) los que utilizan una medida agregada.
Dentro del grupo a) se hallan aquellos que se basan en algún tipo de decisión heurística o juicio de valor acerca de qué variables son relevantes para el problema dado ((Allen et al. 1997); (Golany and Roll 1989)); pero también, se reúnen aquellos que utilizan técnicas estadísticas con la idea de comparar la contribución que, las potenciales variables a ser incluidas en el modelo, tienen sobre la eficiencia estimada (contribución a la eficiencia) ((Banker 1996), (Simar and Wilson 2001), (Pastor, Ruiz, and Sirvent 2002), (Jenkins and Anderson 2003), (Ruggiero 2005), (Wagner and Shimshak 2007)). Asimismo, se incluyen en este grupo, los métodos de selección desarrollados a partir de la propuesta de (Lins and Moreira 1999), que combinan la relación causal, con el potencial discriminatorio del modelo, dando lugar a procedimientos de selección que consideran múltiples criterios. Así, las variables candidatas son alternativas y como criterios se consideran el mejor ajuste a la frontera y la máxima discriminación ( (Soares De Mello et al. 2004), (Castro Senra et al. 2007); (González-Araya and Valdés 2009) y (González-Araya, Campo Hernández, and Acosta Espejo 2013)).
Se suma a los anteriores, un cuarto subconjunto de métodos, que utilizan un enfoque DEA a través de programas lineales o cuadráticos enteros mixtos, desarrollados en los últimos tres años. En general, en estas propuestas, las variables binarias se introducen para seleccionar inputs y outputs mientras que las funciones objetivo y restricciones se formulan de acuerdo a un modelo DEA ((Limleamthong and Guillén-Gosálbez 2018),(Benítez-Peña, Bogetoft, and Morales 2019) y (Peyrache, Rose, and Sicilia 2020)).
Por otra parte, los métodos que pueden reunirse en el grupo b), proponen reducir la dimensionalidad sustituyendo las variables originales por una medida agregada. La agregación puede hacerse basándose en algún tipo de decisión heurística o juicios de valor (usando ponderaciones ad-hoc) o usando algunos criterios estadísticos para elegir la combinación óptima (lineal) de los inputs u outputs ((Friedman and Sinuany-Stern 1998) y (Morita and Avkiran 2009)). En este contexto, el enfoque más popular es la formulación DEA-ACP propuesta por (Ueda and Hoshiai 1997) y (Adler and Golany 2001) que se basa en el uso del análisis de componentes principales para reducir el número de inputs y outputs sustituyéndolos por componentes principales.
De los procedimientos de selección de variables mencionados anteriormente solo dos proporcionan formulaciones para datos de panel. (González-Araya, Campo Hernández, and Acosta Espejo 2013) presentan tres métodos, dos de ellos basados en la propuesta de (Soares De Mello et al. 2004) y, el tercero, parte del método presentado por (González-Araya and Valdés 2009). Finalmente, (Peyrache, Rose, and Sicilia 2020) incluyen para seleccionar un conjunto común de variables para todas las observaciones en todos los períodos de tiempo que conforman el panel de datos, dos versiones del programa lineal entero mixto propuesto para datos de corte transversal.
Breve Reseña de los Métodos de Selección de Variables Combinados en la Propuesta
El Método Multicriterio para la Selección de Variables (MMSV) de (Soares De Mello et al. 2004) y los propuestos por (Castro Senra et al. 2007) nominados Método Multicriterio Combinatorio Inicial para la Selección de Variables (MMCISV) y Método Multicriterio Combinatorio por Escenarios para la Selección de Variables (MMCESV), así como los presentados por (González-Araya, Campo Hernández, and Acosta Espejo 2013), Método 1 y 2 de selección de variables en modelos DEA usando series de tiempo (M1SVST y M2SVST, respectivamente), se apoyan en un procedimiento de selección que considera múltiples criterios. Así, las variables candidatas son alternativas y como criterios se consideran el mejor ajuste a la frontera y la máxima discriminación.
En todos los casos se requiere un par inicial input-output. Este puede ser elección del decisor o, como proponen (Castro Senra et al. 2007), escogido siguiendo un proceso similar al realizado en el MMSV considerando como conjunto de alternativas todos los posibles pares input-output.
Para seleccionar una de las variables candidatas se evalúa cada alternativa en los criterios antes indicados. El ajuste a la frontera es medido a través de la eficiencia media para cada variable a adicionar y su normalización da lugar al indicador \(\mathrm{S_{EF}}\) , el que alcanza el valor 1 en la eficiencia media máxima y 0 en la eficiencia media mínima. La máxima discriminación es medida por el número de DMUs eficientes, el que se pretende minimizar. La normalización de este criterio genera el indicador \(\mathrm{S_{DIS}}\) que alcanza el valor 1 para el menor número de DMUs en la frontera y 0 para el mayor. Para seleccionar la variable se agregan, a idéntico peso, los dos criterios mediante una suma ponderada de \(\mathrm{S_{EF}}\) y \(\mathrm{S_{DIS}}\), \(\mathrm{S=\alpha S_{EF}+(1-\alpha)S_{DIS}}\).
MMSV, MMCISV, M1SVST y M2SVST incorporan variables mientras el conjunto de inputs y outputs no exceda el tercio de las DMUs. En tanto que MMCESV no se detiene cuando el número de variables alcance el tercio de las DMUs. Se incluyen todas las variables para luego comparar distintos escenarios con diferentes números de variables.
Método de Selección de Variables para Datos de Panel con Base en un Indicador Multiatributo (MSVDPIM)
El procedimiento de selección de variables para evaluación de eficiencia mediante un modelo de la metodología DEA con datos de panel, que se plantea, busca elegir un conjunto de inputs y outputs común para todos los períodos que integran el panel, evaluando diversos escenarios a través de un indicador multiatributo que valora y pondera los criterios, mejor ajuste a la frontera, máxima discriminación y menor variación interanual.
El método propuesto se conforma de tres etapas. En la primera se define el par inicial. Éste puede, ser elegido por el investigador con cualquier criterio, tal como se propone en el MMSV; ser integrado por un par considerado relevante para la evaluación ((Peyrache, Rose, and Sicilia 2020)) o definirse siguiendo el criterio del MMCISV. En la segunda, se definen los diferentes escenarios a comparar. El primero de ellos, tomando la idea del M2SVST, surge de aplicar el MMCESV una sola vez a la totalidad de los datos del panel; los siguientes, se obtienen de aplicar el mismo método en cada período que integra el panel de datos y; el último, se conforma a partir de las frecuencias relativas, siguiendo el M1SVST. En la tercera etapa se estima la eficiencia con cada uno de los escenarios seleccionados para cada período del panel y se define el mejor escenario, mediante el indicador \(\mathbf{S_{d}}\) que pondera cuatro atributos. El procedimiento se detalla en la Figura 1.
El indicador \(\mathbf{S_{d}}\), pondera a igual peso o a los que el investigador considere adecuados, cuatro atributos normalizados 5 correspondientes a cada uno de los escenarios: la eficiencia media de los T períodos ( \({S_{EFT}}\) ), la media de los desvíos de la eficiencia de las N DMUs en los T períodos ( \({S_{VI1}}\) ), la media de DMUs eficientes considerando los T períodos ( \({S_{DIST}}\) ) y el desvío de DMUs eficientes de los T períodos ( \({S_{VI2}}\) ). El único atributo que se pretende maximizar es la eficiencia media, los restantes, se minimizan, para así seleccionar el escenario que mejor discrimine y ajuste a la frontera, al tiempo que menor variación interanual registre. \(\)

El algoritmo de selección de variables por agregación propuesto, es un método de búsqueda, que en cada iteración elige la mejor alternativa, por tanto, con la excepción de la determinación del escenario T+2, no es necesario que el investigador defina cuál es el número de variables en que se detiene la búsqueda. Se incluyen todas las variables para luego comparar distintos escenarios con diferentes números de variables.
Aplicación Empírica
Para ilustrar la aplicación del MSVDPIM se considera el caso de la evaluación de eficiencia de los hospitales de gestión pública provincial de la provincia de Córdoba en los años 2015, 2016 y 2017.
A partir de una revisión de los indicadores de insumo, proceso, producto e impacto que la literatura latinoamericana recomienda para el desempeño de los centros hospitalarios y los datos primarios que se obtienen del Registro Federal de Establecimientos Hospitalarios y de la unidad ejecutora central del Programa SUMAR6 , ambas, dependencias del Ministerio de Salud de la Nación; el presupuesto del Ministerio de Salud de la provincia de Córdoba y el CENSO 2010, se logra estimar para veintidós (22) establecimientos de salud con internación general (hospitales) de gestión pública provincial, diecisiete (17) indicadores agrupados en: los vinculados al insumo cama, los relacionados al insumo personal, los referidos a las diversas prestaciones y los correspondientes al grado de atención de la población potencial beneficiaria de los servicios, según se describe en el la Figura 2.

De este modo, se consigue conformar un panel de datos balanceado con 22 observaciones y 17 variables estimadas en los años 2015, 2016 y 2017. Sobre este conjunto de inputs-outputs se aplica el procedimiento descripto en la Figura 1, considerando diferentes pares input-output iniciales. En el primer caso el par inicial lo seleccionan los investigadores y, en el segundo, se escoge para todo el panel y en cada período t el que posea mayor valor S entre los 84 pares posibles.
Para construir y evaluar los escenarios 1, 2, …, T+1 y T+2, el nivel de eficiencia se determina mediante el modelo (2). Se escoge esta formulación porque la mayoría de los indicadores constituyen ratios y, además, es un modelo invariante ante transformaciones afines de las variables. De este modo, si se utiliza el mismo conjunto de datos en diferentes unidades puede obtenerse la misma selección de variables ((Peyrache, Rose, and Sicilia 2020)).
Para el primer caso, los investigadores acuerdan seleccionar el par inicial compuesto por I.1 y O.10, no solo por ser el par con mayor correlación lineal input-output en los tres períodos, sino porque, además, se considera que una de las principales funciones del hospital de gestión pública, en Argentina, es brindar atención de salud a la población que no posee cobertura. A partir de dicho par inicial se conforman los cinco escenarios que se presentan en la Figura 3.
Como podrá observarse los Escenarios 1, 4 y 5 son idénticos. Por tal motivo quedan a comparar solo tres conjuntos de variables para definir el modelo empírico. De esos tres, dados dos diferentes conjuntos de pesos, el mejor es el Escenario 3, integrado solo por tres variables I.1, O.10 y O.12 y le sigue, aunque con un mayor número promedio de DMUs eficientes, el Escenario 1, el 4 o el 5.
En el segundo caso, y con el fin de ilustrar los resultados a los que se arriban en caso que el investigador no desee, no pueda o le resulte indiferente elegir el par input-output inicial, el mismo, se escoge tal como se realiza en el MMCISV.
Así, el par con el que se inicia el proceso de búsqueda de cada escenario puede ser diferente. El detalle de los pares iniciales y de los escenarios hallados se presentan en la Figura 4.


Como puede observarse al seleccionar el par inicial a partir de \(S\), el insumo cama pierde participación y el índice de cobertura, participa solo en algunos escenarios. Evidentemente el indicador O.12, es el que más favorece la productividad de estos establecimientos y cualquiera sea el punto de partida, integra el escenario con mayor \(S_{d}\). En esta oportunidad el Escenario 3.
Conclusiones
En este trabajo se proporciona una solución, basada en un indicador multiatributo, para un problema vigente en la literatura del DEA: la selección de las variables que se incluirán en el modelo cuando la evaluación se realiza con datos de panel.
Si bien, no se exponen los cuadros con los valores de cada una de las etapas que permiten seleccionar los T+2 escenarios, la aplicación empírica muestra que es factible utilizar este algoritmo cuando se tiene un número bajo de unidades en evaluación en comparación con el número de inputs y outputs. No obstante, si el investigador lo considera oportuno, también, resulta de aplicación cuando la muestra sea lo suficientemente grande.
El algoritmo planteado permite, elegir un conjunto común de variables para los T períodos; controlar el número de variables seleccionadas, sin que el evaluador en cada iteración analice el valor agregado de las variables a adicionar; operar directamente con las variables originales, sin reducir la dimensionalidad componiendo variables artificiales que pueden ser de difícil interpretación y; derivar una colección de modelos empíricos, dado que se examinan T+2 escenarios.
También, es de notar que todos los conjuntos de variables se ajustan a las propuestas que se hallan en la literatura en relación al número de variables respecto del número de observaciones.
Finalmente, se debe señalar que a futuro queda por concluir el desarrollo de una rutina en el entorno libre R, que conceda acceso libre a todos los investigadores y la comparación de los resultados que arroja esta propuesta con los que surgirían de aplicar las otras, para datos de panel, hallados en la literatura.
Referencias
- Del inglés Data Envelopment Analysis↩︎
- Se habla de datos de panel cuando se tienen observaciones repetidas a lo largo del tiempo para una muestra de unidades individuales. Puede decirse que para una variable \(\mathrm{x_{it}}\) se tienen i= 1, …, N individuos observados a lo largo de t= 1, …, T períodos de tiempo. ((Arellano 1992))↩︎
- En referencia al apellido de sus autores: Charnes, Cooper y Rhodes.↩︎
- En referencia al apellido de sus autores: Banker, Charnes y Cooper.↩︎
- El procedimiento de normalización es el aplicado en el MMSV↩︎
- El Programa SUMAR brinda cobertura a la población materno-infantil, niños, adolescentes y adultos hasta los 64 años sin obra social. Los datos se suministran en el marco de un Convenio de Colaboración y Confidencialidad por el que se acuerda que “Las ideas y opiniones expuestas en esta publicación son de responsabilidad exclusiva de su/s autor/es y no necesariamente reflejan la opinión del Programa SUMAR, ni del Ministerio de Salud de la Nación”↩︎