RESUMEN : Los repositorios de datos permiten el desarrollo de investigaciones, el descubrimiento de conocimiento y la prueba de nuevos algoritmos de aprendizaje. El presente trabajo tiene como objetivo presentar un repositorio para el desarrollo de investigaciones en gestión de proyectos. En el trabajo los autores presentan un conjunto de procesos técnicas para la gestión del repositorio. El repositorio está compuesto por 18 bases de datos que cubren diferentes áreas de conocimiento en gestión de proyectos. Los datos reflejan el comportamiento de proyectos de desarrollo de software. En la sección de resultados y discusión los autores referencias un conjunto de tesis de doctorado, tesis de maestría y artículos que emplearon los datos del repositorio para diferentes investigaciones. Los autores evalúan la calidad percibida de los investigadores aplicándole a los mismos un cuestionario que evalúa las variables pertinencia y usabilidad.
Palabras clave: descubrimiento de conocimientodescubrimiento de conocimiento,gestión de proyectosgestión de proyectos,gestión de softwaregestión de software,repositorio de datosrepositorio de datos.
ABSTRACT : Data repositories allow the sharing, reuse and localization of data for learning and discovery of new knowledge within organizations. In this work authors presents a repository for investigations in project management. This repository consists of 18 databases covering the most of project management areas. All data are from software projects and can be use in different investigations. The paper presents to processes and techniques to manage the databases in repository. In section results and discussion authors presents different references of phd thesis, master degree thesis and papers that used repository´s databases. Authors evaluate the quality perceived of researchers by applying a questionnaire to evaluate two variables pertinence and usability.
Keywords: knowledge discovery, project management, repository of data, software management.
Artículo de revisión
Repositorio de datos para investigaciones en gestión de proyectos
Database Repository for research on Project Management
Recepción: 18 Mayo 2018
Aprobación: 08 Diciembre 2018
La ingeniería del software constituye una de las industrias emergentes que mayor crecimiento e impacto ha experimentado en años recientes. El desarrollo de los proyectos de esta industria respecto a la calidad y las buenas practicas está marcado por la existencia de numerosos estándares y libros desarrollados por diversos autores, entre los que se destacan, entre otros, el PMBOK (PMI, 2017), la ISO 21500 (Stellingwerf & Zandhuis, 2013) y CMMI (SEI, 2015). Pero a pesar de la gran cantidad de guías persisten dificultades como se refleja en los Reportes CHAOS del Standish Group (Johnson, Gesmer, Poort, & Mulder, 2016).
En los reportes realizados entre el 2011 y el 2015 se señala que: aproximadamente el 19% de los proyectos fracasan, que alrededor del 52% de los proyectos son renegociados por variaciones en su alcance, costo o calidad y que solo el 29% de los proyectos fueron exitosos (Hastie & Wojewoda, 2015). En este escenario aprender de la experiencia de proyectos anteriores, ayudaría a disminuir el elevado número de proyectos cancelados o renegociados. En particular la minería de datos es una de las técnicas que los autores de este trabajo recomiendan en este sentido, algunas de estas mismas técnicas aparecen como recomendación a partir de la versión 6 del PMBOK (PMI, 2017).
En el contexto de esta investigación entendemos a la minería de datos como un campo interdisciplinario donde convergen técnicas estadísticas, matemáticas, inteligencia artificial, el reconocimiento de patrones y bases de datos para el descubrimiento de conocimiento no trivial que reside de manera implícita en los datos (Gorunescu, 2011). Pero para garantizar el desarrollo de investigaciones empleando estas técnicas es preciso contar con suficientes datos que en este campo en particular generalmente provienen de sistemas de información que no están públicos dificultando el acceso a la información.
Existen diferentes repositorios de bases de datos internacionales para el desarrollo de investigaciones (Kolisch & Sprecher, 1996). Uno de los repositorios más reconocidos es el UCI Repository (Catherine Blake, 1998)(C Blake & Merz, 2015) para aprendizaje automático que incluye numerosas bases de datos de disímiles campos de aplicación. El PSPLIB (Kolisch & Sprecher, 1996) por su parte es especializado en bases de datos para la asignación de recursos, útil en la prueba de técnicas de optimización. En (Pérez Pupo, 2011) (Santiesteban et al., 2016) se hace un análisis de repositorios de datos y se identifica que no cubren las necesidades de investigaciones en la temática de gestión de proyectos.
En este trabajo se propone un repositorio para el desarrollo de investigaciones en gestión de proyectos que incluye 18 bases de datos asociadas a proyectos de software. En la sección materiales y métodos se propone un conjunto de procesos asociados a la construcción y gestión del repositorio. En esta sección también se explica la estructura del repositorio y las bases de datos que lo conforman. En la sección resultados y discusión se presentan un conjunto de investigaciones que han empleado el repositorio en la validación de los resultados.
En esta sección se presenta una propuesta de modelo para la construcción y gestión de repositorios de datos para el desarrollo de investigaciones. En la Figura 1 se describen los procesos que intervienen en la construcción del repositorio y que fueron desarrollados inicialmente en la tesis de maestría de Iliana Pérez (Pérez Pupo, 2011).

La construcción del repositorio para investigaciones en gestión de proyectos tiene sus inicios en el 2008 con el desarrollo de la plataforma del sistema de información GESPRO (Piñero et al., 2010) (Piñero et al., 2015). Se decide desarrollar el sistema de información en gestión de proyectos para: apoyar la innovación, la toma de decisiones y el desarrollo de investigaciones que permiten elevar los resultados en la ejecución de proyectos. Se inicia desde ese momento, la recopilación de datos que podrían ser empleados posteriormente para el desarrollo de investigaciones. Los procesos que intervienen en la gestión del repositorio, como muestra la Figura 1 son:
Selección de los datos: tiene como objetivo seleccionar las fuentes de datos y caracterizar los datos dependiendo del contexto. Se proponen indicadores para la calidad del dato y se planifica el proceso de construcción del repositorio. Como salida, este proceso genera un conjunto de datos seleccionados para formar el repositorio.
Construcción de base de datos. En este proceso se definen las áreas temáticas o áreas de conocimiento de gestión de proyectos que va a representar cada base de datos, e incluye los siguientes subprocesos:
Preprocesamiento de los datos: se aplican técnicas de limpieza (Escobar Pompa, 2015) como integración, transformación, reducción, anonimización, pseudonimización, imputación, verificación de datos y selección de atributos.
Construcción de base de datos: se seleccionan los atributos que conformarán la base de datos para investigaciones (Ril Valentín, 2012) (Medina Rodríguez, 2012). En este proceso se debe tener en cuenta que el diseño de la base de datos debe facilitar la recuperación rápida de los registros.
Actualización de la base de datos: se perfecciona la base de datos incorporando nuevos registros, modificando y/o eliminando otros. Como salida se obtiene una base de datos con mejores condiciones para la investigación.
Publicación de bases de datos en el repositorio: es el proceso mediante el cual se revisa y se aprueba la publicación de las bases de datos en el repositorio cumpliendo con la estructura establecida (en la siguiente sección) para facilitar las consultas y explotación de las mismas. Como salida, se obtiene el repositorio conformado por cada una de las bases de datos que representarán las áreas de conocimiento de gestión de proyectos.
Desarrollo de investigaciones: es donde el o los investigadores utilizan los datos descargados del repositorio para realizar y validar su investigación. Como salida, en este proceso se generan nuevos datos, que es el resultado de la aplicación de los algoritmos o métodos de la investigación al juego de datos inicial. Las bases de datos empleadas en la investigación deben ser debidamente referenciadas. La salida a este proceso son los resultados de la investigación.
Interpretación y evaluación: en este paso se analizan los resultados del uso de las bases de datos. Se suben al repositorio los resultados de las investigaciones, los cuales podrán ser utilizados en comparaciones de técnicas y algoritmos en otras investigaciones. En este proceso la salida es el conocimiento generado en las investigaciones realizadas sobre los datos del repositorio para la gestión de proyectos.
Para la gestión y publicación del repositorio, son importantes los siguientes roles:
Gestor del repositorio: personal encargado de mantener el orden y limpieza de los datos en el repositorio.
Investigador: es todo aquel que utilizará los datos para el desarrollo y validación de su investigación.
En el repositorio, cada base de datos está representada por un fichero .name y .data, similar a la estructura del UCI Repository (Blake 1998) (Blake y Merz 2015):
El fichero .name representa la estructura de la base de datos y debe contener la siguiente información:
Título: nombre de la base de datos, debe ser representativo al área de conocimiento de la gestión de proyectos correspondiente a los datos que la contiene.
Fuente: entidad o institución que provee los datos. Acá se deberá ofrecer la mayor cantidad posible de datos de contacto e identificación; ejemplo, dirección, teléfonos, correos, etc.
Citado: la forma en que debe ser citada la base de datos, no deberá faltar el nombre ni la fecha en que se proveyeron los datos.
Historial de uso: se listan todas las investigaciones realizadas con esa base de datos, referenciando cada una de las publicaciones.
Información relevante: es donde se describen los atributos que conforman la base de datos.
Cantidad de registros de la base de datos.
Cantidad de atributos.
Valores de atributos ausentes: se indica el término o valor que se utilizará en los casos de valores ausentes.
Información sobre datos anómalos: en los atributos que sea necesario, se especifica el valor a partir del cual se considera que es un dato anómalo o fuera de rango.
El fichero .data es un fichero texto en formato ´csv´ que contiene los datos de cada uno de los registros y los atributos en el mismo orden que se explicaron en el fichero .name.
La versión actual del repositorio está compuesta por las siguientes bases de datos:
Asociadas a la temática de evaluación de proyectos y programa:
A continuación, se exponen las características generales de las bases de datos que conforman el repositorio. Ver Tabla 1

En la Tabla 2 se muestra un breve análisis en el que se manifiesta la relación de las bases de datos del repositorio con 9 áreas de conocimiento de la gestión de proyecto propuestas por el PMBOK y la ISO 21500.

En esta sección se presentan las experiencias en el uso del repositorio. Se organiza esta sección considerando los siguientes conjuntos de indicadores:
Indicadores asociados al nivel de explotación del repositorio en investigaciones de doctorado y maestría.
Cantidad de investigaciones de maestría emplean el repositorio.
Cantidad de investigaciones de doctorado emplean el repositorio.
Cantidad de artículos científicos que emplean el repositorio.
Indicadores asociados a la calidad percibida de usuarios finales del repositorio.
El repositorio ha permitido el aumento de las investigaciones asociadas a la gestión de proyectos ver Figura 2. Se relacionan a continuación investigaciones realizadas que emplearon el repositorio en la validación de resultados.

Investigaciones de doctorado terminadas que han utilizado el repositorio en la validación:
Investigaciones de maestría que han utilizado información del repositorio:
Respecto a la cantidad de artículos científicos que emplean el repositorio, se generaron un total de 22 publicaciones como se muestra a continuación:
A continuación, se muestra el estudio realizado sobre calidad percibida de los investigadores que han utilizado datos del repositorio. Los investigadores involucrados suman 57 personas entre estudiantes de maestría, estudiantes de doctorado e investigadores. Se diseñan una encuesta asociada al uso del repositorio que evalúa las siguientes variables: pertinencia del repositorio y la usabilidad. Las preguntas son formuladas de forma tal que las respuestas corresponden a alguno de los siguientes términos lingüísticos LBTL = {ninguno, muy bajo, bajo, medio, alto, muy alto, perfecto}. Las respuestas de los investigadores a cada pregunta son agregadas y computadas empleando la técnica de computación con palabras 2-tuplas (Herrera & Martínez, 2000).
Los resultados obtenidos se muestran a continuación. Ver Tabla 3


En general se manifiesta un alto nivel de satisfacción en el uso del repositorio. Respecto a la variable pertinencia el criterio con menor puntuación fue el nivel de exclusividad del repositorio elemento que se debe a la existencia del repositorio PSPLIB para el desarrollo de investigaciones asociadas a la resolución de problemas de optimización. Pero realmente no se ha encontrado por parte de los autores de este trabajo otros repositorios públicos para el desarrollo de investigaciones en gestión de proyectos de software. Respecto a la variable usabilidad los criterios con más baja evaluación fueron: el nivel de accesibilidad del repositorio, la calidad de los datos respecto a la cantidad de valores ausentes y la satisfacción respecto a la ayuda en el uso del repositorio. Son elementos que se deben continuar trabajando por parte de los autores para garantizar mayores niveles de uso del mismo.
La construcción del repositorio de investigaciones en gestión de proyectos posibilita el desarrollo de disímiles investigaciones en esta área temática. En particular el repositorio presentado en esta investigación contiene 18 bases de datos asociadas a proyectos de software y cubren la mayoría de las áreas de conocimiento de gestión de proyectos con las plantean el PMBOK y la ISO 21500. En general se han desarrollado más de 20 publicaciones que usan los datos del repositorio, así como tesis de doctorado y maestría. Los investigadores beneficiados con el uso del repositorio manifiestan un alto grado de satisfacción con el mismo, considerando tanto la pertinencia como la usabilidad. Los elementos que los autores consideran que se deben continuar trabajando para lograr mejores resultados son: el nivel de accesibilidad del repositorio, la calidad de los datos respecto a la cantidad de valores ausentes y la satisfacción respecto a la ayuda en el uso del repositorio.
*Autor para correspondencia: iperez@uci.cu





