Ir al menú de navegación principal Ir al contenido principal Ir al pie de página del sitio

Una metodología para el tratamiento de la multicolinealidad a través del escalamiento multidimensional

Resumen

Se presenta una estrategia para tratar el incumplimiento del supuesto de multicolinealidad en el análisis de regresión múltiple, cuando las variables regresoras son cualitativas, cuantitativas o mixtas (cuantitativas y cualitativas) y la variable respuesta continua. La metodología se basa en el análisis de escalamiento multidimensional, usando como métrica la distancia de Gower si las variables predictoras son mixtas, o en caso contrario, otra distancia de tipo Euclideana. El propósito es obtener la matriz de coordenadas principales, y con ésta, estimar el modelo de regresión. Para observar las bondades del método propuesto, se realizan dos casos de simulación: el primero sin presencia de multicolinealidad y el segundo, con presencia de multicolinealidad. Se presentan dos casos de aplicación analizados por Draper y Smith (2014) mediante regresión múltiple, tanto en los casos simulados como en las aplicaciones se utilizó el paquete estadístico R. Los resultados de las simulaciones y aplicaciones se comparan con la regresión múltiple clásica y la basada en componentes principales. El análisis propuesto es una alternativa de modelamiento que corrige la colinealidad y permite trabajar las variables sin pérdida de información al modelar linealmente situaciones donde se oculta el verdadero efecto de las variables originales, de manera que no se manipulen los resultados.

Palabras clave

Multicolinealidad, Escalamiento Multidimensional, Distancia de Gower, Regresión Múltiple, Componentes Principales

PDF

Biografía del autor/a

Sara Cristina Guerrero

Villavicencio-Meta


Citas

  1. A. E. Hoerl and W. R. Kennard, “Ridge regression: applications to nonorthogonal problems”, Technometrics, vol. 12, no. 1, pp. 69-82, 1970. DOI: https://doi.org/10.1080/00401706.1970.10488635
  2. S. Velilla, “Obtención simultánea de multicolinealidad y observaciones influyentes”, Estadística Española, vol. 30, no. 17, pp. 83-98, 1988.
  3. M. R. Piña, M. A. Rodríguez, y J. Aguirre, “Regresión Ridge y la distribución central t”,
  4. CIENCIA ergo-sum, vol. 14, no. 2, pp. 191-196, 2007.
  5. D. F. Campos, “Transferencia regional de información hidrológica mediante regresión lineal múltiple de tipo ridge”, Agrociencia, vol. 47, no. 5, pp. 411-427, 2013.
  6. E. R. Mansfield, J. T. Webster and R. F. Gunst, “An analytic variable selection technique for principal component regression”, Applied statistics, vol. 26, no. 1, pp. 34-40, 1977. DOI: https://doi.org/10.2307/2346865
  7. E. López, “Tratamiento de la colinealidad en regresión múltiple”, Psicothema, vol. 10, no. 2, pp. 491-507, 1998.
  8. S. A. Abdul, C. S. Bakheit and S. M. Al-Alawi, “Principal component and multiple regression analysis in modelling of ground-level ozone and factors affecting its concentrations”, Environmental Modelling & Software, vol. 20, no. 10, pp. 1263-1271, 2005. DOI: https://doi.org/10.1016/j.envsoft.2004.09.001
  9. O. Navarro, “Selección de variables en regresión componentes principales”, Seventh Latin American and Caribbean Conference for Engineering and Technology, San Cristobal, 2009.
  10. J. del Valle y W. Guerra, “La Multicolinealidad en modelos de Regresión Lineal Múltiple”, Revista Ciencias Técnicas Agropecuarias, vol. 21, no. 4, pp. 80-83, 2012.
  11. J. M. Rajab, M. Z. MatJafri and H. S. Lim, “Combining multiple regression and principal component analysis for accurate predictions for column ozone in Peninsular Malaysia”, Atmospheric Environment, vol. 71, pp. 36-43, 2013. DOI: https://doi.org/10.1016/j.atmosenv.2013.01.019
  12. M. Sáez y M. A. Barceló, “Un criterio para omitir variables superfluas en modelos de regresión”, Gaceta Sanitaria, vol. 12, no. 6, pp. 281-283, 1998. DOI: https://doi.org/10.1016/S0213-9111(98)76484-2
  13. J. Llorca, “Omisión de variables en modelos de regresión con alta multicolinealidad”, Gaceta Sanitaria, vol. 13, no. 3, pp. 243-244, 1999. DOI: https://doi.org/10.1016/S0213-9111(99)71359-2
  14. D. Montgomery, E. Peck and G. Vining, “Introduction to linear regression analysis”,
  15. John Wiley & Sons, 2015.
  16. M. Rosas, F. Chacín, J. García, M. Ascanio y M. Cobo, “Modelos de regresión lineal múltiple en presencia de variables cuantitativas y cualitativas para predecir el rendimiento estudiantil”, Revista de la Facultad de Agronomía, vol. 23, no. 2, pp. 197-214, 2006.
  17. M. Ueki and Y. Kawasaki, “Multiple choice from competing regression models under multicollinearity based on standardized update”, Computational Statistics & Data Analysis, vol. 63, pp. 31-41, 2013. DOI: https://doi.org/10.1016/j.csda.2013.01.019
  18. D. Villegas, W. Ascanio y M. Cobo, “Evaluación de la multicolinealidad en modelos de regresión lineal múltiple con presencia de valores atípicos”, Revista de la Facultad de Agronomía UCV, vol. 39, no. 3, 2013.
  19. C. Cuadras and C. Arenas, “A distance based regression model for prediction with mixed data”, Communications in Statistics A. Theory and Methods, vol. 19, pp. 2261-2279, 1990. DOI: https://doi.org/10.1080/03610929008830319
  20. W. S. Torgerson, “Multidimensional scaling: I. Theory and method”, Psychometrika, vol. 17, no. 4, pp. 401-419, 1952. DOI: https://doi.org/10.1007/BF02288916
  21. R. N. Shepard, “The analysis of proximities: Multidimensional scaling with an unknown distance function. I.”, Psychometrika, vol. 27, no. 2, pp. 125-140, 1962. DOI: https://doi.org/10.1007/BF02289630
  22. G. Linares, “Escalamiento multidimensional: conceptos y enfoques”, Revista Investigación Operacional, Editorial Universitaria , vol. 22, no. 2, pp. 173-183, 2009.
  23. A. Arroyo, C. Bruno, J. Di Rienzo y M. Balzarini,“Árboles de expansión mínimos: ayudas para una mejor interpretación de ordenaciones en bancos de germoplasma”, Interciencia, vol. 30, no. 9, pp. 550-554, 2005.
  24. P. Parés, “Estudio de razas de palomas españolas a partir del análisis de caracteres morfológicos cualitativos”, Revista MVZ Córdoba, vol. 15, no. 3, pp. 2158-2164, 2010. DOI: https://doi.org/10.21897/rmvz.302
  25. G. Correa, L. Lavalett, M. Galindo, y L. Afanador, “Uso de métodos multivariantes para la agrupación de aislamientos de Colletotrichum spp. con base en características morfológicas y culturales”, Revista Facultad Nacional de Agronomía Medellin, vol. 60, no. 1 pp. 3671-3690, 2007.
  26. C. Cuadras, “Distancias estadísticas”, Estadística Españolah, vol. 30, pp. 295-378, 1998.
  27. C. Cuadras, C. Arenas and J. Fortiana, “Some computational aspects of a distance-based model for prediction”, Communications in Statistics-Simulation and Computation, vol. 25, no. 3, pp. 593-609, 1996. DOI: https://doi.org/10.1080/03610919608813332
  28. C. Arenas and C. Cuadras, “Recent statistical methods based on distances”, Contributions to Science, vol. 2, no. 2, pp. 183-191, 2002.
  29. J. Fortiana, “Enfoque basado en Distancias de algunos Métodos Estadísticos Multivariates”, Tesis doctoral, 2001.
  30. E. Boj, J. M. Claramunt, A. Esteve y J. Fortiana, “Criterios de selección de modelo en el crédito scoring: aplicación del análisis discriminante basado en distancias”, Anales del Instituto de Actuarios Españoles, vol. 15, pp. 209-230, 2009.
  31. O. O. Melo, J. Mateu and C. E. Melo, “Spatial generalised linear mixed models based on distances”, Statistical Methods in Medical Research, vol. 45, no. 10, pp. 2010-2030, 2013.
  32. S. Melo, and O. O. Melo, “Distance-based approach in univariate longitudinal data analysis”, Journal of Applied Statistics, vol. 40, no. 3, pp. 674-692, 2013. DOI: https://doi.org/10.1080/02664763.2012.750648
  33. O. O. Melo, C. E. Melo and J. Mateu, “Distance-based beta regression for prediction of mutual funds”, AStA Advances in Statistical Analysis, vol. 99, no. 1, pp. 83-106, 2015. DOI: https://doi.org/10.1007/s10182-014-0232-6
  34. L. G. Díaz y M. Morales, “Análisis estadístico de datos multivariados”, Universidad Nacional de Colombia, Bogotá, 2012.
  35. W. S. Torgerson, “Theory and methods of scaling”, New York: John Wiley and Sons, 1958.
  36. J. C. Gower, “Some distance properties of latent root and vector methods used in multivariate analysis”, Biometrika, vol. 53, pp. 325-338, 1966. DOI: https://doi.org/10.1093/biomet/53.3-4.325
  37. D. Peña, “Análisis de datos multivariantes”, McGraw-Hill Madrid, vol. 24, 2002.
  38. K. Mardia, J. Kent and J. M. Bibby, “Análisis de datos multivariantes”, Academic Press London, 2002.
  39. N. Draper and H. Smith, “Applied regression analysis”, John Wiley & Sons, 2014.
  40. R Development Core Team, “R: A Language and Environment for Statistical Computing”, Vienna, Austria, http://www.R-project.org/, 2016.

Descargas

Los datos de descargas todavía no están disponibles.

Artículos similares

1 2 > >> 

También puede {advancedSearchLink} para este artículo.