Ir al menú de navegación principal Ir al contenido principal Ir al pie de página del sitio

Algoritmo de árboles de decisión medianamente acoplado a PostgreSQL

Resumen

El uso de Aprendizaje Automático para la gestión de datos es una oportunidad extraordinaria para avanzar hacia un modelo de liderazgo basado en la información, que impulse a la organización hacia el éxito en cada una de sus iniciativas. Sin embargo, una empresa, en el momento de incorporar estas tecnologías presenta problemáticas asociadas con los costos económicos y administrativos generados en este proceso, ya que estos suelen ser bastante elevados, que limita principalmente a las MiPymes, su implementación. En este artículo se presenta la propuesta de integrar al SGBD PostgreSQL, técnicas supervisadas de aprendizaje automático, en una arquitectura medianamente acoplada, con el fin de dotar a este gestor con las capacidades de descubrir conocimiento en las bases de datos. Se acoplarán algoritmos de clasificación y regresión mediante el desarrollo de extensiones utilizando uno de los lenguajes procedurales soportados por PostgreSQL. Inicialmente, se implementará el algoritmo de clasificación por árboles de decisión C4.5 usando el lenguaje procedural PL/pgSQL. La principal ventaja de esta estrategia es que se tiene en cuenta la escalabilidad, administración y manipulación de datos del SGBD. Al ser PostgreSQL un gestor de código abierto, organizaciones tales como MiPymes, contarán con una herramienta libre que les permita realizar análisis predictivo con el fin mejorar sus procesos de toma de decisiones al poder anticiparse a los futuros comportamientos del consumidor y tomar decisiones racionales basadas en sus hallazgos.

Palabras clave

técnicas de clasificación, algoritmo C4.5, arquitectura medianamente acoplada, PostgreSQL

PDF (English)

Biografía del autor/a

Ricardo Timarán-Pereira

Doctor en Ingeniería énfasis Ciencias de la Computación,Master of Science en Ingeniería, Espcialista en MUltimedia Educativa, Ingeniero de Sistemas y Computación. Profesor Titular del Departamento de Sistemas de la  Facultad de Ingeniería de la Universidad de Nariño. Director grupo de investigación GRIAS

 


Citas

  1. R. Timarán, “Arquitecturas de Integración del Proceso de Descubrimiento de Bases de Datos con Sistemas de Gestión de Bases de Datos,” Revista Ingeniería y Competitividad, vol. 3, no. 2, pp. 45-55, 2001. https://doi.org/10.25100/iyc.v3i2.2327
  2. PostgreSQL Global Development Group, PostgreSQL 15.3 Documentation, 2023. https://www.postgresql.org/files/documentation/pdf/15/postgresql-15-US.pdf
  3. J. M. Hellerstein et al., “The MADlib analytics library or mad skills, the SQL,” Proceedings of the VLDB Endowment, vol. 5, no. 12, pp. 1700–1711. 2012. https://doi.org/10.14778/2367502.2367510
  4. A. Carrigan, J. Torres, MinsDB, 2023. https://docs.mindsdb.com/what-is-mindsdb
  5. Y. Robles, A. Sotolongo, “Integración de los algoritmos de minería de datos 1R, PRISM e ID3 a PostgrSQL,” Revista de Gestão da Tecnologia e Sistemas de Informação, vol. 10, no. 2, pp. 389-406, 2014. https://doi.org/10.4301/S1807-17752013000200012
  6. C. Castro, M. Cabrera, R. Timarán, MateKDD: una herramienta de minería de datos medianamente acoplada con PostgreSQL, 2023. http://grias.udenar.edu.co/grias/?p=239
  7. A. García-Tembleque, “Implementación de Algoritmos de Aprendizaje Automático para Big Data,” Grade Thesis, Universidad Carlos III, Spain, 2017. https://e-archivo.uc3m.es/handle/10016/27534
  8. A. Sotolongo, pgsmtp: enviando correos desde PostgreSQL, 2018. https://anthonysotolongo.wordpress.com/2018/05/28/pgsmtp-enviando-correos-desde-postgresql/
  9. D. Rotiroti, PostPic: A PostgreSQL extensión for image-processing, 2023. https://github.com/drotiro/postpic
  10. C. Díaz, “Extensión basada en R para graficar en PostgreSQL,” Grade Thesis, Universidad de las Ciencias Informáticas, Cuba, 2014. https://repositorio.uci.cu/jspui/bitstream/ident/9246/2/TD_07692_14.pdf
  11. A. Azevedo, M. Santos, “KDD, SEMMA and CRISP-DM: a parallel overview,” in Proceedings of IADIS European Conference on Data Mining, 2008, pp. 182-185.
  12. J. Hernández, M. Ramirez, C. Ferri, Introducción a la Minería de Datos, Editorial Pearson Prentice Hall, Spain, 2005.
  13. J. Villena, CRISP-DM: La metodología para poner orden en los proyectos de Data Science, 2016. https://data.sngular.team/es/art/25/crisp-dm-la-metodologia-para-poner-orden-en-los-proyectos-de-data-science
  14. J. Han, M. Kamber, J. Pei, Data Mining: Concepts and Techniques, Third Edition, Burlington, MA: Morgan Kaufmann, 2011.
  15. R. Timarán, M. Millán, “New algebraic operators and SQL primitives for mining classification rules”, in Computational Intelligence, USA, 2006, pp. 61–65.
  16. K. Sattler, O. Dunemann, “SQL database primitives for decision tree classifiers”, in Proceedings of the tenth international conference on Information and knowledge management, 2001, pp. 379–386.
  17. J. R. Quinlan, C 4. 5: Programs for Machine Learning, Morgan Kaufmann Publishers. San Francisco, 1993.

Descargas

Los datos de descargas todavía no están disponibles.