Algoritmo de árboles de decisión medianamente acoplado a PostgreSQL
Resumen
El uso de Aprendizaje Automático para la gestión de datos es una oportunidad extraordinaria para avanzar hacia un modelo de liderazgo basado en la información, que impulse a la organización hacia el éxito en cada una de sus iniciativas. Sin embargo, una empresa, en el momento de incorporar estas tecnologías presenta problemáticas asociadas con los costos económicos y administrativos generados en este proceso, ya que estos suelen ser bastante elevados, que limita principalmente a las MiPymes, su implementación. En este artículo se presenta la propuesta de integrar al SGBD PostgreSQL, técnicas supervisadas de aprendizaje automático, en una arquitectura medianamente acoplada, con el fin de dotar a este gestor con las capacidades de descubrir conocimiento en las bases de datos. Se acoplarán algoritmos de clasificación y regresión mediante el desarrollo de extensiones utilizando uno de los lenguajes procedurales soportados por PostgreSQL. Inicialmente, se implementará el algoritmo de clasificación por árboles de decisión C4.5 usando el lenguaje procedural PL/pgSQL. La principal ventaja de esta estrategia es que se tiene en cuenta la escalabilidad, administración y manipulación de datos del SGBD. Al ser PostgreSQL un gestor de código abierto, organizaciones tales como MiPymes, contarán con una herramienta libre que les permita realizar análisis predictivo con el fin mejorar sus procesos de toma de decisiones al poder anticiparse a los futuros comportamientos del consumidor y tomar decisiones racionales basadas en sus hallazgos.
Palabras clave
técnicas de clasificación, algoritmo C4.5, arquitectura medianamente acoplada, PostgreSQL
Biografía del autor/a
Ricardo Timarán-Pereira
Doctor en Ingeniería énfasis Ciencias de la Computación,Master of Science en Ingeniería, Espcialista en MUltimedia Educativa, Ingeniero de Sistemas y Computación. Profesor Titular del Departamento de Sistemas de la Facultad de Ingeniería de la Universidad de Nariño. Director grupo de investigación GRIAS
Citas
- R. Timarán, “Arquitecturas de Integración del Proceso de Descubrimiento de Bases de Datos con Sistemas de Gestión de Bases de Datos,” Revista Ingeniería y Competitividad, vol. 3, no. 2, pp. 45-55, 2001. https://doi.org/10.25100/iyc.v3i2.2327
- PostgreSQL Global Development Group, PostgreSQL 15.3 Documentation, 2023. https://www.postgresql.org/files/documentation/pdf/15/postgresql-15-US.pdf
- J. M. Hellerstein et al., “The MADlib analytics library or mad skills, the SQL,” Proceedings of the VLDB Endowment, vol. 5, no. 12, pp. 1700–1711. 2012. https://doi.org/10.14778/2367502.2367510
- A. Carrigan, J. Torres, MinsDB, 2023. https://docs.mindsdb.com/what-is-mindsdb
- Y. Robles, A. Sotolongo, “Integración de los algoritmos de minería de datos 1R, PRISM e ID3 a PostgrSQL,” Revista de Gestão da Tecnologia e Sistemas de Informação, vol. 10, no. 2, pp. 389-406, 2014. https://doi.org/10.4301/S1807-17752013000200012
- C. Castro, M. Cabrera, R. Timarán, MateKDD: una herramienta de minería de datos medianamente acoplada con PostgreSQL, 2023. http://grias.udenar.edu.co/grias/?p=239
- A. García-Tembleque, “Implementación de Algoritmos de Aprendizaje Automático para Big Data,” Grade Thesis, Universidad Carlos III, Spain, 2017. https://e-archivo.uc3m.es/handle/10016/27534
- A. Sotolongo, pgsmtp: enviando correos desde PostgreSQL, 2018. https://anthonysotolongo.wordpress.com/2018/05/28/pgsmtp-enviando-correos-desde-postgresql/
- D. Rotiroti, PostPic: A PostgreSQL extensión for image-processing, 2023. https://github.com/drotiro/postpic
- C. Díaz, “Extensión basada en R para graficar en PostgreSQL,” Grade Thesis, Universidad de las Ciencias Informáticas, Cuba, 2014. https://repositorio.uci.cu/jspui/bitstream/ident/9246/2/TD_07692_14.pdf
- A. Azevedo, M. Santos, “KDD, SEMMA and CRISP-DM: a parallel overview,” in Proceedings of IADIS European Conference on Data Mining, 2008, pp. 182-185.
- J. Hernández, M. Ramirez, C. Ferri, Introducción a la Minería de Datos, Editorial Pearson Prentice Hall, Spain, 2005.
- J. Villena, CRISP-DM: La metodología para poner orden en los proyectos de Data Science, 2016. https://data.sngular.team/es/art/25/crisp-dm-la-metodologia-para-poner-orden-en-los-proyectos-de-data-science
- J. Han, M. Kamber, J. Pei, Data Mining: Concepts and Techniques, Third Edition, Burlington, MA: Morgan Kaufmann, 2011.
- R. Timarán, M. Millán, “New algebraic operators and SQL primitives for mining classification rules”, in Computational Intelligence, USA, 2006, pp. 61–65.
- K. Sattler, O. Dunemann, “SQL database primitives for decision tree classifiers”, in Proceedings of the tenth international conference on Information and knowledge management, 2001, pp. 379–386.
- J. R. Quinlan, C 4. 5: Programs for Machine Learning, Morgan Kaufmann Publishers. San Francisco, 1993.