Árboles de decisión para predecir factores asociados al desempeño académico de estudiantes de bachillerato en las pruebas Saber 11°
Resumen
En este artículo se presentan los resultados obtenidos al aplicar el modelo de clasificación basado en árboles de decisión, con el fin de detectar factores asociados al desempeño académico de los estudiantes colombianos de grado undécimo de educación media, que presentaron las pruebas Saber 11° en los años 2015 y 2016. La investigación fue de tipo descriptivo bajo el enfoque cuantitativo, aplicando un diseño no experimental. Siguiendo la metodología CRISP-DM, se seleccionó, de las bases de datos del ICFES, la información socioeconómica, académica e institucional de estos estudiantes. Se construyó, limpió y transformó un repositorio de datos y utilizando la herramienta de minería de datos WEKA, se generaron árboles de decisión que permitieron identificar patrones asociados al buen o mal desempeño académico de los estudiantes en las pruebas Saber 11°. Los patrones descubiertos ayudarán en los procesos de toma de decisiones del Ministerio de Educación Nacional, junto con las instituciones que velan por la calidad de la educación en Colombia.
Palabras clave
minería de datos;, patrones asociados;, desempeño académico;, pruebas Saber 11°;, árboles de decisión
Biografía del autor/a
Ricardo Timarán-Pereira
Ingeniero de Sistemas, Doctor en Ingeniería énfasis Ciencias de la Computación
Javier Caicedo-Zambrano
Licenciado en Matemáticas, Doctor en Educación
Arsenio Hidalgo-Troya
Licenciado en Matemáticas, Magíster en Estadística
Citas
Azevedo, A., & Santos, M. (2008). KDD, SEMMA and CRISP-DM: a parallel overview. Proceedings of IADIS European Conference on Data Mining, 182-185. Amsterdam, Netherlands.
Barrientos-Marín, J. (2008). Calidad de la educación pública y logro académico en Medellín 2004-2006: Una aproximación por regresión intercuartil. Revista Lecturas de Economía, 68.
Blanco, V. (2015). Análisis del Desempeño Académico del Examen de Estado para el Ingreso a la Educación Superior Aplicando Minería de Datos (Tesis de Maestría). Universidad Nacional de Colombia. Valledupar, Colombia.
Alberto-Botello, L. H., & Guerrero-Rincón, A. (2014). La influencia de las TIC en el desempeño académico de los estudiantes en América Latina: Evidencia de la prueba PISA 2012. Memorias Virtual Educa. Lima, Perú.
Calleja, A. (2010). Minería de Datos con Weka para la Predicción del Precio de Automóviles de Segunda Mano (Trabajo de pregrado). Universidad Politécnica de Valencia. Recuperado de: https://riunet.upv.es/bitstream/handle/10251/10097/PFC_DSIC-80_Agust%C3%ADnCalleja.pdf
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000). CRISP-DM 1.0: Step-by-step data mining guide. CRISP-DM consortium: NCR Systems Engineering Copenhagen (USA and Denmark), DaimlerChrysler AG (Germany), SPSS Inc. (USA), and OHRA Verzekeringen en Bank Groep B.V. (The Netherlands).
Chica-Gómez, S. M., Galvis-Gutiérrez, D. M., & Ramirez-Hassan, A. (2010). Determinantes del rendimiento académico en Colombia: pruebas ICFES Saber 11º. Revista Universidad EAFIT, 46 (160), 48-72. Recuperado de: http://publicaciones.eafit.edu.co/index.php/revista-universidad-eafit/article/view/754
Cohen, J. (1988). Análisis de poder estadístico para las Ciencias del comportamiento. Segunda ed. Nueva Jersey: Lawrence Erlbaum.
Correa, J. J. (2004). Determinantes del Rendimiento Educativo de los Estudiantes de Secundaria en Cali: un análisis multinivel. Revista Sociedad y Economía, 6, 81-105. Recuperado de: https://www.redalyc.org/pdf/996/99617648003.pdf
Fernández, H. (2005). Cómo interpretar la evaluación pruebas Saber. Subdirección de Estándares y Evaluación. Bogotá, Colombia: Ministerio de Educación Nacional.
Garbanzo-Vargas, G. M. (2007). Factores asociados al rendimiento académico en estudiantes universitarios, una reflexión desde calidad de la educación superior pública. Revista Educación, 31(1), 43-63. Recuperado de: https://www.redalyc.org/articulo.oa?id=44031103
García-Gutiérrez, J. A. (2016). Comenzando con Weka: Filtrado y selección de subconjuntos de atributos basada en su relevancia descriptiva para la clase. Technical report. Recuperado de: https://www.researchgate.net/publication/308141950.
Gaviria, A., & Barrientos, J. (2001). Calidad de la educación y rendimiento académico en Bogotá. Revista Coyuntura Social, 24, 112-127. Recuperado de: https://www.repository.fedesarrollo.org.co/handle/11445/1759
Gómez, J. (2014). Análisis de las competencias en matemáticas y lenguaje de los bachilleres Colombianos (Tesis de pregrado). Universidad ICESI. Cali, Colombia. Recuperado de: https://repository.icesi.edu.co/biblioteca_digital/bitstream/10906/77946/1/gomez_analisis_competencias_2014.pdf.
Han, J., & Kamber, M. (2001). Data Mining: Concepts and Techniques. San Francisco, USA: Morgan Kaufmann Publishers.
Hernández, J., Ramírez, M., & Ferri, C. (2005). Introducción a la Minería de Datos. Madrid, España: Pearson Prentice Hall.
Hernández-Angulo, O. E. (2015). Determinantes del Rendimiento Académico en la Educación Media de Cundinamarca (Tesis de pregrado). Escuela Colombiana de Ingeniería Julio Garavito. Bogotá, Colombia. Recuperado de: https://repositorio.escuelaing.edu.co/bitstream/001/349/1/Hern%C3%A1ndez%20Angulo%2C%20Oscar%20Eduardo-2015.pdf
Hernández-Martínez, E., & Lorente-Sanjurjo, R. (2009). Minería de datos aplicada a la detección de Cáncer de Mama. Madrid, España: Universidad Carlos III de Madrid. Recuperado de: https://www.researchgate.net/publication/265891193_Minera_de_datos_aplicada_a_la_deteccion_de_Cancer_de_Mama
Instituto Colombiano para la Evaluación de la Educación, ICFES. (2014). Alineación del examen SABER 11° Lineamientos generales 2014 – 2 Sistema Nacional de Evaluación Estandarizada de la Educación. Bogotá, Colombia.
Instituto Colombiano para la Evaluación de la Educación, ICFES. (2016). Sistema Nacional de Evaluación Estandarizada de la Educación: Lineamientos generales para la presentación del examen de Estado Saber 11°. Bogotá, Colombia.
Ministerio de Educación Nacional, MEN. (2006). Estándares Básicos de Competencias en Lenguaje, Matemáticas, Ciencias y Ciudadanas: Guía sobre lo que los estudiantes deben saber y saber hacer con lo que aprenden. Bogotá, Colombia.
Montero-Rojas, E., Villalobos-Palmas, J., & Cubero, Z. R. (2004). Factores institucionales, pedagógicos, psicosociales y sociodemográficos asociados al rendimiento académico y a la repetición estudiantil en la Universidad de Costa Rica. San José, Costa Rica: Universidad de Costa Rica.
Posada-Ramos, J. M., & Mendoza-Martínez, F. (2014). Determinantes del logro académico de los estudiantes de grado 11 en el periodo 2008-2010. Una perspectiva de género y región. Estudios sobre calidad de la educación en Colombia, ICFES. Bogotá, Colombia: Ministerio de Educación Nacional. Recuperado de: http://webcache.googleusercontent.com/search?q=cache:dkK95ExkHmAJ:www2.icfes.gov.co/docman/investigadores-y-estudiantes-de-posgrado/resultados-de-investigaciones/factores-asociados/educacion-superior/1011-determinantes-del-logro-academico-de-los-estudiantes-de-grado-11-en-el-periodo-2008-2010-una-perspectiva-de-genero-y-region+&cd=1&hl=es-419&ct=clnk&gl=co
Procuraduría General de la Nación (2006). El derecho a la educación: la educación en la perspectiva de los Derechos Humanos. Bogotá, Colombia.
Ridao-García, I., & Gil-Flórez, J. (2002). La jornada escolar y el rendimiento de los alumnos. Revista de Educación, 327, 141-156.
Sattler, K., & Dunemann, O. (2001). SQL Database Primitives for Decision Tree Classifiers. En: Paques H, Liu L, Grossman D, editors. The 10th ACM International Conference on Information and Knowledge Management. 379-86. Atlanta, USA: ACM New York.
Seibold, J. R. (2000). La calidad integral en educación. Reflexiones sobre un nuevo concepto de calidad educativa que integre valores y equidad educativa. Revista Iberoamericana de Educación, 23, 215-231. Recuperado de: https://rieoei.org/RIE/article/view/1012
Timarán, R., & Millán, M. (2006). New algebraic operators and SQL primitives for mining classification rules. Computational Intelligence, 61–65. Recuperado de: http://www.actapress.com/PaperInfo.aspx?PaperID=29048&reason=500
Timarán-Pereira, R., Calderón-Romero, A., & Jiménez-Toledo, J. (2013a). Aplicación de la minería de datos en la extracción de perfiles de deserción estudiantil. Revista Ventana Informática, 28, 31-47. Recuperado de: http://webcache.googleusercontent.com/search?q=cache:5ZShtZGF8WQJ:revistasum.umanizales.edu.co/ojs/index.php/ventanainformatica/article/download/181/228+&cd=1&hl=es-419&ct=clnk&gl=co
Timarán-Pereira, R., Calderón-Romero, A., & Jiménez-Toledo, J. (2013b). La minería de datos como un método innovador para la detección de patrones de deserción estudiantil en programas de pregrado en Instituciones de Educación Superior. Foro Mundial de Educación en Ingeniería, WEEF 2013. Cartagena, Colombia: ACOFI & IFEES.
Valero, S. (2009). Aplicación de técnicas de minería de datos para predecir deserción. Puebla, México: Universidad Tecnológica de Izúcar de Matamoros. Recuperado de: http://www.utim.edu.mx/~svalero/docs/MineriaDesercion.pdf.
Valero, S., Salvador, A., & García, M. (2010). Minería de datos: predicción de la deserción escolar mediante el algoritmo de árboles de decisión y el algoritmo de los k vecinos más cercanos. Puebla, México: Universidad Tecnológica de Izúcar de Matamoros. Recuperado de: www.utim.edu.mx/~svalero/docs/e1.pdf.
Villena-Román, J. (2016). CRISP-DM: La metodología para poner orden en los proyectos de Data Science. Recuperado de: https://data.sngular.team/es/art/25/crisp-dm-la-metodologia-para-poner-orden-en-los-proyectos-de-data-science.
Witten, I., Frank, E., & Hall, M. (2011). Data Mining: Practical Machine Learning Tools and Techniques. Third Edition. Morgan Kaufmann.