Medición de la representatividad utilizando principios de la matriz de cobertura

Alexander Castro-Romero; Carlos-Alberto Cobos-Lozada

Vol. 32 Núm. 65 (2023)
Julio-Septiembre 2023 (Publicación Continua)

Articulos

Medición de la representatividad utilizando principios de la matriz de cobertura

Publicado 2023-09-30

Alexander Castro-Romero
Carlos-Alberto Cobos-Lozada

Alexander Castro-Romero
Universidad Pedagógica y Tecnológica de Colombia

Carlos-Alberto Cobos-Lozada
Universidad del Cauca

Cómo citar

Castro-Romero, A., & Cobos-Lozada, C.-A. (2023). Medición de la representatividad utilizando principios de la matriz de cobertura. Revista Facultad de Ingeniería, 32(65), e15314. Recuperado a partir de https://revistas.uptc.edu.co/index.php/ingenieria/article/view/15314

Descargar cita

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.

Resumen

La representatividad es una característica importante de la calidad de los datos en procesos de ciencia de datos; se dice que una muestra de datos es representativa cuando refleja a un grupo más grande con la mayor precisión posible. Tener bajos índices de representatividad en los datos puede conducir a la generación de modelos sesgados, por tanto, este estudio muestra los elementos que conforman un nuevo modelo para medir la representatividad utilizando un elemento de prueba de objetos matemáticos de matrices de cobertura llamado "Matriz P". Para probar el modelo se propuso un experimento donde se toma un conjunto de datos y se divide en subconjuntos de datos de entrenamiento y prueba utilizando dos estrategias de muestreo: Aleatorio y Estratificado, finalmente, se comparan los valores de representatividad. Si la división de datos es adecuada, las dos estrategias de muestreo deben presentar índices de representatividad similares. El modelo se implementó en un software prototipo usando tecnologías Python (para procesamiento de datos) y Vue (para visualización de datos); esta versión solo permite analizar conjuntos de datos binarios (por ahora). Para probar el modelo, se ajustó el conjunto de datos "Wines" (UC Irvine Machine Learning Repository). La conclusión es que ambas estrategias de muestreo generan resultados de representatividad similares para este conjunto de datos. Aunque este resultado es predecible, está claro que la representatividad adecuada de los datos es importante al generar subconjuntos de conjuntos de datos de prueba y entrenamiento, por lo tanto, como trabajo futuro, planeamos extender el modelo a datos categóricos y explorar conjuntos de datos más complejos.

Palabras clave

algoritmos de clasificación, arreglos de cobertura, calidad de datos, conjuntos de datos, representatividad de datos

PDF (English) XML (English)

Citas

D. Srivastava, M. Scannapieco, T. C. Redman, “Ensuring high-quality private data for responsible data science: Vision and challenges,” Journal of Data and Information Quality, vol. 11, no. 1, pp. 1–9, 2019. https://doi.org/10.1145/3287168
R. Clarke, “Big data, big risks,” Information Systems Journal, vol. 26, no. 1, pp. 77–90, 2016. https://doi.org/10.1111/isj.12088
A. Alsudais, Incorrect Data in the Widely Used Inside Airbnb Dataset, 2020. http://arxiv.org/abs/2007.03019.
A. Yapo, J. Weiss, “Ethical Implications of Bias in Machine Learning,” in Proceedings of the 51st Hawaii International Conference on System Sciences, 2018. https://doi.org/10.24251/hicss.2018.668
N. Polyzotis, S. Roy, S. E. Whang, M. Zinkevich, “Data lifecycle challenges in production machine learning: A survey,” SIGMOD Record, vol. 47, no. 2, pp. 17–28, 2018. https://doi.org/10.1145/3299887.3299891
J. A. Rojas, M. Beth Kery, S. Rosenthal, A. Dey, “Sampling techniques to improve big data exploration”, in 7th Symposium on Large Data Analysis and Visualization, 2017, pp. 26–35. https://doi.org/10.1109/LDAV.2017.8231848
V. Mayer-Schönberger, K. Cukier, Big data: La revolución de los datos masivos, Turner, 2013.
J. Torres-Jimenez, I. Izquierdo-Marquez, “Survey of covering arrays,” in 15th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing, 2013, pp. 20–27. https://doi.org/10.1109/SYNASC.2013.10
J. Adriana Timaná-Peña, C. Alberto Cobos-Lozada, J. Torres-Jimenez, “Metaheuristic algorithms for building Covering Arrays A review,” Revista Facultad de Ingeniería, vol. 25, no. 43, pp. 31–45, 2016. https://doi.org/10.19053/01211129.v25.n43.2016.5295
C. L. Blake, C. J. Merz, UCI Repository of Machine Learning Databases, University of California, Oakland, 1998. https://archive.ics.uci.edu/ml/datasets/wine

Descargas

Los datos de descargas todavía no están disponibles.

Artículos más leídos del mismo autor/a

Juan Sebastián González-Sanabria, Juan Antonio Morente-Molinera, Alexander Castro-Romero, DeSoftIn: Propuesta metodológica para desarrollo de software individual , Revista Facultad de Ingeniería: Vol. 26 Núm. 45 (2017)
Manuel-Alejandro Pastrana-Pardo, Hugo-Armando Ordoñez-Erazo, Carlos-Alberto Cobos-Lozada, Acercamiento a las buenas prácticas para el desarrollo de software basado en DevOps y SCRUM utilizadas en empresas muy pequeñas , Revista Facultad de Ingeniería: Vol. 31 Núm. 61 (2022): Julio-Septiembre 2022 (Publicación Continua)
Manuel-Alejandro Pastrana-Pardo, Hugo-Armando Ordoñez-Erazo, Carlos-Alberto Cobos-Lozada, Modelo de procesos representado en BPMN para guiar la implememtacion de prácticas de desarrollo de software en empresas muy pequeñas armonizando DEVOPS y SCRUM , Revista Facultad de Ingeniería: Vol. 31 Núm. 62 (2022): Octubre-Diciembre 2022 (Publicación Continua)
Martha-Eliana Mendoza-Becerra, Hugo-Armando Ordoñez-Eraso, Miguel-Ángel Niño-Zambrano, Carlos-Alberto Cobos-Lozada, Rodolfo García-Sierra, Caracterización de herramientas de portabilidad energética para ser aplicados en Colombia , Revista Facultad de Ingeniería: Vol. 31 Núm. 60 (2022): Abril-Junio 2022 (Publicación Continua)
Carlos-Robinson Campo, Juan-Pablo Salazar, Carlos-Alberto Cobos-Lozada, ModeLab - Herramienta web para el modelado de sistemas de transporte masivo de pasajeros , Revista Facultad de Ingeniería: Vol. 30 Núm. 56 (2021): Abril-Junio 2021 (Publicación Continua)
Jimena-Adriana Timaná-Peña, Carlos-Alberto Cobos-Lozada, Jason-Paul Anturi-Martínez, José-Luis Paz-Realpe, SentiFuzzy: Clasificador de sentimientos en Twitter basado en lógica difusa , Revista Facultad de Ingeniería: Vol. 32 Núm. 66 (2023): Octubre-Diciembre 2023 (Publicación Continua)
Carlos-Alberto Cobos-Lozada, Henry Muñoz-Collazos, Richar Urbano-Muñoz, Estudio comparativo de algoritmos inspirados en el cuco para problemas de optimización continua a gran escala , Revista Facultad de Ingeniería: Vol. 33 Núm. 69 (2024): Julio-Septiembre 2024: Ciencia abierta al servicio de la Ingeniería

Artículos similares

Mauricio Gaona-Cuevas, Victor Bucheli-Guerrero, Fredy Vera-Rivera, Smart Product Backlog: clasificación automática de historias de usuario usando modelos de lenguaje de gran escala , Revista Facultad de Ingeniería: Vol. 33 Núm. 69 (2024): Julio-Septiembre 2024: Ciencia abierta al servicio de la Ingeniería
Iván-Santiago Herrera-Bravo, Hugo-Armando Ordoñez-Erazo, Himer Avila-George, Clasificación explicable de imágenes dermatoscópicas para la detección de cáncer de piel tipo melanoma: un mapeo sistemático , Revista Facultad de Ingeniería: Vol. 33 Núm. 69 (2024): Julio-Septiembre 2024: Ciencia abierta al servicio de la Ingeniería
Manuel-Francisco Silva-Joaqui, Katerine Marceles-Villalba, Siler Amador-Donado, Cerrando la brecha comunicativa mediante el aprendizaje automático con una herramienta lingüística para personas sordas , Revista Facultad de Ingeniería: Vol. 33 Núm. 69 (2024): Julio-Septiembre 2024: Ciencia abierta al servicio de la Ingeniería
César Acosta-Minoli, Paulo-César Carmona, Mónica Mesa-Mazo, Juan-Diego Vargas-Gil, Juan-Pablo Velásquez, Tecnología basada en IoT para el análisis de datos del proceso de secado de café de pequeños agricultores , Revista Facultad de Ingeniería: Vol. 33 Núm. 69 (2024): Julio-Septiembre 2024: Ciencia abierta al servicio de la Ingeniería
Carlos-Vicente Niño-Rondón, Diego-Andrés Castellano-Carvajal, Sergio-Alexander Castro-Casadiego, Byron Medina-Delgado, Karla-Cecilia Puerto-López, HASCC: Algoritmo Híbrido para Clasificación de Cáncer de Piel , Revista Facultad de Ingeniería: Vol. 33 Núm. 67 (2024): Enero-Marzo 2024
Carlos-Alberto Cobos-Lozada, Henry Muñoz-Collazos, Richar Urbano-Muñoz, Estudio comparativo de algoritmos inspirados en el cuco para problemas de optimización continua a gran escala , Revista Facultad de Ingeniería: Vol. 33 Núm. 69 (2024): Julio-Septiembre 2024: Ciencia abierta al servicio de la Ingeniería
Cindy-Noely Cruz-Mata, Roberto-Carlos Martinez-Montejano, Marissa Robles-Martínez, Germánico González-Badillo, José-Jimmy Jaime-Rodríguez, Medición de parámetros de calidad de agua con sensor multiparamétrico usando Internet de las Cosas , Revista Facultad de Ingeniería: Vol. 33 Núm. 69 (2024): Julio-Septiembre 2024: Ciencia abierta al servicio de la Ingeniería
Jhon-Alejandro Melo, Siler Amador-Donado, César-Jesús Pardo-Calvache, Estudio de mapeo sistemático sobre factorización rápida utilizando procesamiento paralelo o distribuido aplicado al criptoanálisis , Revista Facultad de Ingeniería: Vol. 33 Núm. 69 (2024): Julio-Septiembre 2024: Ciencia abierta al servicio de la Ingeniería
Manuel Galindo-Semanate, Miguel Niño-Zambrano, Herramientas para el desarrollo de Aplicaciones en la Web Semántica de las Cosas: Una revisión sistemática de la literatura , Revista Facultad de Ingeniería: Vol. 33 Núm. 69 (2024): Julio-Septiembre 2024: Ciencia abierta al servicio de la Ingeniería
Carla Rodríguez-Vergara, Héctor Valdés-González, Lorenzo Reyes-Bozo, Juan-Carlos Vidal, Modelo Conceptual para la Transformación Digital de Historias Clínicas en Chile: Un enfoque estandarizado de acuerdo con las regulaciones de la FDA , Revista Facultad de Ingeniería: Vol. 33 Núm. 69 (2024): Julio-Septiembre 2024: Ciencia abierta al servicio de la Ingeniería

1 2 > >>

También puede {advancedSearchLink} para este artículo.

		Fuente Academica Premier

		(Categoría B)