Detección de anomalías en grandes volúmenes de datos

Omar Torres-Domínguez; Samuel Sabater-Fernández; Lisandra Bravo-Ilisatigui; Diana Martin-Rodríguez; Milton García-Borroto

doi:10.19053/01211129.v28.n50.2019.8793

Vol. 28 Núm. 50 (2019)

Articulos

Detección de anomalías en grandes volúmenes de datos

https://doi.org/10.19053/01211129.v28.n50.2019.8793

Publicado 2019-01-10

Omar Torres-Domínguez
Samuel Sabater-Fernández
Lisandra Bravo-Ilisatigui, M.Sc.
Diana Martin-Rodríguez, Ph. D.
Milton García-Borroto, Ph. D.

Omar Torres-Domínguez
Universidad Tecnológica de la Habana “José A. Echeverría”

Samuel Sabater-Fernández
Universidad Tecnológica de la Habana “José A. Echeverría”

Lisandra Bravo-Ilisatigui, M.Sc.
Universidad Tecnológica de la Habana “José A. Echeverría”

Diana Martin-Rodríguez, Ph. D.
Universidad Tecnológica de la Habana “José A. Echeverría”

Milton García-Borroto, Ph. D.
Universidad Tecnológica de la Habana “José A. Echeverría”

Cómo citar

Torres-Domínguez, O., Sabater-Fernández, S., Bravo-Ilisatigui, L., Martin-Rodríguez, D., & García-Borroto, M. (2019). Detección de anomalías en grandes volúmenes de datos. Revista Facultad de Ingeniería, 28(50), 62–76. https://doi.org/10.19053/01211129.v28.n50.2019.8793

Descargar cita

Todos los artículos de la Revista Facultad de Ingeniería son difundidos bajo la licencia Creative Commons de Atribución (CC-BY).

Los autores deben firmar y enviar la Autorización de evaluación y publicación del artículo suministrada por la revista, en la cual se consignan todos los aspectos involucrados en la originalidad del trabajo y los derechos de autor.

Los autores/as que publiquen en esta revista aceptan las siguientes condiciones:

a. Los autores/as conservan los derechos de autor y ceden a la Revista el derecho de la primera publicación, con el trabajo registrado con la licencia de atribución de Creative Commons, que permite a terceros utilizar lo publicado siempre que mencionen la autoría del trabajo y a la primera publicación en esta Revista.

b. Los autores/as pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta Revista.

c. Se permite y recomienda a los autores/as a publicar su trabajo en Internet (por ejemplo en páginas institucionales o personales) antes y durante el proceso
de revisión y publicación, ya que puede conducir a intercambios productivos y a una mayor y más rápida difusión del trabajo publicado.

d. La Revista autoriza la reproducción total o parcial del contenido de la publicación, siempre y cuando se cite la fuente, es decir, nombre de la revista, nombre del autor(es), año, volumen, número de publicación y páginas del artículo.

e. Las ideas y afirmaciones emitidas por los autores son responsabilidad de ellos y en ningún caso comprometen a la Revista.

Resumen

El desarrollo de la era digital ha traído como consecuencia un incremento considerable de los volúmenes de datos. A estos grandes volúmenes de datos se les ha denominado big data ya que exceden la capacidad de procesamiento de sistemas de bases de datos convencionales. Diversos sectores consideran varias oportunidades y aplicaciones en la detección de anomalías en problemas de big data. Para realizar este tipo de análisis puede resultar muy útil el empleo de técnicas de minería de datos porque permiten extraer patrones y relaciones desde grandes cantidades de datos. El procesamiento y análisis de estos volúmenes de datos, necesitan de herramientas capaces de procesarlos como Apache Spark y Hadoop. Estas herramientas no cuentan con algoritmos específicos para la detección de anomalías. El objetivo del trabajo es presentar un nuevo algoritmo para la detección de anomalías basado en vecindad para de problemas big data. A partir de un estudio comparativo se seleccionó el algoritmo KNNW por sus resultados, con el fin de diseñar una variante big data. La implementación del algoritmo big data se realizó en la herramienta Apache Spark, utilizando el paradigma de programación paralela MapReduce. Posteriormente se realizaron diferentes experimentos para analizar el comportamiento del algoritmo con distintas configuraciones. Dentro de los experimentos se compararon los tiempos de ejecución y calidad de los resultados entre la variante secuencial y la variante big data. La variante big data obtuvo mejores resultados con diferencia significativa. Logrando que la variante big data, KNNW-BigData, pueda procesar grandes volúmenes de datos.

Palabras clave

big data, detección de anomalías, MapReduce, minería de datos

PDF XML FLIP

Citas

[1] R. Bolton, and D. Hand, "Statistical fraud detection: A review," Statistical science, pp. 235-249, 2002.

[2] K. Chitra, and B. Subashini, "Data mining techniques and its applications in banking sector," International Journal of Emerging Technology and Advanced Engineering, vol. 3, pp. 219-226, 2013.

[3] S.-H. Li, D. C. Yen, W.-H. Lu, and C. Wang, "Identifying the signs of fraudulent accounts using data mining techniques," Computers in Human Behavior, vol. 28 (3), pp. 1002-1013, May. 2012. DOI: https://doi.org/10.1016/j.chb.2012.01.002.

[4] V. Chandola, A. Banerjee, and V. Kumar, "Anomaly detection: A survey," ACM computing surveys (CSUR), vol. 41 (3), pp. 1-15, Jul. 2009. DOI: https://doi.org/10.1145/1541880.1541882.

[5] J. Zhang, "Advancements of outlier detection: A survey," ICST Transactions on Scalable Information Systems, vol. 13 (1), pp. 1-26, Feb. 2013. DOI: https://doi.org/10.4108/trans.sis.2013.01-03.e2.

[6] L. M. Cruz-Quispe, and M. T. Rantes-García, "Detección de fraudes usando técnicas de clustering," 2010.

[7] M. Vadoodparast, and A. R. Hamdan, "Fraudulent Electronic Transaction Detection using dynamic KDA model," International Journal of Computer Science and Information Security, vol. 13, p. 90, 2015.

[8] M.Zhang, J.Salerno, and P.Yu, "Applying data mining in investigating money laundering crimes," in Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, 2003, pp. 747-752. DOI: https://doi.org/10.1145/956750.956851.

[9] B. Baesens, Analytics in a big data world: The essential guide to data science and its applications. New Jersey: John Wiley & Sons, 2014.

[10] J. Coumaros, S. D. Roys, L. Chretien, J. Buvat, S. KVJ, V. Clerk, et al., "Big Data Alchemy: How can Banks Maximize the Value of their Customer Data?," Capgemini Consulting, 2014.

[11] V. Mayer-Schönberger, and K. Cukier, Big data: A revolution that will transform how we live, work, and think. New York: Houghton Mifflin Harcourt, 2013.

[12] N. Marz, and J. Warren, Big Data: Principles and best practices of scalable realtime data systems. Manning Publications Co., 2015.

[13] S. Ryza, U. Laserson, S. Owen, and J. Wills, Advanced Analytics with Spark: Patterns for Learning from Data at Scale. O'Reilly Media, Inc., 2015.

[14] H. Karau, Fast Data Processing with Spark: Packt Publishing Ltd, 2013.

[15] H. Karau, A. Konwinski, P. Wendell, and M. Zaharia, Learning spark: lightning-fast big data analysis. O'Reilly Media, Inc., 2015.

[16] M. Breungi, P. Kriegel, R. Ng, and J. Sander, "LOF: identifying density-based local outliers," in ACM sigmod record, 2000, pp. 93-104. DOI: https://doi.org/10.1145/335191.335388.

Descargas

Los datos de descargas todavía no están disponibles.

		Fuente Academica Premier

		(Categoría B)

Resumen

Palabras clave

Citas

Descargas

Artículos similares