Characterizing the survival of women with invasive cervical cancer by using data mining
Abstract
In this paper, one of the results of the research project entitled: Detection of survival patterns in diagnosed women with invasive cervical cancer with data mining techniques, using as the main source the information stored in the database of Cancer Registry of the Municipality of Pasto (Colombia) is presented here. Applying the CRISP-DM methodology, a data repository with information from diagnosed women with invasive cervical cancer during the period between 1998 and 2002 with an observation window until 2007, was built, cleaned, and transformed. The main socioeconomic and clinical factors related to survival of this population group, using classification, association, and clustering tasks were detected. The principal pattern discovered was that if a woman exceeds 52 months after the time of diagnosis of invasive cervical cancer, she will be characterized as a cancer survivor.
Keywords
cervical cancer, CRISP-DM, survival patterns, data mining.
Author Biography
Ricardo Timarán-Pereira
Doctor en Ingeniería énfasis Ciencias de la Computación,Master of Science en Ingeniería, Espcialista en MUltimedia Educativa, Ingeniero de Sistemas y Computación. Profesor Titular del Departamento de Sistemas de la Facultad de Ingeniería de la Universidad de Nariño. Director grupo de investigación GRIAS
Maria Clara Yépez-Chamorro
Licenciada en Enfermería, Magister en Ciencias Biomédicas,
Profesora asociada Universidad de Nariño, Pasto, ColombiaReferences
- Agrawal, R., & Srikant, R. (Septiembre de 1994). Fast algorithms for mining association rules. Proceedings of the 20th International Conference on Very Large Data Bases. Conferencia llevada a cabo en Santiago de Chile, Chile.
- Arias, S.A. (2009). Inequidad y cáncer: una revisión conceptual. Revista Facultad Nacional de Salud Pública, 27 (3), 341-348. Recuperado de: https://aprendeenlinea.udea.edu.co/revistas/index.php/fnsp/article/view/2060
- Asport, S., & Rivero, T. (2004). Plan nacional de control de cáncer de cuello uterino 2004-2008. Ministerio de Salud y Deportes de Bolivia. Recuperado de: http://saludpublica.bvsp.org.bo/textocompleto/ncc23332.pdf
- Castro, M., Vera, L., & Posso, H. (2006). Epidemiología del cáncer de cuello uterino: estado del arte. Revista Colombiana de Obstetricia y Ginecología, 57 (3) 182-189. Recuperado de: http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0034-74342006000300006 DOI: https://doi.org/10.18597/rcog.489
- Chen, M., Han, J., & Yu, P. (1996). Data mining: an overview from database perspective. IEEE Transactions on Knowledge Data Engineering, 8 (6), 866-883. doi: 10.1109/69.553155 DOI: https://doi.org/10.1109/69.553155
- Ciencia Hoy (2006). Nuevas vacunas que salvarán millones de vidas: cáncer del cuello uterino. Revista Ciencia Hoy en Línea, Vol. 16, No.95. Recuperado de: http://www.cienciahoy.org.ar/ch/ln/hoy95/cancer.htm
- Ferlay, J., Bray, F., Pisani, P., & Parkin, D.M. (2004). GLOBOCAN 2002: Cancer incidence, mortality and prevalence worldwide. Lyon, Francia: IARC Press.
- Ferlay, J., Shin, H.R., Bray, F., Forman, D., Mathers, C., & Parkin, D.M. (2010). GLOBOCAN 2008: Cancer incidence and mortality worldwide.Lyon, Francia: IARC Press.
- Fernández, G. (2009). Extracción de Información de la web usando técnicas de minería de datos. Recuperado de: http://www.tdg-seville.info/Download.ashx?id=48.
- Gallardo, J. (2009). Metodología para el desarrollo de proyectos en minería de datos CRISP-DM. Recuperado de: http://www.oldemarrodriguez.com/yahoo_site_admin/assets/docs/Documento_CRISP-DM.2385037.pdf.
- García, M., & Álvarez, A. (2010). Análisis de datos en WEKA –Pruebas de selectividad. Recuperado de: http://www.it.uc3m.es/jvillena/irc/practicas/06-07/28.pdf.
- Han, J., & Kamber, M. (2001). Data mining concepts and techniques. San Francisco, Estados Unidos: Morgan Kaufmann Publishers.
- Hernández, E., & Lorente, R. (2009). Minería de datos aplicada a la detección de cáncer de mama. Recuperado de: http://ww.it.uc3m.es/jvillena/irc/practicas/08-09/14.pdf.
- Hernández, J., Ramírez, M.J., & Ferri, C. (2005). Introducción a la minería de datos. Madrid, España: Editorial Pearson Prentice Hall.
- Merle, J. L. (2004). Análisis de la situación del cáncer cérvico uterino en América Latina y el Caribe. Washington, Estados Unidos: OPS.
- Pardo, C., & Cendales, R. (2010). Incidencia estimada y mortalidad por cáncer en Colombia: 2002-2006. Bogotá, Colombia: Instituto Nacional de Cancerología E.S.E. Ministerio de Salud y Protección Social.
- Quinlan, J.R. (1993). C4.5: Programs for machine leraning. San Francisco, Estados Unidos: Morgan Kaufmann Publishers.
- Sattler, K., & Dunemann, O. (2001). SQL Database primitives for decision tree classifiers. Proceedings of the Tenth International Conference on Information and Knowledge Management. Conferencia llevada a cabo en Atlanta, Estados Unidos. DOI: https://doi.org/10.1145/502585.502650
- Timarán, R., & Millán, M. (2006). New algebraic operators and sql primitives for mining classification rules. Proceedings of the Five IASTED International Conference on Computational Intelligence. Conferencia llevada a cabo en San Francisco, Estados Unidos.
- Witten, I., & Frank, E. (2000). Data mining: practical machine learning tools and techniques with java implementations. San Francisco, Estados Unidos: Morgan Kaufmann Publishers.
- Yépez, M.C., Cerón, E., Hidalgo-Troya, A., & Cerón, C. (2011). Supervivencia de mujeres con cáncer de cuello uterino, Municipio de Pasto. Revista Universidad y Salud, 2 (14), 7-18.