TÉCNICAS DE IMPUTACIÓN PARA DATOS DE PRECIPITACIÓN MÁXIMA MENSUAL EN LA ZONA CENTRAL DE BOYACÁ
Resumen
La precipitación se encuentra relacionada directamente con el suministro de agua de las cuencas fluviales, convirtiéndose su predicción en un objetivo de estudio en diferentes investigaciones. Sin embargo, los registros históricos a menudo muestran datos faltantes debido a fallas instrumentales, técnicos o humanos. Esta limitación impacta directamente los resultados de los análisis estadísticos que puedan ser realizados posteriormente. Esta investigación aborda este problema para un conjunto de datos con características similares, recopilados en la parte central del departamento de Boyacá - Colombia para el período 1974-2013. Se evaluó el desempeño de los mecanismos de imputación de pérdida MCAR, MAR o MNAR, cada uno de estos se implementó usando una imputación múltiple con un enfoque aleatorio, una asignación por el método de K-Nearest Neighbors con enfoque espacial y una imputación por el método de suavizado de Kalman con enfoque temporal. Se midió la convergencia de los estadísticos descriptivos del valor imputado y el valor original y se realizó la comparación de los ajustes gráficos y sus distribuciones de probabilidad, sugiriendo un mejor ajuste usando la imputación múltiple Amelia en conjunto con un ajuste a una distribución gamma para los datos faltantes en el conjunto de datos de referencia.
Palabras clave
Imputación múltiple, Precipitación, R, series temporales, Boyacá
Citas
C. Segerer y R. Villodas, HIDROLOGIA I,Unidad 5: Las Precipitaciones, Mendoza, Argentina: Universidad Nacional de Cuyo, Facultad de Ingeniería. Ingeniería Civil, 2006.
O. M. M. OMM, «Hidrología – De la medición a la información hidrológica.,» Guía de prácticas hidrológicas. Ginebra: Organización Meteorológica, vol. Volumen I., no OMN-No 168, 6ta. ed. , 2011.
A. Hurtado y Ó. Mesa, «Reanalysis of monthly precipitation fields in Colombian territory,» DYNA, 2014. ISSN electrónico 2346-2183. ISSN impreso 0012-7353, pp. Volumen 81, Número 186, p. 251-258, 2014.
D. Carrera, P. Guevara, L. Tamayo, A. Balarezo, C. Narváez y D. Morocho, «Relleno de series anuales de datos meteorológicos mediante métodos estadísticos en la zona costera e interandina del Ecuador, y cálculo de la precipitación media,» IDESIA Volumen 34, No 3. Páginas 81-90, Chile, 2016.
R. J. Little A. y D. Rubin B., Statistical Analysis With Missing Data, Hoboken, New Jersey: John Wiley & Sons, 1987.
WMO, Some Methods of Climatological Analysis, Ginebra, Zuisa: Secretariat of the World Meteorological Organization, 1966.
CEPAL, Estudios estadísticos y prospectivos. Imputación de datos: Teoría y práctica, Santiago de Chile: Publicación de las Naciones Unidas, 2007.
J. L. Schafer, Analysis of Incomplete Multivariate Data, Boca Raton, Florida: Chapman & Hall/CRC, 1997.
D. R. Dawdy y R. W. Lichty, «Methodology of hydrologic model building,» Proceedings, use of analog and digital computers in hydrology, vol. 2, pp. 347-355, 1968.
R. P. Rosario A., «Aplicación de algunos métodos de relleno a series anuales de lluvia de diferentes regiones de Costa Rica,» Tópicos Meteorológicos y oceanográficos, vol. 7, no 1, pp. 1-20, 2000.
R. Lo Presti, E. Barca y G. Passarella, «A methodology for treating missing data applied to daily rainfall data in the Candelaro River Basin (Italy),» Environ Monit Assess, vol. 160, pp. 1-22, 2010.
F. Merlos. V, S. T. Sánchez Q., J. A. Almanza C. y C. Domínguez S., «Evaluación de la gestión de datos para estudios hidrológicos,» III Congreso Naciononal de Manejo de Cuencas Hidrograficas, pp. 368-379, 2013.
M. E. Fernández L. y M. R. Antelo, «Estimación de datos faltantes de precipitación diaria para las distintas ecorregiones de la República Argentina,» 2do Encuentro de Investigadores en Formación en Recursos Hídricos, Ezeiza, 2014.
P. V. Guevara G., D. V. Carrera V., L. C. Tamayo B., A. L. Balarezo A., C. A. Narváez R. y D. R. Morocho L., «Relleno de series anuales de datos meteorológicos mediante métodos estadísticos en la zona costera e interandina del Ecuador, y cálculo de la precipitación media,» IDESIA, vol. 34, no 3, pp. 81-90, 2016.
C. M. Ilbay Y., K. Fonseca L., A. Quichimbo M., R. Lara L. y J. Tiche T., «Estimación de datos faltantes de precipitación en la subcuenca del Río Patate,» Revista Bases de la Ciencia , vol. 2, no 3, pp. 37-48, 2017.
C. S. Herrera O., J. R. Campos G. y F. M. Carrillo G., «Estimación de datos faltantes de precipitación por el método de regresión lineal: Caso de estudio Cuenca Guadalupe, Baja California, México,» Redalyc, vol. 25, no 71, pp. 34-44, 2017.
L. Useche y D. Mesa, «Una introducción a la imputación de valores perdidos,» Terra Nueva Etapa, vol. 12, no 31, pp. 127-151, 2006.
S. Infante , J. Ortega y F. Cedeño, «Estimación de datos faltantes en estaciones meteorológicas de Venezuela vía un modelo de redes neuronales,» Revista de Climatología, vol. 8, pp. 51-70, 2008.
V. Jimenez, A. Will, S. Rodríguez y C. Lamelas, «Imputación de datos climáticos utilizando algoritmos genéticos niching,» Acta de la XXXVII Reunión de Trabajo de
la Asociación Argentina de Energías Renovables y Medio Ambiente , vol. 2, pp. 11139-11148, 2014.
M. Benítez G. y M. Álvarez C., «Reconstrucción de series temporales en ciencias ambientales,» Revista Latinoamericana de Recursos Naturales, vol. 4, no 3, pp. 326-335, 2008.
C. Guevara O., N. Briceño, E. Zimmermann, L. Vives, M. Blanco, G. Cazenave y G. Ares, «Relleno de series de precipitación diaria para largos periodos de tiempo en zonas de llanura. Caso de estudio cuenca superior del arroyo del Azul,» Geoacta, vol. 42, no 1, pp. 38-62, 2017.
A. J. Peña Q., H. A. Chica R., J. F. Giraldo J., D. Obando B. y N. M. Riaño H., «SueMulador: Herramienta para la simulación de datos faltantes en series climáticas diarias de zonas ecuatoriales,» Revista Facultad Nacional de Agronomía Medellín, vol. 67, no 2, pp. 7365-7373, 2014.
L. Ingsrisawang y D. Potawee, «Multiple imputation for missing data in repeated measurements using MCMC and Copulas,» Proceedings of the internacional multiconference of engineers and computer scientists, vol. II, pp. 1-5, 2012.
S. T. Escobar C., H. O. González P., H. F. Aristizabal R. y Y. Carvajal E., Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin de corregir, completar y verificar la calidad de la información, Primera ed., Santiago de Cali: Corporación Autónoma regional del Valle del Cauca, 2005.
R. D. Medina R., E. C. Montoya R. y Á. Jaramillo R., «Estimación estadística de valores faltantes en series históricas de lluvia,» Cenicafé, vol. 59, no 3, pp. 260-273, 2008.
J. A. Urrutia, R. Palomino y H. D. Salazar, «Metodología para la imputación de datos faltantes en meteorología,» Scientia Et Technica, vol. XVII, no 46, pp. 44-49, 2010.
D. A. Castro Ll. y Y. Carvajal E., «Análisis de tendencia en la precipitación pluvial anual y mensual en el departamento del Valle del Cauca,» Memorias, vol. 11, no 20, pp. 9-17, 2013.
P. L. García R., «Imputación de datos en series de precipitación diaria caso de estudio cuenca del Río Quindío,» Ingeniare, vol. 10, no 18, pp. 73-86, 2015.
J. Leal R. y M. E. Rivera , «Estimación de datos faltantes de precipitación de la estación meteorológica ISER Pamplona, Colombia,» Revista Ingenieros Militares, no 11, pp. 83-89, 2016.
E. M. Caicedo, Water Quality Assessment of Lake Tota using a 3D modelling approach, Primera ed., Delft: UNESCO-IHE, 2016.
C. Gonzáles M., Impactos de la variabilidad climática y las actividades humanas en la dinámica hidrológica del Lago de Tota, Primera ed., Medellín: Universidad de Antioquia, Facultad de Ingeniería , 2016.
R Foundation, «The R Project for Statistical Computing,» 1993. [En línea]. Available: https://www.r-project.org/about.html. [Último acceso: 19 Enero 2019].
R Foundation, «Cran.r-project,» 2004. [En línea]. Available: https://cran.r-project.org/. [Último acceso: 19 Enero 2019].
«R Core Team,» [En línea]. Available: http://www.R-project.org.
D. B. Rubin, «Inference and missing data,» Biometrika, vol. 63, pp. 581-592, 1976.
J. Gómez G., J. Palarea A. y J. Matín F., «Métodos de inferencia estadística con datos faltantes. Estudio de simulación sobre los efectos en las estimaciones,» Estadística Española, vol. 48, no 162, pp. 241-270, 2006.
M. J. Rodríguez J. y R. Mora C., Estadística Informática, Ilustrada ed., Alicante: Universidad de Alicante. Servicio de publicaciones, 2001.
S. S. Shapiro y R. S. Francia, «An Approximate Analysis of Variance Test for Normality,» Journal of the American Statistical Association, vol. 67, pp. 215-216, 1972.
P. Royston, «A pocket‐calculator algorithm for the shapiro‐francia test for non‐normality: An application to medicine,» Statistics in Medicine, vol. 12, pp. 181-184, 1993.
W. H. Kruskal y A. W. Wallis, «Use of Ranks in One-Criterion Variance Analysis,» Journal of the American Statistical Association, vol. 47, pp. 583-621, 1952.
A. Wald y J. Wolfowitz, «On the test whether two samples are from the same population,» The annals of Mathematical Statistics, vol. 11, pp. 147-162, 1940.
B. Ycart y C. Robert, «Statistique Médicale En ligne,» Université Paris Descartes, Paris, Francia, 2018.
R. Fisher, «On the Mathematical Foundations of Theoretical Statistics,» Philosophical Transactions of the Royal Society of London, vol. 222, no Series A, pp. 309-368, 1922.
F. F. Caballero D., Selección de modelos mediante criterios de información en análisis factorial. Aspectos teóricos y computacionales, Granada, España: Universidad de Granada, 2011.
D. Evans, J. Drew y L. Leemis, «The Distibution of the Kolmogorov-Smirnov, Cramer-Von Misses, and Anderson-Darling Test Statistics for Exponential Populations with Estimated Parameters,» Taylor & Francis Group, vol. 37, pp. 1396-1421, 2008.
J. Wayman, «Multiple Imputation For Missing Data: What Is It And How Can I Use It?,» Annual Meeting of the American Educational Research, Chicago, 2003.
D. B. Rubin, «Multiple imputation for non-response in surveys.,» Jhon Wiley $ Sons, New York, 1987.
D. Otero G., Imputación de datos faltantes en un Sistema de Información sobre Conductas de Riesgo, Santiago de Compostela: Universidade de Santiago de Compostela, Universidade da Coruña, Universidade de Vigo, 2011.
D. B. Rubin, «Multiple imputations in sample surveys. A phenomenological bayesian approach to non-response.,» American Statistical Association, pp. 20-34, 1978.
D. B. Rubin, «Mutiple imputation after 18+ years.,» Journal of the American Statistical Association., vol. 91, pp. 473-489, 1996.
J. Honaker, G. King y M. Blackwell, «AMELIA II: A program for Missing Data,» Harvard, 2018.
A. D. García U., Análisis de datos y búsqueda de patrones de aplicaciones médicas, Santiago de Chile: Universidad de Chile. Facultad de Ciencias Fisicas y Matemáticas., 2015.
R. Aler M., Clasificadores KNN, Madrid: Universidad Carlos III de Madrid, 2015.
J. Vadillo J., Procesado y análisis de datos procedentes de una máquina de extrusión de pólimeros, País Vasco: Euskal Herriko Unibertsitatea, 2018.
G. Welch y G. Bishop, «An Introduction to the Kalman Filter,» SIGGRAPH, Berlin, 2001.
J. Durbin y S. J. Koopman, Time Series Analysis by State Space Methods, Oxford, England: Oxford Statistical Science Series, 2012.
A. Goicoechea P., «Imputación basada en árboles de decision de clasificación,» Eustat, Bilbao, 2002.