Skip to main navigation menu Skip to main content Skip to site footer

Imputation techniques applied in a maximum monthly precipitation data in the central zone of Boyacá

Enero - Junio 2019

Abstract

Precipitation directly affects the water supply of river basins and its prediction becomes the main objective in different investigations. However, historical records often show missing data due to instrumental, technical or human drawbacks. This limitation must be solved to avoid errors in subsequent Analysis. This proposal deal with a similar problem for a data set about precipitation collected in the central part of Boyacá along the years 1974-2013. The performance of the imputation mechanisms of loss MCAR, MAR and MNAR was evaluated. All of them were implemented each one under either a multiple imputation with a random approach based on an allocation by the K-Nearest Neighbors method with spatial focus and an imputation by the Kalman smoothing method time focused approach. We measured the convergence of the descriptive statistics of the imputed value and the original value, and additionally, we compared the graphical adjustments and their probability distributions. Amelia was suggested as a better performance of imputation technique jointly with a gamma distribution associated to the missing data.

Keywords

Multiple imputation, precipitation, R-software, temporal series, Boyacá

pdf (Español)

References

C. Segerer y R. Villodas, HIDROLOGIA I,Unidad 5: Las Precipitaciones, Mendoza, Argentina: Universidad Nacional de Cuyo, Facultad de Ingeniería. Ingeniería Civil, 2006.

O. M. M. OMM, «Hidrología – De la medición a la información hidrológica.,» Guía de prácticas hidrológicas. Ginebra: Organización Meteorológica, vol. Volumen I., no OMN-No 168, 6ta. ed. , 2011.

A. Hurtado y Ó. Mesa, «Reanalysis of monthly precipitation fields in Colombian territory,» DYNA, 2014. ISSN electrónico 2346-2183. ISSN impreso 0012-7353, pp. Volumen 81, Número 186, p. 251-258, 2014.

D. Carrera, P. Guevara, L. Tamayo, A. Balarezo, C. Narváez y D. Morocho, «Relleno de series anuales de datos meteorológicos mediante métodos estadísticos en la zona costera e interandina del Ecuador, y cálculo de la precipitación media,» IDESIA Volumen 34, No 3. Páginas 81-90, Chile, 2016.

R. J. Little A. y D. Rubin B., Statistical Analysis With Missing Data, Hoboken, New Jersey: John Wiley & Sons, 1987.

WMO, Some Methods of Climatological Analysis, Ginebra, Zuisa: Secretariat of the World Meteorological Organization, 1966.

CEPAL, Estudios estadísticos y prospectivos. Imputación de datos: Teoría y práctica, Santiago de Chile: Publicación de las Naciones Unidas, 2007.

J. L. Schafer, Analysis of Incomplete Multivariate Data, Boca Raton, Florida: Chapman & Hall/CRC, 1997.

D. R. Dawdy y R. W. Lichty, «Methodology of hydrologic model building,» Proceedings, use of analog and digital computers in hydrology, vol. 2, pp. 347-355, 1968.

R. P. Rosario A., «Aplicación de algunos métodos de relleno a series anuales de lluvia de diferentes regiones de Costa Rica,» Tópicos Meteorológicos y oceanográficos, vol. 7, no 1, pp. 1-20, 2000.

R. Lo Presti, E. Barca y G. Passarella, «A methodology for treating missing data applied to daily rainfall data in the Candelaro River Basin (Italy),» Environ Monit Assess, vol. 160, pp. 1-22, 2010.

F. Merlos. V, S. T. Sánchez Q., J. A. Almanza C. y C. Domínguez S., «Evaluación de la gestión de datos para estudios hidrológicos,» III Congreso Naciononal de Manejo de Cuencas Hidrograficas, pp. 368-379, 2013.

M. E. Fernández L. y M. R. Antelo, «Estimación de datos faltantes de precipitación diaria para las distintas ecorregiones de la República Argentina,» 2do Encuentro de Investigadores en Formación en Recursos Hídricos, Ezeiza, 2014.

P. V. Guevara G., D. V. Carrera V., L. C. Tamayo B., A. L. Balarezo A., C. A. Narváez R. y D. R. Morocho L., «Relleno de series anuales de datos meteorológicos mediante métodos estadísticos en la zona costera e interandina del Ecuador, y cálculo de la precipitación media,» IDESIA, vol. 34, no 3, pp. 81-90, 2016.

C. M. Ilbay Y., K. Fonseca L., A. Quichimbo M., R. Lara L. y J. Tiche T., «Estimación de datos faltantes de precipitación en la subcuenca del Río Patate,» Revista Bases de la Ciencia , vol. 2, no 3, pp. 37-48, 2017.

C. S. Herrera O., J. R. Campos G. y F. M. Carrillo G., «Estimación de datos faltantes de precipitación por el método de regresión lineal: Caso de estudio Cuenca Guadalupe, Baja California, México,» Redalyc, vol. 25, no 71, pp. 34-44, 2017.

L. Useche y D. Mesa, «Una introducción a la imputación de valores perdidos,» Terra Nueva Etapa, vol. 12, no 31, pp. 127-151, 2006.

S. Infante , J. Ortega y F. Cedeño, «Estimación de datos faltantes en estaciones meteorológicas de Venezuela vía un modelo de redes neuronales,» Revista de Climatología, vol. 8, pp. 51-70, 2008.

V. Jimenez, A. Will, S. Rodríguez y C. Lamelas, «Imputación de datos climáticos utilizando algoritmos genéticos niching,» Acta de la XXXVII Reunión de Trabajo de
la Asociación Argentina de Energías Renovables y Medio Ambiente , vol. 2, pp. 11139-11148, 2014.

M. Benítez G. y M. Álvarez C., «Reconstrucción de series temporales en ciencias ambientales,» Revista Latinoamericana de Recursos Naturales, vol. 4, no 3, pp. 326-335, 2008.

C. Guevara O., N. Briceño, E. Zimmermann, L. Vives, M. Blanco, G. Cazenave y G. Ares, «Relleno de series de precipitación diaria para largos periodos de tiempo en zonas de llanura. Caso de estudio cuenca superior del arroyo del Azul,» Geoacta, vol. 42, no 1, pp. 38-62, 2017.

A. J. Peña Q., H. A. Chica R., J. F. Giraldo J., D. Obando B. y N. M. Riaño H., «SueMulador: Herramienta para la simulación de datos faltantes en series climáticas diarias de zonas ecuatoriales,» Revista Facultad Nacional de Agronomía Medellín, vol. 67, no 2, pp. 7365-7373, 2014.

L. Ingsrisawang y D. Potawee, «Multiple imputation for missing data in repeated measurements using MCMC and Copulas,» Proceedings of the internacional multiconference of engineers and computer scientists, vol. II, pp. 1-5, 2012.

S. T. Escobar C., H. O. González P., H. F. Aristizabal R. y Y. Carvajal E., Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin de corregir, completar y verificar la calidad de la información, Primera ed., Santiago de Cali: Corporación Autónoma regional del Valle del Cauca, 2005.

R. D. Medina R., E. C. Montoya R. y Á. Jaramillo R., «Estimación estadística de valores faltantes en series históricas de lluvia,» Cenicafé, vol. 59, no 3, pp. 260-273, 2008.

J. A. Urrutia, R. Palomino y H. D. Salazar, «Metodología para la imputación de datos faltantes en meteorología,» Scientia Et Technica, vol. XVII, no 46, pp. 44-49, 2010.

D. A. Castro Ll. y Y. Carvajal E., «Análisis de tendencia en la precipitación pluvial anual y mensual en el departamento del Valle del Cauca,» Memorias, vol. 11, no 20, pp. 9-17, 2013.

P. L. García R., «Imputación de datos en series de precipitación diaria caso de estudio cuenca del Río Quindío,» Ingeniare, vol. 10, no 18, pp. 73-86, 2015.

J. Leal R. y M. E. Rivera , «Estimación de datos faltantes de precipitación de la estación meteorológica ISER Pamplona, Colombia,» Revista Ingenieros Militares, no 11, pp. 83-89, 2016.

E. M. Caicedo, Water Quality Assessment of Lake Tota using a 3D modelling approach, Primera ed., Delft: UNESCO-IHE, 2016.

C. Gonzáles M., Impactos de la variabilidad climática y las actividades humanas en la dinámica hidrológica del Lago de Tota, Primera ed., Medellín: Universidad de Antioquia, Facultad de Ingeniería , 2016.

R Foundation, «The R Project for Statistical Computing,» 1993. [En línea]. Available: https://www.r-project.org/about.html. [Último acceso: 19 Enero 2019].

R Foundation, «Cran.r-project,» 2004. [En línea]. Available: https://cran.r-project.org/. [Último acceso: 19 Enero 2019].

«R Core Team,» [En línea]. Available: http://www.R-project.org.

D. B. Rubin, «Inference and missing data,» Biometrika, vol. 63, pp. 581-592, 1976.

J. Gómez G., J. Palarea A. y J. Matín F., «Métodos de inferencia estadística con datos faltantes. Estudio de simulación sobre los efectos en las estimaciones,» Estadística Española, vol. 48, no 162, pp. 241-270, 2006.

M. J. Rodríguez J. y R. Mora C., Estadística Informática, Ilustrada ed., Alicante: Universidad de Alicante. Servicio de publicaciones, 2001.

S. S. Shapiro y R. S. Francia, «An Approximate Analysis of Variance Test for Normality,» Journal of the American Statistical Association, vol. 67, pp. 215-216, 1972.

P. Royston, «A pocket‐calculator algorithm for the shapiro‐francia test for non‐normality: An application to medicine,» Statistics in Medicine, vol. 12, pp. 181-184, 1993.

W. H. Kruskal y A. W. Wallis, «Use of Ranks in One-Criterion Variance Analysis,» Journal of the American Statistical Association, vol. 47, pp. 583-621, 1952.

A. Wald y J. Wolfowitz, «On the test whether two samples are from the same population,» The annals of Mathematical Statistics, vol. 11, pp. 147-162, 1940.

B. Ycart y C. Robert, «Statistique Médicale En ligne,» Université Paris Descartes, Paris, Francia, 2018.

R. Fisher, «On the Mathematical Foundations of Theoretical Statistics,» Philosophical Transactions of the Royal Society of London, vol. 222, no Series A, pp. 309-368, 1922.

F. F. Caballero D., Selección de modelos mediante criterios de información en análisis factorial. Aspectos teóricos y computacionales, Granada, España: Universidad de Granada, 2011.

D. Evans, J. Drew y L. Leemis, «The Distibution of the Kolmogorov-Smirnov, Cramer-Von Misses, and Anderson-Darling Test Statistics for Exponential Populations with Estimated Parameters,» Taylor & Francis Group, vol. 37, pp. 1396-1421, 2008.

J. Wayman, «Multiple Imputation For Missing Data: What Is It And How Can I Use It?,» Annual Meeting of the American Educational Research, Chicago, 2003.

D. B. Rubin, «Multiple imputation for non-response in surveys.,» Jhon Wiley $ Sons, New York, 1987.

D. Otero G., Imputación de datos faltantes en un Sistema de Información sobre Conductas de Riesgo, Santiago de Compostela: Universidade de Santiago de Compostela, Universidade da Coruña, Universidade de Vigo, 2011.

D. B. Rubin, «Multiple imputations in sample surveys. A phenomenological bayesian approach to non-response.,» American Statistical Association, pp. 20-34, 1978.

D. B. Rubin, «Mutiple imputation after 18+ years.,» Journal of the American Statistical Association., vol. 91, pp. 473-489, 1996.

J. Honaker, G. King y M. Blackwell, «AMELIA II: A program for Missing Data,» Harvard, 2018.

A. D. García U., Análisis de datos y búsqueda de patrones de aplicaciones médicas, Santiago de Chile: Universidad de Chile. Facultad de Ciencias Fisicas y Matemáticas., 2015.

R. Aler M., Clasificadores KNN, Madrid: Universidad Carlos III de Madrid, 2015.

J. Vadillo J., Procesado y análisis de datos procedentes de una máquina de extrusión de pólimeros, País Vasco: Euskal Herriko Unibertsitatea, 2018.

G. Welch y G. Bishop, «An Introduction to the Kalman Filter,» SIGGRAPH, Berlin, 2001.

J. Durbin y S. J. Koopman, Time Series Analysis by State Space Methods, Oxford, England: Oxford Statistical Science Series, 2012.

A. Goicoechea P., «Imputación basada en árboles de decision de clasificación,» Eustat, Bilbao, 2002.

Downloads

Download data is not yet available.