Hacia un sistema de ponderación supervisado de bases de datos no estructuradas utilizadas en la construcción de diccionarios especializados
Resumen
El artículo propone la arquitectura de un sistema que usa valores previamente aprendidos para reordenar resultados de búsquedas en bases de datos no estructuradas al construir diccionarios especializados. Un recurso común en la construcción de diccionarios, las bases de datos no estructuradas han sido útiles ya que proveen información sobre unidades léxicas, tal como la frecuencia o ejemplos de uso de las mismas. Sin embargo, en la construcción de diccionarios especializados, cuya selección de elementos léxicos no depende de la frecuencia, el uso de estas bases de datos queda restringido a la simple ejemplificación. Incluso en esta tarea, la información de las bases de datos no estructuradas puede no ser muy útil si se buscan unidades léxicas con un uso especializado pero con varios otros significados que producen largas listas de resultados. Ante este problema, estas listas pueden ser ponderadas usando un modelo de aprendizaje automático supervisado que se apoye de los resultados previamente útiles. La recolección de un vasto conjunto de datos de alta calidad para este sistema de ponderación es reportada aquí. Finalmente, se propone la arquitectura de tal sistema, el cual representa una herramienta sin precedentes en la lexicografía especializada.
Palabras clave
bases de datos no estructuradas, listas de hipótesis supervisadas, lexicografía especializada, construcción de diccionarios
Citas
- G. Haensch, Los diccionarios del español en el umbral del siglo XX, Salamanca, Spain: Universidad de Salamanca, 1997.
- G. Haensch, “Tipología de las obras lexicográficas”, in G. Haensch, L. Wolf, S Ettinger, and R. Werner, La lexicografía: De la lingüística teórica a la lexicografía práctica, pp. 95-187, Madrid, Spain: Gredos, 1982.
- S. Hockey, “Textual Databases”, in J. Lawler and H. Aristar-Dry (Eds.), Using Computers in Linguistics: A Practical Guide, pp. 101-137, Routledge, 1998.
- P. Baker (Ed.), Contemporary Corpus Linguistics, London, UK: Continuum, 2009.
- S. Hockey, Electronic Texts in the Humanities: Principles and Practice, New York, NY, USA: Oxford University, 2000.
- H. Lindquist, Corpus Linguistics and the Description of English, Edinburgh, UK: Edinburgh University, 2009.
- R. A. Fontenelle (Ed.), Practical Lexicography, pp. 31-50, New York, NY, USA: Oxford University, 2008.
- J. A. Porto Dapena, Manual de técnica lexicográfica, Madrid, Spain: Arco libros, 2002.
- H. Yong and J. Peng, Bilingual Lexicography from a Communicative Perspective, Philadelphia, USA: John Benjamins, 2007.
- E. Bajo, Los diccionarios: Introducción a la lexicografía del español, Gijon, Spain: Trea, 2002.
- Collins Cobuild Primary Learner’s Dictionary, (2nd ed.), London, UK: HarperCollins, 2014.
- Collins COBUILD Advanced Learner’s Dictionary, (8th ed.), London, UK: HarperCollins, 2014.
- Collins COBUILD English Usage, (2nd ed.), London, UK: HarperCollins, 2013.
- L. F. Lara (Ed.), Diccionario del español de México, México: El Colegio de México, 2010.
- F. Plager (Ed.), Diccionario integral del español de la Argentina, Buenos Aires: Voz Activa, 2008.
- R. Ávila, “¿El fin de los diccionarios diferenciales? ¿El principio de los diccionarios integrales?”, Revista de Lexicografía, vol. X, pp. 7-20, 2003-2004.
- I. Bosque, Diccionario combinatorio del español contemporáneo: Las palabras en su contexto, Madrid: SM, 2004.
- I. Bosque, Diccionario combinatorio práctico del español contemporáneo: Las palabras en su contexto, Madrid: SM, 2006.
- L. F. Lara (Ed.), Diccionario del español usual en México, (2nd ed.), México: El Colegio de México, 2009.
- L. F. Lara (Ed.), Diccionario del español usual en México, México: El Colegio de México, 1996.
- L. F. Lara (Ed.), Diccionario básico del español de México, México: El Colegio de México, 1986.
- B. T. Atkins, “Theoretical Lexicography and its Relation to Dictionary-Making”, in R. A. Fontenelle (Ed.), Practical Lexicography, pp. 31-50, New York, NY, USA: Oxford University, 2008.
- B.T. Atkins and M. Rundell, The Oxford Guide to Practical Lexicography, New York, USA: Oxford University, 2008.
- Real Academia Española, Diccionario de la lengua española, (22nd ed.), Madrid: Espasa Calpe, 2001.
- D. Nadeau and S. Sekine, “A survey of named entity recognition and classification”, LingvisticaeInvestigationes, vol. 30(1), 3-26, 2007.
- H.F. Witschel, “Terminology extraction and automatic indexing - comparison and qualitative evaluation of methods”, in Proceedings of the 8th International Conference on Terminology and Knowledge Engineering, (Copenhagen), 2005.
- J. Sinclair, “Lexicographic evidence” in R. Ilson (Ed.), Dictionaries, lexicography and language learning, pp. 81-94, UK: Pergamon, 1985.
- T. P. Vartanian, Secondary data analysis, (22nd ed.), New York, NY, USA: Oxford University, 2011.
- L. F. Lara, “Los diccionarios contemporáneos del español y la normatividad”, in Proceedings of the II Congreso internacional de la lengua española: El español en la sociedad de la información, Valladolid, Spain, 2002.
- L. Bowker, “The Contribution of Corpus Linguistics to the Development of Specialised Dictionaries for Learners”, in P. A. Fuertes Olivera (Ed.), Specialised Dictionaries for Learners, pp. 155-168, Berlín, Germany: Walter de Gruyter, 2010.
- D. Biber, S. Conrad, and R. Reppen, Corpus linguistics: Investigating language structure and use, Cambridge, UK: Cambridge University, 1998.
- R. Ávila and G. Aguilar, Diccionario inicial del español en México, México: Trillas, 2003.
- G. Gómez de Silva, Diccionario breve de mexicanismos, México: Fondo de cultura económica, 2003.
- G. Colín Sánchez, Así habla la delincuencia y otros más…, México: Porrúa, 2001.
- A. Jiménez, Tumbaburro de la picardía mexicana: Diccionario de términos vulgares, (52nd ed.), Mexico: Diana, 1999.
- P. M. Usandizaga, El chingolés: Primer diccionario del lenguaje popular mexicano, (8th ed.), Mexico: Costa-Amic, 1994.
- A. Rico Sulayes, De vulgaridades, insultos y malsonancias: El diccionario del subestándar mexicano, Baja California, México:UABC, in press.
- L. R. Gay and P. W. Airasian, Educational research: Competencies for analysis and application, (7a. ed.), Englewood Cliffs, NJ, USA: Prentice Hall, 2002.
- Real Academia Española, Corpus de referencia del español actual, available in: http://corpus.rae.es/creanet.html, accessed: November, 2014.
- J. M. Iglesias, Diccionario de argot español, Madrid, Spain: Alianza, 2003.
- R. A. Spears, Forbidden American English: A serious compilation of taboo American English, Madrid, Spain: Alianza, 2003.
- J. Ayto and J. Simpson, Forbidden American English: A serious compilation of taboo American English, UK: Oxford University, 1992.
- J. García-Robles, Diccionario de modismos mexicanos, México: Porrúa, 2011.
- C. Company Company (Ed.), Diccionario de mexicanismos, México: Siglo XXI, 2010.
- M. P. Montes de Oca Sicilia (Ed.), El chingonario: Diccionario de uso, rehuso y abuso del chingar y sus derivados, México: Lectorum,
- R. Renaud (Ed.), Diccionario de hispanoamericanismos no recogidos por la Real Academia Española, Madrid: Cátedra, 2006.
- J. Flores y Escalante, Morralla del caló mexicano, (2nd ed.), Mexico: AMEF, 2004.
- El Colegio de México, Corpus del español mexicano contemporáneo, available in: http://cemc.colmex.mx/, accessed: November, 2014.
- Real Academia Española, Corpus Diacrónico del Español, available in: http://corpus.rae.es/cordenet.html, accessed: November, 2014.
- C. D. Manning, P. Raghavan, and H. Schütze, Introduction to Information Retrieval, New York, NY, USA: Cambridge, 2008.
- I. H. Witten, E. Frank, and M. A. Hall, Data Mining: Practical Machine Learning Tools and Techiniques, (3rd ed.), Burlington, MA, USA: Morgan Kaufmann, 2011.
- S. I. Hill and A. Doucet, “Adapting two-class support vector classification methods to many class problems”, in Proceedings of the 22nd international conference on Machine learning, (New York), pp. 313-320, ICML, 2005.