Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia

George Enrique Dueñas Luna; Fabio A. González

Núm. 20
(julio-diciembre de 2012)

Lenguaje y comunicación

Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia

Publicado 2013-03-12

George Enrique Dueñas Luna
Fabio A. González

Cómo citar

Dueñas Luna, G. E., & González, F. A. (2013). Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia. Cuadernos de Lingüística Hispánica, (20), 83–98. Recuperado a partir de https://revistas.uptc.edu.co/index.php/linguistica_hispanica/article/view/462

Descargar cita

Metrics

Vistas/Descargas

Resumen
413
PDF
251

Métrica

Resumen

La Lingüística de Corpus es una metodología empírica ya que, a partir de grandes colecciones de textos -corpus o corpora- intenta describir las regularidades de las lenguas por medio de la implementación de programas computacionales, y así, simular los usos reales de ellas. Este trabajo aplica la Lingüística de Corpus a un conjunto de historias médicas electrónicas escritas en español nunca analizado lingüísticamente. De estas historias se desconoce la forma en que están escritas por parte de los médicos y las clases de palabras que utilizan cuando describen un suceso en una subdisciplina médica. El conjunto de datos está formado por 19 subdisciplinas médicas, las cuales contienen sus propias historias. Cada historia fue anotada en tres formas diferentes, lematización, tokenización y categoría gramatical (part-of-speech) por medio de TreeTagger. Posteriormente, las frecuencias de las anotaciones se describieron mediante AntConc. Los resultados encontrados para cada subdisciplina muestran las palabras con mayor frecuencia. Las palabras de clase cerrada son las más comunes y utilizadas. Algunas partes de las historias médicas fueron anotadas erróneamente. Por otra parte, se muestran ejemplos que dan a conocer la variabilidad de uso entre expresiones y abreviaturas por parte del personal médico. Además, la escritura médica de la Universidad Nacional de Colombia corrobora la Ley de Zipf.

Palabras clave

Lingüística de corpus, AntConc, TreeTagger, Ley de Zipf

PDF

Descargas

Los datos de descargas todavía no están disponibles.

Resumen

Palabras clave

Descargas

Artículos similares