Segmentación de textos por idioma
DOI:
https://doi.org/10.18046/syt.v14i38.2289Palabras clave:
Modelos ocultos de Markov, segmentación de textos por idioma, procesamiento del lenguaje natural.Resumen
La segmentación de textos por idioma puede ser abordada de dos maneras: la primera, asumiendo que los cambios de idioma solo ocurren en los saltos entre oraciones; y la segunda, asumiendo que el idioma puede cambiar en cualquier lugar del texto. En este trabajo se presentan métodos para segmentar ambos tipos de textos por idiomas. Para el primer caso se segmenta el texto a analizar por oraciones y luego se identifica el idioma de cada oración; la segunda propuesta consiste en la adaptación de los modelos ocultos de Markov a la tarea de segmentación de textos por idiomas. El estado del arte es superado por ambas propuestas, según los resultados obtenidos en la experimentación realizada.
Referencias
Bird, S. (2006, July). NLTK: the natural language toolkit. In Proceedings of the COLING/ACL on Interactive presentation sessions (pp. 69-72). Stroudsburg PA: Association for Computational Linguistics.
Blunsom, P. (2004). Hidden Markov models. Retrieved from: http://digital.cs.usu.edu/~cyan/CS7960/hmm-tutorial.pdf
Cabeza, R. (2015). Segmentación de textos por idiomas: utilizando modelos ocultos de Markov. Saarbrücken, Germany: EAE.
Ghahramani, Z. (2001). An introduction to hidden Markov models and bayesian networks. International Journal of Pattern Recognition and Artificial Intelligence, 15(01),9-42.
Juola, P. (1997). What can we do with small corpora? Document categorization via cross-entropy. Edinburgh, UK: University of Edinburgh.
Lui, M. & Cook, P. (2012). langid.py for better language modelling. In: Proceedings of Australasian Language Technology Association Workshop, Vol. 10 (pp. 107−112). Retrieved from:
http://www.alta.asn.au/events/alta2012/proceedings/pdf/U12-1.pdf
Lui, M. (2016). Langid.py [app]. Retrieved from: https://github.com/saffsd/langid.py
Lui, M., Lau, J. H., & Baldwin, T. (2014). Automatic detection and language identification of multilingual documents. Transactions of the Association for Computational Linguistics, 2, 27-40.
Rincón, L. (2012). Introducción a los procesos estocásticos. México, DF: UNAM. Available at: http://lya.fciencias.unam.mx/lars/Publicaciones/procesos2012.pdf
Vásquez, A. C., Quispe, J. P., & Huayana, A. M. (2009). Procesamiento de Lenguaje Natural. Revista de investigación de Sistemas e Informática, 6(2), 45-54.
Witten, I. H. & Bell, T. C. (1991). The zero-frequency problem: Estimating the probabilities of novel events in adaptive text compresion. IEEE Transactions on Information Theory, 37(40), 1085-1094.
Yamaguchi, H. & Tanaka-Ishii, K. (2012). Text segmentation by language using minimum description length. In: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1 (pp. 969-978). Stroudsburg, PA: ACL.
Descargas
Publicado
Número
Sección
Licencia
Esta publicación está licenciada bajo los términos de la licencia CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/deed.es)