Lista de Word Embeddings Pre-entrenados ENG

2017/01/20

Lista de Word Embeddings Pre-entrenados para el idioma Ingles

Posteado por: Orlando Montenegro

Introducción

Word Embeddings, es una técnica que expresa una palabra como un vector de números reales, aproximadamente de 200 dimensiones o más. Es una característica de estos modelos que las palabras que tienen un significado similar se pueden hacer corresponder mediante la representación de un vector cercano y obtener resultados significativos al sumar o restar vectores, por ejemplo, el vector(rey) - vector(hombre) + vector(mujer) = vector(reina).

Esta técnica es utilizada en varias aplicaciones de NLP, como el etiquetado de part-of-speech, la recuperación de información, la respuesta a preguntas, etc. Sin embargo, es un trabajo bastante complicado preparar los Word Embeddings: Es necesario contar con una gran cantidad de datos, hacer un pre-procesamiento de la información, entrenar los modelos durante bastante tiempo, verificar el resultado y realizar ajustes de hiperparámetros para reentrenar nuevamente los modelos, contando con un sistema de cómputo que por lo general tiene prestaciones técnicas más elevadas.

Si solo desea utilizar los Word Embeddings, es preciso usar vectores pre-entrenados. A continuación, enumero los Word Embeddings más usados en trabajos de NLP para el idioma Ingles.

Word2Vec

Vectores pre-entrenados Word2Vec.
Año 2013
URL https://code.google.com/archive/p/word2vec/

Usted puede obtener vectores pre-entrenados en otros lenguajes en el siguiente link:

GloVe

GloVe combina descomposición gobal de Matrices y contextos locales de ventana

GloVe: Desarrollado por Stanford NLP Group.
Año 2014
URL http://nlp.stanford.edu/projects/glove/

fastText

Modelo de aprendizaje muy Veloz! considerando morfemas, cada palabra es una representacion de ngramas de caracteres y las expresiones vectoriales de estas estan aprendidas.

FastText de los mismo creadores de Word2Vec.
Año 2016
URL https://github.com/icoxfog417/fastTextJapaneseTutorial

Dependecy-Based

Word Embeddings desarrollados por Omer Levy y Yoav Goldberg, con aprendizaje de dependecias basdas en contextos, los cuales son robustos en trabajos de similaridad sintáctica.

Dependency-Based Word Embeddings
Año 2014
URL https://levyomer.wordpress.com/2014/04/25/dependency-based-word-embeddings

Meta-Embeddings

Al combinar diferentes conjuntos de embeddings públicos, se generan mejores vectores Meta-Embeddings.

Meta-Embeddings
Año 2016
URL http://cistern.cis.lmu.de/meta-emb/

LexVec

En tareas de similaridad de palabras, en algunos casos excede a Word2vec

LexVec
Año 2016
URL http://cistern.cis.lmu.de/meta-emb/

Conclusión

En este artículo, se hace referencia a los vectores pre-entrenados mas usados, adicionalemnte recomedamos el siguiente links con vectores pre-entrenados adicionales.

https://github.com/Hironsan/awesome-embedding-models

Referencias

The List of Pretrained Word Embeddings

Post Directory