Lista de Word Embeddings Pre-entrenados ENG

Lista de Word Embeddings Pre-entrenados para el idioma Ingles

Posteado por: Orlando Montenegro

Introducción

Word Embeddings, es una técnica que expresa una palabra como un vector de números reales, aproximadamente de 200 dimensiones o más. Es una característica de estos modelos que las palabras que tienen un significado similar se pueden hacer corresponder mediante la representación de un vector cercano y obtener resultados significativos al sumar o restar vectores, por ejemplo, el vector(rey) - vector(hombre) + vector(mujer) = vector(reina).

Esta técnica es utilizada en varias aplicaciones de NLP, como el etiquetado de part-of-speech, la recuperación de información, la respuesta a preguntas, etc. Sin embargo, es un trabajo bastante complicado preparar los Word Embeddings: Es necesario contar con una gran cantidad de datos, hacer un pre-procesamiento de la información, entrenar los modelos durante bastante tiempo, verificar el resultado y realizar ajustes de hiperparámetros para reentrenar nuevamente los modelos, contando con un sistema de cómputo que por lo general tiene prestaciones técnicas más elevadas.

Si solo desea utilizar los Word Embeddings, es preciso usar vectores pre-entrenados. A continuación, enumero los Word Embeddings más usados en trabajos de NLP para el idioma Ingles.

Word2Vec

	Vectores pre-entrenados Word2Vec.
Año	2013
URL	https://code.google.com/archive/p/word2vec/

Usted puede obtener vectores pre-entrenados en otros lenguajes en el siguiente link:

https://github.com/Kyubyong/wordvectors

GloVe

GloVe combina descomposición gobal de Matrices y contextos locales de ventana

	GloVe: Desarrollado por Stanford NLP Group.
Año	2014
URL	http://nlp.stanford.edu/projects/glove/

fastText

Modelo de aprendizaje muy Veloz! considerando morfemas, cada palabra es una representacion de ngramas de caracteres y las expresiones vectoriales de estas estan aprendidas.

	FastText de los mismo creadores de Word2Vec.
Año	2016
URL	https://github.com/icoxfog417/fastTextJapaneseTutorial

Dependecy-Based

Word Embeddings desarrollados por Omer Levy y Yoav Goldberg, con aprendizaje de dependecias basdas en contextos, los cuales son robustos en trabajos de similaridad sintáctica.

	Dependency-Based Word Embeddings
Año	2014
URL	https://levyomer.wordpress.com/2014/04/25/dependency-based-word-embeddings

Meta-Embeddings

Al combinar diferentes conjuntos de embeddings públicos, se generan mejores vectores Meta-Embeddings.

	Meta-Embeddings
Año	2016
URL	http://cistern.cis.lmu.de/meta-emb/

LexVec

En tareas de similaridad de palabras, en algunos casos excede a Word2vec

	LexVec
Año	2016
URL	http://cistern.cis.lmu.de/meta-emb/

Conclusión

En este artículo, se hace referencia a los vectores pre-entrenados mas usados, adicionalemnte recomedamos el siguiente links con vectores pre-entrenados adicionales.

https://github.com/Hironsan/awesome-embedding-models

Referencias

The List of Pretrained Word Embeddings