Lista de Word Embeddings Pre-entrenados para el idioma Ingles
Posteado por: Orlando Montenegro
Introducción
Word Embeddings, es una técnica que expresa una palabra como un vector de números reales, aproximadamente de 200 dimensiones o más. Es una característica de estos modelos que las palabras que tienen un significado similar se pueden hacer corresponder mediante la representación de un vector cercano y obtener resultados significativos al sumar o restar vectores, por ejemplo, el vector(rey) - vector(hombre) + vector(mujer) = vector(reina).
Esta técnica es utilizada en varias aplicaciones de NLP, como el etiquetado de part-of-speech, la recuperación de información, la respuesta a preguntas, etc. Sin embargo, es un trabajo bastante complicado preparar los Word Embeddings: Es necesario contar con una gran cantidad de datos, hacer un pre-procesamiento de la información, entrenar los modelos durante bastante tiempo, verificar el resultado y realizar ajustes de hiperparámetros para reentrenar nuevamente los modelos, contando con un sistema de cómputo que por lo general tiene prestaciones técnicas más elevadas.
Si solo desea utilizar los Word Embeddings, es preciso usar vectores pre-entrenados. A continuación, enumero los Word Embeddings más usados en trabajos de NLP para el idioma Ingles.
Word2Vec
| Vectores pre-entrenados Word2Vec. | |
|---|---|
| Año | 2013 |
| URL | https://code.google.com/archive/p/word2vec/ |
Usted puede obtener vectores pre-entrenados en otros lenguajes en el siguiente link:
GloVe
GloVe combina descomposición gobal de Matrices y contextos locales de ventana
| GloVe: Desarrollado por Stanford NLP Group. | |
|---|---|
| Año | 2014 |
| URL | http://nlp.stanford.edu/projects/glove/ |
fastText
Modelo de aprendizaje muy Veloz! considerando morfemas, cada palabra es una representacion de ngramas de caracteres y las expresiones vectoriales de estas estan aprendidas.
| FastText de los mismo creadores de Word2Vec. | |
|---|---|
| Año | 2016 |
| URL | https://github.com/icoxfog417/fastTextJapaneseTutorial |
Dependecy-Based
Word Embeddings desarrollados por Omer Levy y Yoav Goldberg, con aprendizaje de dependecias basdas en contextos, los cuales son robustos en trabajos de similaridad sintáctica.
| Dependency-Based Word Embeddings | |
|---|---|
| Año | 2014 |
| URL | https://levyomer.wordpress.com/2014/04/25/dependency-based-word-embeddings |
Meta-Embeddings
Al combinar diferentes conjuntos de embeddings públicos, se generan mejores vectores Meta-Embeddings.
| Meta-Embeddings | |
|---|---|
| Año | 2016 |
| URL | http://cistern.cis.lmu.de/meta-emb/ |
LexVec
En tareas de similaridad de palabras, en algunos casos excede a Word2vec
| LexVec | |
|---|---|
| Año | 2016 |
| URL | http://cistern.cis.lmu.de/meta-emb/ |
Conclusión
En este artículo, se hace referencia a los vectores pre-entrenados mas usados, adicionalemnte recomedamos el siguiente links con vectores pre-entrenados adicionales.
https://github.com/Hironsan/awesome-embedding-models