首页 > 技术文章 > word to vector 文本向量化

binbinbj 2017-11-10 12:52 原文

现在趋势是高层用可解释的模型例如 线性模型或者gbdt,下层用带深度的embedding。

文本向量化的 word 2 vector 很不错也有很多自己做得模型,关键在于语聊,模型效果差异不大。


这里有训练好的模型,30种语言非英语,感觉语料不是很好

https://github.com/Kyubyong/wordvectors


这个项目里面有英文预料的,英文有很多语料库例如wordbank google news,wallstreet,都是很好的语聊库。

https://github.com/3Top/word2vec-api


我们当然用我厂自家的模型。


下面是另一片综述的文章。


http://ahogrammer.com/2017/01/20/the-list-of-pretrained-word-embeddings/

https://www.tensorflow.org/tutorials/word2vec

推荐阅读