- 安装gensim:pip install gensim
- 准备预料:word2vec中需要sens预处理后使用进行分词的

- 训练模型
w2v_model = gensim.models.Word2Vec(sentences, min_count=5, size=128, window=5)
size:词向量的维度,默认值为100。这个维度的值通常与我们的语料大小有关,如果它小于100的语料M使用默认值的文本语料。如果是超大语料,建议增加维度。 window:上下文的最大距离为5 min_count:最小词频需要计算词向量。这个值可以去掉一些非常罕见的低频词,默认为5。如果是小语料,可以降低这个值。 4.保存模型,训练好的词向量
w2v_model.save("word2vec_model.bin") # 保存模型,save_binary=True w2v_model.wv.save_word2vec_format("word2vec.txt", binary=False) # 保持训练有素的词向量