资讯详情

使用word2vec训练词向量

  1. 安装gensim:pip install gensim
  2. 准备预料:word2vec中需要sens预处理后使用进行分词的 在这里插入图片描述
  3. 训练模型
w2v_model = gensim.models.Word2Vec(sentences, min_count=5, size=128, window=5) 

size:词向量的维度,默认值为100。这个维度的值通常与我们的语料大小有关,如果它小于100的语料M使用默认值的文本语料。如果是超大语料,建议增加维度。 window:上下文的最大距离为5 min_count:最小词频需要计算词向量。这个值可以去掉一些非常罕见的低频词,默认为5。如果是小语料,可以降低这个值。 4.保存模型,训练好的词向量

w2v_model.save("word2vec_model.bin")     # 保存模型,save_binary=True w2v_model.wv.save_word2vec_format("word2vec.txt", binary=False)     # 保持训练有素的词向量 

标签: vec2r7505qg超级电容

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

 锐单商城 - 一站式电子元器件采购平台  

 深圳锐单电子有限公司