资讯详情

Python之word2vec用法说明

gensim版本非常重要,与其他安装依赖包有关,并进行了修改和改进。 通过命令查看版本

pip list | grep gensim

在这里插入图片描述

#导入模块 from gensim.models import Word2Vec #模型生成 model = Word2Vec(sentence,vector_size=100, min_count=1,sg=1) #模型保存 model.wv.save_word2vec_format('word2vec.txt',binary=False)  #循环遍历生成序列  

参数说明:

  1. sentence:即将使用的数据集的内容,语料库。
  2. sg:训练算法:1表示skip-gram,否则CBOW,默认sg=0为CBOW算法。

skip-gram (训练速度慢,对罕见词有效),CBOW(训练速度快)。一般选择。Skip-gram模型

  1. vector_size:默认情况下,词向量的维度为100.

这个维度的值与我们的语料的大小有关,如小于100M文本语料通常使用默认值。如果是超大语料,建议增加维度。如果值太小,会因为冲突影响单词映射的结果。如果值太大,会消耗内存,减慢算法计算。一般值在100到200之间,但也有300维。

  1. min_count:忽略所有频率低于此值的单词。默认值为5。

在不同大小的语料集中,对基准词频的需求也不同。例如,在较大的语料集中中中中,我希望忽略那些只出现过一两次的单词,这里可以设置min_count控制参数。一般来说,合理的参数值设置为0~100之间。

  1. workers: 线程数

默认情况下,用于训练词向量的线程数是当前操作机器的处理器核数

  1. iter—epochs 迭代次数

如果训练次数受到影响,语料不足,可以调整迭代次数。spark 版本有bug,迭代次数超过1,训练得到的词向量维度值超大

  1. windows: 窗口大小

当前词与预测词的最大距离。

word2vec.txt对应的数字序列将在文件中生成,遍历语料库可以替换为数字序列。

注意,所有序列都要归一化长度,否则会报错,报错如下:

Failed to convert a NumPy array to a Tensor (Unsupported object type numpy.ndarray). 

标签: vec2r7505qg超级电容

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

 锐单商城 - 一站式电子元器件采购平台  

 深圳锐单电子有限公司