Python之word2vec用法说明-锐单电子商城

gensim版本非常重要，与其他安装依赖包有关，并进行了修改和改进。通过命令查看版本

pip list | grep gensim

在这里插入图片描述

#导入模块 from gensim.models import Word2Vec #模型生成 model = Word2Vec(sentence,vector_size=100, min_count=1,sg=1) #模型保存 model.wv.save_word2vec_format('word2vec.txt',binary=False)  #循环遍历生成序列

参数说明：

sentence:即将使用的数据集的内容，语料库。
sg:训练算法：1表示skip-gram,否则CBOW，默认sg=0为CBOW算法。

skip-gram (训练速度慢，对罕见词有效)，CBOW(训练速度快)。一般选择。Skip-gram模型

vector_size:默认情况下，词向量的维度为100.

这个维度的值与我们的语料的大小有关，如小于100M文本语料通常使用默认值。如果是超大语料，建议增加维度。如果值太小，会因为冲突影响单词映射的结果。如果值太大，会消耗内存，减慢算法计算。一般值在100到200之间，但也有300维。

min_count：忽略所有频率低于此值的单词。默认值为5。

在不同大小的语料集中，对基准词频的需求也不同。例如，在较大的语料集中中中中，我希望忽略那些只出现过一两次的单词，这里可以设置min_count控制参数。一般来说，合理的参数值设置为0~100之间。

workers: 线程数

默认情况下，用于训练词向量的线程数是当前操作机器的处理器核数

iter—epochs 迭代次数

如果训练次数受到影响，语料不足，可以调整迭代次数。spark 版本有bug，迭代次数超过1，训练得到的词向量维度值超大

windows: 窗口大小

当前词与预测词的最大距离。

word2vec.txt对应的数字序列将在文件中生成，遍历语料库可以替换为数字序列。

注意，所有序列都要归一化长度，否则会报错，报错如下:

Failed to convert a NumPy array to a Tensor (Unsupported object type numpy.ndarray).

资讯详情

Python之word2vec用法说明

详细介绍电流互感器功能区别3CT SR ZCT

Python之word2vec用法说明

详细介绍电流互感器功能区别3CT SR ZCT

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录