Tag: word2vec

Doc2vec:如何获取文档向量

如何使用Doc2vec获取两个文本文档的文档向量? 我对此很陌生,所以如果有人能指出我正确的方向/帮助我一些教程将是有帮助的 我正在使用gensim python库。 doc1=["This is a sentence","This is another sentence"] documents1=[doc.strip().split(" ") for doc in doc1 ] model = doc2vec.Doc2Vec(documents1, size = 100, window = 300, min_count = 10, workers=4) 我得到AttributeError:“列表”对象没有属性的话“每当我运行这个

如何从句子中的二级词条中得到一个句子的向量

我已经使用word2vec从大文档生成了一系列令牌的向量。 给定一个句子,是否有可能从句子中的标记vector得到句子的vector。

句子或文档如何转换为vector?

我们有将单词转换成vector的模型(例如word2vec模型)。 是否存在将句子/文档转换成vector的类似模型,或许是使用为单个词学习的vector?

将word2vec bin文件转换为文本

从word2vec网站,我可以下载GoogleNews-vectors-negative300.bin.gz。 .bin文件(大约3.4GB)是对我无用的二进制格式。 Tomas Mikolov 向我们保证 :“将二进制格式转换为文本格式应该相当简单(尽pipe这会占用更多的磁盘空间)。检查距离工具中的代码,读取二进制文件相当简单。 不幸的是,我不知道C了解http://word2vec.googlecode.com/svn/trunk/distance.c 。 据说gensim也可以做到这一点,但我发现的所有教程似乎是从文本转换,而不是其他方式。 有人可以build议修改C代码或说明gensim发出文字?

word2vec:负面抽样(非专业术语)?

我正在阅读下面的文章,我有一些麻烦,理解负面抽样的概念。 http://arxiv.org/pdf/1402.3722v1.pdf 任何人都可以帮忙吗?

如何用python的gensim的word2vec模型来计算句子的相似度

根据Gensim的Word2Vec ,我可以使用gensim包中的word2vec模型来计算2个单词之间的相似度。 例如 trained_model.similarity('woman', 'man') 0.73723527 然而,2vec这个单词不能预测句子的相似性。 我发现在gensim中有句子相似的LSI模型,但似乎并不能和word2vec模型结合使用。 我每句话的语料库篇幅都不是很长(不超过10个字)。 那么,有没有简单的方法来实现这个目标?