Tag: 机器学习

ValueError at / image / Tensor张量(“activation_5 / Softmax:0”,shape =(?,4),dtype = float32)不是该图的元素

您好我正在build立一个image processing的分类器,这个代码是一个API预测整个代码正在运行的图像的图像类除了这一行(pred = model.predict_classes(test_image))这个api是在Django框架和m使用python2.7 here is a point if I am running this code like normally ( without making an api)its running perfectly def classify_image(request): if request.method == 'POST' and request.FILES['test_image']: fs = FileSystemStorage() fs.save(request.FILES['test_image'].name, request.FILES['test_image']) test_image = cv2.imread('media/'+request.FILES['test_image'].name) if test_image is not None: test_image = cv2.resize(test_image, (128, 128)) test_image = np.array(test_image) test_image = test_image.astype('float32') […]

Python:tf-idf-cosine:查找文档相似度

我正在按照第1部分和第2 部分提供的教程,不幸的是,作者没有时间做最后部分,其中涉及使用余弦来真正find两个文档之间的相似性。 我在文中的例子跟随从以下链接的帮助从stackoverflow我已经包括在上面的链接中提到的代码只是为了让答案生活容易。 from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] #Documents test_set = ["The sun in the sky is bright."] #Query stopWords = stopwords.words('english') vectorizer = CountVectorizer(stop_words = stopWords) #print vectorizer transformer […]

在scikit-learn中将分类器保存到磁盘

如何将经过训练的朴素贝叶斯分类器保存到磁盘并使用它来预测数据? 我从scikit学习网站有以下示例程序: from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred = gnb.fit(iris.data, iris.target).predict(iris.data) print "Number of mislabeled points : %d" % (iris.target != y_pred).sum()

Numpy 1热arrays

比方说,我有一个1D numpy数组 a = [1,0,3] 我想将其编码为2d 1热门arrays b = [[0,1,0,0], [1,0,0,0], [0,0,0,1]] 有一个快速的方法来做到这一点? 比循环更快速地设置b元素,也就是说。

如何获得scikit-learn分类器的大多数信息function?

像liblinear和nltk这样的机器学习软件包中的分类器提供了一个方法show_most_informative_features() ,这对debuggingfunction确实很有帮助: viagra = None ok : spam = 4.5 : 1.0 hello = True ok : spam = 4.5 : 1.0 hello = None spam : ok = 3.3 : 1.0 viagra = True spam : ok = 3.3 : 1.0 casino = True spam : ok = 2.0 : 1.0 casino = None […]

如何将数据分成3组(火车,validation和testing)?

我有一个pandas数据框,我希望把它分成3个独立的集合。 我知道使用sklearn.cross_validation中的sklearn.cross_validation ,可以将数据分成两组(train和test)。 不过,我找不到将数据分成三组的解决scheme。 最好是我想要有原始数据的索引。 我知道一个解决方法是使用train_test_split两次,并以某种方式调整索引。 但有没有更多的标准/内置的方式将数据分成3组而不是2?

高维数据中最近的邻居?

几天前我问了一个问题 ,如何find给定vector的最近邻居。 我的向量现在是21个维度,在我进一步研究之前,因为我不是来自机器学习和math领域,我开始问自己一些基本的问题: 欧几里德距离是寻找最近邻居的好方法吗? 如果不是,我有什么select? 另外,如何确定确定k邻居的正确阈值? 是否有一些分析可以做出这个数字呢? 以前,我被build议使用kd-Trees,但维基百科页面清楚地表明,对于高维数据,kd-Tree几乎等同于蛮力search。 在这种情况下,在百万点数据集中有效地find最近邻的最佳方法是什么? 有人可以澄清一些(或全部)上述问题吗?

softmax和softmax_cross_entropy_with_logits有什么区别?

我正在浏览tensorflow API文档。 在tensorflow文档中,他们使用了一个名为logits的关键字。 它是什么? 在API文档中的很多方法都是这样写的 tf.nn.softmax(logits, name=None) 如果写的是那些logits只是logits ,为什么保留一个不同的名字像logits ? 另一件事是有两种方法我不能区分。 他们是 tf.nn.softmax(logits, name=None) tf.nn.softmax_cross_entropy_with_logits(logits, labels, name=None) 他们之间有什么区别? 文件不清楚。 我知道什么是tf.nn.softmax 。 但不是其他。 一个例子将是非常有帮助的。

偏差在neural network中的作用

我意识到梯度下降和反向传播定理。 我没有得到的是:什么时候使用一个重要的偏见,你如何使用它? 例如,当映射AND函数时,当我使用2个input和1个输出时,它不会给出正确的权重,但是当我使用3个input(其中1个是偏差)时,它给出了正确的权重。

澄清玩蛇的neural network

我是新来的neural network/机器学习/遗传algorithm,并为我的第一个实现,我正在写一个networking,学习玩蛇( 以前的例子,如果你以前没有玩过 )我有几个问题,我不完全不了解: 在我的问题之前,我只想确保我理解正确的一般想法。 有一群蛇,每个都有随机产生的DNA。 DNA是neural network中使用的权重。 每次蛇移动,它使用neural network决定去哪里(使用一个偏见)。 当人口死亡,select一些父母(也许最高适应度),并交叉他们的DNA与一个轻微的变异机会。 1)如果给予整个董事会作为一个input(大约400个点)足够的隐藏层(不知道有多less,也许是256-64-32-2?),并有足够的时间,是否会学会不把自己装进去? 2)什么是好的投入? 以下是我的一些想法: 400个input,板上的每个空间都有一个input。 如果蛇应该去那里(苹果)正面,如果是墙壁/你的身体,则是负面的。 越接近-1/1,它越接近。 6个input:游戏宽度,游戏高度,蛇x,蛇y,苹果x和苹果y(如果以这种方式训练,可以学习在不同尺寸的板上玩,但不知道如何input它的身体,因为它改变大小) 给它一个可以提醒墙壁,苹果或它的身体的蛇的视野(也许是头部前面的3×3平方)。 (蛇只能看到前面的东西不幸,这可能会阻碍它的学习能力) 3)给定input法,隐藏图层大小的起始位置是什么(当然,计划调整这个,只是不知道什么是一个好的起点) 4)最后是蛇的健身。 除了得到苹果的时间之外,它的长度,还有它的一生,是否应该考虑其他因素呢? 为了让蛇学会不要阻止自己,有什么我可以添加到健身帮助吗? 谢谢!