Tag: 分类

在Ruby中稳定?

在Ruby中稳定? 也就是说,对于sort中的元素,它们之间的相对顺序是否与原始顺序保持一致? 例如,给出: a = [ {id: :a, int: 3}, {id: :b, int: 1}, {id: :c, int: 2}, {id: :d, int: 0}, {id: :e, int: 1}, {id: :f, int: 0}, {id: :g, int: 1}, {id: :h, int: 2}, ] 是保证,我们总是得到 a.sort_by{|h| h[:int]} 下列 [ {id: :d, int: 0}, {id: :f, int: 0}, {id: :b, int: […]

保存朴素贝叶斯训练分类器在NLTK

对于我如何保存一个训练有素的分类器,我有点困惑。 就像在我每次想使用它时重新训练一个分类器显然是非常糟糕和缓慢的,我如何保存它并在我需要的时候再次加载呢? 代码如下,预先感谢您的帮助。 我正在使用Python与NLTK朴素贝叶斯分类器。 classifier = nltk.NaiveBayesClassifier.train(training_set) # look inside the classifier train method in the source code of the NLTK library def train(labeled_featuresets, estimator=nltk.probability.ELEProbDist): # Create the P(label) distribution label_probdist = estimator(label_freqdist) # Create the P(fval|label, fname) distribution feature_probdist = {} return NaiveBayesClassifier(label_probdist, feature_probdist)

按列名称对数据框的列进行sorting

这可能是一个简单的问题,但我不知道如何按字母顺序排列。 test = data.frame(C = c(0, 2, 4, 7, 8), A = c(4, 2, 4, 7, 8), B = c(1, 3, 8, 3, 2)) # CAB # 1 0 4 1 # 2 2 2 3 # 3 4 4 8 # 4 7 7 3 # 5 8 8 2 我喜欢按字母顺序排列列名来实现 # ABC # […]

如何解释weka分类?

我们如何使用朴素贝叶斯来解释weka中的分类结果? 平均值,标准差,权重和精度是如何计算的? kappa统计,平均绝对误差,均方根误差等是如何计算的? 什么是混淆matrix的解释?

支持向量和训练数据与分类器性能之间的关系是什么?

我正在使用LibSVM分类一些文件。 最终结果显示,这些文件似乎有点难以分类。 但是,我注意到了一些训练我的模型。 也就是说:如果我的训练集是1000例如800左右被选为支持向量。 我到处寻找,看看这是好事还是坏事。 我的意思是支持向量的数量和分类器的性能有关系吗? 我已阅读此帖以前的职位 。 但是,我正在执行参数select,并且我确信特征向量中的属性都是有序的。 我只需要知道关系。 谢谢。 ps:我使用线性内核。

我如何build立一个模型来区分关于苹果(公司)的推文与关于苹果(水果)的推文呢?

请参阅以下50条关于“苹果”的推文。 我手上标有关于苹果公司的正面匹配,他们在下面标记为1。 这里有几行: 1|“@chrisgilmer: Apple targets big business with new iOS 7 features http://bit.ly/15F9JeF ”. Finally.. A corp iTunes account! 0|“@Zach_Paull: When did green skittles change from lime to green apple? #notafan” @Skittles 1|@dtfcdvEric: @MaroneyFan11 apple inc is searching for people to help and tryout all their upcoming tablet within our own net page No. […]

计算机科学sorting与“真实”世界sorting

我在考虑用软件sortingalgorithm,以及可能的方法是克服O(nlogn)障碍。 我不认为从实际意义上可以更快地sorting,所以请不要以为我这样做。 这样说,似乎几乎所有的sortingalgorithm,软件必须知道每个元素的位置。 这是有道理的,否则,它将如何知道根据一些sorting标准来放置每个元素的位置? 但是当我把这个想法与现实世界交织在一起的时候,离心机根本不知道每个分子在密度分类时的位置。 事实上,它并不关心每个分子的位置。 然而,由于每个分子都遵循密度和引力定律,所以它可以在相当短的时间内将数万亿分之一的物质分类,这让我想到了这一点。 是否有可能在每个节点上有一些开销(某些值或方法加到每个节点上)来“强制”列表的顺序? 像离心机一样,只有每个元素都关心它在空间中的相对位置(相对于其他节点)。 或者,这是否违反了计算中的一些规则? 我认为这里提出的一个重点是自然界的量子力学效应,以及它们如何同时应用于所有粒子。 也许古典计算机本质上限制sorting到O(nlogn)的领域,在这个领域,量子计算机可能能够跨越这个阈值成为并行运算的O(logn)algorithm。 离心机基本上是一个平行气泡sorting的观点似乎是正确的,其具有O(n)的时间复杂度。 我想下一个想法是,如果大自然可以sorting在O(n) ,为什么不能电脑?

MapReducesortingalgorithm如何工作?

Terasort基准testing中用来展示MapReducefunction的主要示例之一。 我无法理解在MapReduce环境中使用的sortingalgorithm的基础知识。 对我来说,sorting只涉及确定一个元素与所有其他元素的相对位置。 所以sorting包括比较“一切”和“一切”。 你的平均sortingalgorithm(快速,泡沫,…)只是在一个聪明的方式做到这一点。 在我看来,将数据集分成许多部分意味着您可以对单个部分进行sorting,然后您仍然必须将这些部分整合到“完整”完全sorting的数据集中。 鉴于分布在数千个系统上的TB级数据集,我预计这将是一项艰巨的任务。 那么这是如何做到的? 这个MapReducesortingalgorithm是如何工作的? 感谢帮助我理解。

数据挖掘中分类和聚类的区别?

有人可以说数据挖掘中的分类和聚类有什么区别吗? 如果可以的话,请举两个例子来理解主要思想。

有没有比Bogosort(又名猴sorting)更糟糕的sortingalgorithm?

我的同事们把我赶回大学的时候,今天早上讨论了sortingalgorithm。 我们回想起我们最喜欢的StupidSort ,我们中的一个人确定我们看到了一个sortingalgorithm是O(n!) 。 这让我开始寻找我能find的“最糟糕的”sortingalgorithm。 我们假设一个完全随机的sorting将是非常糟糕的(即随机化元素 – 是否按顺序?再次随机化),我环顾四周,发现它显然被称为BogoSort或Monkey Sort,或者有时候只是随机sorting 。 猴sorting似乎具有O(∞)的最坏情况性能, O(∞) O(n)的最佳情况性能和O(n·n!)的平均性能。 有没有任何命名algorithm的平均性能比O(n·n!) ? 或者只比猴子sorting一般?