Tag: 贝叶斯

保存朴素贝叶斯训练分类器在NLTK

对于我如何保存一个训练有素的分类器,我有点困惑。 就像在我每次想使用它时重新训练一个分类器显然是非常糟糕和缓慢的,我如何保存它并在我需要的时候再次加载呢? 代码如下,预先感谢您的帮助。 我正在使用Python与NLTK朴素贝叶斯分类器。 classifier = nltk.NaiveBayesClassifier.train(training_set) # look inside the classifier train method in the source code of the NLTK library def train(labeled_featuresets, estimator=nltk.probability.ELEProbDist): # Create the P(label) distribution label_probdist = estimator(label_freqdist) # Create the P(fval|label, fname) distribution feature_probdist = {} return NaiveBayesClassifier(label_probdist, feature_probdist)

如何提高朴素贝叶斯分类器的准确性?

我使用朴素贝叶斯分类器将几千个文档分为30个不同的类别。 我已经实现了一个朴素贝叶斯分类器,并select了一些function(主要是过滤无用的单词),我已经获得了大约30%的testing精度,45%的训练精度。 这显然比随机好,但我希望它会更好。 我已经尝试过用NB实现AdaBoost,但似乎并没有给出明显的更好的结果(文献似乎分裂了这个,一些论文说AdaBoost与NB没有给出更好的结果,其他人也这么做)。 你知道任何其他扩展NB可能会提供更好的准确性吗? 非常感谢。

5星评级sorting的更好方法是什么?

我正在尝试使用5星级系统按顾客评级对一堆产品进行分类。 我正在设置这个网站没有很多的评级,并继续增加新的产品,所以它通常会有一些less数的评级产品。 我尝试使用平均星级评分,但是当less量评级时algorithm失败。 例如,具有3x 5星评级的产品将显示比具有100x 5星评级和2x 2星评级的产品好。 第二个产品不应该显得更高,因为它在统计上更值得信赖,因为收视率更高?