我怎样才能用Python的最近邻居algorithm分类数据？

我需要用（我希望）最近邻居algorithm分类一些数据。我GOOGLE了这个问题，发现了很多库（包括PyML，mlPy和Orange），但我不确定从哪里开始。

我应该如何去使用Python来实现k-NN？

特别是考虑到你在Q中提到的技术（k-Nearest Neighbors），我强烈推荐scikits.learn 。 [ 注：本答案发布后，本项目的首席开发人员向我通报了本项目的新主页。]

我相信区分这个库和其他的一些特征（至less是我使用过的其他Python ML库，其中大多数是）：

一个广泛的诊断和testing库 （包括绘图模块，通过Matplotlib） – 包括特征selectalgorithm，混淆matrix ，ROC，精密调用等;
一个很好的select，特别适合ML技术的“电池包括” 数据集 （包括手写数字，面部图像等）;
大量的文档（这个项目只有大约两年的时间，这是一个惊喜），包括教程和分步示例代码（使用提供的数据集）;

毫无例外（至less我现在可以想到）python ML库非常棒。（请参阅PyMVPA homepag e了解十几个最受欢迎的Python ML库的列表。）

例如，在过去的12个月中，我使用了ffnet （用于MLP）， neurolab （也用于MLP）， PyBrain （Q-Learning）， neurolab （MLP）和PyMVPA （SVM）（均可从Python Package Index获得） – 这些相互之间有很大的差别，但是我发现它们都是非常高的质量。

不过，其中最好的可能是scikits.learn ; 例如，我不知道任何Python ML库 – 除了scikits.learn – 包括我上面提到的三个特性中的任何一个（虽然有一些有可靠的示例代码和/或教程，但我不知道集成这些研究级数据库和诊断algorithm库）。

其次，考虑到你打算使用的技术（ k-nearest neighbor ）scikits.learn是一个非常好的select。 Scikits.learn包含用于回归（返回分数）和分类（返回类标签）的kNNalgorithm，以及每个algorithm的详细示例代码。

使用scikits.learn k-nearest neighbour模块（字面上）不会更容易：

>>> # import NumPy and the relevant scikits.learn module >>> import numpy as NP >>> from sklearn import neighbors as kNN >>> # load one of the sklearn-suppplied data sets >>> from sklearn import datasets >>> iris = datasets.load_iris() >>> # the call to load_iris() loaded both the data and the class labels, so >>> # bind each to its own variable >>> data = iris.data >>> class_labels = iris.target >>> # construct a classifier-builder by instantiating the kNN module's primary class >>> kNN1 = kNN.NeighborsClassifier() >>> # now construct ('train') the classifier by passing the data and class labels >>> # to the classifier-builder >>> kNN1.fit(data, class_labels) NeighborsClassifier(n_neighbors=5, leaf_size=20, algorithm='auto')

更重要的是，与几乎所有其他ML技术不同的是，k最近邻的关键不在于对工作分类器构build器进行编码，而是构build生产级k-最近邻分类器/回归器的困难步骤是持久层 – 即， 存储和快速检索从中select最近的邻居的数据点 。对于kNN数据存储层，scikits.learn包含一个球树的algorithm（除了kd-tree （k-NN的传统数据结构）之外，我几乎不知道其它algorithm，因为它的性能没有在更高维空间中降解。

此外，k最近邻居需要一个适当的相似性度量（欧几里得距离是通常的select，但并不总是最好的）。 Scikits.learn包含一个由各种距离指标组成的独立模块，以及用于select合适的一个的testingalgorithm。

最后，还有一些我没有提到的库，因为它们超出了范围（PyML，贝叶斯）。他们主要不是开发者的“图书馆”，而是最终用户的应用程序（如Orange），或者他们有不寻常的或难以安装的依赖项（例如mlpy，这需要gsl，而gsl又必须从源）至less为我的操作系统，这是Mac OS X.

（注意：我不是scikits.learn的开发者/提交者。）

我怎样才能用Python的最近邻居algorithm分类数据？

保存朴素贝叶斯训练分类器在NLTK

深信仰networking与卷积neural network

TensorFlow，为什么Python是select的语言？

用于预测事件顺序的机器学习algorithm？

实现一个象棋引擎有多难？

最快的通用机器学习库？

有没有一个推荐的软件包在Python机器学习？

数据挖掘中分类和聚类的区别？

澄清玩蛇的neural network

有标签和无标签数据有什么区别？