对已知统计分布的数据进行sortingalgorithm？

我想到，如果你知道有关要分类的数据的分布情况（从统计angular度来说），那么如果考虑到这些信息，sortingalgorithm的性能可能会受益。

所以我的问题是，有没有任何sortingalgorithm考虑到这种信息？他们有多好？

编辑：一个例子来澄清：如果你知道你的数据的分布是高斯，你可以估计平均和平均在你处理数据。这会给你估计每个数字的最终位置，你可以用它们把它们放在最后的位置。

编辑＃2：我很惊讶的答案是不是一个维基链接到通话页面讨论这个问题。这不是一个很常见的情况（例如高斯情况）？

编辑＃3：我为这个问题增加了一个赏金，因为我正在寻找来源的确切答案，而不是猜测。就像“在高斯分布数据的情况下，XYZalgorithm平均速度最快，正如史密斯等人所certificate的那样[1]”。但是，欢迎任何其他信息。

请注意 ：我将奖励最高票数的答案。投票明智！

如果你正在sorting的数据有一个已知的分布，我会使用一个桶分类algorithm。您可以添加一些额外的逻辑，以便根据分布的属性计算各个桶的大小和/或位置（例如：对于高斯，您可能每隔（σ/ k）距离均值就有一个桶，其中西格玛是分布的标准偏差）。

通过以这种方式进行已知分配并修改标准桶sortingalgorithm，您可能会得到“ 直方图sorting”algorithm或与其相近的东西。当然，你的algorithm计算速度比直方图sortingalgorithm快，因为你可能不需要做第一遍（在链接中描述），因为你已经知道分布。

编辑：给出你的问题的新标准（虽然我以前的答复关于直方图sorting链接到可敬的NIST，并包含性能信息），这是来自国际并行处理会议同行评议期刊文章：

使用概率分布进行sorting的自适应数据分区

作者声称，这种algorithm比stream行的快速sortingalgorithm具有更好的性能（高达30％）。

听起来像你可能想要读取自我改善algorithm ：他们实现了任意input分布的最终预期运行时间。

我们给出了两个问题的自我改进algorithm：（i）对数字序列进行sorting，（ii）计算平面点集的Delaunay三angular剖分。两种algorithm都能达到最佳的预期限制复杂度 algorithm从一个训练阶段开始，在这个阶段他们收集关于input分布的信息，然后是一个稳定的机制，在这个机制中algorithm解决了它们的优化版本。

如果您已经知道您的input分布近似为高斯，那么就空间复杂性而言，另一种方法可能会更有效率，但就预期运行时间而言，这是一个非常好的结果。

了解数据源分布，可以build立一个好的散列函数。了解分布情况，哈希函数可能被certificate是一个完美的散列函数，或者接近完美的input向量。

这种function将大小为n的input分成n个分箱，这样最小的项目将映射到第一个分箱，最大的项目将映射到最后一个分箱。当散列是完美的，我们将实现sorting只是将所有的项目插入到箱。

如果哈希函数的计算代价为O（1），并且下划线哈希数据结构操作为O（1），那么将所有项插入到哈希表中，然后按顺序提取它们将是O（n））。

我会使用斐波那契数组实现哈希表。

对于哈希函数不完美（但接近完美）的input向量，它仍然比O（nlogn）好。当它是完美的 – 这将是O（n）。我不知道如何计算平均复杂度，但如果被迫，我会打赌O（nloglogn）。

计算机sortingalgorithm可以分为两类，基于比较的sorting和不基于比较的sorting。对于基于比较的sorting，其最佳情况下的sorting时间为Ω（nlogn），而在最坏情况下的sorting时间可以上升到O（n2）。近年来，已经提出了一些改进的algorithm来加速基于比较的分类，例如根据数据分布特征的先进的快速分类。然而，这些algorithm的平均sorting时间只是Ω（nlog2n），只有在最好的情况下才能达到O（n）。与基于比较的sorting不同，基于比较的sorting，例如计数sorting，桶sorting和基数sorting主要取决于键和地址的计算。当密钥的取值范围从1到m时，非比较sorting的计算复杂度为O（m + n）。特别是，当m = O（n）时，分拣时间可以达到O（n）。但是，当m = n2，n3，…时，不能获得线性分类时间的上限。在非基于比较的sorting中，桶sorting将具有相似关键字的一组logging分发到适当的“桶”中，然后对每个桶中的logging应用另一sortingalgorithm。通过桶sorting，将logging划分成m个桶的耗时较less，而每个桶中只包含less量logging，这样就可以非常快地应用“清理sorting”algorithm。因此，与Ω（nlogn）algorithm相比，桶sorting有可能渐近地节省sorting时间。显然，如何将所有logging统一分配到桶中，在桶分类中起着至关重要的作用。因此，您需要的是一种根据数据分布构造散列函数的方法，用于根据每个logging的关键字将n个logging均匀分布到n个桶中。因此，在任何情况下，所提出的桶sortingalgorithm的sorting时间将达到O（n）。

检查这篇文章： http : //ieeexplore.ieee.org/xpls/abs_all.jsp?number=5170434&tag=1

桶sorting会给你一个线性时间sortingalgorithm，只要你可以计算O（1）时间每个点的CDF。

您也可以在其他位置查找的algorithm如下所示：

a = array(0, n - 1, []) // create an empty list for each bucket for x in input: a[floor(n * cdf(x))].append(x) // O(1) time for each x input.clear() for i in {0,...,n - 1}: // this sorting step costs O(|a[i]|^2) time for each bucket // but most buckets are small and the cost is O(1) per bucket in expectation insertion_sort(a[i]) input.concatenate(a[i])

运行时间为O（n），因为期望有O（n）对（x，y），使得x和y落入同一个桶中，并且插入sorting的运行时间正好是O（n +配对在同一个桶中）。分析类似于FKS静态完美哈希。

编辑：如果你不知道分布，但你知道它来自哪个家庭，你可以通过计算均值和方差来估计O（n）中的分布，然后使用相同的algorithm，在这种情况下计算cdf是非平凡的）。

您可以在快速sorting中使用该信息来select枢轴值。我认为这会提高algorithm避开O（N ** 2）最差情况下复杂度的概率。

我认为循环sorting属于这一类。当你知道每个元素最终的确切位置时，就可以使用它。

Cyclesort有一些很好的属性 – 对于某些受限制的数据types，它可以在线性时间内进行稳定的原地sorting，同时保证每个元素最多只能移动一次。

对已知统计分布的数据进行sortingalgorithm？

Python字典键。 “在”复杂性

是大O（logn）日志基础？

.NET控制台应用程序退出事件

什么是“P = NP？”，为什么这么着名？

是list :: size（）真的是O（n）？

如何理解背包问题是NP完全的？

B树与哈希表

大哦vs big-theta

为什么访问一个数组中的元素需要一段时间？

如何构build堆是O（n）时间复杂度？