最快的代码C / C ++来select一组27个浮点值的中位数

这是众所周知的selectalgorithm。请参阅http://en.wikipedia.org/wiki/Selection_algorithm 。

我需要它来find一组3×3×3体素值的中值。由于体积是由十亿个体素组成，并且algorithm是recursion的，所以最好稍微快一点。总体而言，可以预期的是价值相对接近。

迄今为止我已经试过的最快速的已知algorithm使用快速sorting分区function。我想知道是否有更快的。

我已经“发明”了使用两堆的速度提高了20％，但是使用散列的速度更快。在执行这个之前，我想知道是否已经有一个快速的解决scheme。

我使用浮点数的事实应该是无关紧要的，因为它们可以在反转符号位之后被认为是无符号整数。订单将被保留。

编辑：基准和源代码转移到一个单独的答案，由戴维兰德曼build议。请看下面的chmike的答案。

编辑：到目前为止，最有效的algorithm是由Boojum引用作为快速中值和双边过滤纸，现在是这个问题的答案的链接。这种方法的第一个聪明的想法是使用基数sorting，其次是结合中间search相邻像素谁共享很多像素。

由于这听起来像是在大量卷数据上执行中值滤波，所以您可能需要查看SIGGRAPH 2006年的快速中值滤波和双边滤波。本文讨论二维image processing，但您可能会能够适应3D体积的algorithm。如果没有别的，它可能会给你一些想法，如何退后一步，从稍微不同的angular度来看问题。

selectalgorithm是线性时间（O（n））。复杂性方面，你不可能比线性时间做得更好，因为需要线性时间来读取所有数据。所以你不可能有更复杂的东西。也许你在某些投入上有更快的速度？我怀疑这会有很大的不同。

C ++已经包含线性时间selectalgorithm。为什么不使用它？

std::vector<YourType>::iterator first = yourContainer.begin(); std::vector<YourType>::iterator last = yourContainer.end(); std::vector<YourType>::iterator middle = first + (last - first) / 2; std::nth_element(first, middle, last); // can specify comparator as optional 4th arg YourType median = *middle;

编辑：从技术上讲，这只是一个奇数长度容器的中位数。对于一个甚至长度，它将获得“上”中位数。如果你想要中等长度的传统定义，你可能需要运行两次，每次在first + (last - first) / 2和first + (last - first) / 2 - 1然后平均他们什么的。

编辑：我必须道歉。 下面的代码是错误的。 我有固定的代码，但需要find一个icc编译器来重做测量。

到目前为止所考虑的algorithm的基准结果

有关algorithm的协议和简短说明，请参见下文。第一个值是超过200个不同序列的平均时间（秒），第二个值是stdDev。

 HeapSort : 2.287 0.2097 QuickSort : 2.297 0.2713 QuickMedian1 : 0.967 0.3487 HeapMedian1 : 0.858 0.0908 NthElement : 0.616 0.1866 QuickMedian2 : 1.178 0.4067 HeapMedian2 : 0.597 0.1050 HeapMedian3 : 0.015 0.0049 <-- best

协议：使用从rand（）获得的随机位生成27个随机数。连续500万次应用每个algorithm（包括之前的数组拷贝），并计算200个随机序列的平均值和stdDev。用icc -S -O3编译的C ++代码，并运行在带有8GB DDR3的Intel E8400上。

algorithm：

堆sorting：使用堆sorting和select中间值的完整sorting。天真的实现使用下标访问。

快速sorting：使用快速sorting并选取中间值，完成适当的sorting。天真的实现使用下标访问。

QuickMedian1：快速selectalgorithm与交换。天真的实现使用下标访问。

HeapMedian1：采用先前交换的平衡堆方法。天真的实现使用下标访问。

NthElement：使用nth_element STLalgorithm。使用memcpy（vct.data（），rndVal，…）将数据复制到vector中;

QuickMedian2：使用指针的快速selectalgorithm并复制到两个缓冲区中以避免交换。基于MSalters的build议。

HeapMedian2：我发明的algorithm使用双堆共享头的变体。左堆具有最大的值作为头，右有最小的值作为头。初始化第一个值作为公共头和第一个中值猜测。如果小于head，则将后续值添加到左堆中，否则将其添加到右堆中，直到其中一个堆已满。它包含14个值时已满。然后只考虑整个堆。如果它的权利堆，所有值大于头，popup头和插入值。忽略所有其他值。如果它的左堆，对于所有小于头的值，popup头并将其插入堆中。忽略所有其他值。当所有的数值已经进行时，共同的头是中间值。它使用整数索引到数组中。使用指针（64位）的版本似乎慢了近一倍（〜1s）。

HeapMedian3：与HeapMedian2相同的algorithm，但优化。它使用无符号字符索引，避免了价值交换和其他各种小事情。平均值和stdDev值是在1000个随机序列上计算的。对于nth_element，我用相同的1000个随机序列测量了0.508s和一个0.159537的stdDev。 HeapMedian3因此比nth_element stl函数快33倍。检查每个返回的中值是否与heapSort返回的中值相匹配。我怀疑使用散列的方法可能会明显更快。

编辑1：这个algorithm可以进一步优化。根据比较结果将元素分派到左侧或右侧堆的第一阶段不需要堆积。简单地将元素附加到两个无序序列就足够了。一旦一个序列满了，第一阶段就会停止，这意味着它包含了14个元素（包括中值）。第二阶段首先对整个序列进行堆积处理，然后按照HeapMedian3algorithm进行处理。我会尽快提供新的代码和基准。

编辑2：我实施和基准优化algorithm。但是heapMedian3没有显着的性能差异。它的平均速度甚至更慢。显示的结果被确认。可能会有更大的集合。还要注意，我只是select第一个值作为初始中位数猜测。如所暗示的那样，可以从我们在“重叠”值集合中search中值的事实中受益。使用中值algorithm的中位数将有助于select一个更好的初始中值猜测。

HeapMedian3的源代码

 // return the median value in a vector of 27 floats pointed to by a float heapMedian3( float *a ) { float left[14], right[14], median, *p; unsigned char nLeft, nRight; // pick first value as median candidate p = a; median = *p++; nLeft = nRight = 1; for(;;) { // get next value float val = *p++; // if value is smaller than median, append to left heap if( val < median ) { // move biggest value to the heap top unsigned char child = nLeft++, parent = (child - 1) / 2; while( parent && val > left[parent] ) { left[child] = left[parent]; child = parent; parent = (parent - 1) / 2; } left[child] = val; // if left heap is full if( nLeft == 14 ) { // for each remaining value for( unsigned char nVal = 27 - (p - a); nVal; --nVal ) { // get next value val = *p++; // if value is to be inserted in the left heap if( val < median ) { child = left[2] > left[1] ? 2 : 1; if( val >= left[child] ) median = val; else { median = left[child]; parent = child; child = parent*2 + 1; while( child < 14 ) { if( child < 13 && left[child+1] > left[child] ) ++child; if( val >= left[child] ) break; left[parent] = left[child]; parent = child; child = parent*2 + 1; } left[parent] = val; } } } return median; } } // else append to right heap else { // move smallest value to the heap top unsigned char child = nRight++, parent = (child - 1) / 2; while( parent && val < right[parent] ) { right[child] = right[parent]; child = parent; parent = (parent - 1) / 2; } right[child] = val; // if right heap is full if( nRight == 14 ) { // for each remaining value for( unsigned char nVal = 27 - (p - a); nVal; --nVal ) { // get next value val = *p++; // if value is to be inserted in the right heap if( val > median ) { child = right[2] < right[1] ? 2 : 1; if( val <= right[child] ) median = val; else { median = right[child]; parent = child; child = parent*2 + 1; while( child < 14 ) { if( child < 13 && right[child+1] < right[child] ) ++child; if( val <= right[child] ) break; right[parent] = right[child]; parent = child; child = parent*2 + 1; } right[parent] = val; } } } return median; } } } }

这个问题不能简单地回答，原因很简单，一个algorithm相对于另一个algorithm的性能取决于编译器/处理器/数据结构的组合，就像algorithm本身一样，你肯定知道

所以你的方法尝试一下就好了。是的，快速sorting应该是相当快的。如果你还没有这样做，你可能会想尝试insertionsort，它往往在小数据集上performance更好。这就是说，只要做一个sortingalgorithm就足够快。 select“正确的”algorithm通常不会快10倍。

为了获得实质性的加速，更好的方法是使用更多的结构。一些过去为我工作的想法带来了大规模的问题：

你可以有效地预先计算，而创build体素和存储28而不是27浮点数？
大致的解决scheme是否足够好？如果是这样的话，只要看一下9个数值的中位数就可以了，因为“总的来说，可以预期数值相对接近”。或者只要值相对接近，就可以用平均值代替它。
你真的需要所有数十亿体素的中位数吗？也许你有一个简单的testing，你是否需要中位数，然后才能计算相关的子集。
如果没有其他帮助：查看编译器生成的asm代码。你也许可以写更快的asm代码（例如通过使用寄存器来完成所有的计算）。

编辑：为了什么是值得的，我已经附上下面的评论（完全未经testing）中提到的（部分）insertionsort代码。如果numbers[]是一个大小为N的数组，并且您希望在数组开头处sorting的最小P浮点数，请调用partial_insertionsort<N, P, float>(numbers); 。因此，如果你调用partial_insertionsort<27, 13, float>(numbers); ， numbers[13]将包含中位数。为了获得更多的速度，你也必须展开while循环。正如上面所讨论的，为了获得真正的速度，你必须使用你对数据的知识（例如，数据已经部分sorting了吗？你知道数据分布的属性吗？我想，你会得到漂移）。

 template <long i> class Tag{}; template<long i, long N, long P, typename T> inline void partial_insertionsort_for(T a[], Tag<N>, Tag<i>) { long j = i <= P+1 ? i : P+1; // partial sort T temp = a[i]; a[i] = a[j]; // compiler should optimize this away where possible while(temp < a[j - 1] && j > 0) { a[j] = a[j - 1]; j--;} a[j] = temp; partial_insertionsort_for<i+1,N,P,T>(a,Tag<N>(),Tag<i+1>());} template<long i, long N, long P, typename T> inline void partial_insertionsort_for(T a[], Tag<N>, Tag<N>){} template <long N, long P, typename T> inline void partial_insertionsort(T a[]) {partial_insertionsort_for<0,N,P,T>(a, Tag<N>(), Tag<0>());}

在你的第一次尝试中使用的最可能的algorithm只是nth_element; 它几乎直接给你你想要的东西。只是要求第十四个要素。

第二次尝试时，目标是利用固定的数据大小。根本不用分配任何内存。因此，将您的体素值复制到27个元素的预分配数组中。 select一个枢纽，并将其复制到53元素数组的中间。将其余值复制到数据透视的任一侧。这里你保留两个指针（ float* left = base+25, *right=base+27 ）。现在有三种可能性：左侧更大，右侧更大，或者两者都有12个元素。最后一个例子是微不足道的。你的支点是中位数。否则，请在左侧或右侧调用nth_element。 N的确切值取决于有多less值大于或小于主轴。例如，如果除法是12/14，那么你需要最小的元素大于主元素，所以Nth = 0，如果除法是14/12，则需要最小的元素小于主元素，所以Nth = 13。最糟糕的情况是26/0和0/26，当你的枢轴是一个极端的，但那些只发生在所有情况的二十七分之二。

第三个改进（或者第一个，如果你必须使用C并且没有nth_element）完全replacenth_element。你仍然有53个元素的数组，但这次你直接从体素值中填充它（把你的临时副本保存到一个float[27] ）。在这个第一次迭代的主轴只是voxel [0] [0] [0]。对于后续的迭代，你使用第二个预先分配的float[53] （如果两者的大小相同，则更容易），并在两者之间复制浮点数。这里的基本迭代步骤仍然是：将数据透视图复制到中间，将剩余的数据向左和向右sorting。在每个步骤结束时，您将知道中位数是否小于或大于当前枢轴，因此您可以丢弃大于或小于该枢轴的浮点数。每次迭代，这消除了1到12个元素，平均剩下的25％。

最后一个迭代，如果你还需要更多的速度，是基于观察你的体素大部分重叠显着。您预先计算每个3x3x1切片的中位数值。然后，当你需要一个3x3x3体素立方体的初始支点时，你需要三者的中位数。您先前知道有9个体素较小，9个体素比中位数（4 + 4 + 1）大9个体素。所以，在第一个转折步骤之后，最坏的情况是9/17和17/9分割。所以，你只需要在浮点[17]中find第4或第13个元素，而不是在浮点[12]中的第12或第14个元素。

背景：使用左指针和右指针首先复制一个枢轴，然后将float [N]的其余部分复制到float [2N-1]的想法是，您将围绕枢轴填充一个float [N]子arrays，所有元素小于左侧（较低的指数）和较高的指数（较高的指数）。现在，如果你想要第M个元素，你可能会发现自己很幸运，并且有M-1元素小于枢轴，在这种情况下，枢轴是你需要的元素。如果有多于（M-1）个元素小于枢轴，第M个元素就在它们之间，所以你可以丢弃枢轴和大于枢轴的任何东西，而对于第M个元素，可以舍弃所有较低值。如果小于（M-1）的元素小于主元，则您正在查找比主元更高的值。所以，你会放弃这个枢纽和比它小的东西。让元素的数量小于枢轴，即枢轴的左边为L.在下一次迭代中，要（NL-1）个浮点数大于枢轴的第（ML-1）个元素。

这种nth_elementalgorithm是相当有效的，因为大部分的工作都是在两个小数组之间复制浮点数，而这两个小数组都将在caching中，而且由于您的状态大部分时间都是由3个指针（源指针，左目的指针，正确的目标指针）。

显示基本代码：

 float in[27], out[53]; float pivot = out[26] = in[0]; // pivot float* left = out+25, right = out+27 for(int i = 1; i != 27; ++1) if((in[i]<pivot)) *left-- = in[i] else *right++ = in[i]; // Post-condition: The range (left+1, right) is initialized. // There are 25-(left-out) floats <pivot and (right-out)-27 floats >pivot

我想你最好的select是采取一个现有的sortingalgorithm，并试图找出是否可以适应它，使该集不需要完全sorting。为了确定中位数，您最多需要sorting的值的一半，或者更低或更高的一半就足够了：

 original: | 5 | 1 | 9 | 3 | 3 | sorted: | 1 | 3 | 3 | 5 | 9 | lower half sorted: | 1 | 3 | 3 | 9 | 5 | higher half sorted: | 3 | 1 | 3 | 5 | 9 |

另一半是一堆未分类的价值，只是分享大/小或等于最大/最小sorting值的属性。

但是，我还没有准备好的algorithm，这只是一个想法，你可能会在你的sorting中采取捷径。

使用Bose-Nelsonalgorithm生成的sortingnetworking将使用173个比较直接find没有循环/recursion的中值。如果您可以并行执行比较（比如使用向量算术指令），那么您可以将比较分组为less至28个并行操作。

如果你确定浮点数已经归一化，而不是（qs）NaN，那么你可以使用整数运算来比较IEEE-754浮点数，这些浮点数可以在某些CPU上更好地执行。

将这个sortingnetworking直接转换为C（gcc 4.2）会在Core i7上产生388个时钟周期的最坏情况。

sortingnetworking

亚历克斯·斯捷潘诺夫（Alex Stepanov）的新书“编程的元素 ”（ Elements of Programming）在一定程度上讲述了使用平均比较的最小数量来查找顺序统计量，同时最小化运行时开销不幸的是，需要大量的代码来计算5个元素的中位数，即使这样，他作为一个项目寻找一个替代解决scheme，平均使用比较less的比较，所以我不会梦想延长框架find27个元素的中位数。而这本书甚至在2009年6月15日之前都不可用。重点在于，因为这是一个固定大小的问题，所以有一个直接的比较方法是可行的。

而且，这个algorithm不是孤立地运行一次，而是多次运行，在大多数运行之间，只有9个值会改变。这意味着理论上已经有一些工作已经完成了。但是，我还没有听说过任何利用这个事实的image processing中的中值滤波algorithm。

对于每个提到了nth_element的人来说都是+1，但是这种代码是手写algorithm比STL更好的地方，因为你想要为在特定数据集的CPU上运行的那个编译器生成最高效的代码。例如，对于一些CPU /编译器组合std :: swap（int，int），可能比使用XOR手写交换要慢（在回复之前，我知道这可能是20年前的事情，但现在不再）。有时性能是通过手工编写特定于您的CPU的汇编代码而获得的。如果您打算利用GPU的stream处理器，则可能需要相应地devisealgorithm。

你提到使用2堆，并跟踪插入的中位数。这就是我刚才在一个项目中所做的。我改变了arrays，只使用了一个堆。我想不出任何更快的algorithm，但我想告诉你有关内存使用情况，特别是CPUcaching内存。你想要小心访问内存。 CPU高速caching是按页面交换的，所以你希望你的algorithm能够触碰紧密靠近的内存，以尽量减lessCPUcaching未命中。

当我们说一百万个不同的值时，你需要中位数。是否有可能把你的中位数作为百万分之一，比如10％。因此，中位数接近第二个元素，它将两个相等（或几乎相等）的子集中的值相除。因此，为了find中位数，你需要less于O（n）次（在这个例子中是O（1 / 10n）），因此在O（nlogn）中用快速sorting来接近最优sorting？

如果你想看Donald E. Knuth所着的algorithm，

PS。如果您认为自己已经发明了更好的东西，那么您应该能够certificate复杂性与已知algorithm的复杂性相似或更好。另一方面，基于桶和基数的变化是O（n），快速sorting只是O（n.log（n））。一个快20％的方法仍然是O（n.log（n）），直到你可以显示algorithm:-)

我敢打赌，你可以计算它们的零成本 – 在从磁盘加载的单独的线程中（或者它们被生成）。

我真正说的是'速度'不是来自一点点的混乱，因为27个值不足以使大O符号成为一个真正的因素。

你可能想看Knuth的练习5.3.3.13。它描述了一个由Floyd计算的algorithm，它使用（3/2）n + O（n ^（2/3）log n）比较来找出n个元素的中位数，并且隐藏在O（·）中的常量似乎不是在实践中太大了。

如果有3x3x3 = 27个可能的值（如果是这样的话为什么浮点数？），你能创build一个由27个元素组成的数组，并且可以一次遍历数据来计算每个可能性吗？

我的一个一维数据集的中位数计算的超级快速algorithm在三遍中完成了工作，并且不需要对数据集进行sorting（!!!）。

一个非常通用的描述如下：

通过1：扫描一维数据集并收集数据集的一些统计信息
通过2：使用数据集的统计信息并应用一些数据挖掘来创build中间（辅助）数组
通过3：扫描中间（帮助者）arrays，以find中位数

该algorithmdevise用于查找单精度浮点值（在具有32GB物理内存和128GB虚拟内存的桌面系统上）超过8GE（千兆元素）的超大1-D数据集的中值，或用于查找中位数在硬实时环境中的小数据集。

该algorithm是：

比传统的基于Heap或Mergesortingalgorithm的algorithm快60〜75倍
以纯C语言实现
不使用任何英特尔内部函数
不使用任何内联汇编程序指令
绝对可移植的C / C ++编译器之间，如MS，Intel，MinGW，Borland，Turbo和Watcom
平台之间绝对可移植

最好的问候，谢尔盖Kostrov

最快的代码C / C ++来select一组27个浮点值的中位数

在C ++中优化空间而不是速度

C ++迭代器和循环优化

通过最大可能性将系数估计到一个观星表中

减去/增加值，没有溢出或下溢

SQL Server索引 – 升序或降序，它有什么不同？

微观优化是值得的时间？

Minify ASP.NET应用程序的Html输出

组合和缩小多个CSS / JS文件

__builtin_prefetch，它读多less？

Javareflection性能