从一亿个数字中检索前100个数字

我的一个朋友被问了一个问题

从一亿个数字中检索最大的100个数字

在最近的一次求职面试中你有什么想法想出一个有效的方法来解决它？

将它们全部通过大小为100的最小堆运行：对于每个input数k ，用max(k, m)replace当前的最小m 。之后堆保存了100个最大的input。

像Lucene这样的search引擎可以使用这种方法，通过改进来select最相关的search答案。

编辑：我没有面试 – 我得到的细节错了两次（之前完成这个，在生产）。这是检查它的代码; 它几乎与Python的标准heapq.nlargest() ：

 import heapq def funnel(n, numbers): if n == 0: return [] heap = numbers[:n] heapq.heapify(heap) for k in numbers[n:]: if heap[0] < k: heapq.heapreplace(heap, k) return heap >>> funnel(4, [3,1,4,1,5,9,2,6,5,3,5,8]) [5, 8, 6, 9]

好吧，这是一个非常愚蠢的答案，但它是一个有效的答案：

将所有1亿个条目加载到一个数组中
调用一些快速sorting的实现
取最后100个项目（按升序sorting），如果可以降序sorting，则前100个项目。

推理：

在这个问题上没有任何背景，所以效率可以被认为是有效的？电脑时间还是程序员时间？
这种方法可以很快实现。
1亿个条目 – 数字，只有几百MB，所以每一个体面的工作可以简单地运行。

对于某种一次性操作来说，这是一个很好的解决scheme。它会吸每秒运行x次或其他东西。但是，我们需要更多的上下文，因为mclientk也有他简单的SQL语句 – 假设内存中不存在1亿个数字是一个可行的问题，因为…他们可能来自数据库，大部分时间会说话关于业务相关的数字。

因此，这个问题真的很难回答 – 效率首先要被定义。

Mergesort分批100，那么只能保持前100名。

顺便提一句，你可以在各个方向上进行缩放，包括同时进行。

如果数据已经存在于可以修改的数组中，则可以使用Hoare's Selectalgorithm的变体，该algorithm是（依次）Quicksort的变体。

基本的想法很简单。在Quicksort中，将数组分成两部分，一部分大于枢轴，另一部分小于枢轴。然后你recursion地sorting每个分区。

在Selectalgorithm中，您完全按照以前的方式执行分区步骤 – 但是不是recursionsorting这两个分区，而是查看哪个分区包含所需的元素，并在该分区中仅recursion地select。例如，假设您的1亿个项目分成几乎一半，那么前几个迭代将只考虑上面的分区。

最终，你可能会达到你想要“桥接”两个分区的那一点 – 例如，你有一个大约150个分区的分区，当你分区时，你最终得到两个~75个分区。此时，只有一个小细节发生了变化：不是拒绝一个分区，只继续工作，而是接受 75个项目的上部分区，然后继续查找下部分区中的前25个分区。

如果你用C ++来完成这个工作，你可以用std::nth_element来完成这个工作（通常这个工作大致如上所述）。平均而言，这是线性的复杂性，我相信这个复杂性和你所希望的一样好（没有一些先前存在的顺序，我没有看到任何方法去查找所有元素的前N个元素）。

如果数据不在数组中，而且（例如）从文件中读取数据，则通常需要使用堆。你基本上读了一个项目，把它插入到堆中，如果堆大于你的目标（在这种情况下是100个项目），你删除一个并重新heapify。

可能不那么明显（但实际上是这样）的是，你通常不希望为这个任务使用最大堆。乍一看，这似乎很明显：如果你想获得最大的项目，你应该使用最大的堆。

然而，从堆中“删除”的项目来考虑更简单。最大的堆让你快速find堆中最大的一个物品。然而，它不是为了在堆中find最小的项而优化的。

在这种情况下，我们主要关注堆中最小的项目。特别是，当我们从文件中读取每个项目时，我们想把它与堆中最小的项目进行比较。如果（且仅当）比堆中的最小项大时，我们想用新项replace堆中当前最小的项。既然（根据定义）比现有的项目大，那么我们需要把它筛选到堆中的正确位置。

但是请注意：如果文件中的项目是随机排列的，当我们通过文件读取时，我们很快就会达到一个点，在这个点上，我们读入文件的大部分项会比堆中的最小项小。由于我们可以轻松访问堆中最小的项目，所以比较起来相当快捷，对于较小的项目根本不会插入堆中。

TOP 100 ，你的意思是100最大？如果是这样：

 SELECT TOP 100 Number FROM RidiculouslyLargeTable ORDER BY Number DESC

确保你告诉面试官，你认为表格是正确的索引。

没有理由对整个列表进行sorting。这应该是在O（n）时间可行的。在伪代码中：

 List top = new List for each num in entireList for i = 0 to top.Length if num > top[i] then top.InsertBefore(num, i) if top.Length > 100 then top.Remove(top.Length - 1) end if exit for else if i = top.Length - 1 and i < 100 then top.Add(num) end if end if next next

@darius实际上可以改善！
通过“修剪”或根据需要推迟堆更换操作

假设我们在堆的顶部有一个= 1000
它有c，b兄弟姐妹
我们知道c，b> 1000

  a=1000 +-----|-----+ b>a c>a We now read the next number x=1035 Since x>a we should discard a. Instead we store (x=1035, a=1000) at the root We do not (yet) bubble down the new value of 1035 Note that we still know that b,c<a but possibly b,c>x Now, we get the next number y when y<a<x then obviously we can discard it when y>x>a then we replace x with y (the root now has (y, a=1000)) => we saved log(m) steps here, since x will never have to bubble down when a>y>x then we need to bubble down y recursively as required Worst run time is still O(n log m) But average run time i think might be O(n log log m) or something In any case, it is obviously a faster implementation

对O（n）中的数组进行Heapify。然后拿出前100名元素。

我存储了前100个数字的最大值 – 100的大小。

在最后一级，我跟踪最小号码和我插入的新号码，并用最小号码进行检查。其他号码是否是前100名的候选人。

– 我再次呼吁重新join，所以我总是有最大的堆100。

所以它的复杂性是O（nlogn）。

 int numbers[100000000000] = {...}; int result[100] = {0}; for( int i = 0 ; i < 100000000000 ; i++ ) { for( int j = 0 ; j < 100 ; j++ ) { if( numbers[i] > result[j] ) { if( j < 99 ) { memcpy(result+j+1, result+j, (100-j)*sizeof(int)); } result[j] = numbers[i]; break; } } }

第一次迭代：

快速sorting，取顶部100. O（n log n）。简单，易于编码。非常明显。

更好？我们正在使用数字，做一个基数sorting（线性时间）排名前100。我希望这是面试官正在寻找。

任何其他的考虑？好吧，一百万个数字并不是很多的内存，但是如果你想最大限度地减less内存，你可以保持迄今为止所遇到的最多100个数字，然后只是扫描这些数字。什么是最好的方法？

有些人提到了一堆，但更好的解决scheme可能是一个双链表，在那里你保持指针到目前为止发现的前100名的最低。如果遇到列表中当前最小的数字a，则与下一个元素进行比较，并将数字从下一个移到当前，直到find新数字的位置。（这基本上只是一个专门的情况堆）。通过一些调整（如果数字大于当前最小值，与当前最大值比较以查看哪个方向行走列表以find插入点），这将是相对有效的，并且只需要1.5k的内存。

假设mylist是一个亿的数据清单。所以我们可以对列表进行sorting，并从mylist中取出最后的数据。

mylist.sort（）

MYLIST [-100：]

第二种方式：

导入heapq

heapq.nlargest（100，mylist）

从一亿个数字中检索前100个数字

在Java中testing素数的最快方法是什么？

你如何从一条线的某个垂直距离find一个点？

什么是最快的分解algorithm？

string相似度algorithm

需要可预测的随机生成器

使用boost或STL对C ++中的压缩（locking）容器进行sorting

一个有效的短文本string压缩algorithm

为什么斐波那契数列在计算机科学中有重要意义？

存储100万个电话号码

近似string匹配algorithm