Eratosthenes的筛子 – find首席Python

只是澄清，这不是一个功课问题:)

我想为我正在构build的math应用程序find素数，并遇到了Eratosthenes的Sieve方法。

我已经用Python写了一个实现。但速度非常慢。比方说，如果我想find所有不到200万的素数。它需要> 20分钟。（我在此停止）。我怎样才能加快速度呢？

def primes_sieve(limit): limitn = limit+1 primes = range(2, limitn) for i in primes: factors = range(i, limitn, i) for f in factors[1:]: if f in primes: primes.remove(f) return primes print primes_sieve(2000)

更新：我结束了对这个代码进行分析，发现花费了相当多的时间从列表中删除一个元素。相当可以理解，考虑到它必须遍历整个列表（最坏的情况）来find元素，然后删除它，然后重新调整列表（也许一些副本呢？）。无论如何，我抽出了字典的名单。我的新实现 –

 def primes_sieve1(limit): limitn = limit+1 primes = dict() for i in range(2, limitn): primes[i] = True for i in primes: factors = range(i,limitn, i) for f in factors[1:]: primes[f] = False return [i for i in primes if primes[i]==True] print primes_sieve1(2000000)

你不是很执行正确的algorithm：

在你的第一个例子中， primes_sieve并不维护罢工/取消设置（如algorithm中）的素性标志列表，而是连续调整整数列表，这非常昂贵：从列表中删除项目需要将所有后续项目下降一个。

在第二个例子中， primes_sieve1维护一个有素性标志的字典，这是一个正确方向的步骤，但它以不确定的顺序在字典上迭代，冗余地去除了因素中的因素（而不仅仅是素数的因素）algorithm）。你可以通过对键进行sorting来解决这个问题，并且跳过非质数（已经使其速度提高了一个数量级），但是直接使用列表还是更有效率的。

正确的algorithm（用列表而不是字典）看起来像这样：

 def primes_sieve2(limit): a = [True] * limit # Initialize the primality list a[0] = a[1] = False for (i, isprime) in enumerate(a): if isprime: yield i for n in xrange(i*i, limit, i): # Mark factors non-prime a[n] = False

（请注意，这也包括在素数的平方（ i*i ）处开始非素数标记的algorithm优化，而不是它的double）。

 def eratosthenes(n): multiples = [] for i in range(2, n+1): if i not in multiples: print (i) for j in range(i*i, n+1, i): multiples.append(j) eratosthenes(100)

从数组的开头（列表）移除需要移动所有的项目。这意味着以这种方式从前面开始从列表中删除每个元素是一个O（n ^ 2）操作。

你可以更有效地做到这一点：

 def primes_sieve(limit): limitn = limit+1 not_prime = set() primes = [] for i in range(2, limitn): if i in not_prime: continue for f in range(i*2, limitn, i): not_prime.add(f) primes.append(i) return primes print primes_sieve(1000000)

…或者，避免重新排列列表：

 def primes_sieve(limit): limitn = limit+1 not_prime = [False] * limitn primes = [] for i in range(2, limitn): if not_prime[i]: continue for f in xrange(i*2, limitn, i): not_prime[f] = True primes.append(i) return primes

我意识到这并不是真正回答如何快速生成素数的问题，但也许有些人会发现这个select有趣：因为python提供了通过生成器的懒惰评估，eratosthenes的筛选可以完全按照说明实现：

 def intsfrom(n): while True: yield n n += 1 def sieve(ilist): p = next(ilist) yield p for q in sieve(n for n in ilist if n%p != 0): yield q try: for p in sieve(intsfrom(2)): print p, print '' except RuntimeError as e: print e

try块在那里，因为algorithm运行，直到它吹到堆栈，没有try块显示回溯显示推实际输出你想看到屏幕。

通过结合许多爱好者的贡献（包括Glenn Maynard和MrHIDEn的评论），我在python 2中提出了以下代码片段：

 def simpleSieve(sieveSize): #creating Sieve. sieve = [True] * (sieveSize+1) # 0 and 1 are not considered prime. sieve[0] = False sieve[1] = False for i in xrange(2,int(math.sqrt(sieveSize))+1): if sieve[i] == False: continue for pointer in xrange(i**2, sieveSize+1, i): sieve[pointer] = False # Sieve is left with prime numbers == True primes = [] for i in xrange(sieveSize+1): if sieve[i] == True: primes.append(i) return primes sieveSize = input() primes = simpleSieve(sieveSize)

在我的机器上为不同input的10次方input所需的时间是：

3：0.3ms
4：2.4毫秒
5：23毫秒
6：0.26秒
7：3.1 s
8：33秒

一个简单的速度黑客：当你定义variables“素数”，设置步骤2自动跳过所有的偶数，并设置起点为1。

那么你可以进一步优化，而不是我在素数中，用于我素数[：round（len（primes）** 0.5）]。这将大大提高性能。另外，可以删除以5结尾的数字，以进一步提高速度。

快多了：

 def get_primes(n): m = n+1 numbers = [True for i in range(m)] for i in range(2, int(math.sqrt(n))): if numbers[i]: for j in range(i*i, m, i): numbers[j] = False primes = [] for i in range(2, m): if numbers[i]: primes.append(i) return primes start = time.time() primes = get_primes(10000) print(time.time() - start) print(get_primes(100))

使用filter方法筛选数字列表，可以完成以下操作。

 from math import sqrt def eratosthenes(limit): lst = range(1, limit) for i in range(2, int(sqrt(limit)) + 1): lst = filter(lambda x: x == i or x % i, lst) # sieve return lst print eratosthenes(2000000)

我的实现：

 import math n = 100 marked = {} for i in range(2, int(math.sqrt(n))): if not marked.get(i): for x in range(i * i, n, i): marked[x] = True for i in range(2, n): if not marked.get(i): print i

这是一个更有记忆效率的版本（和：适当的筛选，而不是审判部门）。基本上，不是保留所有数字的数组，而是去掉那些不是最主要的数字，这样就保留了一系列的计数器 – 每个发现的数字都有一个 – 并且在假定的素数之前跳过它们。这样，它使用与素数成比例的存储，而不是达到最高素数。

 import itertools def primes(): class counter: def __init__ (this, n): this.n, this.current, this.isVirgin = n, n*n, True # isVirgin means it's never been incremented def advancePast (this, n): # return true if the counter advanced if this.current > n: if this.isVirgin: raise StopIteration # if this is virgin, then so will be all the subsequent counters. Don't need to iterate further. return False this.current += this.n # pre: this.current == n; post: this.current > n. this.isVirgin = False # when it's gone, it's gone return True yield 1 multiples = [] for n in itertools.count(2): isPrime = True for p in (m.advancePast(n) for m in multiples): if p: isPrime = False if isPrime: yield n multiples.append (counter (n))

你会注意到primes()是一个生成器，所以你可以把结果保存在一个列表中，或者你可以直接使用它们。这是前n素数：

 import itertools for k in itertools.islice (primes(), n): print (k)

而且，为了完整性，这里有一个计时器来衡量性能：

 import time def timer (): t, k = time.process_time(), 10 for p in primes(): if p>k: print (time.process_time()-t, " to ", p, "\n") k *= 10 if k>100000: return

万一你想知道，我也写了primes()作为一个简单的迭代器（使用__iter__和__next__ ），它以几乎相同的速度运行。我也感到惊讶！

因为速度我更喜欢NumPy。

 import numpy as np # Find all prime numbers using Sieve of Eratosthenes def get_primes1(n): m = int(np.sqrt(n)) is_prime = np.ones(n, dtype=bool) is_prime[:2] = False # 0 and 1 are not primes for i in range(2, m): if is_prime[i] == False: continue is_prime[i*i::i] = False return np.nonzero(is_prime)[0] # Find all prime numbers using brute-force. def isprime(n): ''' Check if integer n is a prime ''' n = abs(int(n)) # n is a positive integer if n < 2: # 0 and 1 are not primes return False if n == 2: # 2 is the only even prime number return True if not n & 1: # all other even numbers are not primes return False # Range starts with 3 and only needs to go up the square root # of n for all odd numbers for x in range(3, int(n**0.5)+1, 2): if n % x == 0: return False return True # To apply a function to a numpy array, one have to vectorize the function def get_primes2(n): vectorized_isprime = np.vectorize(isprime) a = np.arange(n) return a[vectorized_isprime(a)]

检查输出：

 n = 100 print(get_primes1(n)) print(get_primes2(n)) [ 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97] [ 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97]

比较Eratosthenes Sieve的速度和Jupyter Notebook上的蛮力。 Eratosthenes筛比539倍的速度比百万元的蛮力。

 %timeit get_primes1(1000000) %timeit get_primes2(1000000) 4.79 ms ± 90.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) 2.58 s ± 31.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

 Here is my c++ solution #include <iostream> #include <cmath> #include <iomanip> using namespace std; const int MAX_NUMBER = 1000;// Max size of sequence of numbers. const int NUMBERS_PER_LINE = 20; // Max sequence of numbers printed per line in output. /** Initializes input boolean array to default value true. @param input_arr The array to be initialized. */ void arr_initialzer(bool[]); /** Sets Composite Number indexes to false, while Prime Number indexes are left true. Calculations are done by using Sieve of Eratosthenes Algorithm. @param input_arr The Input array for computing prime numbers. */ void compute_primes(bool []); /** Prints the prime number indexes. @param input_arr The Input array passed for printing. */ void print_primes(bool[]); int main() { bool seq_arr[MAX_NUMBER +1]; //Initialize the seq_arr to default value true. arr_initialzer(seq_arr); // Compute prime numbers compute_primes(seq_arr); // Print prime numbers print_primes(seq_arr); return 0; } void arr_initialzer(bool input_arr[]) { for (int i = 2;i < MAX_NUMBER+1;i++) { input_arr[i] = true; } } void compute_primes(bool input_arr[]) { int k = 1; // Multiplying factor. for (int i = 2; i < sqrt(MAX_NUMBER); i++) { if (input_arr[i]) { for (int j = i*i; j < MAX_NUMBER +1; j = i*i + i*k++) { input_arr[j] = false; } k = 1; } } } void print_primes(bool input_arr[]) { int check_number_count = 0; for (int i = 2;i < MAX_NUMBER+1;i++) { if (input_arr[i]) { if (check_number_count == MAX_NUMBER) { cout << endl; check_number_count = 0; } cout <<setw(4)<<i; check_number_count++; } } }