如何从生成器中构build一个numpy数组?

我怎样才能build立一个生成器对象的numpy数组?

让我来说明这个问题:

>>> import numpy >>> def gimme(): ... for x in xrange(10): ... yield x ... >>> gimme() <generator object at 0x28a1758> >>> list(gimme()) [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] >>> numpy.array(xrange(10)) array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) >>> numpy.array(gimme()) array(<generator object at 0x28a1758>, dtype=object) >>> numpy.array(list(gimme())) array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 

在这个例子中,gimme()是我希望变成数组的输出的生成器。 但是,数组构造函数不会遍历生成器,它只是存储生成器本身。 我期望的行为是从numpy.array(list(gimme())),但我不想在内存中同时拥有中间列表和最终数组的内存开销。 有没有更节省空间的方法?

Numpy数组需要在创build时显式设置它们的长度,与Python列表不同。 这是必要的,以便每个项目的空间可以连续分配在内存中。 连续分配是numpy数组的关键特性:这与本地代码实现相结合,使它们的操作比常规列表执行得更快。

记住这一点,从技术angular度讲不可能拿一个发生器对象,并把它变成一个数组,除非你:

  1. 可以预测运行时会产生多less元素:

     my_array = numpy.empty(predict_length()) for i, el in enumerate(gimme()): my_array[i] = el 
  2. 愿意将其元素存储在中间列表中:

     my_array = numpy.array(list(gimme())) 
  3. 可以使两个相同的生成器,运行第一个find总长度,初始化数组,然后再次运行发生器find每个元素:

     length = sum(1 for el in gimme()) my_array = numpy.empty(length) for i, el in enumerate(gimme()): my_array[i] = el 

1可能是你在找什么。 2是空间效率低下, 3是时间效率低下(你必须经过两次发电机)。

一个谷歌背后这个stackoverflow的结果,我发现有一个numpy.fromiter(data, dtype, count) 。 默认count=-1从可迭代的所有元素。 它需要明确设置一个dtype 。 在我的情况下,这工作:

numpy.fromiter(something.generate(from_this_input), float)

有点切线,但如果你的生成器是一个列表numpy.where ,你可以使用numpy.where更有效地得到你的结果(我看到这个post后,我在自己的代码中发现了这个)

虽然你可以使用numpy.fromiter()从一个发生器创build一维数组,你可以用一个numpy.stack从一个发生器创build一个ND数组:

 >>> mygen = (np.ones((5, 3)) for _ in range(10)) >>> x = numpy.stack(mygen) >>> x.shape (10, 5, 3) 

它也适用于一维数组:

 >>> numpy.stack(2*i for i in range(10)) array([ 0, 2, 4, 6, 8, 10, 12, 14, 16, 18]) 

请注意, numpy.stack在内部使用生成器,并创build一个中间列表,使用arrays = [asanyarray(arr) for arr in arrays] 。 实现可以在这里find。