子集二维numpy数组

我已经看过文档和其他问题在这里，但似乎我还没有掌握在numpy数组中的子集。

我有一个numpy数组，为了争论，让它被定义如下：

import numpy as np a = np.arange(100) a.shape = (10,10) # array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9], # [10, 11, 12, 13, 14, 15, 16, 17, 18, 19], # [20, 21, 22, 23, 24, 25, 26, 27, 28, 29], # [30, 31, 32, 33, 34, 35, 36, 37, 38, 39], # [40, 41, 42, 43, 44, 45, 46, 47, 48, 49], # [50, 51, 52, 53, 54, 55, 56, 57, 58, 59], # [60, 61, 62, 63, 64, 65, 66, 67, 68, 69], # [70, 71, 72, 73, 74, 75, 76, 77, 78, 79], # [80, 81, 82, 83, 84, 85, 86, 87, 88, 89], # [90, 91, 92, 93, 94, 95, 96, 97, 98, 99]])

现在我想select向量n1和n2指定的行和列。举个例子：

 n1 = range(5) n2 = range(5)

但是当我使用：

 b = a[n1,n2] # array([ 0, 11, 22, 33, 44])

那么只select前五个对angular线元素，而不是整个5×5块。我find的解决scheme是这样做的：

 b = a[n1,:] b = b[:,n2] # array([[ 0, 1, 2, 3, 4], # [10, 11, 12, 13, 14], # [20, 21, 22, 23, 24], # [30, 31, 32, 33, 34], # [40, 41, 42, 43, 44]])

但是我相信只有一个命令就应该有一种方法来完成这个简单的任务。

你已经得到了一些如何做你想要的很好的例子。然而，理解发生的事情以及事情为什么如此。有一些简单的规则将在未来帮助你。

“幻想”索引（即使用列表/序列）和“正常”索引（使用切片）之间有很大的区别。其根本原因在于该arrays是否可以“定期”，因此是否需要复制。因此，如果我们希望能够在不复制的情况下创build“视图”，那么任意序列就必须被区别对待。

在你的情况下：

 import numpy as np a = np.arange(100).reshape(10,10) n1, n2 = np.arange(5), np.arange(5) # Not what you want b = a[n1, n2] # array([ 0, 11, 22, 33, 44]) # What you want, but only for simple sequences # Note that no copy of *a* is made!! This is a view. b = a[:5, :5] # What you want, but probably confusing at first. (Also, makes a copy.) # np.meshgrid and np.ix_ are basically equivalent to this. b = a[n1[:,None], n2[None,:]]

使用一维序列的花式索引基本上相当于将它们压缩在一起并用结果索引。

 print "Fancy Indexing:" print a[n1, n2] print "Manual indexing:" for i, j in zip(n1, n2): print a[i, j]

但是，如果您索引的序列与索引的数组的维度相匹配（在本例中为2D），索引的处理方式会有所不同。 numpy不是将这两个“压缩在一起”，而是像掩码一样使用索引。

换句话说， a[[[1, 2, 3]], [[1],[2],[3]]]与a[[1, 2, 3], [1, 2, 3]] ，因为你传入的序列/数组是二维的。

 In [4]: a[[[1, 2, 3]], [[1],[2],[3]]] Out[4]: array([[11, 21, 31], [12, 22, 32], [13, 23, 33]]) In [5]: a[[1, 2, 3], [1, 2, 3]] Out[5]: array([11, 22, 33])

为了更精确一点，

 a[[[1, 2, 3]], [[1],[2],[3]]]

被视为完全一样：

 i = [[1, 1, 1], [2, 2, 2], [3, 3, 3]]) j = [[1, 2, 3], [1, 2, 3], [1, 2, 3]] a[i, j]

换句话说，input是行/列向量是索引如何在索引中重复的简写。

np.meshgrid和np.ix_只是简单的方法，可以将你的一维序列转换为二维版本进行索引：

 In [6]: np.ix_([1, 2, 3], [1, 2, 3]) Out[6]: (array([[1], [2], [3]]), array([[1, 2, 3]]))

同样的（ sparse参数将使它与上面的ix_相同）：

 In [7]: np.meshgrid([1, 2, 3], [1, 2, 3], indexing='ij') Out[7]: [array([[1, 1, 1], [2, 2, 2], [3, 3, 3]]), array([[1, 2, 3], [1, 2, 3], [1, 2, 3]])]

构build所需索引的另一个快速方法是使用np.ix_函数：

 >>> a[np.ix_(n1, n2)] array([[ 0, 1, 2, 3, 4], [10, 11, 12, 13, 14], [20, 21, 22, 23, 24], [30, 31, 32, 33, 34], [40, 41, 42, 43, 44]])

这提供了一种从索引序列构造开放网格的简便方法。

您可以使用np.meshgrid为n1 ， n2数组提供适当的形状来执行所需的索引：

 In [104]: a[np.meshgrid(n1,n2, sparse=True, indexing='ij')] Out[104]: array([[ 0, 1, 2, 3, 4], [10, 11, 12, 13, 14], [20, 21, 22, 23, 24], [30, 31, 32, 33, 34], [40, 41, 42, 43, 44]])

或者，没有meshgrid：

 In [117]: a[np.array(n1)[:,np.newaxis], np.array(n2)[np.newaxis,:]] Out[117]: array([[ 0, 1, 2, 3, 4], [10, 11, 12, 13, 14], [20, 21, 22, 23, 24], [30, 31, 32, 33, 34], [40, 41, 42, 43, 44]])

有一个类似的例子，说明这个整数数组索引在文档中的工作原理。

另请参阅食谱手册选取行和列。

看来你的特定问题的用例将涉及image processing。如果您使用您的示例编辑由图像引起的numpy数组，您可以使用Python Imaging Library（PIL）。

 # Import Pillow: from PIL import Image # Load the original image: img = Image.open("flowers.jpg") # Crop the image img2 = img.crop((0, 0, 5, 5))

img2对象是生成的裁剪图像的一个numpy数组。

您可以使用Pillow软件包（PIL软件包上用户友好的分支）阅读更多关于image processing的信息：

子集二维numpy数组

根据vector中的值从数据框中select行

在另一个时间范围内返回数据子集的时间范围？

通过matrix列名提取matrix列值

子集数据只包含名称与条件匹配的列

子集Rdataframe导致神秘的NA行

为什么“比'subset`好？

find总和为特定值的所有子集

如何获得Ruby中的交集，联合和数组的子集？

R不在子集中

在PHP中查找数组的子集