Tag: numpy

Sudo pip安装matplotlib无法findfreetype头文件。

我已经安装了matplotlib-1.2.1以及numpy-1.8.0 。 注意 – 我正在使用安装了自制软件的系统python – 我有$PYTHONPATH设置,以便从/Library/Python/xy/site-packages (其中pip安装到)加载/Library/Python/xy/site-packages 。 这里是安装matplotlib的代码(configuration) BUILDING MATPLOTLIB matplotlib: yes [1.3.1] python: yes [2.7.5 (default, Aug 25 2013, 00:04:04) [GCC 4.2.1 Compatible Apple LLVM 5.0 (clang-500.0.68)]] platform: yes [darwin] REQUIRED DEPENDENCIES AND EXTENSIONS numpy: yes [version 1.8.0] dateutil: yes [using dateutil version 1.5] tornado: yes [tornado was not found. It is […]

Python:获取数组中最大项的位置

我怎样才能得到一个多维的numpyarrays中最大的项目的位置?

如何在Python中绘制matplotlib中的经验cdf?

如何在Python中绘制matplotlib中的数字数组的经验CDF? 我正在寻找pylab的“hist”函数的cdf模拟。 我能想到的一件事是: from scipy.stats import cumfreq a = array([…]) # my array of numbers num_bins = 20 b = cumfreq(a, num_bins) plt.plot(b) 那是正确的吗? 有更简单/更好的方法吗? 谢谢。

网格中的网格函数(meshgrid,mgrid,ogrid,ndgrid)

我正在寻找一个类似meshgrid函数的明确比较。 不幸的是我没有find它! Numpy http://docs.scipy.org/doc/numpy/reference/提供 mgrid ogrid meshgrid Scitools http://hplgit.github.io/scitools/doc/api/html/index.html提供 ndgrid boxgrid 理想情况下,总结这一切的表格将是完美的!

numpy数组的高效阈值filter

我需要过滤一个数组来删除低于特定阈值的元素。 我目前的代码是这样的: threshold = 5 a = numpy.array(range(10)) # testing data b = numpy.array(filter(lambda x: x >= threshold, a)) 问题是,这将创build一个临时列表,使用lambda函数(慢)的filter。 由于这是一个相当简单的操作,也许有一个numpy函数以高效的方式执行,但我一直无法find它。 我认为,另一种方法来实现这一点可能是sorting数组,find阈值的索引,并从该索引开始返回一个切片,但即使这将是更快的小input(它不会明显无论如何),随着input规模的增长,其确实渐近地变得不太有效。 有任何想法吗? 谢谢! 更新 :我也进行了一些测量,当input是100.000.000条目时,sorting+分片仍然比纯pythonfilter快两倍。 In [321]: r = numpy.random.uniform(0, 1, 100000000) In [322]: %timeit test1(r) # filter 1 loops, best of 3: 21.3 s per loop In [323]: %timeit test2(r) # sort and […]

如何识别Python中的numpytypes?

如何可靠地确定一个对象是否具有numpytypes? 我意识到这个问题违背了鸭子打字的哲学,但是想法是确保一个函数(它使用scipy和numpy)从不返回一个numpytypes,除非它被称为一个numpytypes。 这出现在另一个问题的解决scheme中,但是我认为确定一个对象是否具有numpytypes的一般问题远离原始问题,应该将它们分开。

numpy数组的argmax返回非平坦索引

我试图获取Numpy数组中最大元素的索引。 这可以使用numpy.argmax完成。 我的问题是,我想find整个arrays中的最大元素,并获得指数。 numpy.argmax可以应用在一个轴上,这不是我想要的,或者在平面arrays上,这是我想要的。 我的问题是,使用numpy.argmax与axis=None返回平面索引时,我想要的多维索引。 我可以使用divmod来获得一个非平坦的索引,但这感觉很难看。 有没有更好的方法来做到这一点?

如何删除numpy.ndarray中包含非数字值的所有行

基本上,我正在做一些数据分析。 我读了一个数据集作为numpy.ndarray,其中一些值是丢失的(或者不在那里,是NaN ,或者是写成“ NA ”的string)。 我想清除包含这样的任何条目的所有行。 我该如何做一个numpy的ndarray?

使用HDF5进行大型arrays存储(而不是平面二进制文件)是否存在分析速度或内存使用优势?

我正在处理大型的3D数组,我经常需要用各种方法来进行各种数据分析。 一个典型的“立方体”可以是〜100GB(未来可能会变大) 似乎python中大数据集的典型推荐文件格式是使用HDF5(h5py或pytables)。 我的问题是:是否有任何速度或内存使用的好处,使用HDF5存储和分析这些立方体存储在简单的平面二进制文件? HDF5更适合表格数据,而不是像我正在使用的大型数组? 我看到HDF5可以提供很好的压缩,但是我更关心处理速度和处理内存溢出问题。 我经常只想分析立方体的一个大的子集。 pytables和h5py的一个缺点是,当我分割一个数组的时候,总是会返回一个数组,使用内存。 但是,如果我分割一个平坦的二进制文件的numpy memmap,我可以得到一个视图,它保持在磁盘上的数据。 所以,我似乎可以更容易地分析我的数据的特定部门,而不会超出我的记忆。 我已经探索了pytables和h5py,至今没有看到我的目的的好处。

如何平整numpy数组的一些维度

有没有一种快速的方法来“扁平化”或压扁一些数组中的第一个维度? 例如,给定一个大小(50,100,25)数组(50,100,25) ,所得到的尺寸将是(5000,25)