NumPy：计算移除NaNs的平均值

我如何计算matrix的matrix平均值，但要从计算中删除nan值？（对于R人，请考虑na.rm = TRUE ）。

这是我的[非]工作的例子：

 import numpy as np dat = np.array([[1, 2, 3], [4, 5, np.nan], [np.nan, 6, np.nan], [np.nan, np.nan, np.nan]]) print(dat) print(dat.mean(1)) # [ 2. nan nan nan]

除去NaN，我的预期产出将是：

 array([ 2., 4.5, 6., nan])

我想你想要的是一个蒙面数组：

 dat = np.array([[1,2,3], [4,5,nan], [nan,6,nan], [nan,nan,nan]]) mdat = np.ma.masked_array(dat,np.isnan(dat)) mm = np.mean(mdat,axis=1) print mm.filled(np.nan) # the desired answer

编辑：结合所有的时间数据

  from timeit import Timer setupstr=""" import numpy as np from scipy.stats.stats import nanmean dat = np.random.normal(size=(1000,1000)) ii = np.ix_(np.random.randint(0,99,size=50),np.random.randint(0,99,size=50)) dat[ii] = np.nan """ method1=""" mdat = np.ma.masked_array(dat,np.isnan(dat)) mm = np.mean(mdat,axis=1) mm.filled(np.nan) """ N = 2 t1 = Timer(method1, setupstr).timeit(N) t2 = Timer("[np.mean([l for l in d if not np.isnan(l)]) for d in dat]", setupstr).timeit(N) t3 = Timer("np.array([r[np.isfinite(r)].mean() for r in dat])", setupstr).timeit(N) t4 = Timer("np.ma.masked_invalid(dat).mean(axis=1)", setupstr).timeit(N) t5 = Timer("nanmean(dat,axis=1)", setupstr).timeit(N) print 'Time: %f\tRatio: %f' % (t1,t1/t1 ) print 'Time: %f\tRatio: %f' % (t2,t2/t1 ) print 'Time: %f\tRatio: %f' % (t3,t3/t1 ) print 'Time: %f\tRatio: %f' % (t4,t4/t1 ) print 'Time: %f\tRatio: %f' % (t5,t5/t1 )

 Time: 0.045454 Ratio: 1.000000 Time: 8.179479 Ratio: 179.950595 Time: 0.060988 Ratio: 1.341755 Time: 0.070955 Ratio: 1.561029 Time: 0.065152 Ratio: 1.433364

如果性能很重要，则应该使用bottleneck.nanmean()来代替：

http://pypi.python.org/pypi/Bottleneck

假设你已经安装了SciPy：

http://www.scipy.org/doc/api_docs/SciPy.stats.stats.html#nanmean

也可以在飞行中创build一个过滤了nans的蒙版数组：

 print np.ma.masked_invalid(dat).mean(1)

你总是可以find一个解决方法，如：

 numpy.nansum(dat, axis=1) / numpy.sum(numpy.isfinite(dat), axis=1)

Numpy 2.0的numpy.mean有一个skipna选项，应该照顾。

这是基于JoshAdel提出的解决scheme。

定义以下function：

 def nanmean(data, **args): return numpy.ma.filled(numpy.ma.masked_array(data,numpy.isnan(data)).mean(**args), fill_value=numpy.nan)

使用示例：

 data = [[0, 1, numpy.nan], [8, 5, 1]] data = numpy.array(data) print data print nanmean(data) print nanmean(data, axis=0) print nanmean(data, axis=1)

将打印出来：

 [[ 0. 1. nan] [ 8. 5. 1.]] 3.0 [ 4. 3. 1.] [ 0.5 4.66666667]

如何使用pandas来做到这一点：

 import numpy as np import pandas as pd dat = np.array([[1, 2, 3], [4, 5, np.nan], [np.nan, 6, np.nan], [np.nan, np.nan, np.nan]]) print dat print dat.mean(1) df = pd.DataFrame(dat) print df.mean(axis=1)

得到：

 0 2.0 1 4.5 2 6.0 3 NaN

从numpy 1.8（2013-10-30发布）开始， nanmean正是您所需要的：

 >>> import numpy as np >>> np.nanmean(np.array([1.5, 3.5, np.nan])) 2.5

或者你使用laxarray，刚刚上传，这是蒙面数组的封装。

 import laxarray as la la.array(dat).mean(axis=1)

遵循JoshAdel的协议我得到：

 Time: 0.048791 Ratio: 1.000000 Time: 0.062242 Ratio: 1.275689 # laxarray's one-liner

所以laxarray稍微慢一点（需要检查为什么，也许是可以修复的），但是使用起来更容易，并且允许使用string标注尺寸。

退房： https ： //github.com/perrette/laxarray

编辑：我已经检查了另一个模块，“拉”，larry，击败所有testing：

 import la la.larry(dat).mean(axis=1) By hand, Time: 0.049013 Ratio: 1.000000 Larry, Time: 0.005467 Ratio: 0.111540 laxarray Time: 0.061751 Ratio: 1.259889

印象深刻！

再次检查所有提议的方法：

 Python 2.7.11 |Anaconda 2.4.1 (64-bit)| (default, Jan 19 2016, 12:08:31) [MSC v.1500 64 bit (AMD64)] IPython 4.0.1 -- An enhanced Interactive Python. import numpy as np from scipy.stats.stats import nanmean dat = np.random.normal(size=(1000,1000)) ii = np.ix_(np.random.randint(0,99,size=50),np.random.randint(0,99,size=50)) dat[ii] = np.nan In[185]: def method1(): mdat = np.ma.masked_array(dat,np.isnan(dat)) mm = np.mean(mdat,axis=1) mm.filled(np.nan) In[190]: %timeit method1() 100 loops, best of 3: 7.09 ms per loop In[191]: %timeit [np.mean([l for l in d if not np.isnan(l)]) for d in dat] 1 loops, best of 3: 1.04 s per loop In[192]: %timeit np.array([r[np.isfinite(r)].mean() for r in dat]) 10 loops, best of 3: 19.6 ms per loop In[193]: %timeit np.ma.masked_invalid(dat).mean(axis=1) 100 loops, best of 3: 11.8 ms per loop In[194]: %timeit nanmean(dat,axis=1) 100 loops, best of 3: 6.36 ms per loop In[195]: import bottleneck as bn In[196]: %timeit bn.nanmean(dat,axis=1) 1000 loops, best of 3: 1.05 ms per loop In[197]: from scipy import stats In[198]: %timeit stats.nanmean(dat) 100 loops, best of 3: 6.19 ms per loop

所以最好的是瓶颈。nanmean（dat，axis = 1）'scipy.stats.nanmean（dat）'不会比numpy.nanmean(dat, axis=1)更快。

 # I suggest you this way: import numpy as np dat = np.array([[1, 2, 3], [4, 5, np.nan], [np.nan, 6, np.nan], [np.nan, np.nan, np.nan]]) dat2 = np.ma.masked_invalid(dat) print np.mean(dat2, axis=1)

 '''define dataMat''' numFeat= shape(datMat)[1] for i in range(numFeat): meanVal=mean(dataMat[nonzero(~isnan(datMat[:,i].A))[0],i])

NumPy：计算移除NaNs的平均值

为什么释放/debugging对std :: min有不同的结果？

快速检查NumPy中的NaN

Python Pandas如何从DataFrame中select具有一个或多个空值的行，而不显式列出列？

一个函数来检测NaN，NA，Inf，-Inf等？

IEEE754 NaN值返回false的所有比较的基本原理是什么？

如何在matplotlib中使用imshow将NaN值作为特殊颜色来绘制？

为什么GCC对C ++ <cmath>比C <math.h>更有效地实现isnan（）？

C / C ++ NaN常量（文字）？

（NaN！= NaN）和（NaN！== NaN）有什么区别？

NaN和None有何区别？