Tag: scipy

Python SciPy是否需要BLAS?

numpy.distutils.system_info.BlasNotFoundError: Blas (http://www.netlib.org/blas/) libraries not found. Directories to search for the libraries can be specified in the numpy/distutils/site.cfg file (section [blas]) or by setting the BLAS environment variable. 我需要从这个网站下载哪个tar? 我尝试了fortrans,但我一直得到这个错误(显然设置环境variables后)。

scipy和numpy之间的关系

scipy似乎在自己的命名空间中提供了大部分(但不是全部[1])的numpy函数。 换句话说,如果有一个名为numpy.foo的函数,几乎肯定有一个scipy.foo 。 大多数时候,两者看起来完全一样,往往甚至指向相同的function对象。 有时候,他们是不同的。 举一个最近出现的例子: numpy.log10是一个numpy.log10 ,返回负数参数的NaN; scipy.log10为负面参数返回复数值,并且看起来不是scipy.log10 。 关于log , log2和logn也可以这样说,但不是关于log1p [2]。 另一方面,对于相同的scipy.exp , numpy.exp和scipy.exp似乎是不同的名称。 scipy.log1p和numpy.log1p也是如此。 另一个例子是numpy.linalg.solve vs scipy.linalg.solve 。 他们是相似的,但后者提供了一些额外的function,前者。 为什么表面上的重复? 如果这是为了批量导入scipy命名空间,为什么行为和缺失函数的细微差别? 是否有一些总体逻辑可以帮助消除混淆? [1] numpy.min , numpy.max , numpy.abs和其他一些在scipy命名空间中没有对应的。 [2]使用numpy 1.5.1和scipy 0.9.0rc2进行testing。

如何将csv读入numpy的logging数组?

我想知道是否有一种直接的方式将csv文件的内容导入到logging数组中,这与R的read.table() , read.delim()和read.csv()系列将数据导入到R数据框? 或者是使用csv.reader() ,然后应用像numpy.core.records.fromrecords() ?

如何以正确的方式平滑曲线?

让我们假设我们有一个数据集,可能会给大概 import numpy as np x = np.linspace(0,2*np.pi,100) y = np.sin(x) + np.random.random(100) * 0.2 因此,我们有20%的数据集的变化。 我的第一个想法是使用scipy的UnivariateSpline函数,但问题是这并没有考虑到小噪声的好处。 如果考虑频率,背景比信号小得多,所以只有截止的样条可能是一个想法,但是这涉及到来回傅里叶变换,这可能导致不良行为。 另一种方式是移动平均线,但这也需要正确的延迟select。 任何提示/书籍或链接如何解决这个问题?

从sklearn导入ImportError:无法导入名称check_build

我尝试从sklearn导入时出现以下错误: >>> from sklearn import svm Traceback (most recent call last): File "<pyshell#17>", line 1, in <module> from sklearn import svm File "C:\Python27\lib\site-packages\sklearn\__init__.py", line 16, in <module> from . import check_build ImportError: cannot import name check_build 我使用Python 2.7,scipy-0.12.0b1超级包,numpy-1.6.0超级包,scikit-learn-0.11我有一个Windows 7机器 我已经检查了这个问题的几个答案,但没有一个解决了这个错误。

从NumPy 2D数组中删除重复的列和行

我正在使用2D形状arrays来存储经度+纬度对。 有一点,我必须合并这些二维数组中的两个,然后删除任何重复的条目。 我一直在寻找一个类似numpy.unique的function,但我没有运气。 我一直在想的任何实现看起来都非常“没有优化”。 例如,我试图将数组转换为元组列表,删除重复的集合,然后再次转换为数组: coordskeys = np.array(list(set([tuple(x) for x in coordskeys]))) 有没有现有的解决scheme,所以我不重新发明轮子? 为了说清楚,我正在寻找: >>> a = np.array([[1, 1], [2, 3], [1, 1], [5, 4], [2, 3]]) >>> unique_rows(a) array([[1, 1], [2, 3],[5, 4]]) 顺便说一句,我只想使用它的元组列表,但列表是如此之大,他们消耗我的4Gb RAM + 4Gb交换(numpy数组更有效率)。

使用SciPy或NumPy生成具有指定权重的离散随机variables

我正在寻找一个简单的函数,可以根据它们相应的(也是指定的)概率生成一个指定的随机值数组。 我只需要它来生成浮点值,但我不明白为什么它不应该能够产生任何标量。 我可以从现有的function中想到很多构build这个function的方法,但我想我可能只是错过了一个明显的SciPy或NumPyfunction。 例如: >>> values = [1.1, 2.2, 3.3] >>> probabilities = [0.2, 0.5, 0.3] >>> print some_function(values, probabilities, size=10) (2.2, 1.1, 3.3, 3.3, 2.2, 2.2, 1.1, 2.2, 3.3, 2.2) 注:我发现scipy.stats.rv_discrete,但我不明白它是如何工作的。 具体而言,我不明白这(下面)意味着什么,也不应该做什么: numargs = generic.numargs [ <shape(s)> ] = ['Replace with resonable value', ]*numargs 如果rv_discrete是我应该使用的,请给我一个简单的例子和​​上面的“形状”的说明解释?

Python中的均方根误差

我知道我可以实现像这样的均方根误差函数: def rmse(predictions, targets): return np.sqrt(((predictions – targets) ** 2).mean()) 我正在寻找什么,如果这个rmse函数是在一个库中实现的,也许在scipy或scikit学习?

从SciPy Sparse Matrix填充一个Pandas SparseDataFrame

我注意到pandas现在支持稀疏matrix和数组 。 目前,我创buildDataFrame()如下所示: return DataFrame(matrix.toarray(), columns=features, index=observations) 有没有办法用scipy.sparse.csc_matrix()或csr_matrix()创build一个csr_matrix() ? 转换为密集格式严重杀死RAM。 谢谢!

浓缩距离matrix如何工作? (pdist)

scipy.spatial.distance.pdist返回一个浓缩距离matrix。 从文档 : 返回一个压缩的距离matrixY.对于每个和(其中),度量dist(u = X [i],v = X [j])被计算并存储在条目ij中。 我以为我的意思是i*j 。 但是我想我可能是错的。 考虑 X = array([[1,2], [1,2], [3,4]]) dist_matrix = pdist(X) 那么文档说dist(X[0], X[2])应该是dist_matrix[0*2] 。 然而, dist_matrix[0*2]是0 – 不应该是2.8。 给定i和j ,我应该用什么公式来访问两个向量的相似性?