Tag: pandas

pandasresample文件

所以我完全理解如何使用resample ,但是文档并没有很好地解释这些选项。 所以resample函数中的大部分选项都非常简单,除了这两个: 规则:表示目标转换的偏移string或对象 如何:string,用于下采样或重采样的方法,默认为“mean” 所以从我在网上find的很多例子来看,我可以看到规则,你可以做'D'的一天, 'xMin'的几分钟, 'xL'的毫秒,但这是我能find的。 对于我如何看到以下内容: 'first' , np.max , 'last' , 'mean'和'n1n2n3n4…nx' ,其中nx是每列索引的第一个字母。 那么在文档里有什么地方我缺less显示pandas.resample规则的每个选项以及如何input? 如果是的话,因为我找不到它。 如果不是, 他们有什么select?

Fast Haversine近似(Python / Pandas)

pandas数据框中的每一行都包含2点的lat / lng坐标。 使用下面的Python代码,对于许多(百万)行计算这两个点之间的距离需要很长时间! 考虑到这两点距离不足50英里,准确度不是很重要,有可能使计算速度更快吗? from math import radians, cos, sin, asin, sqrt def haversine(lon1, lat1, lon2, lat2): """ Calculate the great circle distance between two points on the earth (specified in decimal degrees) """ # convert decimal degrees to radians lon1, lat1, lon2, lat2 = map(radians, [lon1, lat1, lon2, lat2]) # haversine formula dlon […]

如何使read_csv中的分隔符更加灵活wrt空格?

我需要使用存储在文件中的数据创build一个数据框。 为此,我想使用read_csv方法。 但是,分隔符不是很规则。 某些列由制表符分隔( \t ),其他则以空格分隔。 此外,一些列可以被2或3或更多的空格隔开,甚至可以通过空格和制表符的组合(例如3个空格,2个制表符和1个空格)。 有没有办法告诉大pandas妥善处理这些文件? 顺便说一句,如果我使用Python,我没有这个问题。 我用: for line in file(file_name): fld = line.split() 它工作完美。 它并不在乎字段之间是否有2或3个空格。 即使是空格和制表符的组合也不会造成任何问题。 pandas可以做同样的事吗?

Pythonpandasgroupby对象apply方法复制第一组

我的第一个SO问题:我对groupby的apply方法在pandas(0.12.0-4)中的这种行为感到困惑,它似乎将TWICE函数应用于数据框的第一行。 例如: >>> from pandas import Series, DataFrame >>> import pandas as pd >>> df = pd.DataFrame({'class': ['A', 'B', 'C'], 'count':[1,0,2]}) >>> print(df) class count 0 A 1 1 B 0 2 C 2 我首先检查groupby函数是否正常工作,似乎没有问题: >>> for group in df.groupby('class', group_keys = True): >>> print(group) ('A', class count 0 A 1) ('B', class count 1 […]

如何从一个string创buildpandas数据框

为了testing一些function,我想从一个string创build一个DataFrame 。 假设我的testing数据如下所示: TESTDATA="""col1;col2;col3 1;4.4;99 2;4.5;200 3;4.7;65 4;3.2;140 """ 将数据读入Pandas DataFrame最简单的方法是什么?

如何将pandas数据添加到现有的csv文件?

我想知道是否可以使用pandasto_csv()函数将数据to_csv()添加到现有的csv文件。 csv文件与加载的数据具有相同的结构。

pandasDataFrame:从列中的string中删除不需要的部分

我正在寻找一种有效的方法来从DataFrame列中的string中删除不需要的部分。 数据如下所示: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a 我需要修剪这些数据到: time result 1 09:00 52 2 10:00 62 3 11:00 44 4 12:00 30 5 13:00 110 我试过.str.lstrip('+-')和。 str.rstrip('aAbBcC') ,但有一个错误: TypeError: wrapper() takes exactly 1 argument (2 given) 任何指针将不胜感激!

使用字典在pandas列中重新映射值

我有一个字典,看起来像这样: di = {1: "A", 2: "B"} 我想将其应用于类似于以下内容的dataframe的“col1”列: col1 col2 0 wa 1 1 2 2 2 NaN 要得到: col1 col2 0 wa 1 A 2 2 B NaN 我怎么能最好的做到这一点? 出于某种原因,与此相关的Googlesearch条款仅向我显示了有关如何从字典创build列的链接,反之亦然: – /

将多个函数应用于多个groupby列

该文档展示了如何在输出列名称作为关键字的情况下,使用dict一次对groupby对象应用多个函数: In [563]: grouped['D'].agg({'result1' : np.sum, …..: 'result2' : np.mean}) …..: Out[563]: result2 result1 A bar -0.579846 -1.739537 foo -0.280588 -1.402938 但是,这只适用于系列groupby对象。 而且当一个字典同样通过DataFrame传递给一个组时,它期望这个键是该函数将被应用到的列名。 我想要做的是将多个函数应用于多个列(但某些列将被多次操作)。 此外, 一些函数将取决于groupby对象中的其他列 (如sumif函数)。 我目前的解决scheme是逐列,并执行类似上面的代码,使用lambdas函数依赖于其他行。 但是这需要很长时间(我认为遍历groupby对象需要很长时间)。 我将不得不改变它,这样我遍历整个groupby对象在一次运行,但我想知道是否有一个在pandas内置的方式做到这一点干净。 例如,我试过类似的东西 grouped.agg({'C_sum' : lambda x: x['C'].sum(), 'C_std': lambda x: x['C'].std(), 'D_sum' : lambda x: x['D'].sum()}, 'D_sumifC3': lambda x: x['D'][x['C'] == 3].sum(), …) 但正如所料,我得到一个KeyError(因为如果从DataFrame调用agg ,键必须是一个列)。 是否有任何内置的方法来做我想做的事情,或者可能会添加这个function,或者我只需要手动遍历groupby? […]

Apache Spark中的Pandas Melt函数

在PySpark或者至less在Scala中是否有相当于Apache Spark中的Pandas Melt函数? 我在python中运行一个示例数据集,现在我想为整个数据集使用Spark。 提前致谢。