Tag: pandas

pandasresample文件: 所以我完全理解如何使用resample ，但是文档并没有很好地解释这些选项。所以resample函数中的大部分选项都非常简单，除了这两个：规则：表示目标转换的偏移string或对象如何：string，用于下采样或重采样的方法，默认为“mean” 所以从我在网上find的很多例子来看，我可以看到规则，你可以做'D'的一天， 'xMin'的几分钟， 'xL'的毫秒，但这是我能find的。对于我如何看到以下内容： 'first' ， np.max ， 'last' ， 'mean'和'n1n2n3n4…nx' ，其中nx是每列索引的第一个字母。那么在文档里有什么地方我缺less显示pandas.resample规则的每个选项以及如何input？如果是的话，因为我找不到它。如果不是，他们有什么select？

Fast Haversine近似（Python / Pandas）: pandas数据框中的每一行都包含2点的lat / lng坐标。使用下面的Python代码，对于许多（百万）行计算这两个点之间的距离需要很长时间！考虑到这两点距离不足50英里，准确度不是很重要，有可能使计算速度更快吗？ from math import radians, cos, sin, asin, sqrt def haversine(lon1, lat1, lon2, lat2): """ Calculate the great circle distance between two points on the earth (specified in decimal degrees) """ # convert decimal degrees to radians lon1, lat1, lon2, lat2 = map(radians, [lon1, lat1, lon2, lat2]) # haversine formula dlon […]

如何使read_csv中的分隔符更加灵活wrt空格？: 我需要使用存储在文件中的数据创build一个数据框。为此，我想使用read_csv方法。但是，分隔符不是很规则。某些列由制表符分隔（ \t ），其他则以空格分隔。此外，一些列可以被2或3或更多的空格隔开，甚至可以通过空格和制表符的组合（例如3个空格，2个制表符和1个空格）。有没有办法告诉大pandas妥善处理这些文件？顺便说一句，如果我使用Python，我没有这个问题。我用： for line in file(file_name): fld = line.split() 它工作完美。它并不在乎字段之间是否有2或3个空格。即使是空格和制表符的组合也不会造成任何问题。 pandas可以做同样的事吗？

Pythonpandasgroupby对象apply方法复制第一组: 我的第一个SO问题：我对groupby的apply方法在pandas（0.12.0-4）中的这种行为感到困惑，它似乎将TWICE函数应用于数据框的第一行。例如： >>> from pandas import Series, DataFrame >>> import pandas as pd >>> df = pd.DataFrame({'class': ['A', 'B', 'C'], 'count':[1,0,2]}) >>> print(df) class count 0 A 1 1 B 0 2 C 2 我首先检查groupby函数是否正常工作，似乎没有问题： >>> for group in df.groupby('class', group_keys = True): >>> print(group) ('A', class count 0 A 1) ('B', class count 1 […]

如何从一个string创buildpandas数据框: 为了testing一些function，我想从一个string创build一个DataFrame 。假设我的testing数据如下所示： TESTDATA="""col1;col2;col3 1;4.4;99 2;4.5;200 3;4.7;65 4;3.2;140 """ 将数据读入Pandas DataFrame最简单的方法是什么？

如何将pandas数据添加到现有的csv文件？: 我想知道是否可以使用pandasto_csv()函数将数据to_csv()添加到现有的csv文件。 csv文件与加载的数据具有相同的结构。

pandasDataFrame：从列中的string中删除不需要的部分: 我正在寻找一种有效的方法来从DataFrame列中的string中删除不需要的部分。数据如下所示： time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a 我需要修剪这些数据到： time result 1 09:00 52 2 10:00 62 3 11:00 44 4 12:00 30 5 13:00 110 我试过.str.lstrip('+-')和。 str.rstrip('aAbBcC') ，但有一个错误： TypeError: wrapper() takes exactly 1 argument (2 given) 任何指针将不胜感激！

使用字典在pandas列中重新映射值: 我有一个字典，看起来像这样： di = {1: "A", 2: "B"} 我想将其应用于类似于以下内容的dataframe的“col1”列： col1 col2 0 wa 1 1 2 2 2 NaN 要得到： col1 col2 0 wa 1 A 2 2 B NaN 我怎么能最好的做到这一点？出于某种原因，与此相关的Googlesearch条款仅向我显示了有关如何从字典创build列的链接，反之亦然： – /

将多个函数应用于多个groupby列: 该文档展示了如何在输出列名称作为关键字的情况下，使用dict一次对groupby对象应用多个函数： In [563]: grouped['D'].agg({'result1' : np.sum, …..: 'result2' : np.mean}) …..: Out[563]: result2 result1 A bar -0.579846 -1.739537 foo -0.280588 -1.402938 但是，这只适用于系列groupby对象。而且当一个字典同样通过DataFrame传递给一个组时，它期望这个键是该函数将被应用到的列名。我想要做的是将多个函数应用于多个列（但某些列将被多次操作）。此外，一些函数将取决于groupby对象中的其他列（如sumif函数）。我目前的解决scheme是逐列，并执行类似上面的代码，使用lambdas函数依赖于其他行。但是这需要很长时间（我认为遍历groupby对象需要很长时间）。我将不得不改变它，这样我遍历整个groupby对象在一次运行，但我想知道是否有一个在pandas内置的方式做到这一点干净。例如，我试过类似的东西 grouped.agg({'C_sum' : lambda x: x['C'].sum(), 'C_std': lambda x: x['C'].std(), 'D_sum' : lambda x: x['D'].sum()}, 'D_sumifC3': lambda x: x['D'][x['C'] == 3].sum(), …) 但正如所料，我得到一个KeyError（因为如果从DataFrame调用agg ，键必须是一个列）。是否有任何内置的方法来做我想做的事情，或者可能会添加这个function，或者我只需要手动遍历groupby？ […]

Apache Spark中的Pandas Melt函数: 在PySpark或者至less在Scala中是否有相当于Apache Spark中的Pandas Melt函数？我在python中运行一个示例数据集，现在我想为整个数据集使用Spark。提前致谢。