Tag: 数据框

如何检查pandas是否存在一列

有没有办法来检查一个列中是否存在一个Pandas DataFrame? 假设我有以下的DataFrame: >>> import pandas as pd >>> from random import randint >>> df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)], 'B': [randint(1, 9)*10 for x in xrange(10)], 'C': [randint(1, 9)*100 for x in xrange(10)]}) >>> df ABC 0 3 40 100 1 6 30 200 2 7 70 800 3 3 50 […]

如何通过密钥访问pandas群组数据框

如何通过密钥访问groupby对象中相应的groupby数据框? 有以下几组: rand = np.random.RandomState(1) df = pd.DataFrame({'A': ['foo', 'bar'] * 3, 'B': rand.randn(6), 'C': rand.randint(0, 20, 6)}) gb = df.groupby(['A']) 我可以遍历它来获取密钥和组: In [11]: for k, gp in gb: print 'key=' + str(k) print gp key=bar ABC 1 bar -0.611756 18 3 bar -1.072969 10 5 bar -2.301539 18 key=foo ABC 0 foo 1.624345 5 […]

重命名pandas数据框中的单个列标题

我有一个数据框称为data 。 我将如何重命名唯一的一个列标题? 例如gdp log(gdp) ? data = y gdp cap 0 1 2 5 1 2 3 9 2 8 7 2 3 3 4 7 4 6 7 7 5 4 8 3 6 8 2 8 7 9 9 10 8 6 6 4 9 10 10 7

将Python字典转换为数据框

我有一个Python字典,如下所示: {u'2012-06-08': 388, u'2012-06-09': 388, u'2012-06-10': 388, u'2012-06-11': 389, u'2012-06-12': 389, u'2012-06-13': 389, u'2012-06-14': 389, u'2012-06-15': 389, u'2012-06-16': 389, u'2012-06-17': 389, u'2012-06-18': 390, u'2012-06-19': 390, u'2012-06-20': 390, u'2012-06-21': 390, u'2012-06-22': 390, u'2012-06-23': 390, u'2012-06-24': 390, u'2012-06-25': 391, u'2012-06-26': 391, u'2012-06-27': 391, u'2012-06-28': 391, u'2012-06-29': 391, u'2012-06-30': 391, u'2012-07-01': 391, u'2012-07-02': 392, u'2012-07-03': 392, u'2012-07-04': 392, […]

将DataFrame列types从string转换为datetime

如何将DataFramestring列(以dd / mm / yyyy格式)转换为date时间?

如何用pandas创build一个数据框的testing和训练样本?

我有一个相当大的数据集forms的数据框,我想知道如何能够将数据框分成两个随机样本(80%和20%)进行培训和testing。 谢谢!

将两个Series组合到一个大pandas的DataFrame中

我有两个系列s1和s2具有相同(非连续)的索引。 如何将s1和s2组合成DataFrame中的两列,并将其中一个索引保留为第三列?

如何使用Pandas存储数据框

现在我每次运行脚本时都会导入一个相当大的CSV作为数据框。 有没有一个很好的解决scheme,保持该dataframe在运行之间始终可用,所以我不必花费所有的时间等待脚本运行?

创build一个空的pandas数据框,然后填充它?

我从pandas数据框文档开始: http : //pandas.pydata.org/pandas-docs/stable/dsintro.html 我想用时间序列types的计算迭代地填充dataframe。 所以基本上,我想初始化,数据框与列A,B和时间戳记行,全部为0或全部NaN。 然后,我会添加初始值,并从这一行计算新的行之前,行[A] [T] =行[A] [T-1] +1左右。 我目前使用的代码如下,但我觉得这是一种丑陋的,必须有一种方式,直接与数据框或一般更好的方式做到这一点。 注意:我正在使用Python 2.7。 import datetime as dt import pandas as pd import scipy as s if __name__ == '__main__': base = dt.datetime.today().date() dates = [ base – dt.timedelta(days=x) for x in range(0,10) ] dates.sort() valdict = {} symbols = ['A','B', 'C'] for symb in […]

将字典列表转换为Dataframe

我有这样的字典列表: [{'points': 50, 'time': '5:00', 'year': 2010}, {'points': 25, 'time': '6:00', 'month': "february"}, {'points':90, 'time': '9:00', 'month': 'january'}, {'points_h1':20, 'month': 'june'}] 我想把它变成一个像这样的pandasDataFrame : month points points_h1 time year 0 NaN 50 NaN 5:00 2010 1 february 25 NaN 6:00 NaN 2 january 90 NaN 9:00 NaN 3 june NaN 20 NaN NaN 注意:列的顺序无关紧要。 最终目标是将其写入文本文件,这似乎是我能find的最佳解决scheme。 如何将字典列表变成pandas数据框如上所示?