删除重复索引的行（Pandas DataFrame和TimeSeries）

我正在阅读一些来自networking的自动化天气数据。观测每5分钟发生一次，并编入每个气象站的月度文件中。一旦我完成parsing文件，DataFrame看起来像这样：

Sta Precip1hr Precip5min Temp DewPnt WindSpd WindDir AtmPress Date 2001-01-01 00:00:00 KPDX 0 0 4 3 0 0 30.31 2001-01-01 00:05:00 KPDX 0 0 4 3 0 0 30.30 2001-01-01 00:10:00 KPDX 0 0 4 3 4 80 30.30 2001-01-01 00:15:00 KPDX 0 0 3 2 5 90 30.30 2001-01-01 00:20:00 KPDX 0 0 3 2 10 110 30.28

我遇到的问题是，有时科学家会回头修正观察结果，而不是通过编辑错误的行，而是通过在文件的末尾添加重复的行。下面举例说明这种情况的简单例子：

 import pandas import datetime startdate = datetime.datetime(2001, 1, 1, 0, 0) enddate = datetime.datetime(2001, 1, 1, 5, 0) index = pandas.DatetimeIndex(start=startdate, end=enddate, freq='H') data = {'A' : range(6), 'B' : range(6)} data1 = {'A' : [20, -30, 40], 'B' : [-50, 60, -70]} df1 = pandas.DataFrame(data=data, index=index) df2 = pandas.DataFrame(data=data1, index=index[:3]) df3 = df1.append(df2) df3 AB 2001-01-01 00:00:00 20 -50 2001-01-01 01:00:00 -30 60 2001-01-01 02:00:00 40 -70 2001-01-01 03:00:00 3 3 2001-01-01 04:00:00 4 4 2001-01-01 05:00:00 5 5 2001-01-01 00:00:00 0 0 2001-01-01 01:00:00 1 1 2001-01-01 02:00:00 2 2

所以我需要DF3才能成为：

  AB 2001-01-01 00:00:00 0 0 2001-01-01 01:00:00 1 1 2001-01-01 02:00:00 2 2 2001-01-01 03:00:00 3 3 2001-01-01 04:00:00 4 4 2001-01-01 05:00:00 5 5

我认为添加行号（ df3['rownum'] = range(df3.shape[0]) ）的列将帮助我为DatetimeIndex任何值select最底部的行，但是我一直在计算出group_by或pivot （或???）语句来使这个工作。

请注意，根据最新的pandas，有一个更好的答案（下面）

这应该是被接受的答案。

我现在已经过时的原始答案只是供参考。

一个简单的解决scheme是使用drop_duplicates

 df4 = df3.drop_duplicates(subset='rownum', keep='last')

对我来说，这在大型数据集上运行很快。

这就要求'rownum'是重复的列。在修改的例子中，“rownum”没有重复，因此没有任何东西被消除。我们真正想要的是将“cols”设置为索引。我还没有find一个方法来告诉drop_duplicates只考虑索引。

这是一个解决scheme，将索引添加为数据框列，删除重复项，然后删除新列：

 df3 = df3.reset_index().drop_duplicates(subset='index', keep='last').set_index('index')

如果你想以正确的顺序返回，只需在数据框上调用sort 。

 df3 = df3.sort()

我会build议在pandas指数本身上使用重复的方法：

 df3 = df3[~df3.index.duplicated(keep='first')]

尽pipe所有其他方法都有效，但是对于所提供的例子来说，目前所接受的答案是迄今为止性能最低的。而且，虽然groupby方法的性能稍差，但我发现重复的方法更具可读性。

使用提供的示例数据：

 >>> %timeit df3.reset_index().drop_duplicates(subset='index', keep='first').set_index('index') 1000 loops, best of 3: 1.54 ms per loop >>> %timeit df3.groupby(df3.index).first() 1000 loops, best of 3: 580 µs per loop >>> %timeit df3[~df3.index.duplicated(keep='first')] 1000 loops, best of 3: 307 µs per loop

请注意，您可以通过更改keep参数来保留最后一个元素。

还应该注意的是，这个方法也适用于MultiIndex （使用Paul的示例中指定的df1）：

 >>> %timeit df1.groupby(level=df1.index.names).last() 1000 loops, best of 3: 771 µs per loop >>> %timeit df1[~df1.index.duplicated(keep='last')] 1000 loops, best of 3: 365 µs per loop

天啊。这其实很简单！

 grouped = df3.groupby(level=0) df4 = grouped.last() df4 AB rownum 2001-01-01 00:00:00 0 0 6 2001-01-01 01:00:00 1 1 7 2001-01-01 02:00:00 2 2 8 2001-01-01 03:00:00 3 3 3 2001-01-01 04:00:00 4 4 4 2001-01-01 05:00:00 5 5 5

后续编辑2013-10-29在我有一个相当复杂的MultiIndex的情况下，我想我更喜欢groupby方法。这是一个简单的后代例子：

 import numpy as np import pandas # fake index idx = pandas.MultiIndex.from_tuples([('a', letter) for letter in list('abcde')]) # random data + naming the index levels df1 = pandas.DataFrame(np.random.normal(size=(5,2)), index=idx, columns=['colA', 'colB']) df1.index.names = ['iA', 'iB'] # artificially append some duplicate data df1 = df1.append(df1.select(lambda idx: idx[1] in ['c', 'e'])) df1 # colA colB #iA iB #aa -1.297535 0.691787 # b -1.688411 0.404430 # c 0.275806 -0.078871 # d -0.509815 -0.220326 # e -0.066680 0.607233 # c 0.275806 -0.078871 # <--- dup 1 # e -0.066680 0.607233 # <--- dup 2

这是重要的一部分

 # group the data, using df1.index.names tells pandas to look at the entire index groups = df1.groupby(level=df1.index.names) groups.last() # or .first() # colA colB #iA iB #aa -1.297535 0.691787 # b -1.688411 0.404430 # c 0.275806 -0.078871 # d -0.509815 -0.220326 # e -0.066680 0.607233

不幸的是，我不认为pandas允许人们放弃指数。我会build议如下：

 df3 = df3.reset_index() # makes date column part of your data df3.columns = ['timestamp','A','B','rownum'] # set names df3 = df3.drop_duplicates('timestamp',take_last=True).set_index('timestamp') #done!

删除重复索引的行（Pandas DataFrame和TimeSeries）

请注意，根据最新的pandas，有一个更好的答案（下面）

我现在已经过时的原始答案只是供参考。

在Python中编写unit testing：我如何开始？

为什么map（）和list的理解结果不一样？

在Google App Engine上selectJava vs Python

在Windows中集成MySQL与Python

在NumPy分配中处理重复的索引

与非程序员分享Jupyter笔记本的最佳方式是什么？

如果对象有其他类，美丽的汤也找不到CSS类

如何有效地打开一个巨大的Excel文件

Pythonic避免“如果x：return x”语句的方式

在Python中对str感到困惑

删除重复索引的行（Pandas DataFrame和TimeSeries）

请注意，根据最新的pandas，有一个更好的答案（下面）

我现在已经过时的原始答案只是供参考。

在Python中编写unit testing：我如何开始？

为什么map（）和list的理解结果不一样？

在Google App Engine上selectJava vs Python

在Windows中集成MySQL与Python

在NumPy分配中处理重复的索引

与非程序员分享Jupyter笔记本的最佳方式是什么？

如果对象有其他类，美丽的汤也找不到CSS类

如何有效地打开一个巨大的Excel文件

Pythonic避免“如果x：return x”语句的方式

在Python中对__str__感到困惑

在Python中对str感到困惑