Tag: pandas

如何重置pandas数据框中的索引？: 我有一个数据框从中删除了一些行。因此，我得到一个数据框，其索引是这样的： [1,5,6,10,11] ，我想重置它到[0,1,2,3,4] 。我该怎么做？添加以下似乎工作： df = df.reset_index() del df['index'] 以下不起作用： df = df.reindex()

pandasread_csv low_memory和dtype选项: 打电话时 df = pd.read_csv('somefile.csv') 我得到： /Users/josh/anaconda/envs/py27/lib/python2.7/site-packages/pandas/io/parsers.py:1130：DtypeWarning：列（4,5,7,16）有混合types。在导入时指定dtype选项或设置low_memory = False。为什么low_memory选项与low_memory有关，为什么会使这个问题low_memory呢？

如何一个热点编码变体长度的function？: 给出一个变体长度特征列表： features = [ ['f1', 'f2', 'f3'], ['f2', 'f4', 'f5', 'f6'], ['f1', 'f2'] ] 其中每个样本具有不同数量的特征，并且特征dtype是str并且已经很热。为了使用sklearn的特征select工具，我必须将features转换成如下的2D数组： f1 f2 f3 f4 f5 f6 s1 1 1 1 0 0 0 s2 0 1 0 1 1 1 s3 1 1 0 0 0 0 我怎么能通过sklearn或numpy实现呢？

改变使用样式和css的pandas数据框html表python中的文本的颜色: 我有一个pandas数据框： arrays = [['Midland', 'Midland', 'Hereford', 'Hereford', 'Hobbs','Hobbs', 'Childress', 'Childress', 'Reese', 'Reese', 'San Angelo', 'San Angelo'], ['WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS']] tuples = list(zip(*arrays)) index = pd.MultiIndex.from_tuples(tuples) df = pd.DataFrame(np.random.randn(12, 4), index=arrays, columns=['00 UTC', '06 UTC', '12 UTC', '18 UTC']) 从这个打印df的表看起来像这样：我想为“MOS”行中的所有值着色一定的颜色，并为左侧的两个索引/标题列以及顶部标题行着色，而不是其余的具有值的单元格。任何想法，我可以做到这一点？

用Pandas条形图上的值来标注条形图: 我正在寻找一种方法在我的DataFrame中使用值（舍入）在Pandas条形图中标注我的条形图。 >>> df=pd.DataFrame({'A':np.random.rand(2),'B':np.random.rand(2)},index=['value1','value2'] ) >>> df AB value1 0.440922 0.911800 value2 0.588242 0.797366 我想得到这样的东西：我尝试了这个，但注释都集中在xthicks： >>> ax = df.plot(kind='bar') >>> for idx, label in enumerate(list(df.index)): for acc in df.columns: value = np.round(df.ix[idx][acc],decimals=2) ax.annotate(value, (idx, value), xytext=(0, 15), textcoords='offset points')

在pandas的数据框中查找非数字行？: 我在pandas有一个很大的数据框，除了作为索引使用的列应该只有数值： df = pd.DataFrame({'a': [1, 2, 3, 'bad', 5], 'b': [0.1, 0.2, 0.3, 0.4, 0.5], 'item': ['a', 'b', 'c', 'd', 'e']}) df = df.set_index('item') 我怎样才能find数据框df中有一个非数字值的行？在这个例子中，它是数据框中的第四行，在a列中有string'bad' 。如何可以通过编程find这一行？

pandas棒图更改date格式: 我有一个简单的堆积线图，具有完全使用下面的代码时，我想魔法设置的date格式。 df_ts = df.resample("W", how='max') df_ts.plot(figsize=(12,8), stacked=True) 然而，当将相同的数据作为条形图绘制时，这些date神秘地将其自身转换成丑陋且不可读的格式。 df_ts = df.resample("W", how='max') df_ts.plot(kind='bar', figsize=(12,8), stacked=True) 原始数据被转换了一点，以每周最大。为什么在自动设置date发生这种根本性的变化？我如何能有上面很好格式化的date？这是一些虚拟数据 start = pd.to_datetime("1-1-2012") idx = pd.date_range(start, periods= 365).tolist() df=pd.DataFrame({'A':np.random.random(365), 'B':np.random.random(365)}) df.index = idx df_ts = df.resample('W', how= 'max') df_ts.plot(kind='bar', stacked=True)

格式/抑制来自Pythonpandas聚集结果的科学记数法: 如何修改大pandasgroupby操作输出的格式，为大数生成科学记数法。我知道如何在pythong中进行string格式化，但在这里应用它时，我感到茫然。 df1.groupby('dept')['data1'].sum() dept value1 1.192433e+08 value2 1.293066e+08 value3 1.077142e+08 这抑制了科学记数法，如果我转换为string，但现在我只是想知道如何string格式和添加小数。 sum_sales_dept.astype(str)

DataFrame中的string，但是dtype是对象: 为什么大pandas告诉我，我有对象，尽pipe选定列中的每个项目都是一个string – 即使在显式转换之后。这是我的DataFrame： <class 'pandas.core.frame.DataFrame'> Int64Index: 56992 entries, 0 to 56991 Data columns (total 7 columns): id 56992 non-null values attr1 56992 non-null values attr2 56992 non-null values attr3 56992 non-null values attr4 56992 non-null values attr5 56992 non-null values attr6 56992 non-null values dtypes: int64(2), object(5) 其中五个是dtype object 。我明确地将这些对象转换为string： for c in […]