Tag: pandas

如何重置pandas数据框中的索引?

我有一个数据框从中删除了一些行。 因此,我得到一个数据框,其索引是这样的: [1,5,6,10,11] ,我想重置它到[0,1,2,3,4] 。 我该怎么做? 添加 以下似乎工作: df = df.reset_index() del df['index'] 以下不起作用: df = df.reindex()

pandasread_csv low_memory和dtype选项

打电话时 df = pd.read_csv('somefile.csv') 我得到: /Users/josh/anaconda/envs/py27/lib/python2.7/site-packages/pandas/io/parsers.py:1130:DtypeWarning:列(4,5,7,16)有混合types。 在导入时指定dtype选项或设置low_memory = False。 为什么low_memory选项与low_memory有关,为什么会使这个问题low_memory呢?

如何一个热点编码变体长度的function?

给出一个变体长度特征列表: features = [ ['f1', 'f2', 'f3'], ['f2', 'f4', 'f5', 'f6'], ['f1', 'f2'] ] 其中每个样本具有不同数量的特征,并且特征dtype是str并且已经很热。 为了使用sklearn的特征select工具,我必须将features转换成如下的2D数组: f1 f2 f3 f4 f5 f6 s1 1 1 1 0 0 0 s2 0 1 0 1 1 1 s3 1 1 0 0 0 0 我怎么能通过sklearn或numpy实现呢?

改变使用样式和css的pandas数据框html表python中的文本的颜色

我有一个pandas数据框: arrays = [['Midland', 'Midland', 'Hereford', 'Hereford', 'Hobbs','Hobbs', 'Childress', 'Childress', 'Reese', 'Reese', 'San Angelo', 'San Angelo'], ['WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS']] tuples = list(zip(*arrays)) index = pd.MultiIndex.from_tuples(tuples) df = pd.DataFrame(np.random.randn(12, 4), index=arrays, columns=['00 UTC', '06 UTC', '12 UTC', '18 UTC']) 从这个打印df的表看起来像这样: 我想为“MOS”行中的所有值着色一定的颜色,并为左侧的两个索引/标题列以及顶部标题行着色,而不是其余的具有值的单元格。 任何想法,我可以做到这一点?

pandas文档中的“广播”是什么意思?

我正在阅读“pandas”文档,“广播”一词被广泛使用 ,但从未真正定义或解释过。 这是什么意思?

用Pandas条形图上的值来标注条形图

我正在寻找一种方法在我的DataFrame中使用值(舍入)在Pandas条形图中标注我的条形图。 >>> df=pd.DataFrame({'A':np.random.rand(2),'B':np.random.rand(2)},index=['value1','value2'] ) >>> df AB value1 0.440922 0.911800 value2 0.588242 0.797366 我想得到这样的东西: 我尝试了这个,但注释都集中在xthicks: >>> ax = df.plot(kind='bar') >>> for idx, label in enumerate(list(df.index)): for acc in df.columns: value = np.round(df.ix[idx][acc],decimals=2) ax.annotate(value, (idx, value), xytext=(0, 15), textcoords='offset points')

在pandas的数据框中查找非数字行?

我在pandas有一个很大的数据框,除了作为索引使用的列应该只有数值: df = pd.DataFrame({'a': [1, 2, 3, 'bad', 5], 'b': [0.1, 0.2, 0.3, 0.4, 0.5], 'item': ['a', 'b', 'c', 'd', 'e']}) df = df.set_index('item') 我怎样才能find数据框df中有一个非数字值的行? 在这个例子中,它是数据框中的第四行,在a列中有string'bad' 。 如何可以通过编程find这一行?

pandas棒图更改date格式

我有一个简单的堆积线图,具有完全使用下面的代码时,我想魔法设置的date格式。 df_ts = df.resample("W", how='max') df_ts.plot(figsize=(12,8), stacked=True) 然而,当将相同的数据作为条形图绘制时,这些date神秘地将其自身转换成丑陋且不可读的格式。 df_ts = df.resample("W", how='max') df_ts.plot(kind='bar', figsize=(12,8), stacked=True) 原始数据被转换了一点,以每周最大。 为什么在自动设置date发生这种根本性的变化? 我如何能有上面很好格式化的date? 这是一些虚拟数据 start = pd.to_datetime("1-1-2012") idx = pd.date_range(start, periods= 365).tolist() df=pd.DataFrame({'A':np.random.random(365), 'B':np.random.random(365)}) df.index = idx df_ts = df.resample('W', how= 'max') df_ts.plot(kind='bar', stacked=True)

格式/抑制来自Pythonpandas聚集结果的科学记数法

如何修改大pandasgroupby操作输出的格式,为大数生成科学记数法。 我知道如何在pythong中进行string格式化,但在这里应用它时,我感到茫然。 df1.groupby('dept')['data1'].sum() dept value1 1.192433e+08 value2 1.293066e+08 value3 1.077142e+08 这抑制了科学记数法,如果我转换为string,但现在我只是想知道如何string格式和添加小数。 sum_sales_dept.astype(str)

DataFrame中的string,但是dtype是对象

为什么大pandas告诉我,我有对象,尽pipe选定列中的每个项目都是一个string – 即使在显式转换之后。 这是我的DataFrame: <class 'pandas.core.frame.DataFrame'> Int64Index: 56992 entries, 0 to 56991 Data columns (total 7 columns): id 56992 non-null values attr1 56992 non-null values attr2 56992 non-null values attr3 56992 non-null values attr4 56992 non-null values attr5 56992 non-null values attr6 56992 non-null values dtypes: int64(2), object(5) 其中五个是dtype object 。 我明确地将这些对象转换为string: for c in […]