Tag: pandas

用pandas数据框运行OLS回归

我有一个pandas数据框,我希望能够从列B和C中的值预测列A的值。这里是一个玩具的例子: import pandas as pd df = pd.DataFrame({"A": [10,20,30,40,50], "B": [20, 30, 10, 40, 50], "C": [32, 234, 23, 23, 42523]}) 理想情况下,我会有类似ols(A ~ B + C, data = df)但是当我查看像scikit-learn这样的algorithm库中的例子时 ,它似乎用行列表而不是列来向数据提供数据。 这将要求我将数据重新格式化为列表内的列表,这似乎首先打败了使用pandas的目的。 什么是对大pandas数据框架中的数据运行OLS回归(或更普遍的任何机器学习algorithm)最pythonic的方式?

使用pandas在Python中读取Excel文件

我想这样读取一个excel文件: newFile = pd.ExcelFile(PATH\FileName.xlsx) ParsedData = pd.io.parsers.ExcelFile.parse(newFile) 它会抛出一个错误,说两个参数的预期,我不知道第二个参数是什么,也是我想在这里实现的是将Excel文件转换为DataFrame,我是否正确的做法? 还是有没有其他的方式来做到这一点使用pandas?

输出pandas数据框中所有列的数据

我有一个名为params.csv的csv文件。 我打开ipython qtconsole并创build一个pandasdataframe ipython qtconsole使用: import pandas paramdata = pandas.read_csv('params.csv', names=paramnames) 其中, paramnames是一个string对象的python列表。 参数名称的例子(实际列表的长度是22): paramnames = ["id", "fc", "mc", "markup", "asplevel", "aspreview", "reviewpd"] 在ipython提示符下,如果我inputparamdata并按下回车键,那么我不会得到像Pandas网站上的示例所示的列和值的数据paramdata 。 相反,我得到有关数据框的信息。 我得到: In[35]: paramdata Out[35]: <class 'pandas.core.frame.DataFrame'> Int64Index: 59 entries, 0 to 58 Data columns: id 59 non-null values fc 59 non-null values mc 59 non-null values markup 59 non-null […]

从pandas的数据框中丢弃无限的值?

什么是最快/最简单的方法来从一个pandasDataFrame中删除nan和inf / -inf值,而无需重置mode.use_inf_as_null ? 我希望能够使用subset和dropna参数,除了inf值被认为是缺less的,如: df.dropna(subset=["col1", "col2"], how="all", with_inf=True) 这可能吗? 有没有办法告诉dropna将inf纳入其缺失值的定义中?

pandas根据其他列的值创build新的列

我已经尝试了其他问题的不同方法,但似乎无法find正确的答案,我的问题。 这个关键的一点是,如果这个人被认为是西class牙裔,那他们就不能算作别的。 即使他们在另一个种族列中有“1”,他们仍然被认为是西class牙裔,而不是两个或两个以上的种族。 同样,如果所有ERI列的总和大于1,则它们被计为两个或更多个种族,不能被视为一个独特的种族(接受西class牙裔)。 希望这是有道理的。 任何帮助将不胜感激。 它几乎就像在每一行做一个for循环,如果每条logging符合一个标准,它们将被添加到一个列表中并从原始列表中删除。 从下面的数据框我需要计算一个新的列基于以下内容: ========================= CRITERIA ======================== ======= IF [ERI_Hispanic] = 1 THEN RETURN “Hispanic” ELSE IF SUM([ERI_AmerInd_AKNatv] + [ERI_Asian] + [ERI_Black_Afr.Amer] + [ERI_HI_PacIsl] + [ERI_White]) > 1 THEN RETURN “Two or More” ELSE IF [ERI_AmerInd_AKNatv] = 1 THEN RETURN “A/I AK Native” ELSE IF [ERI_Asian] = 1 THEN RETURN “Asian” […]

如何在pandas的特定列索引处插入列?

我可以在pandas的特定列索引处插入一列吗? import pandas as pd df = pd.DataFrame({'l':['a','b','c','d'], 'v':[1,2,1,2]}) df['n'] = 0 这将把列n作为df的最后一列,但没有办法告诉df把n放在开头?

将x和y标签添加到pandas图中

假设我有下面的代码使用pandas来绘制一些非常简单的代码: import pandas as pd values = [[1,2], [2,5]] df2 = pd.DataFrame(values, columns=['Type A', 'Type B'], index=['Index 1','Index 2']) df2.plot(lw=2,colormap='jet',marker='.',markersize=10,title='Video streaming dropout by category') 如何轻松设置x和y标签,同时保留使用特定颜色映射的能力? 我注意到,pandas dataframes的plot()包装器没有采用任何特定的参数。

在Ipython笔记本中,Pandas不显示我试图绘制的graphics

我试图在Ipython Notebook中使用pandas来绘制一些数据,虽然它给了我对象,但实际上并没有绘制graphics本身。 所以看起来像这样: In [7]: pledge.Amount.plot() Out[7]: <matplotlib.axes.AxesSubplot at 0x9397c6c> 之后的图表应该遵循,但它不会出现。 我已经导入matplotlib,所以这不是问题。 是否有任何其他模块,我需要导入?

将pandas多指标转入栏目

我有一个2索引级别的dataframe: value Trial measurement 1 0 13 1 3 2 4 2 0 NaN 1 12 3 0 34 我想把这个变成: Trial measurement value 1 0 13 1 1 3 1 2 4 2 0 NaN 2 1 12 3 0 34 我怎么能最好的做到这一点? 我需要这个,因为我想按照这里的指示来聚合数据,但是如果它们被用作索引,我不能select这样的列。

在pandas中标准化数据

假设我有一个pandas数据框df: 我想计算一个dataframe的列明智的意思, 这很容易: df.apply(average) 那么列明智的范围最大(col) – min(col)。 这又很容易: df.apply(max) – df.apply(min) 现在对于每个元素,我想减去它的列平均值,并除以列的范围。 我不知道该怎么做 任何帮助/指针非常感谢。