如何以编程方式检索pandas数据框中的列数? 我希望有这样的东西: df.num_columns
我在新build的计算机上安装了新安装的Ubuntu。 我刚刚使用apt-get安装了python-pip。 现在当我尝试点子安装Numpy和pandas,它会给出以下错误。 我在SO和Google的相当一部分地方看到了这个错误,但是我一直没有find解决办法。 有人提到这是一个错误,一些线程已经死了…发生了什么事? Traceback (most recent call last): File "/usr/bin/pip", line 9, in <module> load_entry_point('pip==1.5.4', 'console_scripts', 'pip')() File "/usr/lib/python2.7/dist-packages/pip/__init__.py", line 185, in main return command.main(cmd_args) File "/usr/lib/python2.7/dist-packages/pip/basecommand.py", line 161, in main text = '\n'.join(complete_log) UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 72: ordinal not in range(128)
在R中,当您需要根据列的名称检索列索引时,您可以执行此操作 idx <- which(names(my_data)==my_colum_name) 有没有办法与pandas数据框一样?
我很困惑如何定义python轴,以及它们是否引用DataFrame的行或列。 考虑下面的代码: >>> df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"]) >>> df col1 col2 col3 col4 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 所以如果我们调用df.mean(axis=1) ,我们将在行之间得到一个平均值: >>> df.mean(axis=1) 0 1 1 2 2 3 但是,如果我们调用df.drop(name, axis=1) ,我们实际上删除了一列而不是一行: […]
在Python程序中导入pandas时,我收到以下错误 monas-mbp:book mona$ sudo pip install python-dateutil Requirement already satisfied (use –upgrade to upgrade): python-dateutil in /System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python Cleaning up… monas-mbp:book mona$ python t1.py No module named dateutil.parser Traceback (most recent call last): File "t1.py", line 4, in <module> import pandas as pd File "/Library/Python/2.7/site-packages/pandas/__init__.py", line 6, in <module> from . import hashtable, tslib, lib File […]
我有pandasdataframe df1和df2 (df1是vanila dataframe,df2是由'STK_ID'和'RPT_Date'索引的): >>> df1 STK_ID RPT_Date TClose sales discount 0 000568 20060331 3.69 5.975 NaN 1 000568 20060630 9.14 10.143 NaN 2 000568 20060930 9.49 13.854 NaN 3 000568 20061231 15.84 19.262 NaN 4 000568 20070331 17.00 6.803 NaN 5 000568 20070630 26.31 12.940 NaN 6 000568 20070930 39.12 19.977 NaN 7 000568 […]
我正在尝试做一些相当简单的事情,把一个大的csv文件读入一个pandas数据框。 data = pandas.read_csv(filepath, header = 0, sep = DELIMITER,skiprows = 2) 代码要么与MemoryError失败,要么永远不会结束。 任务pipe理器中的内存使用停在506 Mb,5分钟后没有任何变化,在这个过程中没有CPU活动,我停止了它。 我正在使用pandas版本0.11.0。 我知道,文件parsing器曾经是一个内存问题,但根据http://wesmckinney.com/blog/?p=543这应该已经修复。 我正在尝试阅读的文件是366 Mb,上面的代码如果将文件缩小到某个简短的值(25 Mb),就可以正常工作。 它也发生了,我得到一个popup式告诉我,它不能写地址0x1e0baf93 … 堆栈跟踪: Traceback (most recent call last): File "F:\QA ALM\Python\new WIM data\new WIM data\new_WIM_data.py", line 25, in <module> wimdata = pandas.read_csv(filepath, header = 0, sep = DELIMITER,skiprows = 2 ) File "C:\Program Files\Python\Anaconda\lib\site-packages\pandas\io\parsers.py" , […]
我试过了: x=pandas.DataFrame(…) s = x.take([0], axis=1) 和s得到一个DataFrame,而不是一个系列。
最后一个新手pandas问题:如何为单个系列生成表格? 例如: my_series = pandas.Series([1,2,2,3,3,3]) pandas.magical_frequency_function( my_series ) >> { 1 : 1, 2 : 2, 3 : 3 } 大量的谷歌search导致我到Series.describe()和pandas.crosstabs,但这些都不完全是我所需要的:一个variables,按类别计数。 哦,如果它适用于不同的数据types:string,整数等等
我需要删除pandas数据框的前三行。 我知道df.ix[:-1]会删除最后一行,但我不知道如何删除前n行。