Tag: pandas

随机播放DataFrame行

我有以下的DataFrame: Col1 Col2 Col3 Type 0 1 2 3 1 1 4 5 6 1 … 20 7 8 9 2 21 10 11 12 2 … 45 13 14 15 3 46 16 17 18 3 … DataFrame是从csv文件中读取的。 所有具有Type 1的行位于顶部,接着是具有Type 2的行,接着是具有Type 3的行等。 我想洗牌DataFrame的行,以便所有Type的混合。 可能的结果可能是: Col1 Col2 Col3 Type 0 7 8 9 2 1 […]

在iPython Notebook中将DataFrame显示为表

我正在使用iPython笔记本。 当我这样做: df 我得到一个美丽的细胞表。 但是,如果我这样做: df1 df2 它不打印第一张漂亮的桌子。 如果我尝试这个: print df1 print df2 它以不同的格式打印出表格,这些格式溢出了列并使输出非常高。 有没有办法强制它打印出这两个数据集美丽的表格?

高效地将一个函数应用到分组的pandasDataFrame上

我经常需要将一个函数应用于一个非常大的DataFrame (混合数据types)的组,并希望利用多个核心。 我可以从组中创build一个迭代器并使用多处理模块,但是效率不高,因为每个组和结果都必须在进程之间进行消息传递。 有没有办法避免酸洗,甚至完全避免DataFrame的复制? 看起来多处理模块的共享内存function仅限于numpy数组。 还有其他的select吗?

将Python字典转换为数据框

我有一个Python字典,如下所示: {u'2012-06-08': 388, u'2012-06-09': 388, u'2012-06-10': 388, u'2012-06-11': 389, u'2012-06-12': 389, u'2012-06-13': 389, u'2012-06-14': 389, u'2012-06-15': 389, u'2012-06-16': 389, u'2012-06-17': 389, u'2012-06-18': 390, u'2012-06-19': 390, u'2012-06-20': 390, u'2012-06-21': 390, u'2012-06-22': 390, u'2012-06-23': 390, u'2012-06-24': 390, u'2012-06-25': 391, u'2012-06-26': 391, u'2012-06-27': 391, u'2012-06-28': 391, u'2012-06-29': 391, u'2012-06-30': 391, u'2012-07-01': 391, u'2012-07-02': 392, u'2012-07-03': 392, u'2012-07-04': 392, […]

我怎样才能获得一个pandas系列的元素合乎逻辑的NOT?

今天我有一个比较简单的问题。 我有一个包含布尔值的pandasSeries对象。 我怎样才能得到一系列包含每个值的逻辑NOT ? 例如,考虑一系列包含: True True True False 我想要得到的系列将包含: False False False True 这似乎应该是相当简单的,但显然我错了我的魔羯今天=( 谢谢!

使用Python读取Pandas中的CSV文件时的UnicodeDecodeError

我正在运行一个正在处理30,000个类似文件的程序。 随机数字正在停止并产生这个错误… File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, in read ret = self._engine.read(nrows) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 1028, in read data = self._reader.read(nrows) File "parser.pyx", line 706, in pandas.parser.TextReader.read (pandas\parser.c:6745) File […]

大pandas数量(不同)相当

我使用pandas作为数据库替代品,因为我有多个数据库(oracle,mssql等),我无法将一系列命令作为一个SQL等效。 我有一个表加载在一个DataFrame与一些列: YEARMONTH, CLIENTCODE, SIZE, …. etc etc 在SQL中,要计算每年不同客户端的数量将是: SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH; 结果会是 201301 5000 201302 13245 我怎样才能做到这一点在pandas?

将pandas数据框转换为numpy数组,保留索引

我有兴趣了解如何将pandas数据框转换为包含索引的numpy数组,并设置dtypes。 dataframe: label ABC ID 1 NaN 0.2 NaN 2 NaN NaN 0.5 3 NaN 0.2 0.5 4 0.1 0.2 NaN 5 0.1 0.2 0.5 6 0.1 NaN 0.5 7 0.1 NaN NaN 转换为数组返回: array([[ nan, 0.2, nan], [ nan, nan, 0.5], [ nan, 0.2, 0.5], [ 0.1, 0.2, nan], [ 0.1, 0.2, 0.5], [ […]

将DataFrame列types从string转换为datetime

如何将DataFramestring列(以dd / mm / yyyy格式)转换为date时间?

pandas索引栏目标题或名称

如何获得Pythonpandas的索引列名称? 以下是一个示例数据框: Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 我想要做的是获取/设置dataframe索引标题。 这是我试过的: import pandas as pd data = {'Column 1' : [1., 2., 3., 4.], 'Index Title' : ["Apples", "Oranges", "Puppies", "Ducks"]} df = pd.DataFrame(data) df.index = df["Index Title"] del df["Index Title"] print df 有人知道怎么做吗?