Tag: pandas

随机播放DataFrame行: 我有以下的DataFrame： Col1 Col2 Col3 Type 0 1 2 3 1 1 4 5 6 1 … 20 7 8 9 2 21 10 11 12 2 … 45 13 14 15 3 46 16 17 18 3 … DataFrame是从csv文件中读取的。所有具有Type 1的行位于顶部，接着是具有Type 2的行，接着是具有Type 3的行等。我想洗牌DataFrame的行，以便所有Type的混合。可能的结果可能是： Col1 Col2 Col3 Type 0 7 8 9 2 1 […]

在iPython Notebook中将DataFrame显示为表: 我正在使用iPython笔记本。当我这样做： df 我得到一个美丽的细胞表。但是，如果我这样做： df1 df2 它不打印第一张漂亮的桌子。如果我尝试这个： print df1 print df2 它以不同的格式打印出表格，这些格式溢出了列并使输出非常高。有没有办法强制它打印出这两个数据集美丽的表格？

高效地将一个函数应用到分组的pandasDataFrame上: 我经常需要将一个函数应用于一个非常大的DataFrame （混合数据types）的组，并希望利用多个核心。我可以从组中创build一个迭代器并使用多处理模块，但是效率不高，因为每个组和结果都必须在进程之间进行消息传递。有没有办法避免酸洗，甚至完全避免DataFrame的复制？看起来多处理模块的共享内存function仅限于numpy数组。还有其他的select吗？

将Python字典转换为数据框: 我有一个Python字典，如下所示： {u'2012-06-08': 388, u'2012-06-09': 388, u'2012-06-10': 388, u'2012-06-11': 389, u'2012-06-12': 389, u'2012-06-13': 389, u'2012-06-14': 389, u'2012-06-15': 389, u'2012-06-16': 389, u'2012-06-17': 389, u'2012-06-18': 390, u'2012-06-19': 390, u'2012-06-20': 390, u'2012-06-21': 390, u'2012-06-22': 390, u'2012-06-23': 390, u'2012-06-24': 390, u'2012-06-25': 391, u'2012-06-26': 391, u'2012-06-27': 391, u'2012-06-28': 391, u'2012-06-29': 391, u'2012-06-30': 391, u'2012-07-01': 391, u'2012-07-02': 392, u'2012-07-03': 392, u'2012-07-04': 392, […]

我怎样才能获得一个pandas系列的元素合乎逻辑的NOT？: 今天我有一个比较简单的问题。我有一个包含布尔值的pandasSeries对象。我怎样才能得到一系列包含每个值的逻辑NOT ？例如，考虑一系列包含： True True True False 我想要得到的系列将包含： False False False True 这似乎应该是相当简单的，但显然我错了我的魔羯今天=（谢谢！

使用Python读取Pandas中的CSV文件时的UnicodeDecodeError: 我正在运行一个正在处理30,000个类似文件的程序。随机数字正在停止并产生这个错误… File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, in read ret = self._engine.read(nrows) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 1028, in read data = self._reader.read(nrows) File "parser.pyx", line 706, in pandas.parser.TextReader.read (pandas\parser.c:6745) File […]

大pandas数量（不同）相当: 我使用pandas作为数据库替代品，因为我有多个数据库（oracle，mssql等），我无法将一系列命令作为一个SQL等效。我有一个表加载在一个DataFrame与一些列： YEARMONTH, CLIENTCODE, SIZE, …. etc etc 在SQL中，要计算每年不同客户端的数量将是： SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH; 结果会是 201301 5000 201302 13245 我怎样才能做到这一点在pandas？

将pandas数据框转换为numpy数组，保留索引: 我有兴趣了解如何将pandas数据框转换为包含索引的numpy数组，并设置dtypes。 dataframe： label ABC ID 1 NaN 0.2 NaN 2 NaN NaN 0.5 3 NaN 0.2 0.5 4 0.1 0.2 NaN 5 0.1 0.2 0.5 6 0.1 NaN 0.5 7 0.1 NaN NaN 转换为数组返回： array([[ nan, 0.2, nan], [ nan, nan, 0.5], [ nan, 0.2, 0.5], [ 0.1, 0.2, nan], [ 0.1, 0.2, 0.5], [ […]

将DataFrame列types从string转换为datetime: 如何将DataFramestring列（以dd / mm / yyyy格式）转换为date时间？

pandas索引栏目标题或名称: 如何获得Pythonpandas的索引列名称？以下是一个示例数据框： Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 我想要做的是获取/设置dataframe索引标题。这是我试过的： import pandas as pd data = {'Column 1' : [1., 2., 3., 4.], 'Index Title' : ["Apples", "Oranges", "Puppies", "Ducks"]} df = pd.DataFrame(data) df.index = df["Index Title"] del df["Index Title"] print df 有人知道怎么做吗？