Tag: pandas

pandas:find其名称包含特定string的列

所以,我有一个列名称的数据框,我想find一个包含某个string,但不完全匹配它。 我在'spike-2' , 'hey spike' , 'spiked-in' ( 'spike'部分总是连续的)这样'spike-2'列名中寻找'spike' 。 我希望列名作为string或variables返回,所以稍后使用df['name']或df[name]作为正常访问列。 我试图find办法做到这一点,无济于事。 有小费吗?

将pandas数据框中的列从int转换为string

我刚刚开始与pandas合作。 我有pandas的数据框与混合的int和str数据列。 我想连接数据框中的第一列,做我必须将int列转换为str 。 我试过这样做: mtrx['X.3'] = mtrx.to_string(columns = ['X.3']) 或者像那样 mtrx['X.3'] = mtrx['X.3'].astype(str) 但在这两种情况下,它不工作,我得到一个错误说:“不能连接”str“和”int“对象”。 Concat for two str列工作得很好。 任何帮助将不胜感激! 谢谢!

如何将标题行添加到pandasDataFrame中

我正在读csv文件到pandas 。 这个csv文件是由四列和一些行构成的,但是没有我想要添加的标题行。 我一直在尝试以下几点: Cov = pd.read_csv("path/to/file.txt", sep='\t') Frame=pd.DataFrame([Cov], columns = ["Sequence", "Start", "End", "Coverage"]) Frame.to_csv("path/to/file.txt", sep='\t') 但是,当我应用代码,我得到以下错误: ValueError: Shape of passed values is (1, 1), indices imply (4, 1) 错误究竟意味着什么? 什么是一个干净的方式在Python中添加一个标题行到我的csv文件/ pandas df?

下载历史股票价格自动从雅虎金融在Python中

有没有办法从雅虎财务或谷歌财务(CSV格式)自动下载股票的历史价格? 最好在Python中。

如何使用来自多列的值对pandas数据框进行sorting?

我有以下数据框架: df = pandas.DataFrame([{'c1':3,'c2':10},{'c1':2, 'c2':30},{'c1':1,'c2':20},{'c1':2,'c2':15},{'c1':2,'c2':100}]) 或者,以可读的forms: c1 c2 0 3 10 1 2 30 2 1 20 3 2 15 4 2 100 以下sorting命令按预期工作: df.sort(['c1','c2'], ascending=False) 输出: c1 c2 0 3 10 4 2 100 1 2 30 3 2 15 2 1 20 但是下面的命令: df.sort(['c1','c2'], ascending=[False,True]) 结果是 c1 c2 2 1 20 3 2 […]

用一个无代替大pandas或Numpy Nan与MysqlDB使用

我正在尝试使用MysqlDB将一个pandas数据框(或可以使用一个numpy数组)写入一个mysql数据库。 MysqlDB似乎不明白'南',我的数据库抛出一个错误,说南不在字段列表中。 我需要find一种方法将'nan'转换为NoneType。 有任何想法吗?

使用pandas.to_datetime时只保留date部分

我使用pandas.to_datetime来parsing数据中的date。 即使date全部是每日,大pandas默认代表datetime64[ns]的date。 我想知道是否有一个优雅的/巧妙的方式将date转换为datetime.date或datetime64[D]以便在将数据写入CSV时,date不会附加00:00:00 。 我知道我可以手动转换types的元素: [dt.to_datetime().date() for dt in df.dates] 但是,由于我有很多行,所以这非常慢,而这种做法pandas.to_datetime使用pandas.to_datetime的目的。 有没有办法一次转换整个列的dtype ? 或者, pandas.to_datetime支持精确的规范,以便在处理日常数据时可以摆脱时间部分?

如何在pandas中find数字列?

假设df是一个pandasDataFrame。 我想查找数字types的所有列。 就像是: isNumeric = is_numeric(df)

将SQLAlchemy ORM转换为pandas DataFrame

这个话题在这里或其他地方还没有得到解决。 有没有解决scheme将SQLAlchemy <Query object>转换为pandasDataFrame? pandas有能力使用pandas.read_sql但这需要使用原始的SQL。 我有两个原因希望避免它:1)我已经拥有了一切使用ORM(本身是一个很好的理由)和2)我使用Python列表作为查询的一部分(例如: .db.session.query(Item).filter(Item.symbol.in_(add_symbols)其中Item是我的模型类, add_symbols是一个列表)。这是SQL SELECT … from … WHERE … IN的等价物。 有什么可能吗?

从numpy.timedelta64值提取天

我使用的是pandas/ python,我有两个date时间系列s1和s2,已经使用'to_datetime'函数在包含date/时间的df的字段上生成。 当我从s2中减去s1 s3 = s2 – s1 我得到一个types为s3的系列 timedelta64 [NS] 0 385 days, 04:10:36 1 57 days, 22:54:00 2 642 days, 21:15:23 3 615 days, 00:55:44 4 160 days, 22:13:35 5 196 days, 23:06:49 6 23 days, 22:57:17 7 2 days, 22:17:31 8 622 days, 01:29:25 9 79 days, 20:15:14 10 23 days, 22:46:51 […]