Tag: statsmodels

一维观测数据中exception值检测的Pythonic方法

对于给定的数据,我想设置离群值(由95%confidense级别或95%分位数函数或任何需要的东西)定义为nan值。 以下是我现在使用的数据和代码。 如果有人能够进一步解释我,我会很高兴。 import numpy as np, matplotlib.pyplot as plt data = np.random.rand(1000)+5.0 plt.plot(data) plt.xlabel('observation number') plt.ylabel('recorded value') plt.show()

auto.arima()相当于python

我试图预测使用ARMA ARIMA模型的每周销售量。 我无法find调整statsmodels的顺序(p,d,q)的statsmodels 。 目前R有一个函数auto.arima() ,它将调整(p,d,q)参数。 我如何去为我的模型select正确的顺序? Python中有没有用于此目的的库?

NumPy中的加权标准差?

numpy.average()有一个权重选项,但是numpy.std()不是。 有没有人有解决方法的build议?

如何迭代pandas数据框的列以运行回归

我确信这很简单,但作为python的一个完整的新手,我很难找出如何遍历pandas数据框中的variables,并与每个运行一个回归。 这是我正在做的事情: all_data = {} for ticker in ['FIUIX', 'FSAIX', 'FSAVX', 'FSTMX']: all_data[ticker] = web.get_data_yahoo(ticker, '1/1/2010', '1/1/2015') prices = DataFrame({tic: data['Adj Close'] for tic, data in all_data.iteritems()}) returns = prices.pct_change() 我知道我可以像这样运行一个回归: regs = sm.OLS(returns.FIUIX,returns.FSTMX).fit() 但是假设我想为数据框中的每一列执行此操作。 特别是,我想在FSTMX上倒退FIUIX,然后在FSTMX上倒退FSAIX,然后在FSTMX上倒退FSAVX。 每次回归后,我想存储残差。 我已经尝试了以下各种版本,但我必须得到错误的语法: resids = {} for k in returns.keys(): reg = sm.OLS(returns[k],returns.FSTMX).fit() resids[k] = reg.resid 我认为问题是我不知道如何通过键引用返回列,所以returns[k]可能是错误的。 任何指导最好的方式来做到这一点将不胜感激。 也许我错过了一种常见的pandas方法。

用pandas数据框运行OLS回归

我有一个pandas数据框,我希望能够从列B和C中的值预测列A的值。这里是一个玩具的例子: import pandas as pd df = pd.DataFrame({"A": [10,20,30,40,50], "B": [20, 30, 10, 40, 50], "C": [32, 234, 23, 23, 42523]}) 理想情况下,我会有类似ols(A ~ B + C, data = df)但是当我查看像scikit-learn这样的algorithm库中的例子时 ,它似乎用行列表而不是列来向数据提供数据。 这将要求我将数据重新格式化为列表内的列表,这似乎首先打败了使用pandas的目的。 什么是对大pandas数据框架中的数据运行OLS回归(或更普遍的任何机器学习algorithm)最pythonic的方式?

ValueError:numpy.dtype的大小错误,请尝试重新编译

我只是在我的Python 2.7上安装了pandas和statsmodels包当我尝试“导入pandas作为PD”,这个错误信息出来。 谁能帮忙? 谢谢!!! numpy.dtype has the wrong size, try recompiling Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\analytics\ext\python27\lib\site-packages\statsmodels-0.5.0-py2.7-win32.egg\statsmodels\formula\__init__.py", line 4, in <module> from formulatools import handle_formula_data File "C:\analytics\ext\python27\lib\site-packages\statsmodels-0.5.0-py2.7-win32.egg\statsmodels\formula\formulatools.p y", line 1, in <module> import statsmodels.tools.data as data_util File "C:\analytics\ext\python27\lib\site-packages\statsmodels-0.5.0-py2.7-win32.egg\statsmodels\tools\__init__.py", li ne 1, in <module> from tools import add_constant, categorical […]