Pentaho vs Microsoft BI Stack

我的公司在MS BI Stack(SQL Server报告服务,分析服务和综合服务)方面投入很大,但是我想看看看似最受关注的开放源代码Pentaho是什么样的。

我已经安装了一个版本,我很容易地完成并运行。 所以这很好。 但是我没有真正的时间来开始使用它来进行实际的工作,以便对包进行彻底的了解。

有没有人对Pentaho vs MS BI的优缺点有什么了解,或者有什么比较的联系?

非常感激!

我在一个path上查看多个Bi堆栈,以便从Business Objects下载。 我的很多意见是优先select的。 两套工具都非常出色。 有些事情是我比较喜欢纯巧克力巧克力软糖布朗尼冰淇淋。

Pentaho有一些非常聪明的人与他们一起工作,但是微软一直在资金和计划良好的道路上。 请记住,MS仍然是数据库市场中的弱者。 甲骨文在这里是国王。 为了提高竞争力,当你购买数据库时,MS已经给了很多好东西,并且被迫重新发明他们的平台几次。 我知道这不是关于数据库,但数据库的战斗导致MS放弃了很多,以增加他们的堆栈的价值。

1.)平台
SQL服务器不能在Unix或Linux上运行,所以它们被自动排除在这个市场之外。 Windows现在和一些版本或者Unix的价格差不多。 Windows相当便宜,现在运行良好。 它给了我像Linux一样多的麻烦。

2.)OLAP
分析服务于2005年重新发布(目前是2008年),与2000年版本相比。 这是一个超过2000年更大的macros伟秩序。一旦你变大,pentaho(蒙德里安)并不快。 它也有一些function。 这是相当不错的,但工具的方式较less。 两者都支持Excel作为重要的平台。 MS版本更强大。

3.)ETL
MS – DTS已被SSIS替代。 再次,巨大的顺序在速度,力量和能力上都有所增加。 它控制任何和所有的数据移动或程序控制。 如果它不能这样做,你可以在Powershell中写一个脚本。 与2008版本中的Informatica一致。 Pentaho – 比以前好多了。 没有我想要的那么快,但我可以做一切我想做的事情。

4.)仪表板
Pentaho已经改善了这一点。 开发起来有点不舒服和不友善,但是对于MS来说确实没有什么实际意义。

5.)报告
MS报告是非常强大的,但并不是很难使用。 我现在喜欢它,但是一开始就讨厌它,直到我更好地了解它。 我一直在使用水晶报告,MS报告生成器function更强大。 MS很难做到这一点,但是做一些简单的事情却有点困难。 Pentaho有点笨拙。 我不喜欢它,但你可能会。 我发现它太复杂了。 我希望它更像Crystal报表生成器或MS报表生成器,但它是碧玉。 我觉得很难。 这可能是一个偏好。

6.)特设
MS – 这是我真正的赢家。 我用我的用户testing过,他们立刻爱上了MS用户报告生成器。 造成这种差别的原因不仅仅是易于使用,而且还是富有成效的。 Pentaho – 不错,但很漂亮的老派。 它使用更典型的基于向导的模型,并具有强大的工具,但我讨厌它。 这是一个很好的工具,但是我们已经从这种风格走了,没有人想回去。 我与logiXML有同样的问题。 界面运行得很好,但是和我们用了12年的时间并没有太大的变化。 http://wiki.pentaho.com/display/PRESALESPORTAL/Methods+of+Interactive+Reporting

有一些经验丰富的人可以使Pentaho真正运行良好,我只是发现MS套件更高效。

警告 – 有很多网站列出了许多缺陷,错误,并与SSIS的烦恼。 不知道为什么SSIS出现在post之后 – 但是在你把项目打赌之前,看看人们在博客里要说些什么。 从我的经验来看,大概20:1的SSIS是如何可怕的,我可以同意,目前正在寻找其他select。

这里有很好的信息 我没有尝试Pentaho,但计划检查出来。 我是一名经验丰富的MS BI顾问,自1998年以来一直使用它。SSIS速度非常快,而且非常强大,但是批评却很明显。 我发现SSIS的以下问题:

(1)很难debugging,你会得到一些神秘的错误,这些错误可能不会给你任何暗示问题的真相。

(2)根据之前的评论,这是最糟糕的开发环境! 我不知道他们在想什么。

(a)创build一个包含100列或更多列的表格,并在其上进行合并连接。 现在回去尝试更新合并连接(就像拉一个新的列一样)。 在合并连接上单击确定后,即使在最快的机器上,也可能需要几分钟时间才能保存更改。 我有一个巨大的数据stream与大量的logging和许多合并连接。 向数据stream添加一列需要超过半天。 我更新一个合并连接,然后不得不去做别的事情,5-10分钟后检查是否完成。 微软对此的回应是把你的软件包分成多个软件包,把数据放在一个表或二进制文件中。 那么如果你要在所有步骤之间进行磁盘分配,那么你可能会在SQL中做好整个事情! ETL工具的主要目的之一是将所有这些东西放在内存中,避免磁盘I / O。

(b)devise师有时会彻底崩溃,自从上次保存以来,所有的工作都失去了(因为这个原因我现在正在睡觉的时候按Ctrl + S)

(三)我必须弄清楚一个黑客,并在Excel中生成SSIS包的XML广泛的logging。 我有一个医疗保健客户,其中有600多列logging是司空见惯的。 如果您尝试在SSIS中定义一个具有600列的文件格式,则必须一次一个地键入每一列! 即使是MS访问,也可以将电子表格中的布局剪切并粘贴到文件布局中,而不是SSIS。 所以我必须从布局中生成XML,并将XML代码粘贴到包中的正确位置。 丑陋的做法,但它保存了整天的工作和很多错误。

(d)与(c)类似,如果您需要修剪所有列,并且您已经说了超过600列,那么猜怎么着? 在派生列组件中,您必须inputtrim(column1)600次以上! 我现在在SQL查询中做这样的简单转换来获取数据,因为这可以很容易地从Excel工作表生成。

(e)有许多古怪的东西,组件变得不可见,有时你打开包装,所有的组件被完全重新排列。

(f)FTPfunction,可能是你在ETL中最常见的东西之一,是弱的,只支持无人使用的简单的香草FTP。 所有这些日子都使用SFTP,FTPS,https等等。所以几乎每个实现都需要使用第三方命令行驱动的文件传输应用程序包。

(g)尝试使用CYA,类似于Windows Vista中荒谬的安全性,微软已经很难将SSIS包从一个环境推广到另一个环境。 它默认使用“用用户密钥encryption敏感信息”这个愚蠢的东西,这意味着它必须在你所开发的环境中运行的环境下运行在同一个帐户下,这种情况很less出现。 有更好的方法来configuration,但它总是试图恢复到这个完全无用的安全保护。

(h)最后,这些问题中的大部分现在都在第三版,清楚地表明微软没有计划解决这些问题。

(i)debugging不像其他语言那样容易。

SSIS仍然有很多好处,但不是没有一些严重的痛苦。

我很多年前就开始使用MS Reporting Services,只是喜欢它。 我没有尝试过Penaho的报告解决scheme,所以我不能对此发表评论。 我也没有尝试过Analysis Services或Pentaho的替代scheme。

最近,我需要一个ETL解决scheme,并熟悉MSSQL和MSRS,似乎很明显,我会审查,并可能selectMS集成服务。 但对我来说,MSIS是可怕的。 主要是因为它不直观。 花了几天的时间试图学习这个工具之后,我决定寻找替代方法,并且遇到了Pentaho Data Integration(以前称为Kettle)。 我在几分钟之内启动并运行,并立即创build了我的第一个转换。 它只是工作。

不可否认,我的需求相当简单,但performance非常好,社区似乎非常有帮助。

我已经使用了SSIS和Pentaho Kettle,我强烈推荐使用Pentaho Kettle作为ETL工具而不是SSIS。

我的理由:SSIS的stream程是任务。 水壶让你考虑stream过系统的数据行。 水壶的方法似乎对我来说更直观。 -SSISlogging不完善。 有时候是这样的。 但是,似乎有很多点击和设置variables。 非常复杂。 Pentaho有一个相当有帮助的社区论坛。 我信任Pentaho集成了多种types的数据库,包括SQL Server。 你也可以使用JDBC,这很好。 另外,我使用它在SQL Server和Oracle之间以及Vertica之间。 它在Vertica上有一个散装加载程序。 这很好。 – 我发现它非常非常难以获得SSIS包在服务器上运行。 这只是不值得我的时间。 – 我发现Pentaho很容易发送警告或错误信息给一个人或一系列的人。 -Pentaho允许在JavaScript中完成需要某些逻辑的任务。 用我们大多数人遇到的语言简单和容易地完成。

我不能在MS BI Stack上提供任何意见,但在最近的Barcamp Orlando ,来自Pentaho的人都在那里,谈论他们的产品,这是一个非常令人印象深刻的演示。

事实上,这是一个开源项目,你可以扩展自己,以及一个付费的包,为真正的好服务离开你有很多select。 他们展示了一些他们为客户所做的有偿工作,他们确实给人群带来了惊喜。

我也有机会和一位从事Pentaho数据仓库方面工作的开发人员聊天,他非常敏锐,对build议非常开放,没有任何问题可以回答。

所以就一家公司而言,Pentaho对他们的工作以及他们所有开发人员的友善和平易近人都给我留下了深刻的印象。

几点要添加

  • 尽pipe所有Pentaho工具都有一个窗口版本,但窗口中的设置却很麻烦。 Pentaho(特别是与GUI工具分开的服务器启动和停止)通常在Linux中使用,而不是在Windows上使用,从Windows到Linux的学习曲线陡峭。
  • 任何工具都有一个学习曲线,当你转向它。 当你习惯了总是点击确定和刷新元数据,当你有问题,SSIS没有那么糟糕。 Pentaho也可以是片状的。

工具问题需要解决更大的文化问题 – 什么样的商店使用开源工具? 根据我的经验,我发现微软的商店似乎更加僵化,当你在Microsoft商店的连接string中遇到麻烦时,你可以得到帮助。在Pentaho和Linux中,它更多的是DYI。

顺便提一下,小心Pentaho的销售人员做演示 – 他们展示的所有东西比看起来要困难得多! 🙂

如果您正在寻找一个强大的,低成本的大男孩的替代scheme,LogiXML在.NET平台上具有仪表板和临时报告function。 Pentaho刚刚起步的时候,我们一直在使用它们,但是我没有在一段时间内看过它。

我最近尝试了pentaho开源BI。 我发现它非常笨拙。 这不是很直观,开发时间花费更长的时间。

这与Oracle或MS BI解决scheme完全不同。 也许企业版更好。