如何开始使用大数据分析

我一直是R的很长一段时间的用户,并且最近开始使用Python。 使用传统的RDBMS系统进行数据仓库,使用R / Python进行数据处理,我觉得现在需要用大数据分析来解决问题。

我想知道如何开始处理大数据。 – 如何从Map / Reduce和Hadoop的使用开始

  • 如何利用我在R和Python方面的技能来开始大数据分析。 例如使用Python Disco项目。
  • 使用RHIPE软件包并查找玩具数据集和问题区域。
  • find正确的信息,让我决定是否需要从RDBMStypes数据库转移到NoSQL

总而言之,我想知道如何从小数据开始,逐步build立我在大数据分析方面的技能和诀窍。

感谢您的build议和意见。 我对这个查询的一般性质表示歉意,但是我希望获得关于这个主题的更多的观点。

  • 苛刻

例如使用Python Disco项目。

好。 玩那个。

使用RHIPE软件包并查找玩具数据集和问题区域。

精细。 也玩这个。

不要汗水find“大”的数据集。 即使是小数据集也会出现非常有趣的问题 事实上,任何数据集都是一个起点。

我曾经build立了一个小型的星型模式来分析组织6000万美元的预算。 源数据在电子表格中,基本上是不可理解的。 于是我把它卸载到一个星型模式中,用Python编写了几个分析程序来创build相关数字的简化报告。

find正确的信息,让我决定是否需要从RDBMStypes数据库转移到NoSQL

这很容易。

首先,拿一本关于数据仓库的书(Ralph Kimball的The Data Warehouse Toolkit)为例子。

其次,仔细研究“星图”,尤其是Kimball解释的所有变体和特例,

第三,实现以下内容:SQL用于更新和事务。

当进行“分析”处理(大或小)时,几乎没有任何更新。 SQL(和相关的规范化)实际上并不重要。

Kimball的观点(也是其他人)认为,大部分数据仓库不在SQL中,而是在简单的平面文件中。 一个数据集市(用于ad-hoc,slice-and-dice分析)可能在关系数据库中,以允许使用SQL进行简单,灵活的处理。

所以这个“决定”是微不足道的。 如果是事务性的(“OLTP”),它必须位于关系数据库或OO数据库中。 如果是分析(“OLAP”),除了slice-and-dice分析外,它不需要SQL; 即使这样,数据库根据需要从官方文件加载。

您可以考虑的一件事是DMelt( http://jwork.org/dmelt/ )数据分析程序。 其中一个值得注意的特点就是它有数百个使用Python语言的例子和一些书。 我之所以使用它,是因为它运行在我的Windows 10上(因为它使用Java VM),加上它在2D / 3D中有非常好的graphics,可以导出到vectorgraphics格式。