如何开始使用大数据分析

我一直是R的很长一段时间的用户，并且最近开始使用Python。使用传统的RDBMS系统进行数据仓库，使用R / Python进行数据处理，我觉得现在需要用大数据分析来解决问题。

我想知道如何开始处理大数据。 – 如何从Map / Reduce和Hadoop的使用开始

如何利用我在R和Python方面的技能来开始大数据分析。例如使用Python Disco项目。
使用RHIPE软件包并查找玩具数据集和问题区域。
find正确的信息，让我决定是否需要从RDBMStypes数据库转移到NoSQL

总而言之，我想知道如何从小数据开始，逐步build立我在大数据分析方面的技能和诀窍。

感谢您的build议和意见。我对这个查询的一般性质表示歉意，但是我希望获得关于这个主题的更多的观点。

苛刻

例如使用Python Disco项目。

好。玩那个。

使用RHIPE软件包并查找玩具数据集和问题区域。

精细。也玩这个。

不要汗水find“大”的数据集。即使是小数据集也会出现非常有趣的问题事实上，任何数据集都是一个起点。

我曾经build立了一个小型的星型模式来分析组织6000万美元的预算。源数据在电子表格中，基本上是不可理解的。于是我把它卸载到一个星型模式中，用Python编写了几个分析程序来创build相关数字的简化报告。

find正确的信息，让我决定是否需要从RDBMStypes数据库转移到NoSQL

这很容易。

首先，拿一本关于数据仓库的书（Ralph Kimball的The Data Warehouse Toolkit）为例子。

其次，仔细研究“星图”，尤其是Kimball解释的所有变体和特例，

第三，实现以下内容：SQL用于更新和事务。

当进行“分析”处理（大或小）时，几乎没有任何更新。 SQL（和相关的规范化）实际上并不重要。

Kimball的观点（也是其他人）认为，大部分数据仓库不在SQL中，而是在简单的平面文件中。一个数据集市（用于ad-hoc，slice-and-dice分析）可能在关系数据库中，以允许使用SQL进行简单，灵活的处理。

所以这个“决定”是微不足道的。如果是事务性的（“OLTP”），它必须位于关系数据库或OO数据库中。如果是分析（“OLAP”），除了slice-and-dice分析外，它不需要SQL; 即使这样，数据库根据需要从官方文件加载。

您可以考虑的一件事是DMelt（ http://jwork.org/dmelt/ ）数据分析程序。其中一个值得注意的特点就是它有数百个使用Python语言的例子和一些书。我之所以使用它，是因为它运行在我的Windows 10上（因为它使用Java VM），加上它在2D / 3D中有非常好的graphics，可以导出到vectorgraphics格式。

如何开始使用大数据分析

计算和保存PostgreSQL中的空间

Apache Spark与Apache Storm

你什么时候开始额外的Elasticsearch节点？

hadoop map减less二次sorting

我怎么知道R中的数据集将会过大？

推荐用于R中非常大的数据集处理和机器学习的软件包

Apache Spark对阿卡

快速Hadoop分析（Cloudera Impala与Spark / Shark与Apache Drill）

如何将HiveQL查询的结果输出到CSV？

有没有像Redis DB，但不限于RAM大小？