Tag: 蜂巢

Hive外部表跳过第一行

我正在使用Cloudera的Hive版本,并尝试通过包含第一列中列名的csv文件创build外部表。 这里是我用来做到这一点的代码。 CREATE EXTERNAL TABLE Test ( RecordId int, FirstName string, LastName string ) ROW FORMAT serde 'com.bizo.hive.serde.csv.CSVSerde' WITH SerDeProperties ( "separatorChar" = "," ) STORED AS TEXTFILE LOCATION '/user/File.csv' 样本数据 RecordId,FirstName,LastName 1,"John","Doe" 2,"Jane","Doe" 任何人都可以帮助我如何跳过第一行,或者我需要添加一个中间步骤?

configuration单元:如何显示一个表的所有分区?

我有一个1000+分区的表。 “ Show partitions ”命令只列出less量的分区。 我怎样才能显示所有的分区? 更新: 我发现“ show partitions ”命令只列出了500个分区。 “ select … where … ”只处理500个分区!

如何在不删除源文件的情况下将数据从HDFS加载到configuration单元?

将数据从HDFS加载到Hive时,使用 LOAD DATA INPATH 'hdfs_file' INTO TABLE tablename; 命令,它看起来像是将hdfs_file移动到hive/warehouse目录。 是否有可能(如何?)复制它,而不是移动它,为了该文件,由另一个进程使用。

Parquet vs ORC与ORC与Snappy

我正在对Hive提供的存储格式进行一些testing,并使用Parquet和ORC作为主要选项。 我包括ORC一次默认压缩和一次与Snappy。 我已经阅读了很多文件,说明Parquet在时间/空间复杂性方面与ORC相比更好,但是我的testing与我所经历的文件相反。 跟随我的数据的一些细节。 Table A- Text File Format- 2.5GB Table B – ORC – 652MB Table C – ORC with Snappy – 802MB Table D – Parquet – 1.9 GB 就桌子的压缩而言,镶木地板是最差的。 我的testing结果如下。 行计数操作 Text Format Cumulative CPU – 123.33 sec Parquet Format Cumulative CPU – 204.92 sec ORC Format Cumulative CPU – 119.99 sec […]

与蜂巢相比,impala如何提供更快的查询响应

我最近开始研究使用Hive和Impala查询位于HDFS上的大量CSV数据。 正如我期待的那样,到目前为止我所使用的查询与Impala相比,我得到了更好的响应时间。 我想知道是否有某些types的查询/用例仍然需要Hive,而Impala并不适合。 与Hive相比,Impala如何为HDFS上的相同数据提供更快的查询响应?

在Hive中执行任何查询的时候,有没有办法让列名和输出一起?

在Hive中,当我们做一个查询时(比如: select * from employee ),我们不会在输出中得到任何列名(比如我们在RDBMS SQL中得到的名字,年龄和薪水),我们只得到这些值。 在执行任何查询时,有没有办法让列名与输出一起显示?

如何获取/生成现有的configuration单元表的创build语句?

假设你已经在Hive中有了“table”,是否有像其他数据库一样的快速方法来获得该表的“CREATE”语句?

如何从命令提示符中了解Hive和Hadoop版本?

如何从命令提示符find我正在使用的Hive版本。 以下是详细信息 – 我使用Putty连接到configuration单元表并访问表中的logging。 所以我做的是 – 我打开腻子,并input主机名,我inputleo-ingesting.vip.name.com ,然后点击Open 。 然后我input了我的用户名和密码,然后inputHive sql的命令。 以下是我所做的清单 $ bash bash-3.00$ hive Hive history file=/tmp/rkost/hive_job_log_rkost_201207010451_1212680168.txt hive> set mapred.job.queue.name=hdmi-technology; hive> select * from table LIMIT 1; 那么有没有办法从命令提示符我可以find我使用的Hive版本和Hadoop版本呢?

在Hive中对表进行分区和分区有什么区别?

我知道这两个表都在表中的一列进行,但每个操作又有什么不同。

猪和蜂巢之间的区别? 为什么都有?

我的背景 – Hadoop世界中的4周岁。 使用Cloudera的Hadoop VM在Hive,Pig和Hadoop中混了一下。 阅读了Google关于Map-Reduce和GFS的论文( PDF链接 )。 我明白那个- 猪的语言猪拉丁语是一种从程序员的思维方式转变为像声明式编程风格的SQL,Hive的查询语言与SQL非常相似。 猪坐在Hadoop之上,原则上也可以坐在Dryad之上。 我可能是错的,但Hive与Hadoop紧密相连。 Pig Latin和Hive命令都编译为Map和Reduce作业。 我的问题 – 当一个人(比如说猪)能够达到目的时,两者的目标是什么? 是不是因为猪被雅虎传福音? 和Facebook的蜂巢?