使用Spark 1.4.0和Tachyon 0.6.4使用OFF_HEAP存储时出错

我试图坚持我的RDD使用堆存储在火花1.4.0和tachyon 0.6.4这样做：

val a = sqlContext.parquetFile("a1.parquet") a.persist(org.apache.spark.storage.StorageLevel.OFF_HEAP) a.count()

之后我得到以下例外。

任何想法呢？

 15/06/16 10:14:53 INFO : Tachyon client (version 0.6.4) is trying to connect master @ localhost/127.0.0.1:19998 15/06/16 10:14:53 INFO : User registered at the master localhost/127.0.0.1:19998 got UserId 3 15/06/16 10:14:53 INFO TachyonBlockManager: Created tachyon directory at /tmp_spark_tachyon/spark-6b2512ab-7bb8-47ca-b6e2-8023d3d7f7dc/driver/spark-tachyon-20150616101453-ded3 15/06/16 10:14:53 INFO BlockManagerInfo: Added rdd_10_3 on ExternalBlockStore on localhost:33548 (size: 0.0 B) 15/06/16 10:14:53 INFO BlockManagerInfo: Added rdd_10_1 on ExternalBlockStore on localhost:33548 (size: 0.0 B) 15/06/16 10:14:53 ERROR TransportRequestHandler: Error while invoking RpcHandler#receive() on RPC id 5710423667942934352 org.apache.spark.storage.BlockNotFoundException: Block rdd_10_3 not found at org.apache.spark.storage.BlockManager.getBlockData(BlockManager.scala:306) at org.apache.spark.network.netty.NettyBlockRpcServer$$anonfun$2.apply(NettyBlockRpcServer.scala:57) at org.apache.spark.network.netty.NettyBlockRpcServer$$anonfun$2.apply(NettyBlockRpcServer.scala:57) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108) at scala.collection.TraversableLike$class.map(TraversableLike.scala:244) at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:108) at org.apache.spark.network.netty.NettyBlockRpcServer.receive(NettyBlockRpcServer.scala:57) at org.apache.spark.network.server.TransportRequestHandler.processRpcRequest(TransportRequestHandler.java:114) at org.apache.spark.network.server.TransportRequestHandler.handle(TransportRequestHandler.java:87) at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:101) at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:51) at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105) at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:333) at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:319) at io.netty.handler.timeout.IdleStateHandler.channelRead(IdleStateHandler.java:254) at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:333)

我也尝试了与文本文件一样的东西，我能够坚持它在tachyon。问题是坚持DataFrame原来从实木复合地板读取。

似乎有一个相关的错误报告： https : //issues.apache.org/jira/browse/SPARK-10314

由于似乎有这个要求，可能有机会很快得到解决这个问题。

从这个主题https://groups.google.com/forum/#!topic/tachyon-users/xb8zwqIjIa4看来，Spark看起来像是使用TRY_CACHE模式写入Tachyon，所以当从caching中清除数据时，数据似乎会丢失。;

这个问题现在已经修复。我现在可以用Spark 1.5和Tachyon 0.7来证实这一点

使用Spark 1.4.0和Tachyon 0.6.4使用OFF_HEAP存储时出错

更新spark中的dataframe列

Apache Spark与Apache Storm

在PySpark中编码和组装多个特征

Apache Spark中的Pandas Melt函数

如何在Spark中转置RDD

Apache Spark：如何在Python中使用pyspark 3

如何更改pyspark中的数据框列名？

如何将rdd对象转换为spark中的dataframe

如何使用Spark DataFrame查询JSON数据列？

如何在spark中设置驱动程序的python版本？