Tag: 分布式计算

Apache Spark对阿卡: 请告诉我Apache Spark和AKKA之间的区别，我知道这两个框架意味着编程分布和并行计算，但我没有看到它们之间的链接或差异。此外，我想获得适合他们每个人的用例。

云计算和分布式计算的区别？: 我想知道关于云计算和分布式计算的差异。我读了一篇关于云计算的文章，感觉到云计算和分布式计算之间有某种联系，所以想问一下技术之间的区别。另外，如果有人能指向我的云计算的有用资源，它将不胜感激。谢谢

什么决定了卡夫卡消费者抵消？: 我对卡夫卡相对较新。我已经做了一些实验，但有些事情我不清楚消费者抵消。根据我的理解，当一个消费者启动时，它将开始读取的偏移量由configuration设置auto.offset.reset （如果我错了，请纠正我）。现在说，例如，主题中有10条消息（偏移0到9），消费者在发生故障之前（或者在杀死消费者之前）恰好消耗了5条消息。然后说我重新启动消费者的过程。我的问题是：如果auto.offset.reset被设置为smallest ，它是否总是开始从偏移0消耗？如果auto.offset.reset被设置为largest ，它是否会开始消耗偏移5？这种情况下的行为总是具有确定性吗？如果我的问题中有任何不清楚的地方，请不要犹豫。提前致谢。

什么是Spark Standalone集群中的工作者，执行者，核心？: 我读集群模式概述，我仍然无法理解Spark Standalone集群中的不同进程和并行性。工作人员是否是JVMstream程？我运行了bin\start-slave.sh ，发现它产生了一个实际上是JVM的worker。根据上述链接，执行程序是在运行任务的工作节点上为应用程序启动的进程。执行者也是一个JVM。这些是我的问题：执行程序是每个应用程序。那么，一个工人的angular色是什么？是否与执行者协调并将结果传回司机？还是司机直接与执行人谈话？如果是这样，那么工人的目的是什么？如何控制应用程序的执行者数量？ 3.可以在执行器内部并行运行任务吗？如果是这样，如何configuration执行程序的线程数？工作者，执行者和执行者核心（–total-executor-cores）之间的关系是什么？每节点有更多的工人意味着什么？更新让我们举例来更好地理解。示例1：具有5个工作节点的独立群集（每个节点具有8个内核）当我使用默认设置启动应用程序时。示例2与示例1相同的群集configuration，但我使用以下设置运行应用程序–executor-cores 10 –total-executor-cores 10。示例3与示例1相同的群集configuration，但我使用以下设置运行应用程序–executor-cores 10 –total-executor-cores 50。示例4与示例1相同的群集configuration，但我使用以下设置运行应用程序–executor-cores 50 –total-executor-cores 50。示例5与示例1相同的群集configuration，但我使用以下设置运行应用程序–executor-cores 50 –total-executor-cores 10。在每个例子中，有多less个执行者？每个执行器有多less个线程？多less个核心？执行者的数量是如何决定的？它是否总是和工人的数量一样？

计算十亿个数字的中位数: 如果你有十亿个数字和一百台电脑，找出这些数字中位数的最好方法是什么？我拥有的一个解决scheme是：在电脑之间平均分配一套。 sorting他们。 find每个集合的中位数。对中位数进行sorting。从最低位到最高位中间一次合并两组。如果我们有m1 < m2 < m3 …那么首先合并Set1和Set2并在结果集合中，我们可以丢弃所有低于Set12 （合并）的中值的Set12 。所以在任何时候我们都有相同的尺寸。顺便说一下，这不能以平行的方式完成。有任何想法吗？

caching和持久性有什么区别？: 就RDD持久性而言，spark cache()和persist()在spark中有什么区别？

解释Apache ZooKeeper: 我正在尝试了解ZooKeeper，它是如何工作的以及它是如何工作的。而我完全困惑。有什么可以和ZooKeeper相媲美的应用吗？如果你知道，那么你会如何描述ZooKeeper的外行？（考虑到我是一个）我已经尝试过Apache维基，zookeeper sourceforge …但我仍然无法与之联系。任何帮助，将不胜感激！我只是阅读通过http://zookeeper.sourceforge.net/index.sf.shtml ，所以没有更多的这样的服务？这只是简单的复制服务器服务？

服务器如何与RMI中的客户端进行会话: 我希望有人告诉我在哪里寻找如何在RMI中的客户端和服务器之间进行会话，即为了search的目的，这个概念的名称是什么？

Spark – 重新分区（）vs coalesce（）: 根据学习星火请记住，重新分区您的数据是一个相当昂贵的操作。 Spark还有一个名为coalesce（）的repartition（）的优化版本，它允许避免数据移动，但只有在减lessRDD分区的数量的时候。我得到的一个区别是，重新分区（）分区的数量可以增加/减less，但与coalesce（）分区的数量只能减less。如果分区分散在多台机器上，并且运行coalesce（），它如何避免数据移动？

C ++ Winsock P2P: 脚本有没有人有使用Winsock的C ++中的对等（p2p）networking的好例子？这是我对一个特别需要使用这种技术的客户的要求（上帝知道为什么）。我需要确定这是否可行。任何帮助将不胜感激。编辑我想避免使用库，以便我可以了解底层的源代码，并进一步了解我的知识。

Interesting Posts

Tag: 分布式计算

Apache Spark对阿卡

云计算和分布式计算的区别？

什么决定了卡夫卡消费者抵消？

什么是Spark Standalone集群中的工作者，执行者，核心？

计算十亿个数字的中位数

caching和持久性有什么区别？

解释Apache ZooKeeper

服务器如何与RMI中的客户端进行会话

Spark – 重新分区（）vs coalesce（）

C ++ Winsock P2P

提高SQLite的每秒插入性能？

嵌套数组。第三层正在消失

testingstring是以另一个string开始还是结束

使用Automapper映射列表

最优雅的方法来检查在Python中的string是否为空？

如何跟上Ubuntu的最新版本的Node.js？ PPA？编译？

一旦加载了networking字体，如何得到通知

testing一个string是否包含数组中的任何string

箭头函数与函数声明/expression式：它们是等价的还是可交换的？

针对Web和移动的ASP.NET Web API社交身份validation

C＃前后增量混淆

有没有办法在MySQL中知道你当前的用户名？

在rails 3.1.0和ubuntu上安装Nokogiri 1.5.0时出错

什么是.un〜文件？或者为什么terminal中的Vim生成.un〜文件？

使用SignalR和ElastiCache失败

Tag: 分布式计算

Apache Spark对阿卡

云计算和分布式计算的区别？

什么决定了卡夫卡消费者抵消？

什么是Spark Standalone集群中的工作者，执行者，核心？

计算十亿个数字的中位数

caching和持久性有什么区别？

解释Apache ZooKeeper

服务器如何与RMI中的客户端进行会话

Spark – 重新分区（）vs coalesce（）

C ++ Winsock P2P

提高SQLite的每秒插入性能？

嵌套数组。 第三层正在消失

testingstring是以另一个string开始还是结束

使用Automapper映射列表

最优雅的方法来检查在Python中的string是否为空？

如何跟上Ubuntu的最新版本的Node.js？ PPA？ 编译？

一旦加载了networking字体，如何得到通知

testing一个string是否包含数组中的任何string

箭头函数与函数声明/expression式：它们是等价的还是可交换的？

针对Web和移动的ASP.NET Web API社交身份validation

C＃前后增量混淆

有没有办法在MySQL中知道你当前的用户名？

在rails 3.1.0和ubuntu上安装Nokogiri 1.5.0时出错

什么是.un〜文件？或者为什么terminal中的Vim生成.un〜文件？

使用SignalR和ElastiCache失败

嵌套数组。第三层正在消失

如何跟上Ubuntu的最新版本的Node.js？ PPA？编译？