Java和C / C ++之间进程间通信的最快(低延迟)方法

我有一个Java应用程序,通过TCP套接字连接到C / C ++开发的“服务器”。

应用程序和服务器都运行在同一台机器上,一个Solaris机器上(但我们正在考虑最终迁移到Linux上)。 交换的数据types是简单的消息(login,login确认,然后客户端要求某事,服务器答复)。 每条消息的长度大约为300个字节。

目前我们正在使用套接字,并且一切正常,但是我正在寻找一种使用IPC方法交换数据(更低的延迟)的更快方式。

我一直在研究networking,并提出了以下技术的参考:

  • 共享内存
  • pipe道
  • 队列
  • 以及所谓的DMA(直接存储器存取)

但是我找不到适合自己的performance的分析,既没有用JAVA和C / C ++来实现它们,也没有我想象得到的pipe道。

任何人都可以在这方面评论每种方法的性能和可行性吗? 任何指针/链接到有用的实现信息?


编辑/更新

下面的评论和答案我在这里,我发现有关Unix域套接字的信息,这似乎是build立在pipe道,并将节省我整个TCP堆栈。 这是平台特定的,所以我打算用JNI或Juds或Junixsocket进行testing。

接下来可能的步骤是直接实现pipe道,然后共享内存,虽然我已经被警告复杂的额外水平…


谢谢你的帮助

刚刚在我的Corei5 2.8GHz上testing了来自Java的延迟,只有单字节的发送/接收,刚刚产生的2个Java进程,没有用taskset分配特定的CPU核心:

TCP - 25 microseconds Named pipes - 15 microseconds 

现在明确指定核心掩码,如taskset 1 java Srvtaskset 2 java cli

 TCP, same cores: 30 microseconds TCP, explicit different cores: 22 microseconds Named pipes, same core: 4-5 microseconds !!!! Named pipes, taskset different cores: 7-8 microseconds !!!! 

所以

 TCP overhead is visible scheduling overhead (or core caches?) is also the culprit 

与此同时,Thread.sleep(0)(strace显示会导致执行一次sched_yield()Linux内核调用)需要0.3微秒,因此调度到单核的命名pipe道仍然有很多开销

一些共享内存测量: 2009年9月14日 – Solace Systems今天宣布,统一消息平台API可以使用共享内存传输实现小于700纳秒的平均延迟。 http://solacesystems.com/news/fastest-ipc-messaging/

PS – 第二天以内存映射文件的forms尝试共享内存,如果繁忙的等待是可以接受的,我们可以将等待时间减less到0.3微秒,用这样的代码传递一个字节:

 MappedByteBuffer mem = new RandomAccessFile("/tmp/mapped.txt", "rw").getChannel() .map(FileChannel.MapMode.READ_WRITE, 0, 1); while(true){ while(mem.get(0)!=5) Thread.sleep(0); // waiting for client request mem.put(0, (byte)10); // sending the reply } 

注意:Thread.sleep(0)是必需的,所以2个进程可以看到彼此的变化(我还不知道另一种方式)。 如果两个进程强制与taskset使用相同的核心,则等待时间将变为1.5微秒 – 这是一个上下文切换延迟

PPS – 0.3微秒是一个很好的数字! 下面的代码只需要0.1微秒,而只做一个基本的string连接:

 int j=123456789; String ret = "my-record-key-" + j + "-in-db"; 

PPPS – 希望这不是太多脱离主题,但最后我尝试用递增静态易失性intvariables(JVM恰好在刷新CPUcaching时replaceThread.sleep(0)),并获得logging! – 72纳秒延迟Java到Java的进程通信

然而,当强制使用相同的CPU Core时,volatile volatile递增的JVM永远不会相互控制,因此产生了10毫秒的延迟–Linux时间似乎是5ms …所以这只能在有空闲核心的情况下使用 – 否则睡眠(0)更安全。

这个问题在前一段时间被问到,但是你可能会对https://github.com/peter-lawrey/Java-Chronicle感兴趣,它支持典型的200ns的延迟和20M信息/秒的吞吐量。; 它使用进程之间共享的内存映射文件(它也坚持数据,使其最快的方式来坚持数据)

DMA是硬件设备可以在不中断CPU的情况下访问物理RAM的方法。 例如,一个常见的例子是硬盘控制器,它可以将字节从磁盘直接复制到RAM中。 因此它不适用于IPC。

共享内存和pipe道都由现代操作系统直接支持。 因此,他们相当快。 队列通常是抽象的,例如在套接字,pipe道和/或共享内存上实现。 这可能看起来像一个较慢的机制,但另一种方法是, 创build了这样一个抽象。

这是一个包含各种IPC传输性能testing的项目:

http://github.com/rigtorp/ipc-bench

如果您考虑使用本机访问(因为您的应用程序和“服务器”都在同一台机器上),请考虑JNA ,它具有较less的样板代码供您处理。

迟到了,但想要指出一个开源项目,专门用于测量使用Java NIO的ping延迟。

在这个博客文章中进一步探讨/解释。 结果是(RTT纳米):

 Implementation, Min, 50%, 90%, 99%, 99.9%, 99.99%,Max IPC busy-spin, 89, 127, 168, 3326, 6501, 11555, 25131 UDP busy-spin, 4597, 5224, 5391, 5958, 8466, 10918, 18396 TCP busy-spin, 6244, 6784, 7475, 8697, 11070, 16791, 27265 TCP select-now, 8858, 9617, 9845, 12173, 13845, 19417, 26171 TCP block, 10696, 13103, 13299, 14428, 15629, 20373, 32149 TCP select, 13425, 15426, 15743, 18035, 20719, 24793, 37877 

这是接受答案的线。 System.nanotime()错误(估计没有测量)在40纳米左右测量,因此IPC的实际结果可能会更低。 请享用。

我不太了解本地进程间通信,但是我猜想你需要使用本地代码进行通信,你可以使用JNI机制来访问本地代码。 所以,从Java你可以调用一个本地函数,与另一个进程交谈。

在我以前的公司,我们曾经使用这个项目http://remotetea.sourceforge.net/ ,很容易理解和整合。

你有没有考虑保持sockets打开,所以连接可以重复使用?

有关JNI性能的Oracle错误报告: http : //bugs.java.com/bugdatabase/view_bug.do? bug_id= 4096069

JNI是一个缓慢的接口,所以Java TCP套接字是应用程序之间通知最快的方法,但这并不意味着您必须通过套接字发送有效载荷。 使用LDMA来传输有效载荷,但正如前面的问题所指出的那样,Java对内存映射的支持并不理想,因此您将需要实现一个JNI库来运行mmap。