Java和C / C ++之间进程间通信的最快（低延迟）方法

我有一个Java应用程序，通过TCP套接字连接到C / C ++开发的“服务器”。

应用程序和服务器都运行在同一台机器上，一个Solaris机器上（但我们正在考虑最终迁移到Linux上）。交换的数据types是简单的消息（login，login确认，然后客户端要求某事，服务器答复）。每条消息的长度大约为300个字节。

目前我们正在使用套接字，并且一切正常，但是我正在寻找一种使用IPC方法交换数据（更低的延迟）的更快方式。

我一直在研究networking，并提出了以下技术的参考：

共享内存
pipe道
队列
以及所谓的DMA（直接存储器存取）

但是我找不到适合自己的performance的分析，既没有用JAVA和C / C ++来实现它们，也没有我想象得到的pipe道。

任何人都可以在这方面评论每种方法的性能和可行性吗？任何指针/链接到有用的实现信息？

编辑/更新

下面的评论和答案我在这里，我发现有关Unix域套接字的信息，这似乎是build立在pipe道，并将节省我整个TCP堆栈。这是平台特定的，所以我打算用JNI或Juds或Junixsocket进行testing。

接下来可能的步骤是直接实现pipe道，然后共享内存，虽然我已经被警告复杂的额外水平…

谢谢你的帮助

刚刚在我的Corei5 2.8GHz上testing了来自Java的延迟，只有单字节的发送/接收，刚刚产生的2个Java进程，没有用taskset分配特定的CPU核心：

TCP - 25 microseconds Named pipes - 15 microseconds

现在明确指定核心掩码，如taskset 1 java Srv或taskset 2 java cli ：

 TCP, same cores: 30 microseconds TCP, explicit different cores: 22 microseconds Named pipes, same core: 4-5 microseconds !!!! Named pipes, taskset different cores: 7-8 microseconds !!!!

所以

 TCP overhead is visible scheduling overhead (or core caches?) is also the culprit

与此同时，Thread.sleep（0）（strace显示会导致执行一次sched_yield（）Linux内核调用）需要0.3微秒，因此调度到单核的命名pipe道仍然有很多开销

一些共享内存测量： 2009年9月14日 – Solace Systems今天宣布，统一消息平台API可以使用共享内存传输实现小于700纳秒的平均延迟。 http://solacesystems.com/news/fastest-ipc-messaging/

PS – 第二天以内存映射文件的forms尝试共享内存，如果繁忙的等待是可以接受的，我们可以将等待时间减less到0.3微秒，用这样的代码传递一个字节：

 MappedByteBuffer mem = new RandomAccessFile("/tmp/mapped.txt", "rw").getChannel() .map(FileChannel.MapMode.READ_WRITE, 0, 1); while(true){ while(mem.get(0)!=5) Thread.sleep(0); // waiting for client request mem.put(0, (byte)10); // sending the reply }

注意：Thread.sleep（0）是必需的，所以2个进程可以看到彼此的变化（我还不知道另一种方式）。如果两个进程强制与taskset使用相同的核心，则等待时间将变为1.5微秒 – 这是一个上下文切换延迟

PPS – 0.3微秒是一个很好的数字！下面的代码只需要0.1微秒，而只做一个基本的string连接：

 int j=123456789; String ret = "my-record-key-" + j + "-in-db";

PPPS – 希望这不是太多脱离主题，但最后我尝试用递增静态易失性intvariables（JVM恰好在刷新CPUcaching时replaceThread.sleep（0）），并获得logging！ – 72纳秒延迟Java到Java的进程通信 ！

然而，当强制使用相同的CPU Core时，volatile volatile递增的JVM永远不会相互控制，因此产生了10毫秒的延迟–Linux时间似乎是5ms …所以这只能在有空闲核心的情况下使用 – 否则睡眠（0）更安全。

这个问题在前一段时间被问到，但是你可能会对https://github.com/peter-lawrey/Java-Chronicle感兴趣，它支持典型的200ns的延迟和20M信息/秒的吞吐量。; 它使用进程之间共享的内存映射文件（它也坚持数据，使其最快的方式来坚持数据）

DMA是硬件设备可以在不中断CPU的情况下访问物理RAM的方法。例如，一个常见的例子是硬盘控制器，它可以将字节从磁盘直接复制到RAM中。因此它不适用于IPC。

共享内存和pipe道都由现代操作系统直接支持。因此，他们相当快。队列通常是抽象的，例如在套接字，pipe道和/或共享内存上实现。这可能看起来像一个较慢的机制，但另一种方法是，你创build了这样一个抽象。

这是一个包含各种IPC传输性能testing的项目：

http://github.com/rigtorp/ipc-bench

如果您考虑使用本机访问（因为您的应用程序和“服务器”都在同一台机器上），请考虑JNA ，它具有较less的样板代码供您处理。

迟到了，但想要指出一个开源项目，专门用于测量使用Java NIO的ping延迟。

在这个博客文章中进一步探讨/解释。结果是（RTT纳米）：

 Implementation, Min, 50%, 90%, 99%, 99.9%, 99.99%,Max IPC busy-spin, 89, 127, 168, 3326, 6501, 11555, 25131 UDP busy-spin, 4597, 5224, 5391, 5958, 8466, 10918, 18396 TCP busy-spin, 6244, 6784, 7475, 8697, 11070, 16791, 27265 TCP select-now, 8858, 9617, 9845, 12173, 13845, 19417, 26171 TCP block, 10696, 13103, 13299, 14428, 15629, 20373, 32149 TCP select, 13425, 15426, 15743, 18035, 20719, 24793, 37877

这是接受答案的线。 System.nanotime（）错误（估计没有测量）在40纳米左右测量，因此IPC的实际结果可能会更低。请享用。

我不太了解本地进程间通信，但是我猜想你需要使用本地代码进行通信，你可以使用JNI机制来访问本地代码。所以，从Java你可以调用一个本地函数，与另一个进程交谈。

在我以前的公司，我们曾经使用这个项目http://remotetea.sourceforge.net/ ，很容易理解和整合。

你有没有考虑保持sockets打开，所以连接可以重复使用？

有关JNI性能的Oracle错误报告： http : //bugs.java.com/bugdatabase/view_bug.do? bug_id= 4096069

JNI是一个缓慢的接口，所以Java TCP套接字是应用程序之间通知最快的方法，但这并不意味着您必须通过套接字发送有效载荷。使用LDMA来传输有效载荷，但正如前面的问题所指出的那样，Java对内存映射的支持并不理想，因此您将需要实现一个JNI库来运行mmap。

Java和C / C ++之间进程间通信的最快（低延迟）方法

将<Func <T，bool >>作为参数传入的Moq'ing方法

使用C＃将标签字符插入到文本中

Visual Studio 2005编译时间非常慢

foreach vs someList.ForEach（）{}

restrict关键字在C ++中的含义是什么？

Windows窗体的MVP示例

使用Linq按variables整数范围进行分组

用硬编码元素初始化std :: vector最简单的方法是什么？

TFS代码评论 – 显示更新的文件以回应评论

C中typeof（（c）+ 1）是什么？