为什么这个C ++程序非常快速？

我写了一个基准来比较Python，Ruby，JavaScript和C ++的不同解释器/编译器的性能。正如所料，事实certificate，（优化后的）C ++击败了脚本语言，但是这样做的因素却非常高。

结果是：

sven@jet:~/tmp/js$ time node bla.js # * JavaScript with node * 0 real 0m1.222s user 0m1.190s sys 0m0.015s sven@jet:~/tmp/js$ time ruby foo.rb # * Ruby * 0 real 0m52.428s user 0m52.395s sys 0m0.028s sven@jet:~/tmp/js$ time python blub.py # * Python with CPython * 0 real 1m16.480s user 1m16.371s sys 0m0.080s sven@jet:~/tmp/js$ time pypy blub.py # * Python with PyPy * 0 real 0m4.707s user 0m4.579s sys 0m0.028s sven@jet:~/tmp/js$ time ./cpp_non_optimized 1000 1000000 # * C++ with -O0 (gcc) * 0 real 0m1.702s user 0m1.699s sys 0m0.002s sven@jet:~/tmp/js$ time ./cpp_optimized 1000 1000000 # * C++ with -O3 (gcc) * 0 real 0m0.003s # (!!!) <---------------------------------- WHY? user 0m0.002s sys 0m0.002s

我想知道是否有人可以提供一个解释为什么优化的C ++代码比其他所有事情快三个数量级。

C ++基准testing使用命令行参数来防止在编译时预先计算结果。

下面，我放置了不同语言基准的源代码，这些基准在语义上应该是等价的。另外，我提供了优化的C ++编译器输出（使用gcc）的汇编代码。在查看优化程序集时，似乎编译器将基准testing中的两个循环合并为一个循环，但是仍然存在一个循环！

JavaScript的：

 var s = 0; var outer = 1000; var inner = 1000000; for (var i = 0; i < outer; ++i) { for (var j = 0; j < inner; ++j) { ++s; } s -= inner; } console.log(s);

python：

 s = 0 outer = 1000 inner = 1000000 for _ in xrange(outer): for _ in xrange(inner): s += 1 s -= inner print s

ruby：

 s = 0 outer = 1000 inner = 1000000 outer_end = outer - 1 inner_end = inner - 1 for i in 0..outer_end for j in 0..inner_end s = s + 1 end s = s - inner end puts s

C ++：

 #include <iostream> #include <cstdlib> #include <cstdint> int main(int argc, char* argv[]) { uint32_t s = 0; uint32_t outer = atoi(argv[1]); uint32_t inner = atoi(argv[2]); for (uint32_t i = 0; i < outer; ++i) { for (uint32_t j = 0; j < inner; ++j) ++s; s -= inner; } std::cout << s << std::endl; return 0; }

汇编（当用gcc -S -O3 -std = c ++ 0x编译上述C ++代码时）：

  .file "bar.cpp" .section .text.startup,"ax",@progbits .p2align 4,,15 .globl main .type main, @function main: .LFB1266: .cfi_startproc pushq %r12 .cfi_def_cfa_offset 16 .cfi_offset 12, -16 movl $10, %edx movq %rsi, %r12 pushq %rbp .cfi_def_cfa_offset 24 .cfi_offset 6, -24 pushq %rbx .cfi_def_cfa_offset 32 .cfi_offset 3, -32 movq 8(%rsi), %rdi xorl %esi, %esi call strtol movq 16(%r12), %rdi movq %rax, %rbp xorl %esi, %esi movl $10, %edx call strtol testl %ebp, %ebp je .L6 movl %ebp, %ebx xorl %eax, %eax xorl %edx, %edx .p2align 4,,10 .p2align 3 .L3: # <--- Here is the loop addl $1, %eax # <--- cmpl %eax, %ebx # <--- ja .L3 # <--- .L2: movl %edx, %esi movl $_ZSt4cout, %edi call _ZNSo9_M_insertImEERSoT_ movq %rax, %rdi call _ZSt4endlIcSt11char_traitsIcEERSt13basic_ostreamIT_T0_ES6_ popq %rbx .cfi_remember_state .cfi_def_cfa_offset 24 popq %rbp .cfi_def_cfa_offset 16 xorl %eax, %eax popq %r12 .cfi_def_cfa_offset 8 ret .L6: .cfi_restore_state xorl %edx, %edx jmp .L2 .cfi_endproc .LFE1266: .size main, .-main .p2align 4,,15 .type _GLOBAL__sub_I_main, @function _GLOBAL__sub_I_main: .LFB1420: .cfi_startproc subq $8, %rsp .cfi_def_cfa_offset 16 movl $_ZStL8__ioinit, %edi call _ZNSt8ios_base4InitC1Ev movl $__dso_handle, %edx movl $_ZStL8__ioinit, %esi movl $_ZNSt8ios_base4InitD1Ev, %edi addq $8, %rsp .cfi_def_cfa_offset 8 jmp __cxa_atexit .cfi_endproc .LFE1420: .size _GLOBAL__sub_I_main, .-_GLOBAL__sub_I_main .section .init_array,"aw" .align 8 .quad _GLOBAL__sub_I_main .local _ZStL8__ioinit .comm _ZStL8__ioinit,1,1 .hidden __dso_handle .ident "GCC: (Ubuntu 4.8.2-19ubuntu1) 4.8.2" .section .note.GNU-stack,"",@progbits

优化器已经发现内部循环和随后的行是一个空操作，并将其消除。不幸的是，它还没有设法消除外部循环。

请注意，node.js示例比未优化的C ++示例更快，这表明V8 （节点的JIT编译器）设法消除了至less一个循环。然而，它的优化有一些开销，因为（像任何JIT编译器一样），它必须平衡优化和configuration文件引导重新优化的机会与这样做的成本。

我没有对程序集做一个完整的分析，但是看起来像循环展开了内部循环，并且发现它与内部的减法一起是一个nop。

该组件似乎只做外部循环，只增加计数器，直到外部达到。它甚至可以优化掉，但似乎没有这样做。

有没有办法在优化后cachingJIT编译后的代码，还是每次运行程序时都要重新优化代码？

如果我正在用Python编写代码，我会尽量减小代码的大小，以获取代码所做的“开销”视图。喜欢尝试写这个（更容易阅读国际海事组织）：

 for i in range(outer): innerS = sum(1 for _ in xrange(inner)) s += innerS s -= innerS

甚至s = sum(inner - inner for _ in xrange(outer))

 for (uint32_t i = 0; i < outer; ++i) { for (uint32_t j = 0; j < inner; ++j) ++s; s -= inner; }

内部循环相当于“s + = inner; j = inner”，这是一个优秀的编译器可以做到的。由于variablesj在循环后不见了，整个代码就相当于

 for (uint32_t i = 0; i < outer; ++i) { s += inner; s -= inner; }

同样，一个好的优化编译器可以删除对s的两个变化，然后删除variablesi，而且什么也没有留下。这似乎是发生了什么事。

现在由您来决定这样的优化发生的频率，以及是否有任何实际的生活好处。

尽pipe循环有很多迭代，但程序运行起来可能还不够长，无法解释解释器/ JVM / shell /等的启动时间。在某些环境中，这些可能会大量变化 – 在某些情况下，*咳嗽* Java *咳嗽*需要几秒钟才能到达您的实际代码附近。

理想情况下，你会在每段代码中执行。在所有语言中准确地做到这一点可能会非常棘手，但是即使在打印出前后时钟的时间，也比使用time打印时钟的时间要快，并且可以完成这项工作，因为您可能并不关心超精确的时间。

（我想这并没有真正涉及为什么C + +的例子是如此之快 – 但它可以解释其他结果中的一些变化）。

为什么这个C ++程序非常快速？

为什么在x64 Java中比int慢呢？

Symfony2慢速初始化时间

CodeIgniter中的pconnect选项的优点/缺点

为什么numpy的einsum比numpy的内置函数更快？

debugging与发布性能

Javareflection性能

如何在MySQL中插入“如果不存在”？

对象/数组在JavaScript中的性能是什么？（专门针对Google V8）

C代码循环的性能

Python比C ++更快更轻吗？

为什么这个C ++程序非常快速？

为什么在x64 Java中比int慢呢？

Symfony2慢速初始化时间

CodeIgniter中的pconnect选项的优点/缺点

为什么numpy的einsum比numpy的内置函数更快？

debugging与发布性能

Javareflection性能

如何在MySQL中插入“如果不存在”？

对象/数组在JavaScript中的性能是什么？ （专门针对Google V8）

C代码循环的性能

Python比C ++更快更轻吗？

对象/数组在JavaScript中的性能是什么？（专门针对Google V8）