FSharp运行我的algorithm比Python慢

几年前，我通过dynamic编程解决了一个问题：

https://www.thanassis.space/fillupDVD.html

该解决scheme是用Python编码的。

作为扩展我的视野的一部分，我最近开始学习OCaml / F＃。有什么更好的方法来testing水域，而不是通过直接移植我在Python中编写的命令代码到F＃，然后从那里开始，逐步向function性编程解决scheme迈进。

这第一个直接港口的结果是令人不安的：

在Python下：

bash$ time python fitToSize.py .... real 0m1.482s user 0m1.413s sys 0m0.067s

在FSharp下：

  bash$ time mono ./fitToSize.exe .... real 0m2.235s user 0m2.427s sys 0m0.063s

（如果你注意到上面的“单声道”：我也在Windows下testing，与Visual Studio – 相同的速度）。

我很困惑，至less可以说。 Python比F＃更快地运行代码？使用.NET运行库的已编译二进制文件比Python的解释代码运行SLOWER？！？！

我知道VM的启动成本（在这种情况下是单声道），以及JIT如何改进像Python这样的语言的东西，但仍然…我期望加速，而不是放缓！

我可能做错了吗？

我已经在这里上传了代码：

https://www.thanassis.space/fsharp.slower.than.python.tar.gz

请注意，F＃代码或多或less是对Python代码的直接逐行转换。

PS当然还有其他的收益，例如F＃提供的静态types安全性，但是如果F＃下的命令式algorithm的结果速度更糟……我很失望，至less可以说。

编辑：直接访问，在评论中的要求：

Python代码： https ： //gist.github.com/950697

FSharp代码： https ： //gist.github.com/950699

我通过电子邮件联系的Jon Harrop博士解释了发生了什么事情：

问题很简单，该程序已针对Python进行了优化。当程序员比其他人更熟悉一种语言时，这是很常见的。你只需要学习一套不同的规则来决定如何优化F＃程序……有几件事情在我身上跳出来，比如使用“for i in 1..n do”循环，而不是“for i = 1到n做“循环（这是一般较快，但在这里不重要），反复做一个列表List.mapi模仿一个数组索引（不必要地分配中间名单）和您使用F＃TryGetValue分配字典不必要地（接受ref的.NET TryGetValue总体来说速度更快，但在这里并不那么多）

…但真正的杀手问题原来是你使用哈希表来实现密集的2Dmatrix。使用散列表在Python中是理想的，因为它的散列表实现已经非常好的优化了（就像你的Python代码运行速度与F＃编译为本地代码一样快），但是数组是一种更好的方式来表示密集matrix，特别是当你想要一个默认值为零时。

有趣的是，当我第一次编写这个algorithm时，我使用了一个表格 – 为了清晰起见，我将实现改为了字典（避免了数组边界检查使代码更简单 – 而且更容易推理）。

乔恩转换我的代码（回:-)）到它的数组版本，并以100倍的速度运行。

故事的道德启示：

F＃字典需要工作…当使用元组作为键时，编译的F＃比解释Python的哈希表要慢！
显而易见，但重复无害：更清洁的代码有时意味着更慢的代码。

谢谢Jon，非常感谢。

编辑：事实上，用数组replace字典使F＃终于运行在一个编译语言预计运行的速度，并不否定字典的速度（我希望F＃人正在阅读这个）修复的需要。其他algorithm依赖于字典/散列，不能轻易切换到使用数组; 无论何时使用字典，制作程序都会遇到“解释速度”，可以说是一个错误。如果正如一些人在评论中所说的那样，问题不在于F＃而是在.NET Dictionary中，那么我认为这是.NET中的一个错误！

编辑2 ：最清晰的解决scheme，不需要algorithm切换到数组（有些algorithm根本不会顺从）是改变这一点：

 let optimalResults = new Dictionary<_,_>()

进入这个：

 let optimalResults = new Dictionary<_,_>(HashIdentity.Structural)

这一变化使得F＃代码运行速度提高了2.7倍，从而最终击败了Python（速度提高了1.6倍）。奇怪的是，元组默认情况下使用了结构比较，所以原则上键上的字典的比较是相同的（有或没有结构）。哈罗普博士认为速度差异可归因于虚拟调度： “AFAIK，.NET在虚拟调度的优化方面做得不多，在现代硬件上虚拟调度的成本非常高，因为它是跳转程序的”计算转换“与不可预测的位置相对立，因此破坏了分支预测逻辑，并且几乎肯定会导致整个CPUstream水线被刷新和重新加载“ 。

简而言之，正如Don Syme（请看底部的3个答案）所build议的那样，“在使用引用键和.NET集合时，要明确使用结构化哈希”。（哈罗普博士在下面的评论中也表示，我们应该总是使用.NET集合时的结构比较）。

亲爱的F＃团队，如果有办法自动修复这个，请做。

正如Jon Harrop指出的那样，使用Dictionary(HashIdentity.Structural)构build字典可以大大提高性能（在我的计算机上是3的倍数）。这几乎可以肯定是为了获得比Python更好的性能而需要做的微创改变，并且保持你的代码惯用（而不是用结构replace元组等等）并且与Python实现并行。

编辑：我错了，这不是一个值types与引用types的问题。性能问题与哈希函数有关，正如其他评论中所解释的那样。我保留我的答案，因为有一个interentant讨论。我的代码部分解决了性能问题，但这不是一个干净和推荐的解决scheme。

–

在我的计算机上，我通过用一个结构体replace元组，使您的示例运行速度提高了一倍。这意味着，等价的F＃代码应该比你的Python代码运行得更快。我不同意这样的评论，说.NET的哈希表是慢的，我相信与Python或其他语言的实现没有显着的差异。另外，我不同意“你不能一对一翻译代码，希望它更快”：对于大多数任务来说，F＃代码通常比Python更快（静态types对编译器非常有帮助）。在你的示例中，大部分时间都花在做散列表查找上，所以可以想象，这两种语言应该几乎一样快。

我认为性能问题与gabage收集（但我没有与一个分析器检查）有关。在一个SO问题（为什么.Net 4.0中的新Tupletypes是一个引用types（类）而不是一个值types（struct））和一个MSDN页面（ Building元组）：

如果它们是引用types，这意味着如果要在紧凑循环中更改元组中的元素，则可能会产生大量垃圾。 F＃元组是参考types，但是团队感觉如果两个，也许三个元组元素是值types，他们可以实现性能改进。一些创build了内部元组的团队使用了值而不是引用types，因为他们的场景对创build大量的pipe理对象非常敏感。

当然，正如Jon在另一个评论中所说的那样，在你的例子中明显的优化是用数组replacehashtable。数组显然要快得多（整数索引，没有散列，没有碰撞处理，没有重新分配，更紧凑），但是这是非常具体的问题，并没有解释与Python的性能差异（据我所知， Python代码使用哈希表，而不是数组）。

重现我的50％加速，这是完整的代码： http ： //pastebin.com/nbYrEi5d

总之，我用这种typesreplace了元组：

 type Tup = {x: int; y: int}

另外，它看起来像一个细节，但你应该将List.mapi (fun ix -> (i,x)) fileSizes移出封闭循环。我相信Python enumerate实际上并没有分配一个列表（因此在F＃中只分配一次列表是公平的，或者使用Seq模块，或使用可变计数器）。

FSharp运行我的algorithm比Python慢

在C ++程序中使用scanf（）比使用cin更快？

Javaexception有多慢？

数组元素的索引比O（n）快

在C和C ++中几乎相同的代码之间的执行时间差异很大（x9）

C比C ++明显更快

计算例程的速度？

HTTP与HTTPS性能

为什么Python的mmap不能处理大文件？

为什么Delphi的编译速度会降低开放时间，我能做些什么呢？

Java 8 lambda和匿名内部类之间的性能差异