grep如何运行如此之快？

我对shell中的GREP的function感到非常惊讶，之前我曾经在java中使用子string方法，但现在我使用GREP，它在几秒钟内执行，比我以前编写的java代码快得多。（根据我的经验，虽然我可能是错的）

这是说，我一直无法弄清楚它是如何发生的？网上也没有太多可用的东西。

谁能帮我这个？

假设你的问题专门针对GNU grep 。以下是作者Mike Haertel的一段话：

GNU grep是快速的，因为它避免每个input字节。

GNU grep是快速的，因为它执行每个BYTE的很多指令，它看起来。

GNU grep使用了着名的Boyer-Moorealgorithm，该algorithm首先查找目标string的最后一个字母，然后使用查找表来告诉它在find不匹配的字符时可以在input中跳过多远。

GNU grep也展开了Boyer-Moore的内部循环，并且设置了Boyer-Moore增量表的条目，使得它不需要在每个展开的步骤中进行循环出口testing。这样做的结果是，在极限情况下，GNU grep平均每个input字节执行的平均指令less于3个x86指令（它完全忽略了许多字节）。

GNU grep使用原始的Unixinput系统调用，并在读取数据后避免复制数据。而且，GNU grep AVOIDS打破了input到行。寻找换行符会使grep下降几倍，因为要find新行就必须查看每个字节！

因此，GNU grep不是使用面向行的input，而是将原始数据读取到一个大的缓冲区中，使用Boyer-Mooresearch缓冲区，只有当它find匹配时才会去寻找边界换行符（某些命令行选项 – 禁用此优化。）

这个答案是从这里取得的信息的一个子集。

添加到史蒂夫的优秀答案。

它可能并不广为人知，但grep几乎总是比较短的格式string更快，因为在更长的模式中， Boyer-Moore可以更长的跳跃前进，以达到更好的次线速度：

例：

 # after running these twice to ensure apples-to-apples comparison # (everything is in the buffer cache) $ time grep -c 'tg=f_c' 20140910.log 28 0.168u 0.068s 0:00.26 $ time grep -c ' /cc/merchant.json tg=f_c' 20140910.log 28 0.100u 0.056s 0:00.17

更长的forms是35％更快！

怎么来的？ Boyer-Moore从模式string构造了一个跳转表，每当出现不匹配的时候，在比较input中的单个字符到跳转表中的字符之前，它会select最长的跳转（从最后一个字符到最后一个字符）。

这是一个很好的video解释博伊尔摩尔

另一个常见的误解（对于GNU grep）是fgrep比grep快。 fgrep中的f不代表'fast'，代表'fixed'（参见手册页），并且由于两者都是相同的程序，并且都使用Boyer-Moore ，所以在search时它们之间的速度没有区别没有正则expression式特殊字符的固定string。我使用fgrep的唯一原因是有一个正则expression式特殊字符（如. ， []或* ），我不希望它被解释为这样。即使如此，更可移植/标准forms的grep -F比fgrep更fgrep 。

grep如何运行如此之快？

使用grep进行负面匹配（匹配不包含foo的行）

在Windows中是否有像GREP一样的模式匹配工具？

如何在Linux上用grepsearch包含dos命令行结尾的文件（CRLF）？

只蜘蛛网站和返回url

突出显示类似于grep的文本，但不要过滤掉文本

快速find一个文件中不在另一个文件中的行？

如何grep（搜索）提交的代码在Git的历史？

什么是makeinfo，我如何得到它？

如何获得进程ID来杀死一个nohup进程？

（grep）正则expression式匹配非ASCII字符？