在Python中颠倒正则expression式

我想扭转一个正则expression式。即给定一个正则expression式，我想产生任何string，将匹配该正则expression式。

我知道如何从理论计算机科学背景使用有限状态机来做到这一点，但我只想知道是否有人已经写了一个库来做到这一点。 🙂

我正在使用Python，所以我想要一个Python库。

重申一下，我只想要一个匹配正则expression式的string。像 ”。” 或“。*”将使无限量的string匹配正则expression式，但我不关心所有选项。

我愿意这个库只能用于某个正则expression式子集。

有人在这里有一个类似的（重复？）的问题，我想提供一个帮助程序库，用于生成随机Pythonstring ，我一直在努力。

它包括一个方法， xeger() ，允许您从正则expression式创build一个string：

 >>> import rstr >>> rstr.xeger(r'[AZ]\d[AZ] \d[AZ]\d') u'M5R 2W4'

现在，它适用于大多数基本的正则expression式，但我相信它可以改进。

虽然我在这里看不出多less意义，但是这里是：

 import re import string def traverse(tree): retval = '' for node in tree: if node[0] == 'any': retval += 'x' elif node[0] == 'at': pass elif node[0] in ['min_repeat', 'max_repeat']: retval += traverse(node[1][2]) * node[1][0] elif node[0] == 'in': if node[1][0][0] == 'negate': letters = list(string.ascii_letters) for part in node[1][1:]: if part[0] == 'literal': letters.remove(chr(part[1])) else: for letter in range(part[1][0], part[1][1]+1): letters.remove(chr(letter)) retval += letters[0] else: if node[1][0][0] == 'range': retval += chr(node[1][0][1][0]) else: retval += chr(node[1][0][1]) elif node[0] == 'not_literal': if node[1] == 120: retval += 'y' else: retval += 'x' elif node[0] == 'branch': retval += traverse(node[1][1][0]) elif node[0] == 'subpattern': retval += traverse(node[1][1]) elif node[0] == 'literal': retval += chr(node[1]) return retval print traverse(re.sre_parse.parse(regex).data)

我将正则expression式语法中的所有内容都放到组中 – 这看起来像是一个合理的子集 – 而我忽略了一些细节，比如行尾。 error handling等作为练习留给读者。

在正则expression式中的12个特殊字符中，我们完全可以忽略6个（即使是应用了它们的primefaces），4.5导致了一个微不足道的replace，1.5导致我们真正的思考。

我认为，从中得出的结论并不太有趣。

我不知道有任何模块来做到这一点。如果在Cookbook或PyPI中没有find类似的东西，那么可以尝试使用（未logging的）re.sre_parse模块来滚动你自己的。这可能会帮助你开始：

 In [1]: import re In [2]: a = re.sre_parse.parse("[abc]+[def]*\d?z") In [3]: a Out[3]: [('max_repeat', (1, 65535, [('in', [('literal', 97), ('literal', 98), ('literal', 99)])])), ('max_repeat', (0, 65535, [('in', [('literal', 100), ('literal', 101), ('literal', 102)])])), ('max_repeat', (0, 1, [('in', [('category', 'category_digit')])])), ('literal', 122)] In [4]: eval(str(a)) Out[4]: [('max_repeat', (1, 65535, [('in', [('literal', 97), ('literal', 98), ('literal', 99)])])), ('max_repeat', (0, 65535, [('in', [('literal', 100), ('literal', 101), ('literal', 102)])])), ('max_repeat', (0, 1, [('in', [('category', 'category_digit')])])), ('literal', 122)] In [5]: a.dump() max_repeat 1 65535 in literal 97 literal 98 literal 99 max_repeat 0 65535 in literal 100 literal 101 literal 102 max_repeat 0 1 in category category_digit literal 122

除非你的正则expression式非常简单（即没有星号或加号），否则会有无数的string匹配它。如果你的正则expression式只涉及到连接和交替，那么你可以扩展每个变化到所有的可能性，例如(foo|bar)(baz|quux)可以扩展到列表['foobaz', 'fooquux', 'barbaz', 'barquux'] 。

而其他答案使用重新引擎来parsing出我自己parsing的元素，并返回一个匹配的最小模式。（注意它不处理[^广告]，花式分组结构，行开始/结束特殊字符）。我可以提供unit testing，如果你真的喜欢:)

 import re class REParser(object): """Parses an RE an gives the least greedy value that would match it""" def parse(self, parseInput): re.compile(parseInput) #try to parse to see if it is a valid RE retval = "" stack = list(parseInput) lastelement = "" while stack: element = stack.pop(0) #Read from front if element == "\\": element = stack.pop(0) element = element.replace("d", "0").replace("D", "a").replace("w", "a").replace("W", " ") elif element in ["?", "*"]: lastelement = "" element = "" elif element == ".": element = "a" elif element == "+": element = "" elif element == "{": arg = self._consumeTo(stack, "}") arg = arg[:-1] #dump the } arg = arg.split(",")[0] #dump the possible , lastelement = lastelement * int(arg) element = "" elif element == "[": element = self._consumeTo(stack, "]")[0] # just use the first char in set if element == "]": #this is the odd case of []<something>] self._consumeTo(stack, "]") # throw rest away and use ] as first element elif element == "|": break # you get to an | an you have all you need to match elif element == "(": arg = self._consumeTo(stack, ")") element = self.parse( arg[:-1] ) retval += lastelement lastelement = element retval += lastelement #Complete the string with the last char return retval def _consumeTo(self, stackToConsume, endElement ): retval = "" while not retval.endswith(endElement): retval += stackToConsume.pop(0) return retval

查看UtilityMill的正则expression式逆变器。（根据pyparsing wiki中的示例，可以查看源代码。）

我还没有看到一个Python模块来做到这一点，但我在Perl中看到了一个（部分）实现： Regexp::Genex 。从模块描述来看，这听起来像实现依赖于Perl的正则expression式引擎的内部细节，所以即使从理论的angular度来看也可能没有用处（我没有调查过实现，只是通过文档中的注释）。

我认为，一般来说做你提出的是一个难题，可能需要使用非确定性编程技术。一开始就是parsing正则expression式并构build一个parsing树，然后遍历树并随时创build示例string。具有挑战性的部分可能是反向引用，避免了实现中的无限循环。

我最近在C ++中完成了自动正则expression式逆转： http : //www.benhanson.net/lexertl/blog.html#rev_regex1

要获得Python版本，编写代码生成器来输出lexertl的Python代码将非常简单。我不是Python的，但如果你想帮助语法，我很高兴创build一个文件来做到这一点。

Exrex可以从正则expression式创buildstring。

Exrex是一个命令行工具和python模块，可以为给定的正则expression式生成全部或者随机匹配的string。

例：

 >>> exrex.getone('\d{4}-\d{4}-\d{4}-[0-9]{4}') '3096-7886-2834-5671'

在Python中颠倒正则expression式

学习正则expression式

如何将Connect / Express的logging器输出输出到Winston？

正则expression式从RTFstring中提取文本

正则expression式匹配跨平台换行符

如何否定整个正则expression式？

提取float / double值

正则expression式模式不匹配string中的任何位

崇高的文字：正则expression式将大写字母转换为标题大小写？

如何将所有stringreplace为Notepad ++中每个string中包含的数字？

混淆来自String.split的输出