用Pythonreplace多个字符

我需要replace一些字符,如下所示: & – > \&# – > \# ,…

我编码如下,但我想应该有一些更好的办法。 任何提示?

 strs = strs.replace('&', '\&') strs = strs.replace('#', '\#') ... 
 >>> string="abc&def#ghi" >>> for ch in ['&','#']: ... if ch in string: ... string=string.replace(ch,"\\"+ch) ... >>> print string abc\&def\#ghi 

replace两个字符

我将当前答案中的所有方法与一个额外的时间一起计时。

abc&def#ghi的inputstringreplace& – > \&和# – >#,最快的方法就是将replace项链接在一起,例如: text.replace('&', '\&').replace('#', '\#')

每个function的计时:

  • a)1000000次循环,最好是3次:每循环1.47μs
  • b)1000000个循环,最好是3:每个循环1.51μs
  • c)100000个循环,最好是每个循环12.3μs
  • d)100000个回路,最好每个回路3:12μs
  • e)100000个循环,最好是3:每个循环3.27μs
  • f)1000000循环,最好是3:每循环0.817μs
  • g)100000循环,最好是3:每循环3.64μs
  • h)1000000个循环,最好为3:每循环0.927μs
  • i)1000000循环,最好是3:每循环0.814μs

这里是function:

 def a(text): chars = "&#" for c in chars: text = text.replace(c, "\\" + c) def b(text): for ch in ['&','#']: if ch in text: text = text.replace(ch,"\\"+ch) import re def c(text): rx = re.compile('([&#])') text = rx.sub(r'\\\1', text) RX = re.compile('([&#])') def d(text): text = RX.sub(r'\\\1', text) def mk_esc(esc_chars): return lambda s: ''.join(['\\' + c if c in esc_chars else c for c in s]) esc = mk_esc('&#') def e(text): esc(text) def f(text): text = text.replace('&', '\&').replace('#', '\#') def g(text): replacements = {"&": "\&", "#": "\#"} text = "".join([replacements.get(c, c) for c in text]) def h(text): text = text.replace('&', r'\&') text = text.replace('#', r'\#') def i(text): text = text.replace('&', r'\&').replace('#', r'\#') 

这样计时:

 python -mtimeit -s"import time_functions" "time_functions.a('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.b('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.c('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.d('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.e('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.f('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.g('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.h('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.i('abc&def#ghi')" 

replace17个字符

这里是类似的代码来做同样的事情,但有更多的字符来转义(\ * * {}>#+ – 。!$):

 def a(text): chars = "\\`*_{}[]()>#+-.!$" for c in chars: text = text.replace(c, "\\" + c) def b(text): for ch in ['\\','`','*','_','{','}','[',']','(',')','>','#','+','-','.','!','$','\'']: if ch in text: text = text.replace(ch,"\\"+ch) import re def c(text): rx = re.compile('([&#])') text = rx.sub(r'\\\1', text) RX = re.compile('([\\`*_{}[]()>#+-.!$])') def d(text): text = RX.sub(r'\\\1', text) def mk_esc(esc_chars): return lambda s: ''.join(['\\' + c if c in esc_chars else c for c in s]) esc = mk_esc('\\`*_{}[]()>#+-.!$') def e(text): esc(text) def f(text): text = text.replace('\\', '\\\\').replace('`', '\`').replace('*', '\*').replace('_', '\_').replace('{', '\{').replace('}', '\}').replace('[', '\[').replace(']', '\]').replace('(', '\(').replace(')', '\)').replace('>', '\>').replace('#', '\#').replace('+', '\+').replace('-', '\-').replace('.', '\.').replace('!', '\!').replace('$', '\$') def g(text): replacements = { "\\": "\\\\", "`": "\`", "*": "\*", "_": "\_", "{": "\{", "}": "\}", "[": "\[", "]": "\]", "(": "\(", ")": "\)", ">": "\>", "#": "\#", "+": "\+", "-": "\-", ".": "\.", "!": "\!", "$": "\$", } text = "".join([replacements.get(c, c) for c in text]) def h(text): text = text.replace('\\', r'\\') text = text.replace('`', r'\`') text = text.replace('*', r'\*') text = text.replace('_', r'\_') text = text.replace('{', r'\{') text = text.replace('}', r'\}') text = text.replace('[', r'\[') text = text.replace(']', r'\]') text = text.replace('(', r'\(') text = text.replace(')', r'\)') text = text.replace('>', r'\>') text = text.replace('#', r'\#') text = text.replace('+', r'\+') text = text.replace('-', r'\-') text = text.replace('.', r'\.') text = text.replace('!', r'\!') text = text.replace('$', r'\$') def i(text): text = text.replace('\\', r'\\').replace('`', r'\`').replace('*', r'\*').replace('_', r'\_').replace('{', r'\{').replace('}', r'\}').replace('[', r'\[').replace(']', r'\]').replace('(', r'\(').replace(')', r'\)').replace('>', r'\>').replace('#', r'\#').replace('+', r'\+').replace('-', r'\-').replace('.', r'\.').replace('!', r'\!').replace('$', r'\$') 

下面是相同的inputstringabc&def#ghi

  • a)100000个循环,最好是3个:每个循环6.72μs
  • b) 100000个循环,最好是3:每循环2.64μs
  • c)100000个循环,每个循环最好3:11.9μs
  • d)100000个循环,最好是每个循环3:4.92μs
  • e) 100000个循环,最好为3:每循环2.96μs
  • f)100000个循环,最好为3:每循环4.29μs
  • g)100000个循环,最好3个:每个循环4.68μs
  • h)100000个循环,最好为3:每循环4.73μs
  • i)100000个循环,最好为3:每循环4.24μs

并且用更长的inputstring( ## *Something* and [another] thing in a longer sentence with {more} things to replace$ ):

  • a)100000个循环,最好是3:每个循环7.59μs
  • b)100000个循环,最好是3:每循环6.54μs
  • c)100000个循环,最好每个循环3:16.9μs
  • d)100000个循环,最好3个:每个循环7.29μs
  • e)100000个循环,每个循环最好3:12.2μs
  • f) 100000次循环,最好3次:每循环5.38μs
  • g)10000次循环,最好3次:每个循环21.7μs
  • h) 100000个循环,最好是3个:每个循环5.7μs
  • i) 100000循环,最好是3:每循环5.13μs

添加几个变体:

 def ab(text): for ch in ['\\','`','*','_','{','}','[',']','(',')','>','#','+','-','.','!','$','\'']: text = text.replace(ch,"\\"+ch) def ba(text): chars = "\\`*_{}[]()>#+-.!$" for c in chars: if c in text: text = text.replace(c, "\\" + c) 

用较短的input:

  • ab)100000个循环,最好3个:每个循环7.05μs
  • ba)100000循环,最好是3:每循环2.4μs

随着更长的input:

  • ab)100000个循环,最好是3:每个循环7.71μs
  • ba)100000循环,最好是3:每循环6.08μs

所以我打算用可读性和速度来使用ba

附录

在评论中被haccks提示, abba之间的一个区别是if c in text:if c in text: check。 让我们testing他们两个更多的变种:

 def ab_with_check(text): for ch in ['\\','`','*','_','{','}','[',']','(',')','>','#','+','-','.','!','$','\'']: if ch in text: text = text.replace(ch,"\\"+ch) def ba_without_check(text): chars = "\\`*_{}[]()>#+-.!$" for c in chars: text = text.replace(c, "\\" + c) 

Python 2.7.14和3.6.3的每个循环的时间单位是μs,而与之前设置的机器不同,因此无法直接进行比较。

 ╭────────────╥──────┬───────────────┬──────┬──────────────────╮ │ Py, input ║ ab │ ab_with_check │ ba │ ba_without_check │ ╞════════════╬══════╪═══════════════╪══════╪══════════════════╡ │ Py2, short ║ 8.81 │ 4.22 │ 3.45 │ 8.01 │ │ Py3, short ║ 5.54 │ 1.34 │ 1.46 │ 5.34 │ ├────────────╫──────┼───────────────┼──────┼──────────────────┤ │ Py2, long ║ 9.3 │ 7.15 │ 6.85 │ 8.55 │ │ Py3, long ║ 7.43 │ 4.38 │ 4.41 │ 7.02 │ └────────────╨──────┴───────────────┴──────┴──────────────────┘ 

我们可以得出结论:

  • 那些支票的人比没有支票的人快4倍

  • 在Python 3中, ab_with_check略微领先,但是ba (带有检查)在Python 2上有更大的优势

  • 但是,最大的教训是Python 3比Python 2快3倍 ! Python 3上的最慢和Python 2上的最快之间没有太大的区别!

只需链接这样的replacefunction

 strs = "abc&def#ghi" print strs.replace('&', '\&').replace('#', '\#') # abc\&def\#ghi 

如果replace的数量会更多,可以用这种通用的方法来完成

 strs, replacements = "abc&def#ghi", {"&": "\&", "#": "\#"} print "".join([replacements.get(c, c) for c in strs]) # abc\&def\#ghi 

你总是要预先加一个反斜杠吗? 如果是这样,请尝试

 import re rx = re.compile('([&#])') # ^^ fill in the characters here. strs = rx.sub('\\\\\\1', strs) 

这可能不是最有效的方法,但我认为这是最简单的方法。

你可以考虑写一个通用的转义函数:

 def mk_esc(esc_chars): return lambda s: ''.join(['\\' + c if c in esc_chars else c for c in s]) >>> esc = mk_esc('&#') >>> print esc('Learn & be #1') Learn \& be \#1 

这样你可以使你的函数可以configuration一个应该被转义的字符列表。

仅供参考,这对于OP来说很less或根本没有用,但对其他读者可能是有用的(请不要低估,我意识到这一点)。

作为一个有点荒谬但有趣的练习,想看看我是否可以使用python函数式编程来replace多个字符。 我敢肯定,这不会打败只是调用两次()。 如果性能是一个问题,你可以很容易地打败这个锈,C,茱莉亚,Perl,Java,JavaScript甚至AWK。 它使用一个名为pytoolz的外部“helper”包,通过cython加速( cytoolz,这是一个pypi包 )。

 from cytoolz.functoolz import compose from cytoolz.itertoolz import chain,sliding_window from itertools import starmap,imap,ifilter from operator import itemgetter,contains text='&hello#hi&yo&' char_index_iter=compose(partial(imap, itemgetter(0)), partial(ifilter, compose(partial(contains, '#&'), itemgetter(1))), enumerate) print '\\'.join(imap(text.__getitem__, starmap(slice, sliding_window(2, chain((0,), char_index_iter(text), (len(text),)))))) 

我甚至不会解释这个,因为没有人会打扰使用这个来完成多个replace。 不过,我觉得这样做有点成就,认为这可能会激发其他读者或赢得代码混淆比赛。

 >>> a = '&#' >>> print a.replace('&', r'\&') \&# >>> print a.replace('#', r'\#') &\# >>> 

你想使用一个'原始'string(用replacestring前缀'r'表示),因为原始string不能专门处理反斜杠。