Функция sub в regex может принимать функцию в качестве аргумента repl.
📄 Из документации:
If repl is a function, it is called for every non-overlapping occurrence of pattern. The function takes a single match object argument, and returns the replacement string.
То есть для каждого совпадения будет вызвана функция для вычисления замены вместо замены на одну и ту же строку для всех совпадений.
Иными словами, для замены разных совпадений на разные строки не потребуется запускать re.sub() много раз для каждой строки замены. Достаточно определить функцию, которая вернёт строку для каждого из совпадений.
Описание слишком запутанное🤔, давайте лучше рассмотрим на простом примере:
Создаем карту замены. То есть какие строки на какие требуется менять.
remap = {
'раз': '1',
'два': '2',
'три': '3',
'четыре': '4',
'пять': '5',
}
Пишем функцию поиска строки для замены. Единственным аргументом будет объект re.Match.
Используя данные этого объекта мы вычисляем замену on-the-fly!
def get_str(match: re.Match):
word = match.group(1)
return remap.get(word.lower()) or word
Пример текста.
text = '''Раз Два Три Четыре Пять
Вместе будем мы считать
Пять Четыре Три Два Раз
Мы считать научим вас
'''
Теперь запускаем re.sub и вместо строки замены (repl) подаём имя функции.
(Данный паттерн ищет отдельные слова в тексте)
>>> print(re.sub(r'(\w+)', get_str, text))
1 2 3 4 5
Вместе будем мы считать
5 4 3 2 1
Мы считать научим вас
Думаю, достаточно наглядно 🤓
#libs#regex
被 Covid 偷走的五年
我依旧觉得 2019 年是去年,要不是写博客梳理我都不知道我干了这么多事。我说什么来着,博客给记忆增加了一个全新的维度,是最好的时间胶囊。
下一个 5 年就是 2030 了,we're literally already closer to 2050 than 2000, can you even imagine?
本文是我 2024 年 8 月 Patreon 的月度选题。本月两个命题平票,由至尊糖妈的双倍票数 tie breaker 所以选了这个话题。加入 patreon 可以跟其它赞助者一起选出下个月你想看的博客文章,并且支持本博客的持续创作。下期选题已经发布欢迎金主点击投票:
- My pet peeves
- Mid 30s vs Mid 20s
- What's your fun fact
#blog#patreon