Функция sub в regex может принимать функцию в качестве аргумента repl.
📄 Из документации:
If repl is a function, it is called for every non-overlapping occurrence of pattern. The function takes a single match object argument, and returns the replacement string.
То есть для каждого совпадения будет вызвана функция для вычисления замены вместо замены на одну и ту же строку для всех совпадений.
Иными словами, для замены разных совпадений на разные строки не потребуется запускать re.sub() много раз для каждой строки замены. Достаточно определить функцию, которая вернёт строку для каждого из совпадений.
Описание слишком запутанное🤔, давайте лучше рассмотрим на простом примере:
Создаем карту замены. То есть какие строки на какие требуется менять.
remap = {
'раз': '1',
'два': '2',
'три': '3',
'четыре': '4',
'пять': '5',
}
Пишем функцию поиска строки для замены. Единственным аргументом будет объект re.Match.
Используя данные этого объекта мы вычисляем замену on-the-fly!
def get_str(match: re.Match):
word = match.group(1)
return remap.get(word.lower()) or word
Пример текста.
text = '''Раз Два Три Четыре Пять
Вместе будем мы считать
Пять Четыре Три Два Раз
Мы считать научим вас
'''
Теперь запускаем re.sub и вместо строки замены (repl) подаём имя функции.
(Данный паттерн ищет отдельные слова в тексте)
>>> print(re.sub(r'(\w+)', get_str, text))
1 2 3 4 5
Вместе будем мы считать
5 4 3 2 1
Мы считать научим вас
Думаю, достаточно наглядно 🤓
#libs#regex
🪐 The galaxy ESO 137-001, streaking through the Norma Cluster about 220 million light-years away, has a spectacular "tadpole" shape with long blue tails streaming out behind it. These tails are made of hot, stripped gas and young stars that formed as the galaxy plunges through the dense cluster, showing how powerful cosmic forces can stretch and reshape galaxies far beyond the classic spirals and ovals. ✨
#galaxies⚡#shapes⚡#cluster⚡#nasa⚡#galaxy⚡#stars⚡#astronomy⚡#universe⚡#cosmos⚡#space
👉subscribe Universe Mysteries
👉more Channels
🪐 The massive galaxy cluster Abell 370, situated about 4 billion light-years away in the constellation Cetus, acts as a colossal cosmic lens. Its immense gravity bends and magnifies the light from galaxies far beyond, creating spectacular arcs and distorted images that unveil some of the most distant and faint structures ever seen in the universe. ✨
#lensing⚡#galaxies⚡#cluster⚡#nasa⚡#galaxy⚡#stars⚡#astronomy⚡#universe⚡#cosmos⚡#space
👉subscribe Universe Mysteries
Открытый вебинар про сегментацию 29 августа
Сегментация – одна из самых сложных штук в анализе данных. И одна из самых опасных. Потому что есть соблазнительное лёгкое решение: быстренько закинуть переменные в K-means, нажать на две кнопки, задать число кластеров, и всё, у тебя уже что-то получилось. А бизнесу потом расхлёбывать. Бизнесу потом жить с этим.
29 августа заглянем под капот сегментации. Вопросы, которые обсудим на вебинаре:
— Почему для сегментации недостаточно только кластерного анализа, и нужны также другие методы? Какие?
— Почему нельзя полагаться на машинное решение, даже если вы гуру кластерного анализа?
— Почему нельзя задавать слишком много переменных на вход?
— Зачем обязательно нормировать сегментирующие переменные? И как нормировать?
— Кластеры на факторах: да или нет?
— Почему K-means – плохой метод, если кластерные центры неизвестны?
— Как понять, по каким именно переменным сегменты различаются, а какие переменные лишние?
— Как сократить список переменных, чтобы легко идентифицировать сегмент?
— Как воспроизводить полученные сегменты в последующих исследованиях?
Как всегда, смотрим всё на примерах из нашей исследовательской практики.
Спикер: Марк Шафир, CEO & Co-Founder RADAR и RADAR.Школы
Формат: Zoom-конференция
Дата и время: 29 августа 2024, в 19:00 МСК
Участие бесплатное, необходима регистрация
#radar_school#lectures#webinar#cluster#segmentation#mark_shaphir