Функция sub в regex может принимать функцию в качестве аргумента repl.
📄 Из документации:
If repl is a function, it is called for every non-overlapping occurrence of pattern. The function takes a single match object argument, and returns the replacement string.
То есть для каждого совпадения будет вызвана функция для вычисления замены вместо замены на одну и ту же строку для всех совпадений.
Иными словами, для замены разных совпадений на разные строки не потребуется запускать re.sub() много раз для каждой строки замены. Достаточно определить функцию, которая вернёт строку для каждого из совпадений.
Описание слишком запутанное🤔, давайте лучше рассмотрим на простом примере:
Создаем карту замены. То есть какие строки на какие требуется менять.
remap = {
'раз': '1',
'два': '2',
'три': '3',
'четыре': '4',
'пять': '5',
}
Пишем функцию поиска строки для замены. Единственным аргументом будет объект re.Match.
Используя данные этого объекта мы вычисляем замену on-the-fly!
def get_str(match: re.Match):
word = match.group(1)
return remap.get(word.lower()) or word
Пример текста.
text = '''Раз Два Три Четыре Пять
Вместе будем мы считать
Пять Четыре Три Два Раз
Мы считать научим вас
'''
Теперь запускаем re.sub и вместо строки замены (repl) подаём имя функции.
(Данный паттерн ищет отдельные слова в тексте)
>>> print(re.sub(r'(\w+)', get_str, text))
1 2 3 4 5
Вместе будем мы считать
5 4 3 2 1
Мы считать научим вас
Думаю, достаточно наглядно 🤓
#libs#regex
🌐📖Collective Licensing for AI Era: RSL Launches New Rights Model
Real Simple Licensing (RSL) has launched a nonprofit collective rights platform aimed at protecting online publishers and creators in the age of generative AI. Through the RSL Standard, the organization enables content owners to collectively negotiate fair compensation when their work is used to generate AI outputs, setting market-wide licensing terms.
Modeled after organizations like ASCAP and BMI in the music industry, the RSL Collective introduces a unified rights framework for the digital era. For the first time, publishers and creators can pool rights into a single platform to establish fair market prices and simplify licensing for AI companies, ensuring they are not left out of the AI economy.
#AIEthics#Copyright#RSL#GenerativeAI#ResponsibleAI
🎉 Нашу статью приняли на EMNLP 2025 в Main Track.
💪 Выводим распознавание жестовых языков на новый качественный уровень. В статье достигаем state-of-the-art🌿 на жестовых языках разных стран, включая в первую очередь русский жестовый язык (РЖЯ). Показываем, что качественный претрейн и предобработка — залог успеха.
Спасибо авторам: @your_petros@ilyaovodov@nagadit@hukenovs@karinakvanchiani
📝Жестовый язык: похожее в непохожем и наоборот
📖Logos as a Well-Tempered Pre-train for Sign Language Recognition
До встречи на конференции!
#research#rsl#emnlp