Регулярные выражения иногда могут быть просто монструозными. Выглядеть это может крайне запутанно. Сами регэкспы и без того история непростая, а когда это длинный паттерн на несколько десятков знаков, разобрать там что-либо становится не просто.
Но на помощь приходит Python и его стремление сделать нашу жизнь проще!
В функциях регулярок можно после паттерна указывать флаги, один из которых позволяет писать паттерны более свободно. А именно, добавлять пробелы и переносы, которые будут игнорированы. В результате мы можем разбить паттерн на строки и добавить комментов.
Чтобы это сработало нужно добавить флаг re.VERBOSE. Пробелы в паттерне теперь следует указывать явно спец символами.
Согласитесь, что даже с именованными группами а таком виде регэкспа выглядит вполне сносно 😉.
#tricks#regex
🎉 Нашу статью приняли на EMNLP 2025 в Main Track.
💪 Выводим распознавание жестовых языков на новый качественный уровень. В статье достигаем state-of-the-art🌿 на жестовых языках разных стран, включая в первую очередь русский жестовый язык (РЖЯ). Показываем, что качественный претрейн и предобработка — залог успеха.
Спасибо авторам: @your_petros@ilyaovodov@nagadit@hukenovs@karinakvanchiani
📝Жестовый язык: похожее в непохожем и наоборот
📖Logos as a Well-Tempered Pre-train for Sign Language Recognition
До встречи на конференции!
#research#rsl#emnlp
BORSch покорил наши сердца
Сегодня русскоязычное сообщество на EMNLP обсуждает работу BORSch, в которой авторы исследуют особенности знания мультимодальных моделей кухни постсоветского пространства. С этой целью они собрали мультимодальный датасет BORSch, включающий 1147 русскоязычных и 823 украиноязычных блюда, относящихся к странам постсоветского региона.
Например:
Откуда блюдо кывырма? + фото кывырмы
Gold answer: Gagauzia (🇲🇩 Moldova)
На примере BORSch авторы показывают, что даже передовые модели испытывают трудности при определении происхождения блюд из постсоветских стран — как в текстовой, так и в мультимодальной задаче Question Answering (QA): вместо правильного ответа они чаще отдают предпочтение стране, на языке которой был написан промпт.
Вывод (ИМХО): когда используете LLM для личных целей, не забывайте включать функцию Search (искать в сети). Не мучайте моделей кывырмой и эчпочмаками, Гугл — наше всё. Хотя, подозреваю, что с происхождением блюд на разных языках тоже может возникать диссонанс.
А работа и правда стоящая, особенно здорово, что с акцентом на постсовесткие языки.
@mashkka_ds
#llm#emnlp#новостисполей#трудовыебудни