TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #146 · 16 сеп.

Функция sub в regex может принимать функцию в качестве аргумента repl. 📄 Из документации: If repl is a function, it is called for every non-overlapping occurrence of pattern. The function takes a single match object argument, and returns the replacement string. То есть для каждого совпадения будет вызвана функция для вычисления замены вместо замены на одну и ту же строку для всех совпадений. Иными словами, для замены разных совпадений на разные строки не потребуется запускать re.sub() много раз для каждой строки замены. Достаточно определить функцию, которая вернёт строку для каждого из совпадений. Описание слишком запутанное🤔, давайте лучше рассмотрим на простом примере: Создаем карту замены. То есть какие строки на какие требуется менять. remap = { 'раз': '1', 'два': '2', 'три': '3', 'четыре': '4', 'пять': '5', } Пишем функцию поиска строки для замены. Единственным аргументом будет объект re.Match. Используя данные этого объекта мы вычисляем замену on-the-fly! def get_str(match: re.Match): word = match.group(1) return remap.get(word.lower()) or word Пример текста. text = '''Раз Два Три Четыре Пять Вместе будем мы считать Пять Четыре Три Два Раз Мы считать научим вас ''' Теперь запускаем re.sub и вместо строки замены (repl) подаём имя функции. (Данный паттерн ищет отдельные слова в тексте) >>> print(re.sub(r'(\w+)', get_str, text)) 1 2 3 4 5 Вместе будем мы считать 5 4 3 2 1 Мы считать научим вас Думаю, достаточно наглядно 🤓 #libs#regex

Hashtags

Резултати

Пронајдени 1 слични објави

Пребарај: #tuvanlanguage

当前筛选 #tuvanlanguage清除筛选

В 2023 мы с Айраной Монгуш и Давидом Дале сделали первый Тувинско-Русский ИИ переводчик — раньше Google и Яндекса. Опубликовали на конференции по машинному переводу WMT 2024. С тех пор я думал: а если без интернета? Прямо на телефоне? Взял Gemma3 1B, обучил на Colab, запустил на CPU. Вот скрин — живые переводы, ~500мс, без GPU. Модель пока сырая. Иногда галлюцинирует. Но когда попадает — попадает точно. Это работающая система. Дальше хочу добиться реального качества: — iOS через Core ML (моя основная среда) — 4-bit квантизация для мобильного — Правильно организовать "трубу" (пайплан) — основная проблема — Организовать более гибкий системный промпт (фью-шот промптинг) — Почистить датасет и обогатить синтетически — Сравнить несколько моделей — Выпустить офлайн-приложение для тувинцев 💬 Что сейчас работает для low-resource MT с ~300к парами? Интересно всё — архитектуры, трюки при обучении, способы улучшить качество на маленьком датасете. #NLP#Gemma3#iOS#CoreML#TuvanLanguage#EdgeAI#Google