TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #72 · 21 апр.

Регулярные выражения иногда могут быть просто монструозными. Выглядеть это может крайне запутанно. Сами регэкспы и без того история непростая, а когда это длинный паттерн на несколько десятков знаков, разобрать там что-либо становится не просто. Но на помощь приходит Python и его стремление сделать нашу жизнь проще! В функциях регулярок можно после паттерна указывать флаги, один из которых позволяет писать паттерны более свободно. А именно, добавлять пробелы и переносы, которые будут игнорированы. В результате мы можем разбить паттерн на строки и добавить комментов. Чтобы это сработало нужно добавить флаг re.VERBOSE. Пробелы в паттерне теперь следует указывать явно спец символами. Согласитесь, что даже с именованными группами а таком виде регэкспа выглядит вполне сносно 😉. #tricks#regex

Резултати

Пронајдени 1 слични објави

Пребарај: #muvera

当前筛选 #muvera清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8062 · 15.07.2025 г., 09:01

🌟MUVERA: уравниваем в скорости многовекторный и одновекторный поиск. MUVERA - алгоритм, разработанный Google Research, который сводит сложную задачу многовекторного поиска обратно к простому и быстрому MIPS, как в подходах с одним вектором. Суть проста: вместо того чтобы работать с громоздким набором векторов, MUVERA сжимает его в единый вектор фиксированной длины, так называемый Fixed Dimensional Encoding (FDE). Главный трюк в том, что скалярное произведение этих новых FDE-векторов очень точно аппроксимирует исходную, «честную» метрику Чамфера. На практике процесс выглядит как двухэтапный конвейер. Сначала MUVERA генерирует FDE для всех документов в базе и индексирует их с помощью обычного MIPS-солвера. Когда приходит запрос, для него тоже создается FDE, и система молниеносно находит небольшой список кандидатов. А уже затем этот короткий список переранжируется с использованием оригинальной, медленной, но точной метрики Чамфера. На выходе получаем и скорость, и качество. В практическом сравнении с предыдущим SOTA методом PLAID, MUVERA показывает в среднем на 10% более высокую полноту выдачи при сокращении задержки на 90%. Чтобы достичь того же качества, алгоритму требуется отобрать в 5-20 раз меньше кандидатов для финального переранжирования. Более того, эти FDE-векторы отлично сжимаются — до 32 раз с минимальной потерей качества. Для тех. кто хочет попробовать, в репозитории проекта на Github есть реализации MUVERA на Python и C++ . 📌Лицензирование: Apache 2.0 🟡Статья 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#MUVERA#GoogleResearch