TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #84 · 13 мај

В продолжение прошлого поста про цифры в мире строк. Почему методы isdigit() и isnumeric() не определяют в строке float и отрицательные значения? Дело в том, что эти методы работают с ЦИФРАМИ, то есть с единичным символом. А строка "-2" или "3.4" это уже ЧИСЛО. То есть не символ а значение, записанное несколькими символами. Все озвученные методы проходятся по каждому символу строки и проверяют их индивидуально. В юникоде есть символы цифр с точками "🄀⒈⒉⒊⒋⒌⒍⒎⒏⒐" Каждая из них это ОДИН СИМВОЛ, поэтому он будет считаться цифрой >>> '⒌'.isdigit(), '⒌'.isnumeric() True, True Но когда мы пишем это выражение в два символа ( 5+точка), то это не работает. >>> '5.'.isdigit(), '5.'.isnumeric() False, False А еще есть такие символы >>> '⑴⑵⑶⑷⑸'.isdigit() True >>> '🄁🄂🄃'.isdigit() True Но они не преобразуются в десятичные цифры >>> '⒈'.isdecimal() False >>> '🄃'.isdecimal() False >>> '⑶'.isdecimal() False #basic

Hashtags

Резултати

Пронајдени 1 слични објави

Пребарај: #muvera

当前筛选 #muvera清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8062 · 15.07.2025 г., 09:01

🌟MUVERA: уравниваем в скорости многовекторный и одновекторный поиск. MUVERA - алгоритм, разработанный Google Research, который сводит сложную задачу многовекторного поиска обратно к простому и быстрому MIPS, как в подходах с одним вектором. Суть проста: вместо того чтобы работать с громоздким набором векторов, MUVERA сжимает его в единый вектор фиксированной длины, так называемый Fixed Dimensional Encoding (FDE). Главный трюк в том, что скалярное произведение этих новых FDE-векторов очень точно аппроксимирует исходную, «честную» метрику Чамфера. На практике процесс выглядит как двухэтапный конвейер. Сначала MUVERA генерирует FDE для всех документов в базе и индексирует их с помощью обычного MIPS-солвера. Когда приходит запрос, для него тоже создается FDE, и система молниеносно находит небольшой список кандидатов. А уже затем этот короткий список переранжируется с использованием оригинальной, медленной, но точной метрики Чамфера. На выходе получаем и скорость, и качество. В практическом сравнении с предыдущим SOTA методом PLAID, MUVERA показывает в среднем на 10% более высокую полноту выдачи при сокращении задержки на 90%. Чтобы достичь того же качества, алгоритму требуется отобрать в 5-20 раз меньше кандидатов для финального переранжирования. Более того, эти FDE-векторы отлично сжимаются — до 32 раз с минимальной потерей качества. Для тех. кто хочет попробовать, в репозитории проекта на Github есть реализации MUVERA на Python и C++ . 📌Лицензирование: Apache 2.0 🟡Статья 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#MUVERA#GoogleResearch