TGINSIGHT CHAT
DevOps
@DevOPSitsec
ТехнологииПо всем вопросам- @workakkk @itchannels_telegram - 🔥полезные ит-каналы https://t.me/Golang_google - Golang программирование @golangl - golang chat @GolangJobsit - golang channel jobs @golang_jobsgo - jobs РКН: clck.ru/3FmvZA #VRHSZ
Последние посты
Тег: #llm · 9 постов
📌Google разработала алгоритм квантования KV-кэша без потери точности. Подразделение Research анонсировало TurboQuant, алгоритм векторного квантования, объединяющий 2 других метода - QJL и PolarQuant, который решает проблему увеличения KV-кэша при работе с длинным контекстом. TurboQuant будет представлен на ICLR 2026, PolarQuant - на AISTATS 2026. KV-кэш хранит промежуточные представления токенов, чтобы модель не пересчитывала их на каждом шаге генерации. С ростом контекста он превращается в узкое место по памяти. Обычное векторное квантование сжимает эти данные, но вносит накладные расходы: для каждого блока нужно хранить константы квантования в полной точности, а это плюс 1–2 бита на элемент, что частично обесценивает само сжатие. 🟡TurboQuant - двухэтапный пайплайн. Сначала PolarQuant: случайный поворот выравнивает геометрию векторов, после чего они переводятся из декартовых координат в полярные (радиус и угол). Распределение углов оказывается предсказуемым и сконцентрированным, поэтому нормализация и хранение дополнительных констант становятся больше не нужны. На втором этапе подключается QJL, метод на основе преобразования Джонсона-Линденштраусса, который кодирует остаточную ошибку первого этапа всего одним знаковым битом и через встроенную оценочную функцию сочетает высокоточный запрос с низкоточными сжатыми данными, корректно вычисляя attention score. Ни один из методов не требует обучения или дообучения и работает в режиме "без предварительного анализа набора данных". Алгоритмы тестили на бенчмарках для длинного контекста: LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval с моделями Gemma и Mistral. При квантовании KV-кэша до 3 бит TurboQuant показал нулевую деградацию точности на всех задачах: поиск «иголки в стоге сена», QA, генерация кода, суммаризация. Объем KV-кэша при этом сократился в 6 раз. На H100 четырехбитный TurboQuant ускорил вычисление attention-логитов до 8 раз по сравнению с 32-битными ключами. Область применения не ограничивается KV-кэшем. В экспериментах с высокоразмерным векторным поиском TurboQuant стабильно превзошел по recall методы PQ и RaBitQ несмотря на то, что те использовали крупные код-буки и подстройку под конкретный датасет. 🟡Статья 🟡Arxiv @ai_machinelearning_big_data 🎯Полезные Мл-ресурсы🚀Max #AI#ML#LLM#TurboQuant#Google
Hashtags
Модель Llama-Embed-Nemotron-8B от NVIDIA вышла на 1-е место в рейтинге MMTEB — став лучшей открытой и переносимой моделью эмбеддингов в мире. Она установила новый стандарт в задачах поиска, реранжирования и семантического сходства более чем на 1000 языках, превзойдя решения Google GeminiEmbedding и Alibaba Qwen3-8B. Построенная на базе Llama-3.1-8B, модель обучалась на 16 млн пар “запрос-документ”, прошла инструкционно-ориентированный fine-tuning и использует модельное слияние (model merging) для объединения многоязычного поиска в единую систему. Это - большой шаг вперёд для open-source ИИ и многоязычных исследований. https://huggingface.co/nvidia/omni-embed-nemotron-3b #AI#NVIDIA#Llama#Embeddings#Multilingual#Retrieval#OpenSource#LLM#SemanticSearch#Nemotron#MMTEB#DeepLearning#AIResearch
⚡️ Релиз Agent S3 - продвинутый агент для работы с компьютером, который приближается к человеческому уровню. Вместо того, чтобы усложнять одну модель, авторы запускают несколько агентов параллельно и затем выбирают лучший результат. Метод назвили **Behavior Best-of-N (bBoN). Как работает: - Каждый агент пробует решить задачу. - Его действия переводятся в поведенческий нарратив - короткое описание, что реально изменилось на экране. - Специальный судья сравнивает эти нарративы и выбирает лучший. Результаты: - GPT-5 с 10 параллельными агентами → 69.9% успеха - Для примера у GPT-5 Mini → 60.2% - Agent S3* набирает на +10% выше предыдущей SOTA 📄Paper: http://arxiv.org/abs/2510.02250 💻Code: http://github.com/simular-ai/Agent-S 📝Blog: http://simular.ai/articles/agent-s3 @ai_machinelearning_big_data #AI#Agents#AgentS3#OSWorld#SimularAI#LLM
🚀 Qwen3-Coder — новая мощная open-source модель от Alibaba для кодинга Модель с архитектурой MoE: - 480B параметров в общей сложности - 35B активных параметров - Контекст 256k, но легко масштабируется до 1M токенов 📈 Производительность: - На уровне Claude 4 Sonnet - Лучше или на уровне GPT-4.1 на многих задачах - Обходит Kimi K2, DeepSeek V3 на ряде бенчмарков 🧩 Модель уже доступна: - На HuggingFace — можно скачать и запускать - В OpenRouter — $1/M токенов вход, $5/M выход (в 3 раза дешевле Claude Sonnet: $3 и $15) Попробовать бесплатно можно: 🟡Через чат: ttps://chat.qwen.ai/) 🟡GitHub link: https://github.com/QwenLM/qwen-code 🟡Blog:https://qwenlm.github.io/blog/qwen3-coder/ 🟡Model: https://hf.co/Qwen/Qwen3-Coder-480B-A35B-Instruct Qwen3-Coder — это просто одна из лучших моделей для программирования, которые мы когда-либо видели. #qwen#ml#ai#llm#Alibaba @data_analysis_ml
🌟GRESO: ускорение RL-обучения языковых моделей умным отбором данных. GRESO - это новый алгоритм для эффективного обучения с подкреплением больших языковых моделей, который сокращает вычислительные затраты на 40–60% без потери качества. Его суть в предварительной фильтрации «бесполезных» промптов, тех, что не дают модели обучаться, еще до дорогостоящей стадии rollout (генерации ответов модели). В основе GRESO — вероятностная модель, предсказывающая, стоит ли прогонять промпт через LLM. Алгоритм анализирует историю вознаграждений (reward dynamics) за прошлые эпохи обучения: если промпт много раз подряд давал идентичные награды на всех сгенерированных ответах (их называют zero-variance), он, скорее всего, бесполезен и сейчас. GRESO не блокирует их жестко, он вычисляет вероятность пропуска , опираясь на число идущих подряд «пустых» прогонов и базовую вероятность «исследования». Это позволяет иногда перепроверять сложные промпты, на тот случай, если вдруг модель «доучилась» и теперь они полезны. Базовая вероятность автоматически настраивается в реальном времени: если доля бесполезных промптов выше целевого значения (например, 25%), GRESO ее снижает, экономя ресурсы; если ниже — повышает, добавляя гибкости. Плюс, алгоритм разделяет промпты на легкие и сложные, применяя к ним разную политику исследования (сложные проверяет чаще, так как они перспективнее для обучения сильной модели). А чтобы не гонять большие батчи ради пары примеров, размер выборки динамически подстраивается под текущие нужды на основе вычисления из недостающих данных, α — текущей доли пустых промптов и запаса надежности. Хотя GRESO и экономит сотни часов на H100, делая RL-тюнинг доступнее, у него есть нюансы: 🟠он фильтрует только очевидные zero-variance промпты, но не ранжирует остальные по «полезности», иными словами, не отличает средне-сложные задания от крайне ценных. Это можно доработать, добавив оценку информативности. 🟠алгоритм требует мониторинга. Если целевая доля бесполезных промптов задана неверно, эффективность падает. ▶️ На практике потестить GRESO можно используя набор кода из репозитория проекта на Qwen Math 1.5В или Qwen Math 7b, есть несколько подготовленных скриптов файнтюна в train-scripts. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#RL#GRESO
📌Как Gemini превращает изучение языков в персонализированный опыт: обзор 3 экспериментов. Представьте, что учите язык не по учебникам, а через ситуации, в которых оказываетесь каждый день. Именно эту идею воплотила команда Google в проекте Little Language Lessons— трех экспериментах на базе Gemini API, которые делают обучение живым и контекстным. Первый эксперимент, Tiny Lesson, решает проблему «как сказать это сейчас?». Вы описываете ситуацию — например, «потерял паспорт» — и получаете словарь и фразы в формате JSON. Всё благодаря промптам, где Gemini генерирует структурированные данные: массив терминов с транскрипцией и переводом, а также советы по грамматике. Например, если целевой язык — японский, модель сама определит, нужна ли транскрипция ромадзи, и подготовит материал за 2 API-запроса. Это не просто список слов, а готовый микрокурс под конкретный сценарий. Второй, Slang Hang, убирает «учебникоговорение». Тут Gemini выступает как сценарист: создаёт диалоги на целевом языке с культурными нюансами и сленгом. Все генерируется одним запросом — от контекста сцены до реплик с пояснениями. Пример: диалог продавца и туриста может включать неформальные выражения, которые не найдешь в стандартных учебниках. Правда, иногда модель ошибается или придумывает выражения, так что без проверки носителем не обойтись. Но сам подход — дать пользователю «уши» в реальных разговорах выглядит перспективно, особенно с интеграцией Cloud Translation для мгновенного перевода. Третий, визуальный эксперимент — Word Cam. Наводите камеру на объект, и Gemini не только определяет его (bounding box), но и предлагает слова вроде «подоконник» или «жалюзи». Детекция работает через Gemini Vision, а дополнительные дескрипторы (цвет, материал, примеры употребления) подтягиваются отдельным запросом. Для изучения бытовой лексики почти идеально, хотя точность сильно зависит от качества снимка. Во всех экспериментах задействован Text-to-Speech — озвучка слов и фраз. Но есть нюанс: для редких языков голоса зачастую звучат неестественно или не совпадают с диалектом. Например, выберете мексиканский испанский, а синтезатор выдаст акцент из Мадрида. Разработчики честно признают: это ограничение текущих API, и над ним еще работать. Little Language Lessons — начало переосмысления процесса обучения языкам. Проекту пока не хватает тонкой настройки под лингвистическую специфику (идиомы или региональные диалекты), но основа уже заложена. 🟡Статья @ai_machinelearning_big_data #AI#ML#LLM#Gemini
🔥 ReZero — маленькая модель, которая никогда не сдаётся 🧠 ReZero — это LLM на базе Llama 3.2B, обученная не просто находить ответы, а упорно искать лучший. 🔁 Вместо того чтобы оптимизировать на скорость или recall, ReZero обучается пробовать снова и снова, пока не найдёт правильный ответ. Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом. Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы. Обучается с помощью усиленного обучения (RL) — формируя привычку "не сдаваться". 🔜Github 🔜Модель @ai_machinelearning_big_data #LLM#Search#RL#AI#Meta#ReZero#NeverGiveUp#Llama3
🖥Vanna Это Python-фреймворк с открытым исходным кодом, в котором используется LLM для создания SQL-запросов на основе естественного языка. ✔️Всё просто: сначала обучаете модель на своих данных, а потом можно задать вопросы на обычном языке. В ответ модель выдает готовые SQL-запросы, которые можно сразу запускать в своей базе данных. ⚡️Установка: pip install vanna ▪GitHub: https://github.com/vanna-ai/vanna @devopsitsec #python#sql#opensource#vanna#llm
Hashtags
🌟 Marco-o1: модель рассуждений от Alibaba. Marco-o1 – LLM, файнтюн-версия Qwen2-7B-Instruct для решения сложных задач, требующих рассуждений. В создании модели использовались методики Chain-of-Thought (CoT), поиска по дереву Монте-Карло (MCTS) и уникальные стратегии регулирования действий при рассуждении. Marco-o1 обучалась на 3 датасетах: отфильтрованный набор данных Open-O1 CoT, синтетический набор Marco-o1 CoT и собственный набор инструкций Marco. В модели реализованы 2 стратегии действий: "шаг как действие" и "мини-шаг как действие" (32 или 64 токена соответственно). Мини-шаг как действие обеспечивает более детальное исследование пространства решений. В Marco-o1 был внедрен механизм рефлексии, который побуждает модель переосмысливать свои рассуждения, что улучшает результаты инференса, особенно в сложных составных задачах. Модель оценивалась на наборах данных MGSM (английский и китайский). Результаты показали, что Marco-o1 превосходит Qwen2-7B-Instruct и демонстрирует улучшение точности на 6,17% для английского набора данных и 5,60% для китайского. Модель превзошла Google Translate в задачах языкового перевода, особенно при переводе разговорных выражений. В ближайших планах: 🟠Обучаются версии модели вознаграждения за результат (ORM) и вознаграждения за процесс (PRM). 🟠Reinforcement Learning: обучение с подкреплением для совершенствования рассуждений. ▶️Установка и локальный инференс: # Clone the repository git clone https://github.com/AIDC-AI/Marco-o1 # Change to the Macaw-LLM directory cd Marco-o1 # Install required packages pip install -r requirements.txt # Load model directly from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1") model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1") # Run Inference ./src/talk_with_model.py 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Версии GGUF 🟡Arxiv 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#CoT#Alibaba#MarcoO1