TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #9596 · 27 февр.

🌟Doc-to-LoRA и Text-to-LoRA: гиперсети как генераторы LoRA SakanaAI предложила 2 новых способа работы с памятью и дообучением LLM. Оба используют одну идею - гиперсеть, которая генерирует LoRA-адаптеры на лету, вместо того чтобы каждый раз тяжелый процесс обновления весов под каждую новую задачу. Вся суть в математике затрат. Достаточно один раз вложиться в такое вот мета-обучение и потом создание нового адаптера обходится в копейки - система тратит вычислительные ресурсы всего на один прямой прогон. В итоге получается умный конвейер по производству плагинов. Вы скармливаете главной сети документы или описание задачи, а она моментально выдает готовый модуль. Отличный способ сэкономить бюджеты на компьют и время. 🟡Doc-to-LoRA Метод базируется на популярной связке «учитель-ученик» из дистилляции контекста. Гиперсеть принимает документ, кодирует его через замороженную LLM и генерирует LoRA-адаптер за один прямой прогон, без градиентных обновлений под конкретный документ. Адаптер применяется к слоям проекции MLP базовой модели. После этого модель отвечает на вопросы о документе, не имея его в контексте вообще. На синтетическом тесте NIAH гиперсеть обучалась на последовательностях в 32–256 токенов, но при инференсе работала с контекстами до 40К токенов (это 5х превышение тренировочной длины). Там, где Gemma-2-2b-it с окном 8К теряла информацию, Doc-to-LoRA сохраняла почти идеальную точность. При этом базовой модели требуется более 12 ГБ видеопамяти для обработки контекста в 128К токенов, а вот адаптер от Doc-to-LoRA обходится менее чем 50 МБ независимо от длины документа. На реальных QA-задачах цифры тоже довольно бодрые. В SQuAD метод сохраняет 82,5% точности по сравнению с подходом, когда весь текст просто лежит в контекстном окне. На длинных документах качество держится в районе 85% при задержке 0,2 секунды против 40 секунд у классической дистилляции контекста. По памяти разрыв еще жестче. Полная дистилляция с генерацией запросов занимает более 100 секунд и требует свыше 40 ГБ VRAM, а вот Doc-to-LoRA укладывается в 3,8 ГБ. Та же схема работает с визуальными токенами через мультимодальную Gemma-3-4b-it. На сете Imagenette чисто текстовая модель выдала 75% точности при классификации картинок, хотя ни гиперсеть, ни базовая модель не видели визуальных токенов при обучении. 🟡Text-to-LoRA Здесь текстовое описание задачи прогоняется через энкодер, который превращает его в вектор. Он объединяется с обучаемыми эмбеддингами слоя и типа модуля - гиперсеть знает не только саму задачу, но и для какого конкретно слоя нужен адаптер. На выходе - матрицы A и B для всех целевых слоев сразу. Адаптер применяется к проекциям запросов и значений в каждом блоке внимания замороженной базовой модели. В zero-shot на незнакомых задачах T2L набирает средний балл 67,7 по 10 бенчмаркам против 66,3 у мультизадачной LoRA и 55,8 у базовой модели без адаптации. Качество LoRA чувствительно к формулировке. Размытый запрос дает слабый результат, тогда как четкое описание с указанием типа рассуждения не только улучшает точность, но и позволяет управлять стилем ответа. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Arxiv Doc-to-LoRA 🟡Arxiv Text-to-LoRA 🖥GitHub Doc-to-LoRA 🖥GitHub Text-to-LoRA @ai_machinelearning_big_data #AI#ML#LLM#LoRA#SakanaAI

Результаты

Найдено 10 похожих постов

AI Гевара

@ai_guevara · Post #378 · 09.02.2025, 19:05

Название модели: Garage Life: Batya's Hideout Ссылка на модель: https://civitai.com/models/1204131/garage-life-batyas-hideout?modelVersionId=1355951 Тип модели: #LoRA Количество скачиваний: 100+ Дата загрузки: 1 февраля 2025 Базовая модель: Flux.1 D 🚬Описание модели/Комментарий разработчика: Эта модель передает всю эстетику постсоветских гаражей — атмосферу беспросветных ебеней, где можно встретить и батю с шашлыками, и старые Жигули, и бесконечные ряды заброшенных кооперативов. Отлично подходит для создания сцен с советской урбанистикой, гаражными движами и ламповыми посиделками в духе 90-х. Обязательно попробуй!

Hashtags

Earth&Climate Tech

@earth_climate_tech · Post #401 · 19.10.2023, 16:00

​​Polymathic - междисциплинарный ИИ Ох, какая классная межуниверситетская инициатива - Polymathic🔥. Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п. В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков. На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI. #AI#ML

Hashtags

Earth&Climate Tech

@earth_climate_tech · Post #297 · 22.05.2023, 16:00

ChatGPT для климатических вопросов и ответов На Hugging Face есть милейший чат бот, который отвечает на все вопросы, касающиеся климата. Работает с помощью больших языковых моделей и при взаимодействии с ChatGPT API. Бот обучен в основном на документах межправительственной комиссии по изменению климата (IPCC), поэтому не понимает, когда его спрашивают про что-то другое. Задаете вопрос, получаете развернутый ответ со ссылками на документы IPCC. Это интересный пример внедрения больших языковых моделей обученных на корпусе внутренних документов. #AI#climate#LLM

#AI Немного ИИ-теории ❗️В недавнем иске против компании OpenAI Илон Маск утверждал, что GPT-4 является ранним AGI, по сути равным человеческому интеллекту. Что же такое AGI и когда он появится? 👤Сэм Альтман, CEO Open AI определяет AGI (artificial general intelligence) как интеллект, равный уровню обычного человека, который можно было бы принять в команду как сотрудника. Также популярно определение AGI как «системы, способной выполнить любую когнитивную задачу, доступную человеку». 📎Для справки: существует несколько видов (уровней развития) ИИ, а именно узкий ИИ (narrow, ANI), общий ИИ (genreal, AGI) и супер ИИ (super AI, ASI). ⏲Исследователи никак не могут прийти к консенсусу относительно даты появления AGI. По результатам Expert Survey on Progress in AI, существует 50% шанс того, что AGI появится до 2059 года. Тем не менее, поле ИИ изменяется постоянно и становится сложным оставаться в курсе событий. ⭐️Для этого мы нашли крупнейшее русскоязычное AGI-сообщество agirussia.org — у них есть канал и группа в Telegram. 🌐еще проходят еженедельные онлайн-семинары по тематике AGI на русском языке, записи семинаров за последние несколько лет доступны на YouTube и их сообществе в ВК. Держим руку на пульсе ИИ⭐ ⭐️Автор, Анна, @qcuqueen

Hashtags

Earth&Climate Tech

@earth_climate_tech · Post #399 · 17.10.2023, 16:00

Хакатончик от Xeek Two Birds, One Neural Network - так называется новый хакатон от Xeek в области Generative AI. Звучит как-будто нужно сделать свой Dalle-E2, но на самом деле, задача выглядит немного иначе. По условиям хакатона, участникам нужно сделать нейронную сеть, которая максимизирует разнообразие генерируемых результатов, отвечающих двум условиям. Авторы хакатона проводят параллели с добавлением двух геофизических измерений для ограничения сценариев геологических моделей. Буквально, нужно построить нейронную сеть, которая генерирует разнообразные значения x0, x1, сохраняя при этом их природу в виде нисходящих или восходящих прямых линий, удовлетворяющих заданным функциям y1, y2, как показано на картинке. Более подробное описание - тут. Призовой фонд $40К (первое место $19.5K). #hackathon#AI#ML

ForgetMe | Нейросети

@forgetmeai · Post #5662 · 30.11.2025, 15:25

⚡️Ноам Браун: вокруг ИИ гораздо больше согласия, чем кажется Ведущий исследователь OpenAI Ноам Браун предлагает не вестиcь на медийную «чёрно-белую» картинку. В соцсетях спор об ИИ часто сводят к карикатурам — от «LLM мёртвы» до «суперинтеллект завтра». Но если слушать именно исследователей, картина неожиданно консенсусная. О чём эксперты в целом согласны: 🟡Текущих подходов уже достаточно, чтобы дать огромный экономический и социальный эффект, даже без новых научных прорывов. 🟡Для AGI/ASI прорывы всё же понадобятся — часто упоминают continual learning и sample efficiency. 🟡Горизонт — до 20 лет (средняя оценка ≈10 лет). Никто не говорит о фантазиях или «100+ лет до суперинтеллекта». Я в целом с ним согласен. Подробнее в треде Брауна: X (Ноам Браун) 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#llm

ForgetMe | Нейросети

@forgetmeai · Post #5488 · 27.10.2025, 13:33

⚡️MiniMax M2: открытый «agent & code-native» ИИ MiniMax выкатила MiniMax M2 — открытую модель для агентов и кода. По заявлению команды, она работает примерно вдвое быстрее и стоит около 8% от цены Claude Sonnet. На старте доступен бесплатный глобальный доступ на ограниченное время через MiniMax Agent и API. Модель заточена под полнопоточные дев-воркфлоу и агентные сценарии за счёт эффективной активации параметров: справляется с длинными цепочками действий и остаётся экономной в проде. Что умеет 🟡Agentic-пайплайны: надёжная работа с длинными цепочками (mcp, shell, browser, retrieval, code). 🟡Кодинг под ключ: проектирование, правки, тесты и рефакторинг в одном потоке. 🟡Интеграции: совместима с Claude Code, Cursor, Cline, Kilo Code, Droid и др. Где посмотреть 🟡Hugging Face (MiniMax-M2) 🟡GitHub (репозиторий) 🟡Документация API 🟡MiniMax Agent 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #новости#llm#нейросети

ForgetMe | Нейросети

@forgetmeai · Post #5435 · 16.10.2025, 12:53

⚡️ReasoningBank от Google: как дать ИИ «память об ошибках» и учить его в реальном времени Google предложили подход ReasoningBank — модуль «рабочей памяти», который дистиллирует стратегии из прошлых попыток и возвращает их в промпт при решении новых задач. Схема простая: после каждого диалога агент-судья оценивает качество решения и записывает опыт в структурированном виде (Title / Description / Content). Пример: Title:Avoid repeating failed actions; Description: агент зациклился на неработающей кнопке; Content: «если действие не даёт результата — сменить стратегию (обновить страницу, шаг назад и т. п.)». Дальше эти «воспоминания» подтягиваются в контекст — получается умный менеджмент подсказок без изменения весов модели. Поверх памяти авторы описывают ещё и Memory-aware Test-Time Scaling (MaTTS): агент генерирует несколько решений одной задачи, ReasoningBank извлекает полезные паттерны из каждого и помогает пересобрать лучший ответ. Чем больше вычислений на тесте — тем богаче память и выше качество финального вывода. В перспективе метод можно расширять: забывание устаревших правил, приоритизация и слияние близких «воспоминаний» для компактности. Подробнее — в препринте: ReasoningBank (arXiv). 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#llm

ForgetMe | Нейросети

@forgetmeai · Post #5407 · 11.10.2025, 08:03

⚡️ACE: вместо дообучения — контекст, который учится сам Agentic Context Engineering (ACE) предлагает прокачивать ИИ без изменения весов. Вместо fine-tuning модель сама пишет и переписывает собственные инструкции: после ошибки добавляет стратегию, после успеха — правило. Получается длинный, эволюционирующий «плейбук» в контексте — как растущая тетрадь заметок, которую ИИ постоянно использует. Результаты в работе авторов: +10,6% на AppWorld, +8,6% в финзадачах, при этом до –86,9% по времени и стоимости. Разметка не нужна — достаточно обратной связи. Идея простая: LLM важна плотность контекста, а не короткий промпт. Если подход масштабируется, эпоха ИИ станет не fine-tuned, а self-tuned. Препринт ACE на arXiv 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#llm

ForgetMe | Нейросети

@forgetmeai · Post #5186 · 09.09.2025, 16:37

👀AI: проблема не в моделях, а в продуктах У ИИ сегодня проблема продуктовая, а не модельная. Модели рывками прибавляют каждые несколько недель, но инновации в AI-native продуктах за этим темпом не успевают. Большинство команд встраивают ИИ в старые UX-паттерны, вместо того чтобы переосмыслить опыт с нуля. Параллель с ранним мобильным (2007–2010): годами «мобайл» означал просто уместить сайт в телефон, пока Uber не показал, как можно переизобрести саму задачу — транспорт. При этом есть и удачные AI-first продукты: NotebookLM, Lovable, Stitch, Flow. Но скорость прогресса самих моделей выше, и причин этому много 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #новости#нейросети#llm