Содержимое
⚡️ 5Gemma: новая коллекция энкодер-декодер моделей от Google. Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma. Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру. Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер. Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы. 🟡Но самое важное - прирост в производительности. На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична. Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее. T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B. Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов. 🟡Google выложила в открытый доступ целую линейку чекпойнтов: 🟢T5 (Small, Base, Large, XL) на базе Gemma (2B, 9B); 🟢«Несбалансированную» версию 9B-2B для экспериментов; 🟢Модели с разными целями обучения (PrefixLM для генерации, UL2 для качества представлений). 🔜 Попробовать возможности T5Gemma или настроить их под свои нужды можно с помощью блокнота Colab. Модели также доступны в Vertex AI. 📌Лицензирование: Gemma License. 🟡T5gemma: https://developers.googleblog.com/en/t5gemma/ 🟡Статья: https://arxiv.org/abs/2504.06225 🟡Скачать модель: https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86 @ai_machinelearning_big_data #AI#ML#T5Gemma#Google