#cplusplus
FlashMLA is DeepSeek's optimized attention library that makes AI models run faster and use less memory. It works with advanced NVIDIA GPUs to speed up how language models process information, achieving up to 660 trillion floating-point operations per second. The library supports both dense and sparse attention modes, meaning it can focus on important tokens while skipping less relevant ones, reducing computational waste. For you, this means faster AI responses, lower costs for running large language models, and better performance on tasks like chatbots and code generation. The technology is open-source and integrates with popular AI frameworks like PyTorch and Hugging Face, making it accessible for developers building next-generation AI applications.
https://github.com/deepseek-ai/FlashMLA
Какую модель Gemma выбрать в зависимости от вашего железа. Размер оперативки указан для запуска Android Studio + Gemma локально. Как минимум стоит иметь запас по оперативки для комфортной работы, когда начнется сборка,
По цифрам кажется очень интересным вариантом чтобы попробовать кодинг через CLI без IDE
#AI#AndroidStudio#Gemma4
🔥Google выпустила Gemma 4 — самую умную открытую модель на сегодня
Если вы следите за open-source LLM, это важный релиз. Gemma 4 построена на тех же исследованиях, что и Gemini 3, но работает локально — на вашем железе.
Почему стоит обратить внимание:
🧠Прорывной интеллект — для сложных рассуждений и агентных workflows
🌐Мультимодальность и 140+ языков «из коробки»
📄Огромный контекст — до 256K токенов
🛠Нативные функции для вызовов инструментов и автономных агентов
💻 Качественная генерация кода (офлайн)
⚖️Apache 2.0 — можно использовать в коммерческих проектах без ограничений
Доступны 4 размера модели в Google AI Studio. Для локального использования скачайте веса на Hugging Face, Kaggle и Ollama.
👉Больше деталей
#Gemma4#OpenSourceAI#LLM
https://t.me/semasci
⭐️Gemma 4 в Android Studio: локальный AI-агент на вашем компьютере
Google представил Gemma 4 — новое семейство открытых моделей для сложных рассуждений и вызова инструментов. Главная цель: сделать локальный агентный ИИ стандартом на Android — от разработки до продакшена на смартфоне.
Сейчас фокус на Android Studio. Gemma 4 работает полностью локально на вашем компьютере. Код не уходит в облако.
Agent Mode в Android Studio с Gemma позволит вам делать
👉 рефакторинг легаси‑кода
👉 создание целого приложения или новых фич
👉 итеративное исправление ошибок (агент сам применяет правки)
Без интернета, с полным контролем приватности и без оплаты за токены.
———
Gemma 4 бывает разного размера: от E2B (2 млрд параметров) до 31B. Требования зависят от модели:
👉E2B (2B) — 8 ГБ RAM, работает на CPU. Для базовых подсказок.
👉E4B (4B) — от 16 ГБ RAM. Идеальный баланс для большинства разработчиков.
👉7B–14B — от 16 ГБ (лучше 32 ГБ). Нужен GPU или мощный нейронный движок.
👉26B A4B / 31B — 32+ ГБ RAM. Только с квантованием или на профессиональных станциях.
Для обладателей MacBook Pro с 32+ ГБ и чипом M Pro/Max открвается много интересного. На такой конфигурации вы комфортно запустите:
👉E4B (4B) — молниеносно
👉26B A4B — отличный уровень интеллекта
👉31B — с квантованием (потеря качества минимальна)
Благодаря Unified Memory и оптимизации через Metal MacBook Pro часто эффективнее PC с дискретными видеокартами в том же классе памяти.
———
Gemma 4 в Android Studio делает локального агентного ассистента реальностью. Вы получаете современный AI для сложных задач без облаков и без счетов за API.
Выбрать модель можно прямо в настройках Android Studio через LLM‑провайдера (LM Studio, Ollama и др.). Я пойду тестировать её, потому что локальный AI агент - это очень круто!
🔗 Источник - Android Dev Blog
#Gemma4#AndroidDe#AndroidStudio#AgentMode