#python#deep_learning#inference#llm#nlp#pytorch#transformer
Nano-vLLM is a small, fast, and easy-to-understand tool for running large language models offline. It matches the speed of bigger systems like vLLM but uses only about 1,200 lines of clean Python code, making it simple to read and modify. It includes smart features like prefix caching and tensor parallelism to boost performance. You can install it easily and run models like Qwen3-0.6B on your own GPU. This tool is great if you want fast, efficient AI inference without complex setups, ideal for learning, research, or small deployments on limited hardware.
https://github.com/GeeeekExplorer/nano-vllm
Какую модель Gemma выбрать в зависимости от вашего железа. Размер оперативки указан для запуска Android Studio + Gemma локально. Как минимум стоит иметь запас по оперативки для комфортной работы, когда начнется сборка,
По цифрам кажется очень интересным вариантом чтобы попробовать кодинг через CLI без IDE
#AI#AndroidStudio#Gemma4
🔥Google выпустила Gemma 4 — самую умную открытую модель на сегодня
Если вы следите за open-source LLM, это важный релиз. Gemma 4 построена на тех же исследованиях, что и Gemini 3, но работает локально — на вашем железе.
Почему стоит обратить внимание:
🧠Прорывной интеллект — для сложных рассуждений и агентных workflows
🌐Мультимодальность и 140+ языков «из коробки»
📄Огромный контекст — до 256K токенов
🛠Нативные функции для вызовов инструментов и автономных агентов
💻 Качественная генерация кода (офлайн)
⚖️Apache 2.0 — можно использовать в коммерческих проектах без ограничений
Доступны 4 размера модели в Google AI Studio. Для локального использования скачайте веса на Hugging Face, Kaggle и Ollama.
👉Больше деталей
#Gemma4#OpenSourceAI#LLM
https://t.me/semasci
⭐️Gemma 4 в Android Studio: локальный AI-агент на вашем компьютере
Google представил Gemma 4 — новое семейство открытых моделей для сложных рассуждений и вызова инструментов. Главная цель: сделать локальный агентный ИИ стандартом на Android — от разработки до продакшена на смартфоне.
Сейчас фокус на Android Studio. Gemma 4 работает полностью локально на вашем компьютере. Код не уходит в облако.
Agent Mode в Android Studio с Gemma позволит вам делать
👉 рефакторинг легаси‑кода
👉 создание целого приложения или новых фич
👉 итеративное исправление ошибок (агент сам применяет правки)
Без интернета, с полным контролем приватности и без оплаты за токены.
———
Gemma 4 бывает разного размера: от E2B (2 млрд параметров) до 31B. Требования зависят от модели:
👉E2B (2B) — 8 ГБ RAM, работает на CPU. Для базовых подсказок.
👉E4B (4B) — от 16 ГБ RAM. Идеальный баланс для большинства разработчиков.
👉7B–14B — от 16 ГБ (лучше 32 ГБ). Нужен GPU или мощный нейронный движок.
👉26B A4B / 31B — 32+ ГБ RAM. Только с квантованием или на профессиональных станциях.
Для обладателей MacBook Pro с 32+ ГБ и чипом M Pro/Max открвается много интересного. На такой конфигурации вы комфортно запустите:
👉E4B (4B) — молниеносно
👉26B A4B — отличный уровень интеллекта
👉31B — с квантованием (потеря качества минимальна)
Благодаря Unified Memory и оптимизации через Metal MacBook Pro часто эффективнее PC с дискретными видеокартами в том же классе памяти.
———
Gemma 4 в Android Studio делает локального агентного ассистента реальностью. Вы получаете современный AI для сложных задач без облаков и без счетов за API.
Выбрать модель можно прямо в настройках Android Studio через LLM‑провайдера (LM Studio, Ollama и др.). Я пойду тестировать её, потому что локальный AI агент - это очень круто!
🔗 Источник - Android Dev Blog
#Gemma4#AndroidDe#AndroidStudio#AgentMode