Недавно делал быстрый прототип асинхронного приложения в котором требовалось вызывать много синхронного кода. Да, я знаю, что это не лучший дизайн, но нужно было быстрое решение на один процесс и без очередей. Поэтому я выполнял код в потоках.
Выглядело это примерно так:
from fastapi.concurrency import run_in_threadpool
async def execute(data: DataRequest) -> DataResponse:
try:
result = await run_in_threadpool(sync_function, data)
return DataResponse(data=result)
except Exception as e:
return DataResponse(
error=str(e),
success=False,
)
В общем работает нормально. Для всех вызовов под капотом используется общий тредпул, всё работает предсказуемо.
Но потребовалось изменить количество запускаемых в пуле потоков (по умолчанию создается 40 воркеров).
Так как дело происходит с FastAPI, делается это через lifespan используя настройки anyio:
import anyio
@asynccontextmanager
async def lifespan(app: FastAPI):
limiter = anyio.to_thread.current_default_thread_limiter()
limiter.total_tokens = 100
yield
# если вдруг нужно вернуть обратно
limiter.total_tokens = 40
Зачем менять количество воркеров?
- уменьшить, если оперативки мало (один тред занимает ~8мб)
- увеличить чтобы выдержать нагрузку
Если есть предложения получше при тех же вводных - предлагайте😉
#async
🤖Google анонсировали Automated Prompt Optimization (далее APO) для Vertex AI. Это будет полезно всем тем кто работает с on-device AI на Android
Если вы ещё не слышали про ML Kit Prompt API — это способ запускать Gemini Nano прямо на Android устройстве без обращения к серверу. Модель живёт в Android AICore как системный сервис, приложение просто отправляет промпт и получает ответ.
APO появился с целью настройки общей модели под конкретную задачу. Это облачный инструмент, который автоматически ищет оптимальный системный промпт для вашей задачи. Вы даёте примеры входных данных и ожидаемых ответов, Gemini Pro/Flash анализирует ошибки, генерирует десятки вариантов промптов параллельно и выбирает лучший. На выходе — просто текст промпта, который вы зашиваете в своё приложение.
Google утверждают, что это даёт📈 +5–8% к точности на реальных задачах: классификация, перевод, определения намерения.
Пока ML Kit Prompt API доступен только на ограниченном числе устройств, но направление очевидно — Google всерьёз строят экосистему on-device AI для Android-разработчиков
🔗 Источник - официальный блог Android Developers
#Android#AndroidDev#MLKit#GeminiNano#OnDeviceAI
✔️GenAI прямо на устройстве: Chrome, Chromebook Plus и Pixel Watch с LiteRT-LM
Google выпустили LiteRT-LM - фреймворк для запуска LLM прямо на устройстве (offline), с минимальной задержкой и без API-вызовов.
Если вы пилите приложения, это полезная штука, потому что:
- Работает на устройстве: нет задержек от удалённых серверов
- Нет расходов на API
- Дает доступ к Локальному GenAI
🔍 Основное
- LiteRT-LM уже используется внутри Gemini Nano / Gemma в Chrome, Chromebook Plus и Pixel Watch.
- Открытый C++ интерфейс (preview) для интеграции в кастомные решения.
- Архитектура: Engine + Session
• Engine хранит базовую модель, ресурсы - общий для всех функций
• Session - контекст для отдельных задач, с возможностью клонирования, копирования “по записи” (Copy-on-Write) и лёгких переключений
- Поддержка аппаратного ускорения (CPU / GPU / NPU) и кроссплатформенность (Android, Linux, macOS, Windows и др.)
- Для Pixel Watch используется минимальный “pipeline” - только необходимые компоненты - чтобы уложиться в ограничения памяти и размера бинарей
Google опенсорснули целый стек для запуска GenAI на устройствах:
- LiteRT быстрый «движок», который запускает отдельные AI-модели на устройстве.
- LiteRT-LM - интерфейс C++ для работы с LLM. Он объединяет сразу несколько инстурментов : кэширование промптов, хранение контекста, клонирование сессий и т.д.
- LLM Inference API - готовые интерфейсы для разработчиков (Kotlin, Swift, JS). Работают поверх LiteRT-LM, чтобы можно было легко встраивать GenAI в приложения.
🟠Подробнее: https://developers.googleblog.com/en/on-device-genai-in-chrome-chromebook-plus-and-pixel-watch-with-litert-lm/
@ai_machinelearning_big_data
#AI#Google#LiteRT#LiteRTLM#GenAI#EdgeAI#OnDeviceAI#LLM