Пока весь мир ждет доступа к новой модели со зрением GPT-4V(ision), опенсорс команда (пара азитов со степенью PhD из американских вузов) уже выпустили свой аналог и бесплатную версию #LLaVA (Large Language and Vision Assistant), которая выдает результат (не) хуже GPT4V и может работать локально.
Вот такая скорость развития и конкуренции в этом новом #AI рынке.
🧠LLava - вебсайт
📄WhitePaper
🧬Github code
🔋Demo для потестить на своих дикпиках
🦒Colab (для запуска у себя на серваке)
#python#apple_silicon#florence2#idefics#llava#llm#local_ai#mlx#molmo#paligemma#pixtral#vision_framework#vision_language_model#vision_transformer
MLX-VLM lets you run, chat with, and fine-tune Vision Language Models (VLMs) plus audio/video models on your Mac using MLX—install easily with `pip install -U mlx-vlm`. Use CLI for quick text/image/audio generation (e.g., `mlx_vlm.generate --model ... --image photo.jpg`), Gradio UI for chats, Python scripts, or a FastAPI server with OpenAI-compatible endpoints supporting multi-images/videos. Features like TurboQuant cut KV cache memory by 76%, and LoRA/QLoRA fine-tuning works on consumer hardware. You benefit by experimenting with powerful multimodal AI locally—fast, memory-efficient, no cloud costs, perfect for Mac users tweaking models affordably.
https://github.com/Blaizzy/mlx-vlm