TGTGInsighttelegram intelligenceLIVE / telegram public index
← GitHub Trends

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @githubtrending · Post #15521 · Feb 25

#rust#ai_gateway#ai_gateway_support#envoy#envoyproxy#gateway#generative_ai#llm_gateway#llm_inference#llm_proxy#llm_routing#llmops#llms#openai#prompt#proxy#proxy_server#routing Plano is an AI-native proxy server that handles key tasks for agentic apps like routing between agents, smart LLM model selection, safety guardrails, and automatic traces for observability. Define agents in simple YAML, write basic HTTP code in any language, and start Plano to run multi-agent systems without custom plumbing or framework lock-in. You benefit by building and shipping reliable agents to production much faster, focusing on core logic while gaining safety, low latency, and easy scaling. https://github.com/katanemo/plano

Results

3 similar posts found

Search: #gptoss

当前筛选 #gptoss清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8413 · 08/29/2025, 06:01 PM

🚀 OpenAI **gpt-oss** с ультрадлинным контекстом! Unsloth выпустили Flex Attention, который даёт до 61K контекста для gpt-oss bf16 при обучении на GPU с 80GB. 📊 Что это значит: - 8× больше контекста - потребляет на 50% меньше VRAM - 1.5× быстрее по сравнению с альтернативами (включая FA3) Для BF16 LoRA теперь можно тренировать с ~60K контекстом на одной H100 80GB. 🔗 Подробнее: https://docs.unsloth.ai/basics/long-context-gpt-oss-training @ai_machinelearning_big_data #Unsloth#OpenAI#gptoss#chatgpt

Machinelearning

@ai_machinelearning_big_data · Post #8238 · 08/08/2025, 11:34 AM

⚡️GGUF-версии GPT-OSS от Unsloth. Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса. 🟡Оптимальный сетап: 🟢20B работает со скоростью более 10 токенов/с при полной точности на 14 ГБ оперативной памяти. 🟢120B с полной точностью будет давать >40 токенов/с на примерно 64 ГБ ОЗУ. Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее. GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT. Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini. Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM. 📌 Подробная пошаговая инструкция по локальному запуску и файнтюну - в документации Unsloth. 🟡Набор моделей 🟡Документация @ai_machinelearning_big_data #AI#ML#GPTOSS#GGUF#Unsloth

Machinelearning

@ai_machinelearning_big_data · Post #8215 · 08/06/2025, 10:09 AM

🖥gpt-oss работает на специальном формате промптов — Harmony, и без него модель просто не будет выдавать корректные ответы. Зачем нужен Harmony? Этот формат нужен для: — 🧠 генерации chain of thought рассуждений — 🔧 корректного вызова функций и использования инструментов — 📦 вывода в разные каналы: обычный ответ, reasoning, tool call — 🗂️ поддержки tool namespaces и иерархических инструкций 💡 Harmony имитирует OpenAI Responses API, так что если вы с ним работали — будет легко освоиться. 👉 Если вы используете gpt-oss через HuggingFace, Ollama или vLLM, волноваться не нужно. Но если строите свой пайплайн — обязательно изучитегайд по Harmony. Без него модель просто не будет работать как надо. pip install openai-harmony # or if you are using uv uv pip install openai-harmony @ai_machinelearning_big_data #gptOSS#Harmony#OpenAI#LLM#PromptEngineering