TGTGInsighttelegram intelligenceLIVE / telegram public index
← GitHub Trends

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @githubtrending · Post #15607 · Apr 7

#python#ai_agents#ai_tutor#clawdbot#cli_tool#deepresearch#interactive_learning#large_language_models#multi_agent_systems#rag DeepTutor v1.0.0 is an open-source AI tutoring tool with personalized TutorBots, unified chat modes for solving problems, quizzes, research, and math animations, plus knowledge bases from your PDFs, persistent memory of your learning style, AI co-writing, and guided plans—all via easy web, Docker, or CLI setup. You benefit by getting a smart, evolving study companion that adapts to you, boosts understanding with interactive tools, and saves time on tough topics without starting over. https://github.com/HKUDS/DeepTutor

Results

1 similar post found

Search: #step3

当前筛选 #step3清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9447 · 01/29/2026, 04:04 PM

🌟Step3-VL-10B: VLM от stepfun.ai. Пока индустрия одержима гигантоманией и соревнуется, у кого больше параметров, Stepfun решили пойти против течения. Встречайте, Step3-VL-10B - компактная VL-модель, которая по заявлениям разработчиков не просто конкурирует, а буквально уделывает модели в 10–20 раз тяжелее, включая таких титанов, как Gemini 2.5 Pro и GLM-4.6V. Звучит как маркетинговый хайп, но под капотом есть интересные инженерные решения, хоть и с хитринкой. 🟡Архитектура Конструкция из кастомного визуального PE-lang энкодера на 1.8B параметров и Qwen3-8B (что уже половина успеха, учитывая мощь Qwen) в качестве декодера. В отличие от многих, кто замораживает визуальную часть, Stepfun разморозили все и тренировали модель в один прогон на 1,2 трлн. токенов. Это позволило визуальной и языковой частям модели не просто сосуществовать, а реально срастись и притереться друг к другу. После этого модель прогнали через адский RL-цикл (RLVR+RLHF) на 1400+ итераций, чтобы модель научилась жестко ризонить. 🟡Тесты В бенчмарках цифры действительно страшные (в хорошем смысле) для такого размера: 🟢MMMU: 78.11 (SeRe) / 80.11 (PaCoRe). 🟢MathVista: 83.97 🟢AIME 2025: 87.66 (SeRe) / 94.43 (PaCoRe) 🟢OCRBench: 86.75 (отлично читает документы). Для сравнения: GLM-4.6V на 106B выдает на MMMU только 75.20. Инженерная хитринка кроется в методологии тестирования. Видите в результатах тестов пометку PaCoRe? PaCoRe (Parallel Coordinated Reasoning): Чтобы получить топовые цифры, модель использует test-time compute. Она запускает 16 параллельных роллаутов, собирает доказательства из разных веток и синтезирует ответ. На инференсе это будет стоить вам в 16 раз "дороже" по ресурсам, чем обычный прогон. В стандартном режиме (SeRe) модель все еще хороша, но уже не выглядит как "убийца всех топов". Кстати, Stepfun честно признались, что в отчетах накосячили с бенчмарками конкурента Qwen3VL-8B из-за неверного max_tokens. Извинились, обещают пересчитать. Это добавляет доверия, но напоминает, что бенчмарки - дело тонкое. В общем, модель - отличный кандидат для локального использования: есть OpenAI-compatible API и vLLM поддерживается (PR вмержили). ⚠️ Если модель зацикливается при генерации - обновите конфиг, там был баг с eos_token_id, который уже пофиксили. 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Arxiv 🟡Demo @ai_machinelearning_big_data #AI#ML#VLM#STEP3#StepFunAI