TGTGInsighttelegram intelligenceLIVE / telegram public index
← GitHub Trends

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @githubtrending · Post #15607 · Apr 7

#python#ai_agents#ai_tutor#clawdbot#cli_tool#deepresearch#interactive_learning#large_language_models#multi_agent_systems#rag DeepTutor v1.0.0 is an open-source AI tutoring tool with personalized TutorBots, unified chat modes for solving problems, quizzes, research, and math animations, plus knowledge bases from your PDFs, persistent memory of your learning style, AI co-writing, and guided plans—all via easy web, Docker, or CLI setup. You benefit by getting a smart, evolving study companion that adapts to you, boosts understanding with interactive tools, and saves time on tough topics without starting over. https://github.com/HKUDS/DeepTutor

Results

1 similar post found

Search: #linum

当前筛选 #linum清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9427 · 01/23/2026, 12:31 PM

🌟LinumV2: T2V модель, которую делали вдвоем Интересная история, которая доказывает, что в индустрии ИИ не всегда нужны миллиарды долларов и сотни сотрудников. Знакомьтесь - проект Linum. Два брата, Сахила Чопра и Ману Чопра, сделали две text-to-video модели на 2 миллиарда параметров, которые генерируют клипы длиной от 2 до 5 секунд в разрешении до 720p. Согласитесь, это редкое явление в мире, где большинство видео-генераторов закрыты за платными API. Изначально братья совсем не планировали заниматься генерацией видео. Сахил окончил Стэнфордский университет в 2019, где в соавторстве разработал курс по LLM и занимался исследованиями в области когнитивных наук на стыке ИИ и лингвистики. Ману досрочно окончил Калифорнийский университет в Беркли в 2021 г.. До основания Linum занимался исследованиями ИИ в биоинженерии. Стартовав осенью 2022 года и пройдя через YCombinator, они пилили ИИ-инструмент для раскадровки фильмов. Но, пообщавшись с режиссерами, поняли: рынок слишком узкий, а творческий процесс у всех разный. 🟡Первая попытка создания видео-модели Linum v1, была, по их признанию, франкенштейном. Они взяли за основу SDXL, раздули U-NET, превратив 2D-свертки в 3D и добавили временные слои внимания. Получился забавный бот для Discord, который делал гифки в разрешении 180p. Это работало, но было тупиковой ветвью эволюции. Расширять модель, заточенную под картинки, для работы с видео - плохая идея в долгосроке. VAE, идущий в комплекте с имидж-моделью, просто не умеет нормально сжимать и разжимать видеопоток. Качество на выходе получается никакое. К тому же распределения данных в картинках и видео слишком разные, да и переучивать модель стоит дорого. 🟡V2 решили пилить с нуля. VAE взяли от Wan 2.1, успев попутно разработать свой собственный temporal VAE, но решили сэкономить на эмбеддингах, DIT и T5 на роль текстового энкодера. Представьте объем работы: двое парней делали то, чем обычно занимаются отделы с десятками сотрудников. Они сами собирали датасеты, настраивали VLM для фильтрации контента, писали пайплайны для аннотирования архива видео. И, конечно, бенчмаркали провайдеров, пытаясь понять, почему H100 у одного хостера работает хуже, чем у другого. 🟡К чему они пришли за 2 года разработки? Linum v2 — pretrained веса. Модель пока ошибается в физике и эстетике, а генерация 5-секундного клипа в 720p занимает около 15 минут на H100 при 50 шагах. Но, главное, братья не останавливаются: есть планы по ускорению через CFG и timestep distillation, работа над звуком и масштабированием. @ai_machinelearning_big_data #AI#ML#T2V#Linum