TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #113 · 27.12

Всегда мечтал быть тем чуваком, которому присылают тестовые версии устройств на зацен, ещё до поступления в продажу. И вот Сбер таки прислал. Год назад я писал о выходе SberPortal — умной колонки с экраном. Тогда казалось, что акцент у Сбера именно такой — обязательное наличие экрана даже при голосовом управлении. Но сейчас они выпустили voice-only устройство: SberBox Time. Нет, его всё ещё можно подключить к телевизору, но это не обязательно, и по факту колонка является чем-то средним между большой и маленькой Яндекс Станциями, с уклоном в большую: и звук помощнее, и HDMI есть. Устройство пока не продаётся, но некоторым разработчикам под Сбер выслали демонстрационные экземпляры. Стоит сразу отметить любопытную дизайнерскую находку — аналоговые часы вместо дисплея. Находка именно что любопытная. По факту сугубо на мой взгляд часы не являются ни шибко красивыми, ни тем более удобными. Определять по ним время тяжело, а из-за матового стекла лично у меня постоянно возникает желание настроить резкость. Однако, сама мысль скрещивать хайтек с чем-то более конвервативным звучит привлекательно. Возможно, я становлюсь старым, а может, просто устал от повсеместной цифровизации всего вокруг, но даже при субъективно спорном дизайне часики вполне приятно разместились на стеллаже. Впрочем, колонка пока что сырая — ложные срабатывания, неопределённо скачущая громкость, ошибки в ответах. К счастью, это всё исправляется апдейтами софта, а Сбер за прошедший год показал себя очень внимательным в вопросе фикса багов, и опередил здесь по скорости всех конкурентов. Посмотрим, что из этого выйдет. Прикольная мелочь: на офсайте SberBox Time предлагают скачать модели для 3D-печати и "надеть" на колонку всякие ушки, рожки, плавники, крылья итд. Я сначала подумал, что это полный бред, но для интереса распечатал, и надо сказать очень мило вышло, даже мне взрослому не хочется снимать, а уж дети то вообще должны быть в восторге (известно, что дети составляют значительную долю среди пользователей умных колонок). #gadgets

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #linum

当前筛选 #linum清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9427 · 23.01.2026 г., 12:31

🌟LinumV2: T2V модель, которую делали вдвоем Интересная история, которая доказывает, что в индустрии ИИ не всегда нужны миллиарды долларов и сотни сотрудников. Знакомьтесь - проект Linum. Два брата, Сахила Чопра и Ману Чопра, сделали две text-to-video модели на 2 миллиарда параметров, которые генерируют клипы длиной от 2 до 5 секунд в разрешении до 720p. Согласитесь, это редкое явление в мире, где большинство видео-генераторов закрыты за платными API. Изначально братья совсем не планировали заниматься генерацией видео. Сахил окончил Стэнфордский университет в 2019, где в соавторстве разработал курс по LLM и занимался исследованиями в области когнитивных наук на стыке ИИ и лингвистики. Ману досрочно окончил Калифорнийский университет в Беркли в 2021 г.. До основания Linum занимался исследованиями ИИ в биоинженерии. Стартовав осенью 2022 года и пройдя через YCombinator, они пилили ИИ-инструмент для раскадровки фильмов. Но, пообщавшись с режиссерами, поняли: рынок слишком узкий, а творческий процесс у всех разный. 🟡Первая попытка создания видео-модели Linum v1, была, по их признанию, франкенштейном. Они взяли за основу SDXL, раздули U-NET, превратив 2D-свертки в 3D и добавили временные слои внимания. Получился забавный бот для Discord, который делал гифки в разрешении 180p. Это работало, но было тупиковой ветвью эволюции. Расширять модель, заточенную под картинки, для работы с видео - плохая идея в долгосроке. VAE, идущий в комплекте с имидж-моделью, просто не умеет нормально сжимать и разжимать видеопоток. Качество на выходе получается никакое. К тому же распределения данных в картинках и видео слишком разные, да и переучивать модель стоит дорого. 🟡V2 решили пилить с нуля. VAE взяли от Wan 2.1, успев попутно разработать свой собственный temporal VAE, но решили сэкономить на эмбеддингах, DIT и T5 на роль текстового энкодера. Представьте объем работы: двое парней делали то, чем обычно занимаются отделы с десятками сотрудников. Они сами собирали датасеты, настраивали VLM для фильтрации контента, писали пайплайны для аннотирования архива видео. И, конечно, бенчмаркали провайдеров, пытаясь понять, почему H100 у одного хостера работает хуже, чем у другого. 🟡К чему они пришли за 2 года разработки? Linum v2 — pretrained веса. Модель пока ошибается в физике и эстетике, а генерация 5-секундного клипа в 720p занимает около 15 минут на H100 при 50 шагах. Но, главное, братья не останавливаются: есть планы по ускорению через CFG и timestep distillation, работа над звуком и масштабированием. @ai_machinelearning_big_data #AI#ML#T2V#Linum