TGTGInsighttelegram intelligenceLIVE / telegram public index
← PHYGITAL+CREATIVE
PHYGITAL+CREATIVE avatar

TGINSIGHT POST

Post #2888

@phygitalcreative

PHYGITAL+CREATIVE

Viżjonijiet211Għadd ta' viżjonijiet
IppubblikatMej 202/05/2023 11:58
Kontenut

Kontenut tal-post

Дайджест за выходные: 📹 ВИДЕО + АРТ 🎨 Graphit: бесплатный всё-в-одном инструмент для работы с изображениями: text2img, img2img, inpating, depth, edge, sketch, и не только. Edit Everything: выделение и замена текстом объектов в кадре на основе Segment Anything + SD + CLIP. SEEM: сегментация объектов в кадре мышкой, текстом или реф картинкой. Анонс был 2 недели назад, сейчас код вышел в открытый доступ (пока только на Linux). MosaicML: воссоздали тренировку Stable Diffusion 2 за $50k и 7,5 дней, что 8 раз дешевле, чем это стоило в оригинале. 🎸 ЗВУК 🎸 Elevenlabs: добавили поддержку генерации голоса по тексту на разных языках (русского пока нет) и скоро добавят конвертацию из одной локализации в другую. Tango: генерация звука по тексту с высоким показателем качества, хотя натренирована на маленьком датасете. Можно генерить и тренить локально. 🤖 ЧАТЫ 🤖 StableVicuna: Stability AI выпустили анонсированную ранее языковую модель, которая является зафайнтюненой версией Vicuna 13B и натренирована на человеческом фидбэке (RLHF). Также показали превью своего интерфейса для общения с чат-ботами. MLC LLM: обёртка для запуска любых языковых моделей на разных устройствах, в том числе и на телефонах. FastChat-T5: модель превосходит Dolly-V2, хотя у неё в 4 раза меньше параметров. Плюс её можно использовать в коммерческом ключе. Otter: мульти-модальный чат, которому можно скармливать картинки, видео, 3D и получать ответы на свои вопросы. Натренировали на четырёх GTX 3090. VLog: транскрипция видео в текст для суммаризации и получения ответов в режиме чата. Нужен openai API LLaMA Adapter V2: фреймворк для расширения возможностей лама-моделей и обучения пониманию изображений.