TGTGInsighttelegram intelligenceLIVE / telegram public index
Lura għall-lista tal-kanali
PHYGITAL+CREATIVE avatar

TGINSIGHT CHAT

PHYGITAL+CREATIVE

@phygitalcreative

Technologies

Пишем про нейросети и Phygital+ — веб-приложение для дизайнеров и креаторов. ⚡️30+ нейросетей в одном месте ⚡️Уникальный нодовый интерфейс — контроль над каждым этапом генерации Попробовать бесплатно: https://phygital.plus Для связи: [email protected]

Abbonati6,230Abbonati attwali
Postijiet immonitorjati1,002Għadd ta' postijiet indiċizzati
Raġġ reċenti3,077Somma tal-viżjonijiet reċenti
Postijiet reċenti

Postijiet reċenti

Paġna 71 minn 84 · 1,002 postijiet

Ippubblikat Mej 5

https://www.youtube.com/watch?v=t9zzcRsf0IA

255 views

Ippubblikat Mej 4

Лайфхак как быстро вставить картину в интерьер. 1. Через фотошоп или inpaint в Phygital Plus делаем маску. 2. Далее в Stable 1.5 пишем промт, например "loft interior, concrete wall" 3. 30 секунд и готово.

259 views

Ippubblikat Mej 3

Выше просто в гугле нашел. А вообще первое на ум пришло это https://developers.google.com/mediapipe/framework/tools/visualizer Не ноукод, но cv+графы)

278 views

Ippubblikat Mej 3

https://viso.ai/

314 views

Ippubblikat Mej 3

Нашел крутой collab: https://colab.research.google.com/github/betogaona7/Grounded-Segment-Anything/blob/main/grounded_sam_colab_demo.ipynb#scrollTo=Ct786WclTVdN Делаются такие шаги: 1. Zero-shot детекция объекта. С помощью Grounding DINO текст промпт превращается в bounding box. В примере собака сидит на лавке, промпт “лавка”, лавка выделяется. 2. Bounding box используется как промпт для SAM. Получается маска сегментации, покрывающая лавку, но не собаку. 3. Используется Stable Diffusion, промпт + маска, чтобы переделать лавку во что-то еще. Например, можно сделать вместо лавки диван. В итоге получаем собаку, сидяющую на диване. Очень круто, что можно использовать новые computer vision модели как блоки, которые ты просто соединяешь и получаешь решение очень нетривиальной задачи. Ловите бесплатную идею для стартапа: no-code визуальный редактор пайплайна, который позволяет буквально соединять CV модели как блоки.

293 views

Ippubblikat Mej 3

AUTOMATIC1111 обновился до версии 1.1.0 Features: - switch to torch 2.0.0 (except for AMD GPUs) - visual improvements to custom code scripts - add filename patterns: [clip_skip], [hasprompt<>], [batch_number], [generation_number] - add support for saving init images in img2img, and record their hashes in infotext for reproducability - automatically select current word when adjusting weight with ctrl+up/down - add dropdowns for X/Y/Z plot - setting: Stable Diffusion/Random number generator source: makes it possible to make images generated from a given manual seed consistent across different GPUs - support Gradio's theme API - use TCMalloc on Linux by default; possible fix for memory leaks - (optimization) option to remove negative conditioning at low sigma values #9177 - embed model merge metadata in .safetensors file - extension settings backup/restore feature #9169 - add "resize by" and "resize to" tabs to img2img - add option "keep original size" to textual inversion images preprocess - image viewer scrolling via analog stick - button to restore the progress from session lost / tab reload Minor: - gradio bumped to 3.28.1 - in extra tab, change extras "scale to" to sliders - add labels to tool buttons to make it possible to hide them - add tiled inference support for ScuNET - add branch support for extension installation - change linux installation script to insall into current directory rather than /home/username - sort textual inversion embeddings by name (case insensitive) - allow styles.csv to be symlinked or mounted in docker - remove the "do not add watermark to images" option - make selected tab configurable with UI config - extra networks UI in now fixed height and scrollable - add disable_tls_verify arg for use with self-signed certs Extensions: - Add reload callback - add is_hr_pass field for processing Bug Fixes: - fix broken batch image processing on 'Extras/Batch Process' tab - add "None" option to extra networks dropdowns - fix FileExistsError for CLIP Interrogator - fix /sdapi/v1/txt2img endpoint not working on Linux #9319 - fix disappearing live previews and progressbar during slow tasks - fix fullscreen image view not working properly in some cases - prevent alwayson_scripts args param resizing script_arg list when they are inserted in it - fix prompt schedule for second order samplers - fix image mask/composite for weird resolutions #9628 - use correct images for previews when using AND (see #9491) - one broken image in img2img batch won't stop all processing - fix image orientation bug in train/preprocess - fix Ngrok recreating tunnels every reload - fix --realesrgan-models-path and --ldsr-models-path not working - fix --skip-install not working - outpainting Mk2 & Poorman should use the SAMPLE file format to save images, not GRID file format - do not fail all Loras if some have failed to load when making a picture

278 views

Ippubblikat Mej 2

Meta AI выпустила работу по Full Body Tracking https://youtu.be/aRyRYvvr3hs В трекинге есть много любопытных и нерешённых или плохо решённых задач. Одна из таких это построение движения ног. Помню была старая гипотеза, что если специально не пытаться сломать трекинг, то по инвёрсной кинематике и с помощью ML можно достроить движение ног. И судя по всему мета добилась в этом какого-то прогресса. Хотя AR/VR я занимаюсь всё меньше, но нельзя недооценивать вклад этих индустрий в развитие и демократизацию технологий трекинга. Ещё 10 лет назад для того, чтобы сделать мокап персонажа нужна была motion capture студия, а такие технологии со временем позволят записывать пусть не идеальные, но анимации для игр хоть с телефона :) Дорогие продакшены конечно всё ещё будут пользоваться Motion Capture или же ручной анимацией в том же Cascadeur (хотя тоже бомбический инструмент как я слышал). А вот инди можно будет взять недорогой сетап и получить набор неплохих анимаций. #новости

268 views

Ippubblikat Mej 2

Нейронка Whisper JAX бесплатно и в пару кликов сгенерирует из любого аудиотрека текст. Загрузить композицию можно через микрофон, импортирование или Youtube-ссылку. В ходе тестирования сервиса, мы заказали текст на культовую песню Рика Эстли «Never Gonna Give You Up» - сервису понадобилось 5 секунд и он сделал все с первого раза. Можно комбинировать с ChatGPT — например, перевести голосовой урок в текст и попросить нейросеть коротко его пересказать. OpenAI Community | #serviсe

238 views

Hashtags

Ippubblikat Mej 2

Дайджест за выходные: 📹 ВИДЕО + АРТ 🎨 Graphit: бесплатный всё-в-одном инструмент для работы с изображениями: text2img, img2img, inpating, depth, edge, sketch, и не только. Edit Everything: выделение и замена текстом объектов в кадре на основе Segment Anything + SD + CLIP. SEEM: сегментация объектов в кадре мышкой, текстом или реф картинкой. Анонс был 2 недели назад, сейчас код вышел в открытый доступ (пока только на Linux). MosaicML: воссоздали тренировку Stable Diffusion 2 за $50k и 7,5 дней, что 8 раз дешевле, чем это стоило в оригинале. 🎸 ЗВУК 🎸 Elevenlabs: добавили поддержку генерации голоса по тексту на разных языках (русского пока нет) и скоро добавят конвертацию из одной локализации в другую. Tango: генерация звука по тексту с высоким показателем качества, хотя натренирована на маленьком датасете. Можно генерить и тренить локально. 🤖 ЧАТЫ 🤖 StableVicuna: Stability AI выпустили анонсированную ранее языковую модель, которая является зафайнтюненой версией Vicuna 13B и натренирована на человеческом фидбэке (RLHF). Также показали превью своего интерфейса для общения с чат-ботами. MLC LLM: обёртка для запуска любых языковых моделей на разных устройствах, в том числе и на телефонах. FastChat-T5: модель превосходит Dolly-V2, хотя у неё в 4 раза меньше параметров. Плюс её можно использовать в коммерческом ключе. Otter: мульти-модальный чат, которому можно скармливать картинки, видео, 3D и получать ответы на свои вопросы. Натренировали на четырёх GTX 3090. VLog: транскрипция видео в текст для суммаризации и получения ответов в режиме чата. Нужен openai API LLaMA Adapter V2: фреймворк для расширения возможностей лама-моделей и обучения пониманию изображений.

211 views

Ippubblikat Mej 2

Немного за Дип Флойд IF Большинство юзеров, избалованных Civitai или Midjourney бросились тестировать DF, ожидая конец-глазам-качества, ибо в некоторых тележках пишут, что это "лучшая text-to-image модель на сегодняшний день". Однако. Обнаружили. 1. Генерация картинки на локальной машинке занимает около минуты-двух на картинку 1024px. 2. Нужно как минимум 3090, чтобы упихать модель в память GPU. 3. Веса на диске будут занимать почти 35 гиг. 4. Никакого порно и NSFW - по крайней мере без хаков и пританцовок. 5. Ну и самое главное - качество оказалось ну ... такое. И все такие, эт как? А вот так: 1. Это параллельный исследовательский проект от Stability AI. https://stability.ai/blog/deepfloyd-if-text-to-image-model Его выпуск можно скорее сравнить в релизом Stable Diffusion 1.0. О чем и пишет Мостак в Твитторе. it is a research only release - https://twitter.com/EMostaque/status/1652295961404645376 После сбора фидбека и дальнейшей разработки воспоследует public release. 2. Крутизна в том, что это по-прежнему open source и что на базе новой архитектуры будут разрастаться новые проекты. В треде у Мостака есть интригующие фразы. "У нас также есть команда GAN, которую мы расширяем. Это research release, мы строим собственные модели и исследуем различные архитектуры с разными командами, поскольку никто не знает, что будет оптимальным." "Эта модель архитектуры отличается от стабильной диффузии и других архитектур, которые мы имеем, и является дико расширяемой. В этом и заключается преимущество каскадных моделей, почему бы не использовать сильные стороны каждого типа модели. I этап IF, II этап Stable Diffusion, III этап GAN Я сомневаюсь, что кто-то будет использовать какие-либо из этих моделей в следующем году." То есть все это демонстрация процесса разработки будущих архитектур, которые обещают быть реальным next gen. 3. Тесты, по которым IF обзывают лучшей моделью базируются на MS-COCO FID, что является типа немного сферической вакуумной метрикой и мало соотносится с эстетической стороной генерируемых картинок, и, грубо говоря, не про красоту. См мои картинки ниже. 4. Тренировали на усеченном, дико прочищеном (примерно в пять раз) датасете LAION-A. Поэтому ждать красоты, порноты, селебов с художниками в обнику не приходится. Это тестовый релиз, не прод, разминка мышц. 5. Про fine tuning ничего не пишут, только обозначают эти вопросы в блоге (киньте в меня про это, я ничего не нашел) 6. "В качестве новой модели мы первоначально выпускаем DeepFloyd IF под исследовательской лицензией" 7. Из интересного, moving away from latent diffusion models back to pixel-level diffusion models - насколько я понимаю своим скудным умом, это путь DALLE-2. Неясно почему. В латентном пространстве было больше мистики и смыслов. В общем, ждем. P.S. Для генерации текста на картинках есть клавиатура и иллюстратор. Это, конечно, фишка, но тоже больше исследовательская. Проброс в соседнюю поляну с LLM.

190 views

Ippubblikat Mej 1

Великий Кэтсби🐈‍⬛, сгенерированный ИИ Вы cможете так же, вот несложная инструкция: — Создайте сценарий с помощью ChatGPT — Сгенерируйте 3 пользовательских голоса с помощью ElevenLabs (без клонирования, 5000 кредитов) — Создайте 500+ снимков с помощью RunwayML или Phygital+ на основе текстовых подсказок — Выберите 65 лучших снимков — Найдите музыку и звуковые эффекты на MotionArray — Монтируйте все в Adobe Premiere Авторы: Кристиан Флейшер, также известный как «The Visiblemaker» Режиссер и продюсер: The Visiblemaker

243 views

Ippubblikat Mej 1

# Рецензия: Machine Learning System Design Валерий Бабушкин и Арсений Кравченко выпустили в early access книгу про дизайн ML систем. До 9 мая можно получить скидку 45% по промокоду mlkravchenko. Мне повезло получить копию для рецензии, я прочитал и презентую вам свой отзыв. Первым делом спойлер: это не про MLOps! Многие могли подумать, что в книге будут учить строить пайплайны на Spark, или оптимизировать инференс нейросетей или что-то в таком духе. Нет. Эта книга про более важный вопрос: как сделать, чтобы ML проект не оказался на полке? Вот как авторы определяют ML System Design: > MACHINE LEARNING SYSTEM DESIGN is a complex, multistep process of designing, implementing, and maintaining machine learning-based systems that involves a combination of techniques and skills from various fields and roles То есть книга о том, как строить ML системы от идеи до планирования до реализации до мониторинга и развития. Сейчас доступны пять глав из шестнадцати. Они покрывают три темы: введение в ML System Design, создание дизайн документа, выбор метрик. Авторы рассматривают вопросы на верхнем уровне. Лишь иногда вдаются в детали для иллюстрации общих идей. Это хорошо работает, потому что для решения вопросов вроде “как понять, какую систему надо построить?” примеры с кодом не нужны. Особенно ценно, что каждая рекомендация сопровождается реальным кейсом из опыта авторов. Кому подойдет эта книга? Middle ML инженерам, которые хотят вырасти с уровня реализации фич до уровня стратегического планирования. Senior ML инженерам и тимлидам как настольная книга. Кому она не подойдет? Я считаю, что она не для начинающих: слишком высокий уровень абстракции. Так же она требует базовых знаний про ML инжиниринг в индустрии, или хотя бы понимания, зачем он нужен. Лично я даже прочитав доступные пять глав почерпнул для себя много полезного. Например, в книге описано как создать дизайн документ системы. Это лучший подход к сбору требований к ML решению, что я видел. Я буду применять это в работе на текущем проекте. Подводя итог, я думаю, что скоро описанное в книге станет стандартом индустрии. Напомню, что это рецензия лишь на первые пять глав. Дальше авторы обещают больше хардкора. Книгу можно найти здесь, промокод для скидки 45% mlkravchenko. @boris_again

250 views
12•••5•••10•••15•••20•••25•••30•••35•••40•••45•••50•••55•••60•••65•••6970717273•••75•••80•••8384