TGINSIGHT CHAT
PHYGITAL+CREATIVE
@phygitalcreative
TechnologiesПишем про нейросети и Phygital+ — веб-приложение для дизайнеров и креаторов. ⚡️30+ нейросетей в одном месте ⚡️Уникальный нодовый интерфейс — контроль над каждым этапом генерации Попробовать бесплатно: https://phygital.plus Для связи: [email protected]
Postijiet reċenti
Paġna 60 minn 84 · 1,002 postijiet
Ippubblikat Ġun 9
https://twitter.com/rainmaker1973/status/1666833916244770816?s=46&t=IO_D6IRtK8iS_1pLCdDWnA
Ippubblikat Ġun 9
https://twitter.com/2020cv_inc/status/1666881735018283008?s=20
Ippubblikat Ġun 8
Voyager — первый AI-агент работающий на LLM, который непрерывно исследует мир Minecraft, приобретает различные навыки, выполняет задачи и делает новые открытия без вмешательства человека. Он состоит из трех ключевых компонентов: 1) автоматический учебный план, который максимизирует исследование 2) постоянно растущая библиотека навыков исполняемого кода для хранения и извлечения сложных моделей поведения 3) новый итеративный механизм подсказок, который включает в себя обратную связь с окружающей средой, ошибки выполнения и самопроверку для улучшения программы. Voyager взаимодействует с GPT-4 посредством запросов "черного ящика", что позволяет обойти необходимость точной настройки параметров модели. Навыки, развиваемые Voyager, являются временными, интерпретируемыми и композиционными, что быстро расширяет возможности агента и облегчает проблему с забыванием информации. Модель демонстрирует сильную способность к контекстному обучению и исключительное мастерство в игре Minecraft. Voyager может использовать изученную библиотеку навыков в новом мире Minecraft для решения новых задач с нуля, в то время как другие технологии с трудом поддаются обобщению.
Ippubblikat Ġun 8
В новом апдейте СontrolNet появился новый препроцессор - Reference Only. Берёт на вход одну картинку и делает из нее разные вариации в соответствии с вашим промптом. Это не модель, ничего скачивать не надо, это какой-то безумно ловкий алгоритм, который как бы (условно) заменяет собой необходимость в тренировке с помощью Дримбус или Лора. Сам ещё не потыкал, напишите в коментах, что получается. https://youtu.be/ddcySSbjkNQ
Ippubblikat Ġun 8
Вчера Google провел презентацию с ИИ-новинками, показал Bard (которым уже можно пользоваться) и другие классные штуки типа своего text2music Обновления коснутся и нашего любимого Google Colab. Кажется скоро для того, чтобы дописать код и пофиксить инструмент не нужно будет обращаться к ChatGPT, а можно будет мучить только один инструмент. Удивительное ура! Запросить доступы и посмотреть нововведения можно тут.
Ippubblikat Ġun 8
для одного инструмента давно есть P+
Ippubblikat Ġun 8
Пример использования новых инструментов для артдирекшена и контроля концептинга отдельных элементов. Я лично второе рождение, в профессиональном плане, испытал, когда начал пользоваться сетками в своей работе. То, что через пару лет криэйторы будут в себе объединять микростудии, это правда. Легче не будет, вопреки массовому заблуждению, будет сложнее! Но интереснее, я обещаю) Сетап такой: Stable diffusion webui. img2img using controlnet1.1 lineart_anime and depth. Input rendered image.
Ippubblikat Ġun 8
Эпик бахнул Unreal Engine 5.2 Больше всего впечатляет Procedural Content Generation Когда смотришь на демо, то возникает прямая аналогия с генерацией в Stable Diffusion и инпайнтингом. Поглядите, как они вставляют или двигают новые ассеты в сцену, и вокруг все апдейтится и ассет бесшовно встраивается в сцену. Этакий 3Д-инпайнтинг. Только процедурный (пока), на скриптах и алгоритмах. Но пройдет время и два подхода где-то встретятся по дороге. Тем более, что в UE5.2 потихонечку завозят ML - там теперь как бы ответочка на Ziva из Юнити - ML Deformer с Neural Morph. https://docs.unrealengine.com/5.2/en-US/unreal-engine-5.2-release-notes/
Ippubblikat Ġun 8
Ох, какая годнота! Тут впору выпить за Massive, если тут еще есть старперы, которые в курсе. Генерация толпы с помощью Stable Diffusion и Блендора. Причем шиворот-навыворот. В Stable Diffusion генерятся 2Д-картинки участников толпы (скриптами Automatic1111 или PromtMatrix), потом они конвертируются в 3Д(!) с помощью PIFuHD (или ECON и EVA3D), затем немного колдунства с текстурами и разгон толпы в Блендоре с помощью водометов Geоmetry Nodes. Подробный гайд тут: https://5agado.medium.com/from-zero-to-crowd-a-guide-to-3d-crowd-generation-using-stable-diffusion-and-blender-79ece990e85e Интересно, что за лук отвечает Stable Diffusion, что позволяет переодевать толпы или генерить их на основе своих датасетов.
Ippubblikat Ġun 8
Что лучше работает Prompting или Finetunning? Размышления Andrej Karpathy на тему сравнения prompting (включая embeddings) и finetuning для обучения LLMs (Large Language Model). Вот что он говорит о разных моментах этого процесса: 1. Zero-shot prompting (решение задач без примеров) - это когда модель решает задачу без предоставления примеров решений, опираясь исключительно на свои эмбеддинги. 2. Few-shot prompting (решение задач с несколькими примерами) - это когда модель получает небольшое количество примеров прежде, чем решать задачу, используя свои эмбеддинги в сочетании с предоставленными примерами. 3. Finetuning (дообучение) - процесс обучения модели на основе конкретных примеров и данных, чтобы улучшить ее способности в решении задач, адаптируя эмбеддинги и параметры модели. В контексте сравнения prompting и finetuning становится ясно, что достижение высокой точности в решении множества задач, применяя только zero-shot или few-shot prompting, - это замечательно (подкладывать примеры как preprompt). Однако для достижения наилучших результатов необходимо применять finetuning, особенно когда речь идет о конкретных, четко определенных задачах, и доступно много данных для обучения. Стоит учесть, что маленькие модели, в отличие от больших, практически не в состоянии обучаться при помощи zero-shot или few-shot prompting, но их все равно можно настроить с тщательным выбором сложности задачи и методов решения. #ai#prompting#finetunning
Hashtags
Ippubblikat Ġun 8
Мультимодальный AI Meta: будущее поиска, генерации и взаимодействия с виртуальным миром в 6 типах данных Мультимодальность постепенно проникает в нашу жизнь. Meta AI зарелизила в opensource работу с 6 модальностями, которая не только позволяет работать с текстом, изображениями и видео, но также с инфракрасными изображениями и другими данными, что открывает возможности работы с AR/VR информацией. Вот какие возможности это открывает: Мультимодальный поиск (аля Google, но одновременно по 6 модальностям). Пример: найди виртуальный мир, в котором есть пространство размером с футбольное поле, и в котором были танцующие котики. Арифметические вычисления с векторами. Если раньше "кошка" и "cat" для LLM были одно и то же по смыслу, то теперь 3D-модель кота и слово "cat" будут равносильны, а "3D-модель кота" + слово "счастливый" - фото усов позволит найти видео улыбающегося кота без усов. Кросс-модальная генерация (сейчас отдельно генерируем картинки и видео, а будем генерировать объекты в 6ти модальностях одновременно). Пример: "сгенерируй мне AR-мир с котиками на основе звука, как они мяукают". Исследование Meta AI в области мультимодальности является значительным шагом вперед в развитии AI и открывает новые возможности для работы с разнообразными данными. 📝 Paper: https://dl.fbaipublicfiles.com/imagebind/imagebind-paper.pdf 👨💻 Github: https://github.com/facebookresearch/imagebind #ai#multimodal#metaai#ar#vr#llm#opensourсe
Ippubblikat Ġun 8
https://twitter.com/bentossell/status/1666407043786309634?s=20