Post #2867

@phygitalcreative

PHYGITAL+CREATIVE

Viżjonijiet200Għadd ta' viżjonijiet

IppubblikatApr 2929/04/2023 11:54

Kontenut

Kontenut tal-post

1. Chat / Prompt -based Самый говорящий пример Midjourney или Wombo, где у вас ничего особо нет кроме диалогового окна для написания промпта и создания картинки, вижу как промежуточный этап 2. Page-based Тут тоже особо нечего говорить Google Colab, Hugginface, Replicate, Automatic1111 и любой сервис на основе SD для создания картинок. Понятный и логичный интерфейс для решения конкретной задачи. 3. LLM-based Интересное наблюдение - наш основной вектор развития в области 3DML строился на типах данных и их представлении в пространстве, когда как скорее нужно было идти от представления через текст и латентного пространства, а не геометрического. И сейчас мы видим весь этот бум вокруг GPT-based подходов, который описывает целые миры просто текстом Однако еще в 2018 году мы экспериментировали с текстом, но на тот момент не хватало трансформеров, мультимодальности, объемов данных да и мощностей для подобного рода прорыва. Поэтому переакцентировали внимание на CV / MV (да и вообще это ближе к графике, чем мы и занимались). И вот пример тестов на тот момент наиболее близкого совмещения пространственных и текстовых данных SSG(видео). Однако, в будущем LLM-based подход будет интегрирован во все интерфейсы (как пример Notion AI и Mymind). Будущее самих LLM-based подходов я вижу в таких системах как HuggingGPT, которые смогут совместить все лучшие практики из предыдущих концепций и следующих 4. Chain-based Параллельно идет развитие chain-based подходов к созданию удобных UI интерфейсов для работы с нейронными сетями. Наиболее интересные на данный момент подходы предложили Langchain и Lamini, по сути это такие Zapier для AI. Тут основными концепциями выступают компоненты, цепи и агенты. Но это скорее удобные интерфейсы для технически подкованных специалистов и соответственно ограниченного количества целевой аудитории. 5. Node-based Из примера выше для Langchain есть расширение Langflow, которое позволяет работать в нодовом интерфейсе, что позволит эти подходы вывести на больший круг аудитории. Также недавно Google представил свое видение нодового интерфейса для работы с большим количеством нейронных сетей. И в рамках исследования показали, что решение задачи с помощью нодового интерфейса превосходит все предыдущие по времени решения. Именно поэтому мы когда-то и сделали выбор в сторону данного подхода, однако это не значит что мы не будем меняться для предоставления лучшего опыта работы с ИИ, ведь наша задача сделать доступным AI для каждого, а нодовый интерфейс все таки еще обладает ограниченностью во входе не специалистов. Однако для решения профессиональных задач, где требуется внедрение в бизнес-процесс и решение комплексной задачи по созданию контента на данный момент это наиболее удобный интерфейс. Тут основными концепциями мы выделяем: нода, инпут/аутпут, пайплайн, шаблон, тип данных, связка преобразования (трансфигурация) 5. Canvas-based Но рано или поздно мы продвинемся в сторону Canvas-based подходов. Наиболее интересным я выделю сейчас Fermat.ws и Miro AI 6. 3d / XR -based Об этом пока совсем рано говорить, но JARVIS из Железного человека вот что будет по-настоящему нашим Усиленным Интеллектом. Наши концепты на этот счет 1 и 2