Post #290

@postpostresearch

PostPostResearch: Константин Ефимов и Анастасия Жичкина

Прегледи12,300Брой прегледи

Публикувано4.0404.04.2025 г., 06:09

Съдържание на публикацията

Съдържание

Синтетические респонденты наносят ответный удар Отвечаем на вопросы и проясняем неясности, оставшиеся с прошлого раза. ❓Кому и зачем нужны синтетические респонденты? Евангелисты предлагают заменить всех – и исследователей, и респондентов – на LLM. Это позволит ускорить проверку гипотез, вынеся ненадежных людей за скобки. Очевидно, что нынешний уровень технологий пока не позволяет так сделать. И мы вынужденно переходим к более скромной задаче: отбросить заведомо неудачные идеи, гипотезы и концепции (concept-test). Как мы писали, никакое интервью не даст вам ответа на вопрос, «взлетит или не взлетит» - но оно может помочь отсечь заведомо провальные концепции. А уже прошедшие фильтр концепции могут быть доработаны и проверены на людях. Именно поэтому мы проверяли концепции, которые провалились. Потому что если LLM из роли респондента может в принципе это сделать, то, наверное, у таких концепт-тестов есть потенциал? И здесь мы сталкиваемся с двумя проблемами: 🅰️Конформизм LLM дают характерный вайб ответов. Это типичные «ходоки». Они очень хотят понравиться исследователю и подстроиться под него. Они одобряют все, что вы им предложите, и со всем согласны. Виталий Болотаев поставил смелый эксперимент с Grok, предложив ему оценить идею пива с заведомо неприемлемым вкусом. Результат эксперимента - безусловное одобрение. Почему это так? Виталий пишет: «ИИ может выдавать "угодливые" или "полярные" ответы, если в запросе есть намёк на предпочтение определённой точки зрения. Это не осознанное желание "угодить", а следствие статистической оптимизации: модель стремится максимизировать вероятность положительной оценки». Возникает вопрос: можно ли решить проблему конформизма LLM с помощью промптинга в принципе? Или же нам нужно двигаться в сторону кастомных LLM и забыть условный Chat GPT как страшный сон? Спойлер: возможно, к этому и идет. 🅱️Неполнота данных Можем ли мы вообще полагаться на данные, заложенные в LLM? А что, если они неполны или системно искажены? Есть прекрасная статья «Персона, созданная LLM, - это обещание с подвохом» – где авторы ставят эксперименты. Общий вывод: «чем больше контента, созданного LLM, включалось в персоны, тем больше их смоделированные мнения расходились с реальными данными». Эти синтетические респонденты чаще выбирают экологичные машины, гуманитарные специальности, романтические фильмы и голосуют за демократов. Критика нашего эксперимента: 1️⃣«У вас неправильные промпты. Правильные должны быть не короче двух страниц» Странно оценивать промпты по длине, а не по содержанию. Но, как бы то ни было, повторение экспериментов с расширенным описанием персон и более детальным сеттингом интервью пока не опровергло наших результатов. Кошатница по-прежнему хочет купить Febreze, а айтишник из Сан-Франциско все также хочет попробовать AI-сервис для проверки договоров аренды. Добавление в промпт инструкций для снижения конформизма не поменяло результат принципиальным образом. 2️⃣«Role-prompting не подходит для синтетических респондентов в принципе» Ксения Воейкова пишет, что ролевой промптинг не работает для reasoning LLM, и для таких задач нужно использовать цифровых двойников – отсылая к статье «Генеративные агенты: моделирование 1000 реальных людей». Авторы получили обнадеживающие результаты: точность цифровых двойников при воспроизведении опросников и экономических игр оказалась выше, чем у агентов, обученных на демографических данных или кратких описаниях. Проблема в том, что авторы не тестировали никакие концепции - ни на людях, ни на цифровых двойниках. Следовательно, мы не знаем, применимы ли эти цифровые двойники для концепт-тестов – где мы должны не воспроизвести установки и ценности, а оценить конкретный продукт с точки зрения возможной покупки. Если для создания цифрового двойника, который сможет тестировать концепции новых напитков, нам придется проводить U&A интервью с живыми респондентами, то не проще ли сразу опрашивать живых людей? В третьей части сравним разные LLM между собой и проверим новые провальные концепции. 💽@PostPostResearch