📌Почему языковые модели галлюцинируют.
OpenAI опубликовали исследование о причинах галлюцинации LLM.
Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.
Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.
🟡Все начинается еще на претрейне.
Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.
В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле.
Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
🟡Эксперименты это подтверждают.
Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью).
В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7.
При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний. Кто бы сомневался.
🟡Почему галлюцинации не исчезают после пост-тренинга и RLHF?
Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.
Эту гипотезу подтвердили анализом популярных оценочных наборов.
В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.
🟡Что делать инженерам.
OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.
Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.
🔜Читать статью полностью
@ai_machinelearning_big_data
#AI#ML#LLM#Research#OpenAI
📚Хороший гайд по рынку AI от Translink Capital.
Тот случай, когда это не пост по отчету, а именно сам отчет.
Kelvin Mu из Translink Capital (давно и неплохо делает аналитику по сегменту) сделал чтиво по рынку искусственного интеллекта на 42 страницы. Тот случай, когда минимум графиков, которые мы любим, зато отчет достаточно емкий. Вдруг вы пропустили что-то по теме, это точно поможет расставить по полочкам. Понятно, что где в каком сегменте происходит.
Структура:
▪️Infrastructure Layer
▪️Model Layer
▪️Tooling Layer
▪️Application Layer
▪️Investments and M&A
▪️Other AI trends
Могу лишь еще лично направить почитать про тренд по Inference optimization в Tooling Layer, где сказано про наш уже бывший стартап Deci AI, который купила NVIDIA, но вообще каждый найдет там что-то свое. Очень кропотливо собраны тренды.
@proVenture
#ai#research
💯The AI 100 2023: The top people in artificial intelligence.
❗️Сразу попрошу вас – чтобы было интереснее, сначала прочитайте пост, а потом посмотрите приложенный к посту скриншот, не наоборот, а то спойлеры 😁
Любопытный список, на анализ которого я потратил, возможно, больше времени, чем нужно. Но думаю, вам тоже будет интересно. Business Insider подготовил и выкатил список топ-100 людей в AI версии 2023 года. И без paywall, так что я побежал читать. Мне захотелось посмотреть, кто это – и не просто поглазеть, а проанализировать немного.
Я прошелся по каждому из списка и вот что получилось:
1/ В списке представители следующих групп:
▪️43 из стартапов
▪️25 из корпораций
▪️14 из университетов и исследовательских центров
▪️5 из non-profit организаций
▪️4 VC
▪️9 прочее
2/ География жутко концентрирована (P.S. география – это то, где люди находятся сейчас, а не откуда они, почти всегда данные из Linkedin или Crunchbase):
▪️85 из США
▪️7 из Канады
▪️8 из остальных 8 стран
3/ Среди 43 представителей стартапов наиболее встречающиеся направления следующие:
▪️7 Generative AI
▪️6 Biotech & HealthTech
▪️4 AI Audio and video production
▪️3 Conversational AI
▪️2 ML Tools
▪️2 Big Data
▪️2 Edu Tech
▪️2 Defense Tech
4/ Какие компании представлены чаще всего:
▪️5 Amazon
▪️5 Google (совместно с DeepMind)
▪️2 OpenAI
▪️2 Anthropic
▪️2 Hugging Face
5/ Несколько любопытных фактов по списку:
🔹 В списке есть два представителя компаний, которые производят контент для фильмов и т.п. Это прикольно. Я их объединил в одну группу с классическим стартапами, которые генерят видео или аудио под запрос;
🔹 Всего 1 представитель государственного сектора, зато 2 из инвестбанков и 2 из прессы (Bloomberg и NYT);
🚀 Есть 1 человек из пространства СНГ так сказать. Это Карен Симонян из стартапа Inflection AI. Он живет в Армении, а Infection AI – это “personal AI”, они разрабатывают ассистента, собеседника, партнера и т.п. для каждого. Самое ошеломительное, последний раунд Infection AI поднял на $1.3B в конце июня 2023 года (🤑 WAT!?), а лид инвесторами стали Microsoft и Nvidia. Карен джан и команда, мои поздравления, если вы это читаете!
❓Казалось бы, что еще может быть интереснее для нас с вами? Но есть еще кое-что. Есть один человек в списке, деятельность которого можно описать как “comedian and actor”. Это Сара Сильверман. Так вот, откуда такой человек в списке?
Сара была первым человеком, который подал в суд на разработчиков LLM моделей за то, что они использовали ее работы, защищенные вроде как авторским правом. Потом это переросло в class action, к ней присоединились ее соавторы, создатели The Game of Thrones и другие. Авторы рейтинга считают, что несмотря на то, что суд может длиться годами, для нас с вами действия Сары могут послужить источником того, что мы сможем понять более детально, как работают такие модели (наверное, из материалов суда), а также позволят авторам уникального контента понимать, что им делать в противостоянии с гигантскими моделями генераторов контента и как защитить себя.
Вот такой любопытный список, изучайте: https://www.businessinsider.com/the-ai-100-2023-the-people-who-make-ai-intelligent-2023-10
@proVenture
#research#ai
Polymathic - междисциплинарный ИИ
Ох, какая классная межуниверситетская инициатива - Polymathic🔥.
Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п.
В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков.
На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI.
#AI#ML
OpenAI завершила предобучение модели Spud и создала отдел AGI Deployment для её интеграции в продукты
Компания OpenAI завершила претрейн своей следующей модели AI под кодовым названием Spud (картошка). Согласно внутренним документам, Сэм Альтман сообщил сотрудникам, что в течение нескольких недель у компании появится очень сильная модель, способная "действительно повлиять на экономику".
Вокруг этой модели происходят значительные организационные изменения в стартапе. Альтман перестал лично курировать часть своих прямых подчиненных, включая команды по безопасности, и сосредоточился на привлечении капитала, выстраивании цепочек поставок и строительстве дата-центров.
Продуктовая организация под руководством Фижи Симо (Fidji Simo) была переименована в отдел AGI Deployment. Эта команда будет отвечать за интеграцию следующей модели в продукты компании. Планируется построить на её основе "супер-приложение", объединяющее ChatGPT, Codex и браузер Atlas.
Причины использования термина AGI вместо AI в названии отдела остаются неясными, это может также указывать на подготовку к официальному объявлению достижения AGI. Отказ от проекта SORA App также является частью перестройки и перераспределения вычислительных ресурсов для модели Spud.
#news#AI#OpenAI
https://www.theinformation.com/articles/openai-ceo-shifts-responsibilities-preps-spud-ai-model
Сооснователь и бывший главный исследователь OpenAI Илья Суцкевер открыл собственную компанию
Safe Superintelligence (SSI) позиционируется почти как OpenAI, когда её только основали: некоммерческая исследовательская организация, целиком сфокусированная на вопросах AI. SSI обещает уделить всё внимание решению проблем безопасности AI-моделей и средствам управления рисками, сделав так, чтобы их развитие опережало прогресс собственно AI.
Компания не планирует заниматься рыночными продуктами и распылять усилия на коммерциализацию.
В OpenAI Сукцевер отвечал в том числе за безопасность и инструменты контроля над работой моделей. Он покинул компанию в 2023 г. из-за корпоративного конфликта.
#openAI#AI
https://www.bloomberg.com/news/articles/2024-06-19/openai-co-founder-plans-new-ai-focused-research-lab
‼️❗❕Звёздные врата открываются
OpenAI, SoftBank, Oracle и другие техногиганты запускаютProject Stargate — крупнейший инфраструктурный проект в истории ИИ. $500 млрд инвестиций, 10 датацентров в Техасе и 100 000 новых рабочих мест. Но главное не цифры.
Во-первых, это не просто "ещё один проект". Stargate — первая в истории попытка создать физическую инфраструктуру, специально заточенную под нужды продвинутого ИИ. Представьте, что мы строим не просто сеть компьютеров, а фундамент для следующей технологической революции.
И да, масштаб проекта говорит о том, что крупнейшие игроки рынка всерьёз готовятся к прорыву в развитии ИИ. Они вкладывают суммы, сравнимые с ВВП небольшой страны — значит, ожидают соответствующей отдачи.
А ещё Microsoft обновила партнёрство с OpenAI до 2030 года, сохранив эксклюзивные права на API. В переводе на человеческий: экосистема вокруг GPT продолжит расти, а значит — больше инструментов и возможностей для всех нас.
🔥 Похоже, ребята из OpenAI всерьёз решили открыть свои "Звёздные врата". Вопрос уже не в том, кто первым заглянет на ту сторону, а в том, кто сможет составить им конкуренцию. Как думаете, кто следующий?
#ИИ#AI#Нейросети#OpenAI
———
#События
✍️Подписывайтесь: @aiforproduct
Исходя из ценообразования #openAI прайс на следующую AGI модель будет в районе 2,000$
Так что готовимся покупать GPT модели как новый айфон каждый год 🤯