Post #49

@AIexTime

AI[ex]Time

Views2,170Post view count

PostedDec 712/07/2023, 07:12 AM

Post content

Вышла интересная заметка от Anthropic по промпту для Claude по работе с длинным контекстом. Интересна она по нескольким причинам: 1. Даже если модель поддерживает очень большую длину контекста, шанс пропустить информацию в нем довольно велик, особенно если информация сосредоточена в середине, об этом есть статья Lost in the Middle. 2. Один парень поставил любопытные эксперименты с GPT-4 (128k контекст) и Claude 2.1 (200k контекст), где показал, что, начиная с определенного размера контекста, качество модели стремительно снижается. На русском тут можно почитать подробнее. У Claude в этом эксперименте совсем печальные результаты. По итогу видно, что в случае больших контекстов всегда нужно допускать, что модель какую-то информацию из него потеряет. И вчерашняя заметка как раз об этом. Две основные мысли: 1. Авторы пишут, что информация, которую мы помещаем внутрь документа для будущего извлечения, очень важна. В оригинальном эксперименте в эссе по стартапам помещалась фраза The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day, то есть предложение, не имеющее никакого отношения к теме документа. Поменяв вставку на A few hours before the Yahoo acquisition was announced in June 1998 I took a snapshot of Viaweb's site и задав вопрос уже к этой части, авторы отмечают, что модель сразу стала выдавать правильные результаты (как будто 100% точность, но явно не написали) 2. Для оригинального примера авторы добавили в промпт одно дополнительное предложение: Here is the most relevant sentence in the context:, среднее качество сразу повысилось с 27% до 98% 🤔