TGTGInsightаналитика telegramLIVE / telegram public index
← DeepSchool
DeepSchool avatar

TGINSIGHT POST

Post #189

@deep_school

DeepSchool

Просмотры11,900Количество просмотров
Опубликован31 мая31.05.2023, 17:10
Содержимое поста

Содержимое

КакLLMs могут принимать сразу 100К токенов на вход? Недавно несколько компаний объявили о возможности своих LLMs брать на вход аж до 100K токенов. Это промпт размером с книгу! Для примера, OpenAI GPT-4 может брать 8-32K, а опен-сорсные модели всего 2K. В новой статье Галя, выпускница нашего курса, разобрала техническую сторону вопроса и постаралась включить все основыне трюки, используемые MosaicML, Anthropic и Google. В статье описаны: - подробный вывод вычислительной сложности трансформера и ее влияние на стоимость обучения - хитрые вычисления на GPU и Flash Attention, который недавно стал частью PyTorch - нестандартный позиционный эмбеддинг ALiBi и почему нельзя было использовать оригинальный - Multi-Query Attention, Sparse Attention и Условные вычисления Читайте статью по ссылке и поддерживайте Галю 👏🏻 на Medium: https://medium.com/gopenai/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c Задавайте вопросы Гале в комментариях к этому посту 👇