TGTGInsighttelegram intelligenceLIVE / telegram public index
← AI[ex]Time
AI[ex]Time avatar

TGINSIGHT POST

Post #59

@AIexTime

AI[ex]Time

Views1,560Post view count
PostedFeb 502/05/2024, 12:47 PM
Post content

Post content

Классная новая лекция Саши Раша про историю языковых моделей. Включает в себя: - Очень понятный вывод перплексии и её влияния на остальные метрики - Сравнение с древними n-граммными моделями - Вывод механизма внимания как аппроксимацию key-value памяти - Понятные переходы “n-граммная модель -> word2vec -> трансформеры” - Объяснение важности иерархии памяти в GPU при матричном умножении - Scaling law Шиншиллы - RASP, довольно забавный язык программирования, основанный на механизме внимания. Язык этот используется для того, чтобы показать, как трансформеры могут делать те или иные операции. Что я узнал нового? Только часть про RASP, которую я как-то пропустил года 2 назад. Но всё равно лекция довольно интересная. Видео: https://www.youtube.com/watch?v=KCXDr-UOb9A Презентация: https://link.excalidraw.com/p/readonly/aBWlNjEckdUlrszwwo6V