Post content
Классная новая лекция Саши Раша про историю языковых моделей. Включает в себя: - Очень понятный вывод перплексии и её влияния на остальные метрики - Сравнение с древними n-граммными моделями - Вывод механизма внимания как аппроксимацию key-value памяти - Понятные переходы “n-граммная модель -> word2vec -> трансформеры” - Объяснение важности иерархии памяти в GPU при матричном умножении - Scaling law Шиншиллы - RASP, довольно забавный язык программирования, основанный на механизме внимания. Язык этот используется для того, чтобы показать, как трансформеры могут делать те или иные операции. Что я узнал нового? Только часть про RASP, которую я как-то пропустил года 2 назад. Но всё равно лекция довольно интересная. Видео: https://www.youtube.com/watch?v=KCXDr-UOb9A Презентация: https://link.excalidraw.com/p/readonly/aBWlNjEckdUlrszwwo6V