Post content
Andrej Karpathy спустя большой перерыв выложил новое видео под названием Intro to Large Language Models. В этот раз доклад менее технический, но отлично подойдет, если вы не работаете в сфере DL/NLP и давно хотели чуть глубже разобраться, как устроены современные системы с LLM. Например, какие этапы обучения есть у модели, чтобы стать чат ассистентом; как добавляются дополнительные возможности по типу использования интерпретатора? Как в целом модель генерирует текст? Проводится интересная параллель с двумя системами мышления из книги Канемана "Thinking, Fast and Slow" как пример дальнейшего улучшения LLM систем. В общем, после одного часа общее понимание должно улучшиться. Есть также интересная часть с примерами про атаки на языковые модели, я знал не про все