TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #458 · 24.07

Есть такая игра TrackMania, я вам уже про неё когда-то давно писал. Это очень аркадная гонка. Настолько аркадная, что автомобили на трассе никак друг с другом не взаимодействуют (вы не можете столкнуться с соперником, просто проедете сквозь него), и задача игрока состоит в том, чтобы сражаться со сложностью трассы. А трассы обычно включают в себя прыжки, мёртвые петли, движение по стенам и так далее. Разумеется, нужно пройти трассу быстрее, чем остальные. "Пройти трассу" с точки зрения движка игры означает следующее: корпус автомобиля в любом порядке пересекает чекпоинты, а затем попадает в область финиша. Ещё физический движок у игры идемпотентный: одинаковый набор управляющих воздействий всегда в точности приводит к тому же положению автомобиля и тем же векторам линейной и угловой скорости. Это создаёт ситуацию, при которой повтор прохождения игроком какой-либо трассы можно записать просто как цепочку нажатий на клавиши управления в заданные моменты времени. Так что игроки могут этими повторами обмениваться и соревноваться асинхронно: один проходит трассу за 2 минуты и 19 секунд, загружает свой результат в сеть, а другой через неделю соревнуется и с ним и побеждает, проходя трассу за 2 минуты 18 секунд. Вокруг этой игры создалось очень большое и активное сообщество людей, которые друг с другом соревнуются и ставят рекорды. Эти игроки проводят в TrackMania десятки часов в неделю, и зачастую сами себе создают челленджи. Например, пройти все трассы в игре, никогда не поворачивая вправо. Или пройти задним ходом. Или даже с закрытыми глазами, ориентируясь по звукам и таймеру. Ещё в игре есть редактор трасс, и поэтому сообщество создаёт очень сложные многоуровневые треки для всех желающих. Так вот, интересный момент. Как я уже говорил, движок засчитывает прохождение по довольно формальным признакам. Поэтому технически совсем не обязательно проехать на машине по дороге. Если вы каким-то образом заставите машину взлететь и проскакать с более быстрой скоростью — это валидный рекорд. И сообщество тоже такое принимает и даже всячески восхищается игроками, которые смогли обмануть игровой движок и найти, что называется, shortcut. Профессиональные игроки владеют набором специальных багов. Например, если определённым образом поставить машину боком под правильным углом с правильной скоростью, трение торможения уменьшится, и можно будет пройти какой-то кривой участок быстрее. Ещё можно под нужным углом удариться о поверхность и отскочить от неё куда требуется. И таких обманов движка пара десятков. Нередко игрокам приходится их комбинировать, поэтому они сидят десятки и сотни часов, проходя одну и ту же трассу, чтобы получить идеальное стечение обстоятельств ради улучшения времени на одну сотую секунды. Не преувеличиваю. При этом, однако же, читерство и "внешние" обманы в игре очень сильно критикуются. Если тебя заподозрят в использовании программы, которая за тебя нажимает клавиши, или в какой-нибудь подделке памяти — это смерть для твоей репутации в сообществе. Вот какое дело получается: разработчики заложили формальные правила игры (ехать на машине по дороге), и нарушение этих правил поощряется. Но нарушение правил игрового движка уже жёстко критикуется. Чисто практически разница между этими правилами очень условная: и то, и другое это отступление от игры в том виде, в котором игра задумана. Но людям нужно было где-то поставить границу, после которой издевательство над игрой уже не обладает зрелищностью и спортивной составляющей, так и получилось. На видео ниже норвежский про-игрок с ником Wirtual рассказывает об одном из таких случаев, по-моему, очень интересно и напряжённо вышло :) #games https://www.youtube.com/watch?v=_b67SC7Y4qA

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #sft

当前筛选 #sft清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8851 · 24.10.2025 г., 22:00

🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы. Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи. Сначала генерируются диалоги: «Сколько букв r в слове strawberry?» и правильные ответы. После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык. Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы. Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу. Nanochat решает задачу двумя способами: — логически, рассуждая пошагово; — через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата. Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные. 📘 Разбор: github.com/karpathy/nanochat/discussions/164 @ai_machinelearning_big_data #AI#Karpathy#Nanochat#LLM#SFT#RL#MachineLearning#OpenSource