Содержимое
Классическая информация (Шеннон + Колмогоров) считает, что из данных нельзя ничего нового «выжать» простыми преобразованиями, порядок не важен, а обучение — это просто подгонка под распределение. Но в реальной жизни мы каждый день видим обратное: правильный порядок токенов резко улучшает обучение, аккуратная фильтрация данных творит чудеса, а модели создают программы сложнее, чем процесс, который их породил. Авторы вводят новое понятие — эпиплексия. Это количество полезной, реально выучиваемой структуры, которую способен извлечь ограниченный по вычислениям мозг (человека или современной нейросети). Энтропия измеряет шум, а эпиплексия — осмысленную, полезную часть данных. По сути, это первая серьёзная попытка теоретически объяснить, почему не количество гигабайт, а качество структуры в датасете решает всё. И да — информацию действительно можно создавать вычислениями и правильным порядком. https://arxiv.org/abs/2601.03220