TGTGInsighttelegram intelligenceLIVE / telegram public index
← AML
AML avatar

TGINSIGHT POST

Post #657

@MachineLearningResearch

AML

Views50Post view count
PostedFeb 302/03/2026, 05:56 PM
Post content

Post content

PolymathicAI выкатили здоровенный открытый датасет для ML-исследований — The Well По сути это склад численных физических симуляций “на все случаи жизни”: около 15 ТБ, 16 разных наборов Там есть и стандартные модели вроде гидродинамики/турбулентности и более специфические : биосистемы, акустическое рассеяние, магнито-гидродинамика, внегалактические среды, симуляции сверхновых — всё, где динамика сложная и модели обычно страдают от недостатка реальных цифр Сейчас ML всё чаще используют как замену тяжёлым симуляторам (surrogate modeling): быстро предсказывать поведение системы там, где прямой расчёт дорогой Проблема была в том, что публичные данные обычно либо маленькие, либо разрозненные, либо в разных форматах Здесь, судя по описанию, сделали один общий “контейнер”: много данных, единый подход, реальные сложные процессы Удобно и для обучения, и для честных бенчмарков Как трогать руками: есть Python/PyTorch API (чтобы нормально цеплять в dataloader и тренировать без плясок); можно брать через Hugging Face; есть HDF5, если хочется просто и надолго Лицензия — BSD-3-Clause, то есть можно использовать в исследованиях без лишней бюрократии Репозиторий: github.com/PolymathicAI/the_well