MWS Cloud включается в игру: запускает Data Lakehouse
Пока все обсуждают, как внедрять LLM, в MWS Cloud сделали ход: вышли с собственной платформой для хранения и обработки больших данных — MWS Data Lakehouse. Это уже не просто база или витрина, это полноценный фундамент для обучения, инференса и аналитики.
Ключевая особенность — универсальность.
Платформа работает с любыми типами данных: структурированными, неструктурированными, векторными. Поддержка Apache Parquet, Iceberg, Greenplum, Postgres, запуск в Kubernetes, объектное S3-хранилище. Всё, что нужно, чтобы компания могла: обучать ML/LLM модели, строить BI-отчёты, прогнозировать, сегментировать, оптимизировать. И всё это без копирования данных между системами.
Главное — цифры.
Платформа ускоряет обработку данных в 23 раза. Хранилище используется на 40% экономичнее. В 2,5 раза выше эффективность ИТ-персонала. Витрины данных считаются в 2 раза быстрее.
То есть платформа не просто "поддерживает ИИ" — она позволяет его внедрять в реальных бизнес-процессах, а не в пилотах и презентациях.
Безопасность и масштабируемость.
Встроенные инструменты шифрования, маскирования, аудита, контроль доступа. Централизованное управление, масштабирование без простоев. Можно запускать кластеры под разные команды и сценарии параллельно — без дублирования данных.
Контекст: рынок меняется.
Компании всё активнее вкладываются в инструменты, которые позволяют работать с ИИ на проде, а не просто тестировать гипотезы. Lakehouse — архитектура, к которой уже перешли десятки тысяч компаний на Западе. MWS Cloud предлагает такую же модель — внутри российской облачной экосистемы.
И да: MWS Data Lakehouse — часть экосистемы MWS Data, включающей 25+ сервисов для хранения, аналитики и AI.
Почему это важно.
ИИ уже давно не хобби айтишников. Это трансформация всей ИТ-архитектуры компаний. А без таких платформ запуск ИИ-проектов становится дорогим, медленным и уязвимым.
Именно поэтому сейчас выигрывают не те, у кого «есть данные», а те, у кого есть инфраструктура, чтобы эти данные реально использовать.
@ai_machinelearning_big_data
#data#ai#ml#infrastructure#mts
#remoteworking#data
Интересное наблюдение сделала на днях, пока готовила ответ на вопрос по теме своего PhD тезиса.
Так вот: практически невозможно найти детальных данных о доле удаленных работников в разных странах. Еще сложнее найти по годам (2019-2023), и почти невозможно по городам (если это не US) . И я не говорю о том, что понятие удаленки в разных источниках разное - от 5 дней дома, до хотя бы 1 в неделю.
Иногда встречаются отдельные цифры в статьях, как например, тут (опять же США) или тут - при этом источник не всегда доступен; иногда детальная статистика, но за 1 год, часто не последний - как, например, тут . Учитывая, что динамика изменений высокая, даже 2022 - уже не показатель.
Но чаще всего попадаются прогнозы, (например тут или тут), которые не сбываются или ответы на вопросы "готовы/хотели бы вы" работать из дома" и как дела с вашей продуктивностью.
Почему так? Очевидно, что подсчитать такой показатель сложно, и об одной методологии не договорились. То есть либо это опрос на ограниченной выборке (исключение недавняя перепись населения в США), либо это косвенно связанные c удаленкой метрики -например, уровень использования онлайн-сервисов для удаленки (график), или средняя частота комьютов в центр(исследование).
Получается, что на самом деле, не смотря на все разговоры о популярности удаленки, оценить ее точно в масштабах страны никто не может, а сравнить между странами тем более (исключая OECD страны). Интересно, как это отразиться на исследованиях и решениях компаниях.
Polymathic - междисциплинарный ИИ
Ох, какая классная межуниверситетская инициатива - Polymathic🔥.
Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п.
В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков.
На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI.
#AI#ML
🔥Приём заявок на Data Award 2026 в самом разгаре!
🏆 Хотите, чтобы вашу data‑команду заметили? Участвуйте в Data Award 2026 — престижной премии для data‑driven организаций и директоров по данным!
👉Подать заявку
Почему это важно?
Data Award — авторитетная награда в data‑сообществе, которая проводится уже 8 лет подряд. Её престиж подтверждает независимый экспертный совет: в него входят ведущие CDO и признанные эксперты IT‑отрасли.
Что нового в сезоне 2026?
✅ Расширенный список номинаций
✅ Отдельные категории для BI‑решений и ИИ‑агентов
✅ Особое внимание проектам из регионов России и СНГ
Наши принципы
• фокус на инновационность проектов;
• независимая оценка экспертов;
• прозрачность конкурсного отбора.
Зачем участвовать?
Участие в Data Award — это:
• признание профессионального сообщества;
• укрепление позиций компании на рынке;
• мотивация команды;
• усиление HR‑бренда.
Станьте частью истории развития data‑индустрии в России!
Сроки и условия
• Приём заявок: до 15 февраля 2026 г.
• Публикация интервью номинантов: до 6 апреля 2026 г.
• Подведение итогов: конец апреля — начало мая 2026 г.
• Церемония награждения: 14 мая 2026 г.
Важно: участие в премии бесплатное!
Как принять участие?
0. Перейдите на официальный сайт и подайте заявку.
1. При возникновении вопросов свяжитесь с организаторами:
◦ email: [email protected], [email protected]
#DataAward2026#data#премия#IT#инновации
ClimateLearn - машинное обучение в предсказании климата и погоды
ClimateLearn - это библиотека в питоне для доступа к самым современным климатическим данным и моделям машинного обучения стандартизированным и простым способом. Эта библиотека предоставляет доступ к нескольким наборам данных, зоопарку базовых подходов, а также набору метрик и визуализаций для крупномасштабного сравнительного анализа методов статистического масштабирования и временного прогнозирования.
В этом ноутбуке можно поучиться как пользоваться.
#ML#AI#climate
Seismic Foundation Model от создателя FaultSeg3D
Как говорится paper alert📖! Когда-то давно d 2018, тогда еще сотрудник Техасского Университета в Остине, Xinming Wu сделал синтетический датасет сейсмических моделей с разломами и обучил на нем довольно простую по нынешним временам сверточную нейронную сеть для сегментации разломов - FaultSeg3D. Написал статью и выкатил модель в октрытый доступ. На тот момент это был прорыв, так как модель работала во многом лучше существующих на тот момент инструментов.
Совсем недавно, он же сделал первый шаг к созданию первой базовой модели (Foundation Model) для сейсмического анализа недр и выпустил статью - "Seismic Foundation Model (SFM): a new generation deep learning model in geophysics". Особенность базовых моеделей в том, что они обучены на огромном количестве данных и служат отправной точкой для разработки специализированных моделей и могут быть легко адаптированы к широкому спектру применений.
Авторы накопали 192 сейсмических куба, >2 миллионов сейсмических разрезов и натренировали эту самую сейсмическую базовую модель, используя архитектуру Трансформера. Затем протестировали работу модели на различных задачах: классификация фаций, сегментация геологических тел, сейсмическая инверсия, подавление шумов и интерполяция сейсмической записи. Теперь они могут дообучать модель или использовать тонкую настройку для более узких задач. Побольше бы такого!
В обсчем, что тут сказать, Data is a King 👑. Есть данные, будет и базовая модель. Но только, сдается мне, что даже с "номинально" открытыми данными все не так просто и там куча условностей. Видимо по этому, ссылка на гитхаб в статье не работает 😀.
Статью можете нати во вложении!
#ML#AI#paper
Хакатончик от Xeek
Two Birds, One Neural Network - так называется новый хакатон от Xeek в области Generative AI. Звучит как-будто нужно сделать свой Dalle-E2, но на самом деле, задача выглядит немного иначе. По условиям хакатона, участникам нужно сделать нейронную сеть, которая максимизирует разнообразие генерируемых результатов, отвечающих двум условиям. Авторы хакатона проводят параллели с добавлением двух геофизических измерений для ограничения сценариев геологических моделей. Буквально, нужно построить нейронную сеть, которая генерирует разнообразные значения x0, x1, сохраняя при этом их природу в виде нисходящих или восходящих прямых линий, удовлетворяющих заданным функциям y1, y2, как показано на картинке.
Более подробное описание - тут. Призовой фонд $40К (первое место $19.5K).
#hackathon#AI#ML
Выделение объектов на Лидаре с помощью ML
LiDAR (Light identification, Detection and Ranging) - крутая штука. Это технология получения и обработки информации с помощью активных оптических систем (лазеров). Такой "лазерный дальнометр" для картирования объектов в 3Д и еще с координатами. Используется повсеместно в куче индустрий от беспилотных автомобилей до майнинга. Даже на айфонах есть (но не на моем 😢). На картинке, например, "лидарная" карта залива Линнхейвен в Вирджинии 🤩.
Но я даже не про красивые картинки. Они же просто красивые, а пользы сами по себе приносят мало. Польза есть, если, например, из этих моделей, по сути точек с координатами, вытаскивать реальные объекты. То есть делать сегментацию 💡.
Об этом и интересная статья на Медиуме: Introducing Segment-Lidar: Revolutionizing Unsupervised Instance Segmentation of Aerial LiDAR Data, которая рассказывает как применять крутейший алгоритм по выделению объектов SAM от компании Meta для выделения объектов на геопространственных данных, полученных с помощью Лидара (картинка 2). Статья, собственно, представляет собой пошаговую инструкцию, как это делать с помощью модуля в Питоне segment-lidar.
📖Medium
💻Github
#GIS#ML
NVIDIA и Physics Informed Neural Operator для нелинейных инженерных задач
Стараюсь краем уха следить за исследованиями в области physics informed machine learning, потому что эти модели машинного обучения, вроде как, могут получше работать с нелинейными физическими моделями сложной природы, а не только для того чтобы сделать свою фотку в стиле Барби. Больше всего в это вкладывается NVIDIA со своим Modulus. У меня даже пост про это есть.
А в этом линкедин посте, Анима Анандкумар, диерктор по ИИ в NVIDIA, рассказывает про применение нейронных операторов Фурье не только для моделирования потока флюидов под землей, но и для моделирования плазмы при ядерном синтезе, оптимизация литографических масок для дизайна микросхем и прогноза экстремальных погодных событий.
Ну и на сладенькое, на гитхабчике Caltech в открытом доступе лежат ноутбуки лекции из их последнего буткемпа, посвященного нейронным операторам.
Инджой -> Caltech AI4Science Bootcamp
#FNO#AI#ML
Комплексное глубокое обучение для моделей месторождений. Нажал на кнопочку - готово!
Руслан Мифтахов выпустил очередное видео, на этот раз про комплексное (end-to-end) глубокое обучение для моделирования месторождений. Посмотрите, будет интересно тем кто этим занимается. Видео основано на статье специалистов SLB "Deep learning for end-to-end subsurface modeling and interpretation: An example from the Groningen gas field".
Как и рассказывает Руслан, идея end-to-end глубокого обучения для моделирования месторождений довольно крутая и у нее есть прекрасная аналогия в мире беспилотных автомобилей - собираем все возможные алгоритмы прогнозы обстановки на дороге и автоматизации в одну систему. Что если сделать подобное и для дорогостоящего и длительного процесса моделирования подземных месторождений чего угодно, хоть нефти, хоть минералов 🤔?
Например, есть несколько видов данных (со скважин и сейсмические данные). Их нужно обработать, интерпретировать каждый вид данных особым способом, закартировать и наконец сделать 3D модель свойств горных пород и флюидов - типа, бурить сюда! Интересно, что модели машинного обучения уже представлены для каждого процесса в отдельности. Есть модели машинного обучения для обработки скважинных данных, есть модели машинного обучения для автоматического выделения тектонических разломов на сейсмике и так далее. Авторы статьи, делают один, на мой взгляд пока небольшой, шаг к полной автоматизации процесса интерпретации и моделирования. Они говорят, давайте соберем все эти модели и придумаем автоматический процесс, чтобы собрать данные, нажать на кнопочку и на выходе получить модель свойств всея Земли (на картинке). Это может быть модель пористости или плотности пород, да чего угодно.
Я лично знаком с авторами, коллеги все-таки. Действительно, у них есть работающие компоненты, которые они собрали в статье под одним зонтиком. Это в основном сверточные нейронные сети для различных задач. Идея крутая, но даже для частичной ее реализации, на мой взгляд, нужно пройти большой путь. Ведь то, что у нас под ногами скрыто от наших глаз, в отличие от того, что видит камера беспилотного автомобиля. Подземного сканера с супер-разрешением все еще нет, где ты Илон Маск? Поэтому в игру вступают неопределенность и сдвиг данных.
Неопределенность геологических моделей будет всегда, потому что этих моделей бескочнечность, ведь мы точно никогда не узнаем что там под землей, а можем лишь догадываться по обрывкам данных. Если эту неопределенность не учитывать - будет финансово больно, даже при наличии самых красивых моделей и самых глубоких обучателей. Сдвиг данных, возникает тогда, когда модель обученная на одних данных, попадает в новые условия. И в геонауках это серьезная проблема. Не смотря на аналогии, нет двух одинаковых месторождений, и даже если модель обучить на 1000 месторждениях, 1001-е будет другое и производительность модели будет значительно ниже и вероятно не понравится, людям принимающим решение о бурении скважины стоимостью стопицот миллионов . Умные геоинженеры и обучатели машин сейчас работают над тем, чтобы побороть эти две проблемы для моделирования месторождений, но с переменным успехом (на мой взгляд опять же).
Пост может показатья кому-то скептическим, но на самом деле я полон оптимизма. Каких-то пять лет назад даже 10-я часть предложенных алгоритмов была невозможна по разным причинам, а сегодня уже идут разговоры о полной автоматизации моделирования с помощью машинного обучения. Повсеместная адаптация займет еще много лет, но все равно впереди блестящее будущее!
📖статья
#ML#AI#geo#subsurface
Машинное обучение в геонауках. Обзор
70 years of machine learning in geoscience in review - статья почти 3-х летней давности, но от этого не теряющя актуальности. В этой работе дается обзор развития машинного обучения в геонауках за последние 70 лет 👴, со времен когда еще и машинным обученем это никто не называл. Кригинг, деревья, метод опорных векторов и далее к сверточным сетям и генеративным моделям глубокого обучения. Отсутствует только обзор популярных в последние годы больших языковых и генерационных моделей.
В общем такое краткое изложение того с чего все начиналось и к чему пришли, применяя статистику и программирование для понимания земных процессов.
Ко всему прочему это еще и прекрасный обзор литературы 📚. Или идеальная вводная лекция для курса "Машинное обучение в геонауках/поиске ресурсов"
#ML#AI#geoscience#paper