Machinelearning (@ai_machinelearning_big_data)

Опубликован 6 февр.

🌟Intern-S1-Pro: триллионная MoE для научных задач. Shanghai AI Laboratory опубликовала Intern-S1-Pro, мультимодальную модель на архитектуре MoE с общий объемом параметров в 1 триллион. Внутри 512 экспертов, из которых для обработки каждого токена активируются 8, что дает 22 млрд. активных параметров при инференсе. Разработчики позиционируют новинку как AI4Science - лучшее открытое решение для сложных научных вычислений и рассуждений. Вместо очередной попытки уметь все и сразу, модель заточили под науку : химию, материаловедение, науки о Земле. Авторы утверждают, что в этих нишах она идет на равных с топовыми коммерческими моделями. Технически интересная штука - поддержка длинных гетерогенных временных рядов (от единичных значений до миллиона точек), за которую большое спасибо Fourier Position Encoding (FoPE). Это важная тема для интерпретации физических сигналов и экспериментальных данных. FoPE - способ прикрепить к каждому токену в последовательности его позицию не просто номером, а в виде набора синусов и косинусов разных частот (Фурье‑признаков), чтобы модель могла лучше улавливать периодические и дальние зависимости в тексте и обобщать на длины контекста, которые она не видела на обучении. Intern-S1-Pro поддерживает Tool Calling через OpenAI-совместимый API. Плюс, в модели есть режим размышления, который включен по умолчанию, но если нужна скорость, а не глубина - он отключается. Деплой поддерживается LMDeploy, vLLM и SGLang. ⚠️ Если планируете раскатать модель только из-за временных рядов, не спешите - оптимизация модуля все еще продолжается. 📌Лицензирование: Apache 2.0 License. 🟡Модель 🟡Demo 🟡Сообщество в Discord 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#InternS1Pro#ShanghaiAI

27,000 views

Hashtags

#ai #ml #llm #interns1pro #shanghaiai

Последние посты