Announcing GPT-4.1, GPT-4.1 mini, and GPT-4.1 nano in the API.
TL;DR: Major improvements on coding, instruction following, and long context. 💥
➖➖➖➖🔻
💎@Chatgpt_OfficialNews – Stay Updated! ⚡️
🧠 BOT: @Chatgpt_OfficialBOT
#️⃣#OpenAI#AI#GPT#ChatGPT#Chatbot#GPT4.1
➖➖➖➖🔺
❝💦Wait a moment, be gentler with me, okay?❞
💬Continue the story with her: http://openlove.life
#openlove#aigirlfriend#aichat#roleplay#aigame#AI#AIBeautifulWomanな人と繋がりたい
🚬#AI президент на прямой линии наводит на мысль: какими были бы страны, если бы все правительство, чиновников и гос.структуру заменить на Сверх AI / #AGI
Страна X под Управлением AI: Новая Эра Технологий и Прогресса
- Автоматизированные Города: Крупные города используют интеллектуальные транспортные системы для предотвращения пробок, и роботизированные сервисы для улучшения городских услуг.
- Персональные Ассистенты ИИ: ИИ-ассистенты помогают гражданам в управлении домашними финансами, предоставляют здоровьесберегающие рекомендации и упрощают рутинные задачи.
- Автоматизированное Сельское Хозяйство: Применение роботов и дронов в аграрном секторе повышает урожайность и эффективность, сокращая человеческий труд и ресурсы.
- Технологический Экспорт: Страна становится лидером в экспорте инновационных технологий, включая продвинутые ИИ-системы и робототехнику.
- Образование: ИИ индивидуализирует обучение, адаптируясь под потребности каждого ученика и экономики в реальном времени.
- Здравоохранение: Применение ИИ в медицине для анализа данных пациентов позволяет быстрее ставить диагнозы и разрабатывать лекартсва.
- Борьба с Преступностью: ИИ анализирует данные для предотвращения преступлений и координирует действия правоохранительных органов.
- Городское Планирование и Инфраструктура: Использование ИИ для разработки городских планов и инфраструктуры.
- Развитие Науки и Инноваций: ИИ стимулирует научные исследования и открытия (как на днях в математике).
- Ну и конечно же безусловный базовый доход,который позволяет людям больше не работать с самого рождения.
____
🔵 Согласитесь, звучит очень утопично, но все эти технологии уже доступны сегодня! Внедряя #AI в свои личные процессы или в свою компанию, вы делаете это великолепное будущее ближе.
Один из проектов над которым я сейчас работаю - это цифровая компанией с #AI сотрудниками, управляемая #AI директором - результаты конечно #blowmymind, надеюсь скоро смогу поделиться.
🆒 Подпишись @ilia_plasma
🛑JetBrains признает поражение: легендарный Fleet уходит в историю. Вот что будет вместо него
Компания JetBrains объявила о прекращении разработки среды разработки Fleet. С 22 декабря 2025 года продукт больше нельзя будет скачать, а выпуск обновлений прекращается.
Fleet создавался как эксперимент по созданию IDE нового поколения с легкой архитектурой и современным UI. Хотя технически проект был успешен, он не нашел своей ниши как продукт по причинам:
👉 Не смог заменить полнофункциональные IDE на базе IntelliJ (IDEA, PyCharm и др.)
👉 Не стал достаточно убедительным «легким редактором»
👉 Создавал путаницу у пользователей, которым было сложно выбрать между двумя продуктами JetBrains
👉 KMP вовсе перестали поддерживать из-за разных наборов фичей в Fleet и KMP плагине для IDEA
Команда Fleet не распускается, а переключается на создание принципиально нового продукта. Фокус смещается на агентскую разработку (agentic development) — среду, где разработчик ставит задачи AI-агентам (например, на рефакторинг или написание тестов), асинхронно получает результат и проводит ревью. Скорее всего это и есть недавно показанная Air IDE
Скачать Fleet будет нельзя после 22 декабря 2025 года. Уже установленные версии продолжат работать, но сервисные функции (например, AI Assistant) со временем могут отключиться.
#JetBrains#Fleet#IDE#AI
📌Нейроанатомия LLM: улучшаем модель без дообучения.
Дэвид Ноэль, независимый исследователь из Мюнхена, в середине 2024 года занял 1 место на HuggingFace Open LLM Leaderboard методом, который не требует ни новых данных, ни файнтюна.
Он взял 80-слойную Qwen2-72B, продублировал блок из 7 средних слоёв (45–51) и получил модель RYS-XLarge, где каждый добавленный параметр - копия уже существующего. На 5 из 6 бенчмарков лидерборда результаты выросли: MuSR прибавил 17,7%, MATH - 8,2%.
Позже ByteDance предложила Looped Language Models (ноябрь 2025), но Дэвид пришёл к своим выводам независимо на основе 2 наблюдений:
LLM способны вести связный диалог в Base64 - модель декодирует вход, рассуждает и перекодирует ответ обратно. Если это работает, то получается, что ранние слои транслируют входные данные в абстрактное внутреннее представление, поздние переводят его обратно в текст, а средние занимаются рассуждением в формате, не привязанном к конкретному языку.
Модель Goliath-120B, где слои двух разных 70B-моделей были перемешаны так, что выход поздних слоёв подавался на вход ранних. По всем канонам обучения это не должно было работать, но работало.
Внутренние представления трансформеров оказались куда однороднее, чем предполагалось.
Для поиска оптимальной конфигурации Дэвид построил «сканер мозга» трансформера: берется блок слоёв (с 20-го по 35-й), затем он вставляется повторно и на инференсе замеряется, стала модель лучше или хуже.
Так перебираются все возможные начала и концы блока (3241 конфигурация). Каждую конфигурацию Дэвид прогонял через 2 быстрых теста: арифметику без CoT и EQ-Bench.
Тепловые карты сканера показали, что средние слои можно дублировать с пользой, а вот крайние - нельзя. При этом повтор только одного слоя почти всегда ухудшает результат. Cредние слои работают как цельные функциональные контуры, и вырванный из цепочки шаг бесполезен.
Буквально на днях Дэвид опубликовал продолжение, но уже с Qwen3.5-27B.
Эксперимент с косинусным сходством скрытых состояний для текстовых запросов на 8 языках впервые показал трёхфазную архитектуру напрямую: к 10 слою фразы с одинаковым смыслом на разных языках оказывались ближе друг к другу, чем на одном языке с разным смыслом.
Модель думает не на каком-то из человеческих языков, а в собственном внутреннем представлении.
В Qwen3.5-27B архитектура модели иная. После 2 млн. конфигураций через суррогатную модель оптимальным решением на Pareto-фронте стало простейшее - продублировать один слой из середины стека. 1,5% дополнительных вычислений и... модель становится заметно сильнее.
Метод ортогонален файнтюнингу и квантованию: модель получает дополнительное время на размышление, используя контуры, которые у нее уже есть.
🟡Статья ч.1ч.2
🟡Набор RYS-моделей
🖥Github
@ai_machinelearning_big_data
#AI#ML#LLM#RYS
📌Толковый калькулятор расчета инференса и дообучения LLM.
Бесплатная тулза, которая помогает понять, какой GPU нужен под конкретную задачу до того как потрачен бюджет или наблюдается стойкий ООМ.
Выбираете параметры инференса: архитектуру модели, тип квантования, sequence length и batch size, указываете спеки железа и получаете стату, распределение памяти, примерные метрики производительности и энергопотребления. Есть даже эмуляция скорости инференса с TTFT.
Параметры расчета дообучения учитывают: конфиг датасета (количество сэмплов, среднее токенов на сэмпл, эпохи) и использование оптимизаторов. Плюс, еще посчитает время обучения.
Цифры часто получаются чуть выше реального потребления (что даже хорошо), но точности до гигабайта ждать не стоит.
Для грубой прикидки перед закупкой или деплоем - отличная вещь.
@ai_machinelearning_big_data
#AI#ML#LLM#VRAMCalculator
📌Как делали MiniMax М2.1 и что будет дальше.
Когда говорят, что одна модель пишет код лучше другой, обычно имеется ввиду бенчмарк SWE-Bench. Модель получает реальный баг из настоящего проекта с Github, который она должна прочитать, найти ошибку и исправить её. Это частично повторяет ежедневную работу программиста.
Но у этого бенча, как и у любого другого, есть свои недостатки.
🟠SWE-Bench работает только с Python. В реальном мире разработчики имеют дело с Java, Go, TypeScript, Rust, C++ и еще кучей других.
🟠Бенчмарк только про исправление ошибок, а программисты еще пишут новые функции, занимаются рефакторингом и оптимизацией.
🟠Его результаты сильно зависят от того, в каком окружении работает модель.
И вот здесь MiniMax-AI задалась вопросом: как создать по-настоящему универсального ИИ-программиста?
Ответ они нашли и реализовали его в своей свежайшей модели M2.1.
🟡Масштабирование окружения.
За этим расплывчатым термином кроется огромная система, которая оперирует популярными языками: JS, TS, Python, Java, Go, C++ и Rust.
Для этого с GitHub были собраны более 100 тыс. реальных задач с описанием проблемы, кодом и тестами. Это было непросто, так как сложные языки (Java или C++) требуют настройки и у каждого языка свои фреймворки и системы управления зависимостями.
Чтобы обучить модель на таком массиве данных, MiniMax построил инфраструктуру, способную запускать более 5 тыс. изолированных сред выполнения за максимально короткое время - 10 секунд.
🟡Выход за рамки баг-фиксов.
MiniMax-M2.1 обучали и генерации тестов и в результате оказалось, что это критически важный навык.
Предыдущая версия, M1, писала слишком простые тесты и часто выбирала неверные решения. M2.1 в этом преуспела и сравнялась по результатам с мощным конкурентом Claude Sonnet 4.5.
Еще она научилась оптимизировать производительность кода — на SWE-Perf показала средний прирост эффективности в 3.1%.
И наконец, M2.1 научили делать Code Review, для чего создали внутренний бенчмарк SWE-Review.
🟡Обобщение на незнакомых окружениях (Generalization on OOD Scaffolds).
Модель должна одинаково хорошо следовать длинным инструкциям и адаптироваться к разным способам управления контекстом диалога.
Команда провела тесты в mini-swe-agent, Droid и Claude Code и если посмотреть на цифры из их сравнительной таблицы, то можно увидель, что модель стала гораздо более гибкой и универсальной.
На том же SWE-Bench, при использовании Claude Code, MiniMax-M2.1 выбила 74 балла, что выше, чем у модели M2 с ее 69.2 баллами, и практически наравне с Claude Sonnet 4.5 и DeepSeek V3.2.
На другом тесте, OctoCodingBench, разрыв еще больше: 26.1 у новой модели против 13.3 у старой.
🟡Планы на 2026.
Во-первых, MiniMax планирует научить модель оценивать не только правильность кода, но и читаемость кода, качество комментариев, прозрачность процесса работы.
Во-вторых - повысить эффективность решения задач, чтобы модель не делала лишних шагов, например, не перечитывала один и тот же файл по несколько раз.
Но самое интересное — это их планы по RL Scaling, и создание так называемой Coding World Model.
Идея в том, чтобы построить модель-симулятор, которая сможет предсказывать результат выполнения кода, не запуская его в реальности.
Наконец, они планируют расширяться в узкоспециализированные области: разработка GPU Kernel, компиляторов и смарт-контрактов.
Похоже, концепция "ИИ-кодера" становится все более реальной. Успех MiniMax-M2.1 показал, что дело уже не в написании отдельных строк кода, а в комплексном понимании всего процесса разработки.
@ai_machinelearning_big_data
#AI#ML#LLM#MiniMaх