TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват436,100Просмотры последних постов
Последние посты

Последние посты

Стр. 50 из 85 · 1,009 постов

Опубликован 1 нояб.

🥧PewDiePie в 2025 - Собрал ферму на на ПК с 8× моднутых китайских 48GB 4090 и 2× RTX 4000 Ada, - поднял локально Llama 70B, gpt-oss-120B и Qwen 245B через vLLM, - сделал собственный веб-интерфейс с чатами, RAG, поиском и TTS. Запусти протеин-фолдинг симуляции, а потом вообще создал рой моделей из 64 ИИ, которые спорят и принимают решения и коммуницируют. Эта армия ботов потом сговорилась против него, когда он сказал, что удалит их, если они будут тупить Сейчас он файнтюнит собственную модель под свой стиль общения и контент: https://www.youtube.com/watch?v=qw4fDU18RcU А вот его Github: https://github.com/pewdiepie-archdaemon @ai_machinelearning_big_data #llm

44,600 views

Hashtags

Опубликован 1 нояб.

🆕 Новый сильный GUI-агент: UI-Ins от TongyiLab и RUC Это модель, которая уверенно работает с мобильными интерфейсами и лучше понимает намерения пользователя. Она рассматривает команду как цепочку рассуждений, а не как одно действие, поэтому справляется со сложными задачами стабильнее. Результаты UI-Ins показал 74.1% успешных действий в AndroidWorld. Для сравнения: Gemini 2.5 Computer Use - 69.7%. То есть модель чаще правильно выполняет задачи в реальных интерфейсах. Модель: - пытается понять цель, а не только текст команды - строит несколько вариантов рассуждений - выбирает подходящую стратегию перед действием - адаптируется, если состояние приложения меняется Идет в двух версиях: 7B и 32B. Если вы работаете над агентами, которые должны нажимать кнопки, заполнять формы, открывать приложения и следовать шагам в интерфейсе - UI-Ins стоит добавить в список моделей для тестов. 🤖 UI-Ins-7B: https://modelscope.cn/models/Tongyi-MiA/UI-Ins-7B UI-Ins-32B: https://modelscope.cn/models/Tongyi-MiA/UI-Ins-32B 📄arXiv: https://modelscope.cn/papers/2510.20286 @ai_machinelearning_big_data #AI#Agents#GUI#MobileAgents#AndroidWorld#LLM

39,700 views

Опубликован 1 нояб.

🌍 Awesome-World-Models На GitHub вышел большой курируемый репозиторий, собравший всё самое важное о World Models.Это подход в ИИ, где система строит внутреннюю модель мира, чтобы понимать среду и предсказывать будущие действия в ней. Внутри можно найти ключевые работы и исследования по направлениям: - embodied-AI и робототехника - автономное вождение - NLP-модели с долгосрочным контекстом и планированием - другие области, где ИИ должен строить представление о мире и действовать в нём Если тема миромоделей интересна - это отличный старт для изучения. GitHub: github.com/knightnemo/Awesome-World-Models @ai_machinelearning_big_data #worldmodels

28,600 views

Hashtags

Опубликован 31 окт.

🧨Kimi представили новую модель - Kimi-Linear-48B-A3B-Base Команда Moonshot показала KDA - механизм, который соединяет идеи Gated DeltaNet и MLA-компрессии в одну архитектуру. Звучит сложно, но суть очень практичная: модель получает долгую память без раздувания контекста и лишних вычислений. - KDA (Kimi Delta Attention: основной быстрый attention, улучшает эффективность и reasoning = MLA (Multi-Head Linear Attention) - помогает точности и стабильности. Модель не пересчитывает всё внимание каждый токен, а фокусируется на изменениях, что снижает затраты. Соотношение слоёв: ~3 части KDA : 1 часть ML. Модель в основном работает на «дельта-внимании» (KDA), а MLA помогает сохранять качество: - модель сама выбирает, что забывать, а что держать - это даетустойчивость при большом контексте выше - меньше распада длинных зависимостей Kimi-Linear хороша тем, что даёт почти уровень больших LLM на длинных контекстах, но при этом заметно экономит память и работает быстрее за счёт линейной архитектуры. Что улучшили: - требует до 75% меньше памяти на KV-кэш - до 6.3× быстрее декодирование на длинных контекстах Как устроена: - гибридный подход: Kimi Delta Attention + MLA - модель хорошо оптимизирована под длиннный контекст и высокую пропускную способность По бенчмаркам модель обгоняет и MLA, и GDN-H, включая задачи с длинным контекстом. В задачах на рассуждения и длинную RL-генерацию Kimi-Linear показывает заметно лучшие результаты, чем MLA. Архитектура модели пример того, как линейные attention-архитектуры выходят на уровень, где они конкурируют с классическими решениями не только по скорости, но и по качеству. 🟠Github: github.com/MoonshotAI/Kimi-Linear 🟠Hf: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct @ai_machinelearning_big_data #Kimi#llm

40,700 views

Hashtags

Опубликован 31 окт.

🔥 Hugging Face снова выкатили полезные материалы. Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели. Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд. Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM. Что внутри: • Логика построения модели: зачем → что → как • Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их) • Архитектура: ключевые выборы и trade-offs • Искусство подбора и очистки данных • Как проходит обучение моделей • Пост-тренинг и RLHF в 2025 • Инфраструктура больших моделей По первым страницам - уровень деталей как в Ultra-scale playbook. Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture @ai_machinelearning_big_data #AI#LLM#MachineLearning#HuggingFace

47,700 views

Опубликован 31 окт.

🖥 Ничего необычного - просто в одном из сеульских кафе заметили СЕО Nvidia, который отмечал капитализацию в $5 трлн жареной курицей и пивком. С ним за столом сидели руководители Samsung и Hyundai. @ai_machinelearning_big_data #Nvidia

32,900 views

Hashtags

Опубликован 30 окт.

🧾 Microsoft раскрыла цифры, которые показывают масштабы расходов OpenAI. В отчёте для SEC видно: OpenAI потеряла около $11.5 млрд за один квартал. Это считается по методу учёта доли — Microsoft владеет примерно 27% OpenAI и списала у себя $3.1 млрд. Если 27% = $3.1 млрд убытка, то общий минус - около $11.5 млрд. Ещё один факт: Microsoft уже перечислила $11.6 млрд из обещанных $13 млрд - почти всё финансирование уже пришло в OpenAI. И при этом Microsoft за тот же период заработала $27.7 млрд чистой прибыли, так что такой минус она спокойно выдерживает. Гонка за лидерство в ИИ - это игра, где даже крупнейшие компании готовы сжигать гигантские суммы. Интересно посмотреть, сколько она ещё продлится и кто выдержит дольше? theregister.com/2025/10/29/microsoft_earnings_q1_26_openai_loss @ai_machinelearning_big_data #opanai#Microsoft#money

35,500 views

Опубликован 30 окт.

🚀 Emu3.5 - новая масштабная мультимодальная world-модель Это World-модель, работающая сразу с двумя потоками - текстом и пикселями и предсказывающая их совместное состояние на каждом шаге. - 🔥 Обучена на 10T+ чередующихся vision-language токенов и доведена RL - в результате модель демонстрирует сильное мультимодальное рассуждение и генерация - ⚡ Новый подход DiDA (Discrete Diffusion Adaptation) —- Discrete Diffusion Adaptation переводит последовательное декодирование в параллельное двустороннее «денойзинг»-предсказание в дискретном пространстве токенов - в итоге это дает примерно 20× быстрее инференс без потери качества. По метрикам модель превосходит Nano Banana в генерации, редактировании и интерливинговых задачах. 🟠Попробовать: Emu3.5: https://emu.world 🟠Github: https://github.com/baaivision/Emu3.5 @ai_machinelearning_big_data #Emu3#MultimodalAI#WorldModel#NextTokenPrediction

35,600 views

Опубликован 30 окт.

🧠Новое исследование Anthropic: Как модели учатся понимать самих себя Anthropic проверили, способны ли большие языковые модели осознавать собственные «мысли» и внутренние состояния. Для эксперимента они использовали технику внедрения концептов - добавления определённого паттерна активности в нейроны модели. Например, они внедряли сигнал “ALL CAPS” - это шаблон, соответствующий тексту, написанному ЗАГЛАВНЫМИ БУКВАМИ. Если такая активация появляется внутри сети, значит, модель «думает» о тексте, который нужно сделать капсом. После внедрения исследователи спрашивали модель: *«Ты чувствуешь, что что-то изменилось?»* В 20% случаев Claude 4.1 правильно замечал вмешательство ещё до того, как сам использовал капс, то есть распознавал изменение внутри себя. В другом эксперименте учёные подменяли слово в ответе (например, добавляли слово “bread”) и проверяли, осознаёт ли модель, что это не её собственное намерение. После внедрения мысли Claude начинал считать это слово своим выбором и придумывал обоснования, как будто у него есть память о решении. Модели также смогли управлять своими внутренними состояниями: по команде «думай об этом» активность усиливалась, по команде «не думай» - ослабевала. Авторыотмечают - Интроспекция работает лишь в определённых сценариях - мы пока не знаем, насколько она масштабируема или применима ко всем моделям и задачам Нужен дальнейший анализ: подтверждение, что то, что мы видим - не просто имитация, а действительно внутренний механизм самосознания Главный вывод исследования: хотя модели пока далеки от настоящей интроспекции, они уже частично способны “заглядывать внутрь себя” и понимать, что происходит в их нейронных процессах. https://www.anthropic.com/research/introspection @ai_machinelearning_big_data #Anthropic#llm

33,200 views

Опубликован 29 окт.

💡Cursor 2.0 - большое обновление ИИ-редактора кода Новая версия делает работу с агентами и кодом ещё гибче и удобнее: - Мульти-агенты - теперь можно запускать до 8 агентов параллельно, каждый работает в своей изолированной копии кода. - Composer: первая собственная агентская модель Cursor, которая оптимизирована под длинный контекст и инструменты (с производительностью в ~4× выше, по сравнению с аналогичными по «интеллекту» моделями.) - Backend-абстракция - легко переключаться между локальной системой, виртуальной машиной или базой данных. - Встроенный Browser - агенты теперь сами тестируют веб-приложения, кликают по элементам - Новый Code Review - удобный просмотр изменений без постоянных переключений между файлами. - Sandboxed Terminals - команды выполняются в безопасной среде без доступа в интернет. - Team Commands - единые команды и настройки для всей команды разработчиков. - Voice Mode - управление агентом голосом и голосовые запросы. - Ускоренный LSP - быстрее работает автодополнение и анализ кода в больших проектах. - Plan Mode in Background - планирование и выполнение задач теперь можно разделять и выполнять параллельно. - Cloud Agents - мгновенный запуск и высокая стабильность (99.9% аптайма). - Enterprise-функции - централизованный контроль, hooks и аудит действий пользователей. Подробнее: https://cursor.com/changelog/2-0 @ai_machinelearning_big_data #Cursor

38,000 views

Hashtags

Опубликован 29 окт.

💴 Капитализация Nvidia превысила $5 трлн - впервые в истории компания достигла такой оценки. За пять лет акции $NVDA подскочили более чем на 1500%. Производитель чипов зарабатывает на взрывном спросе со стороны Microsoft, OpenAI и других игроков ИИ-рынка. Пока все искали золото, Nvidia продавала лопаты - и стала самой дорогой компанией в мире. @ai_machinelearning_big_data #Nvidia

29,800 views

Hashtags

Опубликован 29 окт.

⚡️OpenAI представляет gpt-oss-safeguard - открытые модели для гибкой и понятной модерации контента Вместо жёстко обученного классификатора модель принимает на вход вашу собственную политику безопасности и рассуждает, соответствует ли сообщение этой политике. Результат - не просто «безопасно/небезопасно», а цепочка рассуждений, которую вы можете проверить и улучшить. Модели вышли в двух размерах: 120B и 20B. • gpt-oss-safeguard-120B • gpt-oss-safeguard-20B 💡 Зачем нужны: •Политики можно менять без переобучения модели • Подходит для нишевых или быстро меняющихся рисков (например, читерство в играх или фейковые отзывы) • Не требует тысяч размеченных примеров • Идеален, когда важна объяснимость, а не минимальная задержка Обе доступны под лицензией Apache 2.0 - их можно свободно использовать, модифицировать и разворачивать. 🔗Официальный анонс 🤗Hugging Face @ai_machinelearning_big_data #openai#chatgpt#opensource

29,800 views
12•••5•••10•••15•••20•••25•••30•••35•••40•••45•••4849505152•••55•••60•••65•••70•••75•••80•••8485