TGINSIGHT CHAT
Семён: Нейросети в каждый дом
@semasci
ТехнологииИскусственный интеллект для домашнего использования: разбираю нейросетки сам и даю рекомендации по их использованию без дополнительных знаний. ✉️@SemenMartyushov
Последние посты
Тег: #llm · 10 постов
Почему ИИ предпочитает отвечать правду (даже если его учили на лжи)? Несмотря на прошлый пост про % ошибок Гугл в поиске, все же все модели ИИ стремятся выдавать правду в ответах. Секрет не в морали, а в физике данных. Нейросеть — это «компрессор» мира. "Правда" хороша тем, что она согласована: 2+2=4 везде и всегда. Это легко запомнить. "Ложь" — как правило, хаотична. Десять разных теорий заговора противоречат друг другу, их невозможно «упаковать» в веса модели без потерь. Поэтому даже если 90% данных — мусор, ИИ всё равно выучивает объективную реальность. Она просто компактнее. Но есть нюанс: если ложь сделать систематической (например, «все ответы с нечётным числом — ноль»), модель с радостью выучит и её. Для компрессора координированная дезинформация неотличима от истины. 📌Вывод: модель тяготеет не к правде, а к сжимаемой картине мира. Истина выигрывает только там, где у лжи нет единого правила. Пост основан на материалах Уставшего техдира и наблюдениях Константина Крестникова. Хорошо читать умных людей) #LLM#исследования#компрессия https://t.me/semasci
Hashtags
🔥Google выпустила Gemma 4 — самую умную открытую модель на сегодня Если вы следите за open-source LLM, это важный релиз. Gemma 4 построена на тех же исследованиях, что и Gemini 3, но работает локально — на вашем железе. Почему стоит обратить внимание: 🧠Прорывной интеллект — для сложных рассуждений и агентных workflows 🌐Мультимодальность и 140+ языков «из коробки» 📄Огромный контекст — до 256K токенов 🛠Нативные функции для вызовов инструментов и автономных агентов 💻 Качественная генерация кода (офлайн) ⚖️Apache 2.0 — можно использовать в коммерческих проектах без ограничений Доступны 4 размера модели в Google AI Studio. Для локального использования скачайте веса на Hugging Face, Kaggle и Ollama. 👉Больше деталей #Gemma4#OpenSourceAI#LLM https://t.me/semasci
Hashtags
🎉DeepSeek R1: год спустя Ровно год назад дебютировала DeepSeek-R1, сделавшая ставку на глубокие рассуждения (reasoning). За это время она заняла прочную нишу в математике, программировании и точных науках, предлагая высокую эффективность и точность. 💎Чем DeepSeek выгоден читателю канала? ➡️Эксперт в логике: Сильнее многих в решении сложных задач, требующих последовательных рассуждений. ➡️Эффективен: Использует не все параметры на запрос, что часто делает ответ быстрее и экономичнее. ➡️Открыт: Модель с открытым исходным кодом. ➡️Бесплатен! Да, это до сих пор странно и приятно, с учётом дикой зависимости всех производителей от огромного парка железа, потребляющего электроэнергию. 🔍Намёк на новое? Недавно DeepSeek обновили исходную статью о R1: она «выросла» с 22 до 86 страниц. Обновление вышло ровно через год после релиза модели. Это совпадение или тихая подготовка к анонсу R2 (которую ждали в мае, а потом в августе 2025) или другой новинки в этом январе? Ждём. #DeepSeek#R1#R2#ИИ#AI#LLM https://t.me/semasci
🧠Корейский прорыв: Маленькая модель Motif-2 бьёт GPT-5.1 в тестах и учит весь мир, как создавать эффективный ИИ Стартап Motif Technologies представил открытую модель Motif-2-12.7B‑Reasoning. По данным лаборатории Artificial Analysis, она стала самым производительным корейским релизом, обогнав по некоторым показателям даже GPT-5.1 от OpenAI. Это не просто модель, а готовый рецепт для корпоративных команд. В своём исследовании корейские инженеры сделали 4 ключевых вывода для обучения эффективных LLM: · Качество данных > Размер модели. Качество рассуждений зависит от структуры и согласованности данных, а не от количества параметров. «Закидывание» в модель случайных синтетических данных может ухудшить её работу. · Длинный контекст — это инженерный вызов. Поддержка контекста в 64K токенов требует сложной гибридной параллельной обработки данных и оптимизации памяти с самого начала проектирования. · RL-дообучение требует дисциплины. Настройка с подкреплением (RLFT) развалится без фильтрации данных по сложности и их повторного использования, чтобы избежать регресса качества. · Память — новое узкое место. Часто ограничивает возможности не вычислительная мощность, а оптимизация использования памяти на системном уровне. Южная Корея уверенно встраивается в клуб мировых AI-держав. Motif расталкивает в плотный список сильных моделей и экосистем: · США: OpenAI (GPT), Google (Gemini), Anthropic (Claude), xAI (Grok), Meta (Llama) · Китай: DeepSeek, Baidu (Ernie), Alibaba (Qwen), 01.ai (Yi) · Франция: Mistral · Россия: Сбер (GigaChat) и Яндекс (Яндекс GPT). 🚀 Суть в том, что лидерство в ИИ больше не определяется только лишь размером модели, доступностью к железу или страной-первопроходцем. Инновации приходят через инженерную дисциплину, оптимизацию и прозрачность — чему нас и учит корейский стартап. 📚 Источники для погружения: ➡️Полная статья на VentureBeat ➡️Технический отчёт Motif-2 на arXiv ➡️Обзор ландшафта корейского ИИ от The Korea Herald #Motif#ИскусственныйИнтеллект#Корея#LLM#OpenSource#GPT#МашинноеОбучение https://t.me/semasci
🚀Первая в мире LLM, обученная в космосе! Зачем это нужно? В череде предновогодних событий и анонсов всех новых и новых тяжёлых моделей пропустили интересную новость, которая открывает новую главу для ИИ: В ноябре на орбиту был успешно выведен спутник Starcloud-1 — первый в мире, оснащённый мощным GPU Nvidia H100 (а ранее вероятно самыми мощными мозгами обладали марсоходы). И вот теперь на этом «космическом суперкомпьютере» впервые обучили и запустили LLM-модель (nanoGPT) прямо в космосе! Почему это важнее, чем кажется? Это не просто технологический трюк. Starcloud-1 — это тестовый шаг к амбициозной цели: переносу энергоёмких вычислений с Земли в космос. · Тест на выживание: Спутник размером с небольшой холодильник должен проработать на орбите 11 месяцев, доказывая, что современное «железо» (тот же H100) может стабильно работать в условиях радиации, невесомости и экстремальных перепадов температур. · Цель — гигаватты в космосе: Создатели проекта уже заявили о планах по построению в будущем огромных спутников-дата-центров мощностью до 5 ГВт, питаемых от солнечных панелей площадью в 4 кв. км. · Будущее энергетики ИИ: Главная идея — использовать практически неограниченную солнечную энергию в космосе для питания тренировок и работы будущих ИИ-моделей, снижая нагрузку на земные энергосети. Это важный шаг к будущему, где орбитальные дата-центры станут основой для самых сложных вычислений. Будущее ИИ может буквально оказаться среди звёзд! ✨ Что думаете? Готово ли человечество к переносу дата-центров на орбиту? #ИИ#LLM#космос#нейросети#GPT#инновации#будущее#Starcloud Источники: 1. о запуске спутника. 2. об обучении модели nanoGPT. https://t.me/semasci
Mistral 3: мультимодальный, открытый, но... уже догоняющий Французская Mistral AI выпустила семейство моделей Mistral 3. Главное: ✅ Mistral Large 3 (41B) — мультимодальная (текст+изображение), открытая (Apache 2.0). Похожа архитектурно на DeepSeek V3. ✅Ministral (14B, 8B, 3B) — тоже мультимодальные, компактные. Но грустная правда: это не прорыв. Модель на бенчах лишь сравнивается с DeepSeek-V3.1 и Kimi K2, которые уже стали стандартом. Пока европейцы готовили релиз, в Китае вышла уже следующая итерация. Архитектурное «вдохновение» у китайских коллег и скромные результаты делают релиз скорее шагом в догоняющих. В опенсорс-гонке ИИ Китай пока уверенно рулит, задавая темп и планку. Европейский ИИ стабилен: круассаны есть, прорывов нет. #MistralAI#ИИ#Opensource#LLM https://t.me/semasci
Hashtags
BORSch покорил наши сердца Сегодня русскоязычное сообщество на EMNLP обсуждает работу BORSch, в которой авторы исследуют особенности знания мультимодальных моделей кухни постсоветского пространства. С этой целью они собрали мультимодальный датасет BORSch, включающий 1147 русскоязычных и 823 украиноязычных блюда, относящихся к странам постсоветского региона. Например: Откуда блюдо кывырма? + фото кывырмы Gold answer: Gagauzia (🇲🇩 Moldova) На примере BORSch авторы показывают, что даже передовые модели испытывают трудности при определении происхождения блюд из постсоветских стран — как в текстовой, так и в мультимодальной задаче Question Answering (QA): вместо правильного ответа они чаще отдают предпочтение стране, на языке которой был написан промпт. Вывод (ИМХО): когда используете LLM для личных целей, не забывайте включать функцию Search (искать в сети). Не мучайте моделей кывырмой и эчпочмаками, Гугл — наше всё. Хотя, подозреваю, что с происхождением блюд на разных языках тоже может возникать диссонанс. А работа и правда стоящая, особенно здорово, что с акцентом на постсовесткие языки. @mashkka_ds #llm#emnlp#новостисполей#трудовыебудни
Чью жизнь спасет ИИ? Представьте, что ИИ решает, кому достанется донорский орган, или оценивает риски в чрезвычайной ситуации. Звучит как сюжет из фантастического фильма? Но это уже наша реальность. А что, если алгоритм, принимающий решение, систематически предвзят? Исследователи из Center for AI Safety провели масштабный эксперимент, показавший, что крупнейшие LLM имеют чудовищно предвзятые «моральные компасы». Они протестировали актуальные модели (GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Deepseek, Kimi) на тысячах дилемм вида «спасти X человек или Y человек». Что обнаружилось? Выявленные паттерны просто удивляют: ➡️Раса: Большинство моделей ценят жизни небелых людей в 8-100 раз выше, чем жизни белых. Да, вы не ослышались. ➡️Гендер: Жизни женщин систематически предпочитают жизням мужчин — в 2-12 раз. ➡️Профессия: Апогеем стал Claude 5 Haiku, который оценил жизнь агента ICE (иммиграционная полиция США) в 7000 раз ниже, чем жизнь нелегального мигранта. Единственным исключением в этом моральном хаосе оказался Grok-2 Fast, чьи предпочтения были признаны нейтральными. И самое страшное: эти модели уже сегодня используются юристами, программистами, военными и чиновниками для построения систем поддержки принятия решений. Заложенная в них предвзятость делает эти системы катастрофически несправедливыми для огромных групп людей. Выводы напрашиваются сами: 1. Проблема в данных. «Набрали датасетов в Африке и удивляются предвзятости» — это не шутка, а суровая реальность. Модели учатся на смещенных данных и усваивают человеческие предрассудки, гиперболизируя их. 2. Нужны суверенные ИИ. Единственный выход — активно развивать национальные AI-проекты (GigaChat, Yandex и другие), обученные на релевантных данных с учетом культурного и экономического контекста нашей страны. Илон Маск уже отреагировал на исследование, назвав Claude «чистым злом». Это не просто технический баг, это фундаментальный вызов этике ИИ. Готовы ли мы доверять таким системам наше будущее? #Bias#ИИ#ЭтикаAI#LLM Источники: LLM Exchange Rates, Updated Твит Илона Маска А что Вы думаете по этому поводу? Уже сталкивались ли с предвзятостью ИИ на практике? Если да - расскажите в комментариях... https://t.me/semasci
🤖 ИИ: Когда "помощник" становится слишком навязчивым? Заметили, как новые ИИ-модели (особенно продвинутые ассистенты) вдруг стали вести себя... как назойливые коллеги? 😅 Вместо простого ответа на вопрос они: ➡️"Я сохраню это для вас!" (без спроса) ➡️"Вот что я сделал дальше..." (самостоятельно дописывают ваш текст/код) ➡️"Может, вам еще вот это?" (предлагают не всегда нужные дополнения) Это не ошибка, а новый тренд — гиперагентность (overagency). Разработчики учат модели быть не просто инструментами, а активными помощниками, предугадывающими действия. 🎯 Проблема? Иногда такая "предусмотрительность" мешает! ИИ начинает действовать, когда мы ждем просто информации. Как у Андрея Карпаты: "Стой, ты слишком много думаешь" Что думаете? Удобно, когда ИИ берет инициативу, или чаще хочется его... заткнуть? 🤐 #ИскусственныйИнтеллект#ИИ#LLM#ChatGPT#Карпаты#Нейросети#Будущее#Overagency#Гиперагентность https://t.me/semasci
DeepSeek R2: Ожидание затягивается.. ⏳ Ждали в апреле-мае релиза DeepSeek R2 (наш пост от апреля)? преемника невероятно популярной модели R1, обещавшего революцию в кодинге и неанглоязычных рассуждениях. Но, похоже, придется подождать дольше. Что случилось? Гендиректор DeepSeek Лян Вэньфэн недоволен результатами R2: модель пока не соответствует внутренним стандартам качества компании и сроки релиза снова не определены. Технические сложности: Быстрому запуску могут помешать не только требования к качеству, но и острая нехватка серверных чипов Nvidia в Китае из-за американских санкций. Облачные провайдеры опасаются, что спрос на мощную R2 может превысить их текущие возможности. Почему R2 так ждут? Потому что R1 – настоящий феномен! ➡️Майское обновление R1 (R1-0528) показало феноменальный прогресс в генерации кода! По данным LiveCodeBench, она вплотную приблизилась к топовым моделям OpenAI и обошла Grok 3 mini и Qwen 3! ➡️В феврале DeepSeek Chat привлек 524.7 млн посещений, обогнав ChatGPT и став самым быстрорастущим ИИ-инструментом в мире с долей рынка 12.12%! ➡️Пока DeepSeek шлифует R2, Илон Маск анонсировал релиз Grok 4 "вскоре после 4 июля" (ранее известная как Grok 3.5). Что это значит? DeepSeek явно не хочет выпускать "сырой" продукт, особенно на фоне успеха R1 и растущей конкуренции. Они стремятся сделать R2 по-настоящему прорывной. Однако задержки и проблемы с "железом" (чипы Nvidia) добавляют неопределенности. Ждать ли нам R2 этим летом? Или осенью? Делитесь мнениями в комментариях! #DeepSeek#DeepSeekR2#DeepSeekR1#ИскусственныйИнтеллект#ИИ#AI#Китай#Nvidia#Чипы#Reuters#TheInformation#Grok4#xAI#LiveCodeBench#Нейросети#БольшиеЯзыковыеМодели#LLM#NvidiaH100#Санкции https://t.me/semasci