TGINSIGHT CHAT
Machinelearning
@ai_machinelearning_big_data
ТехнологииПогружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Последние посты
Стр. 53 из 85 · 1,009 постов
🔥 GOOGLE AI опубликовали пост о настоящем прорыве в области QUANTUM AI Сегодня в журнале Nature команда Google впервые показали проверяемое квантовое преимущество с помощью метода, называемого *out-of-time-order correlator (OTOC), или «квантовые эхо». Эксперимент проведён на квантовом чипе Willow, и он показывает, что квантовые устройства уже способны решать задачи, которые невозможно эффективно симулировать на классических компьютерах. Квантовый процессор Google выполнил алгоритм под названием Quantum Echoes - в 13 000 раз быстрее, чем лучший классический алгоритм на одном из самых мощных суперкомпьютеров в мире. 🟠Что это значит простыми словами Учёные научились буквально «отматывать время» в квантовой системе и смотреть, когда она переходит от упорядоченного поведения к хаосу. Этот переход - ключ к пониманию, где начинается настоящее квантовое преимущество. Проще говоря: 1) Учёные запускают квантовую систему вперёд во времени, позволяя ей запутаться и “рассеять” информацию. 2) Затем применяют обратные операции, как будто “перематывают” процесс назад. 3) Если всё сделано идеально, система должна вернуться в исходное состояние,но из-за квантового хаоса это происходит лишь частично. 4) Разница между “до” и “после” показывает, насколько глубоко информация ушла в хаос. Работа показывает, что можно извлекать информацию из хаотичных квантовых состояний, ранее считавшихся полностью случайными. Такой эффект невозможно воспроизвести на обычных суперкомпьютерах. Это шаг к практическим квантовым вычислениям, которые смогут моделировать материалы, молекулы и сложные физические процессы с точностью, недостижимой ранее. «Quantum Echoes может стать основой будущих квантовых разработок для реального применения. *Out-of-time-order correlator (сокращённо OTOC) - это специальная метрика, с помощью которой физики измеряют, как быстро информация "распространяется" и смешивается внутри квантовой системы. 🟢Статья: https://www.nature.com/articles/s41586-025-09526-6 @ai_machinelearning_big_data #QuantumComputing#Google#AI#Nature#Physics
💡 Google запустил Skills: открытую платформу для развития навыков работы с ИИ! На платформе представлено почти 3000 курсов, лабораторных и практических треков, охватывающих темы от основ python и машинного обучения до продвинутого MLOps, Vertex AI, Gemini и Prompt Design. Чему можно научиться - Встроить генеративный ИИ в свой дата-пайплайн; - Научиться деплоить и обслуживать модели; - Создать собственное приложение с Gemini и Streamlit; - Пройти обучение с наставниками или в сообществе Google Cloud Innovators. Разные уровни от новичков до тимлидов. По завершении даже выдают сертификаты, которые можно добавить в резюме и на LinkedIn. ✔️Начать учиться: https://www.skills.google/ ✔️Каталог курсов:https://www.skills.google/catalog @ai_machinelearning_big_data #googel#ai#freecourse
Hashtags
🔍 Qwen3-VL-2B-Thinking — новая маленькая мультимодальная модель, заточенная под рассуждения Компактная версия семейства Qwen3-VL, ориентированная на глубокое мышление, аналитику и агентные применения. В линейке Qwen-VL предусмотрены два ключевых режима: - *Instruct* — для диалогов и инструкций, - *Thinking* — для логических рассуждений, кода и комплексных задач. 💡 Особенности - Архитектура поддерживает мультимодальность: модель понимает текст и изображения, способна анализировать контент и выстраивать причинно-следственные связи. - Оптимизирована для reasoning-задач, где важна не генерация текста, а последовательное мышление и вывод. - Благодаря размеру в 2B параметров, модель легко разворачивается на локальных GPU и в облачных окружениях. - Поддерживает tool calling и интеграцию в агентные фреймворки. Qwen3-VL-2B-Thinking - отличная модель при минимальных ресурсах. 👉https://huggingface.co/Qwen/Qwen3-VL-2B-Thinking @ai_machinelearning_big_data #Qwen3VL#Qwen#Reasoning#AI#Multimodal#OpenSource
🌍 Tencent выпустили и Hunyuan World 1.1 (WorldMirror): новую версию модели для 3D-реконструкции Версия Hunyuan World 1.0 умела создавать 3D-сцены по тексту или одному изображению (и была заточена на работу даже на обычных видеокартах), новая версия 1.1 способна строить 3D-мир из видео и мультиракурсных изображений. Чем интересная 🔹Поддерживает любые входные данные: Модель принимает на вход всё - видео, фото, карты глубины, описание позы и параметры камеры. Моделька точно восстанавливает геометрию сцены без искажений. 🔹Любой формат вывода: На выходе выдает плотные облака точек, карты глубины, нормали поверхностей, параметры камеры и 3D Gaussian Splattings. 🔹Быстрая работа на GPU: Модель полностью feed-forward, делает один проход и выдаёт готовый 3D-результат всего за несколько секунд. 🌐Проект: https://3d-models.hunyuan.tencent.com/world/ 🔗GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror 🤗HF: https://huggingface.co/tencent/HunyuanWorld-Mirror ✨Демо — https://huggingface.co/spaces/tencent/HunyuanWorld-Mirror 📄 Технический отчёт — https://3d-models.hunyuan.tencent.com/world/worldMirror1_0/HYWorld_Mirror_Tech_Report.p @ai_machinelearning_big_data #AI#3D#VR#Gaming#OpenSource
Hashtags
✔️Alibaba представила Qwen3-VL-2B и Qwen3-VL-32B Qwen3-VL-32B превосходи GPT-5 mini и Claude 4 Sonnet* в задачах STEM, визуальных вопросах (VQA), OCR, анализе видео и агентных сценариях. При этом у модели всего 32 млрд параметров и она сопоставима, а на некоторых бенчмарках даже превосходит модели на 235 млрд параметров (лучше всего показывает себя на *OSWorld*). Попробовать / HF ✔️Google выкатили обновление для AI Studio Значительно прокачали возможности студии по генерации кода. Сгенерированный проекты можно просматривать или дорабатывать прямо в браузере и деплоить. Также добавили прикольный режим «I’m Feeling Lucky», который генерирует случайную идею для вайбкодинга. aistudio ✔️Умный дизайн DeepSeek OCR На первый взгляд DeepSeek-OCR кажется просто моделью для распознавания текста. Но на деле - это совершенно новый способ того, как ИИ может хранить и обрабатывать информацию. Обычно модели работают с текстовыми токенами - каждый кусочек слова превращается в отдельный токен, и при длинных документах их число растёт квадратично, делая работу медленной и дорогой. DeepSeek решает эту проблему иначе: она превращает длинный текст в изображение, кодирует его в набор компактных визуальных токенов и затем восстанавливает текст обратно. Эксперименты показали: даже при 9–10-кратном сжатии точность OCR остаётся около 97%, а при 20-кратном - около 60%. Это доказывает, что плотные визуальные представления способны нести ту же информацию куда эффективнее, чем обычные текстовые токены. Ключевая инновация DeepSeek- новый энкодер DeepEncoder, который умеет обрабатывать страницы высокого разрешения без переполнения памяти. Он делает это в три шага: сначала применяет локальное внимание для мелких деталей, затем 16× свёрточное сжатие, а потом глобальное внимание для понимания всей структуры документа. Такая последовательная архитектура сохраняет точность, но радикально снижает число токенов и объём активаций. Авторы также предлагают механизм «забывания»: старый контекст можно постепенно уменьшать в разрешении, чтобы свежая информация оставалась чёткой, а старая занимала меньше места. DeepSeek - как всегда умницы. DeepSeek-OCR ✔️Goldman Sachs: экономика США растёт без новых рабочих мест США входят в фазу "jobless growth"- производительность растёт благодаря ИИ, но найм почти остановился. Goldman отмечает: компании делают больше с теми же людьми, а реальный рост занятости вне здравоохранения стал отрицательным. Джером Пауэлл описал рынок как “очень мало найма, мало увольнений”, а выпускники всё чаще не могут найти первую работу. По данным Challenger, планы по найму - на минимуме с 2009 года. Рост есть, рабочих мест - всё меньше. futurism ✔️Claude Desktop теперь доступен для всех Anthropic объявила о публичном релизе Claude Desktop - приложения для Mac и Windows. На Mac теперь можно делать скриншоты, кликать по окнам, чтобы поделиться контекстом с Claude, и управлять агентом голосом. Скачать для Mac и Windows @ai_machinelearning_big_data #news#ai#ml
🌐 OpenAI представила Atlas - свой новый AI-браузер с памятью и режимом агента. Atlas полностью интегрирован с ChatGPT и работает на базе ChatGPT Search. Главная фишка - Agent Mode, который может самостоятельно перемещаться по сайтам, открывать страницы и выполнять задачи прямо в браузере. Можно запускать несколько вкладок с агентами одновременно. 🧠 Браузер также имеет постоянную память (Memory Recall), он запоминает контекст, прошлые действия и может продолжить с того места, где вы остановились. Atlas уже доступен для всех пользователей: Free, Plus, Pro, Go и Business. Для Enterprise и Education доступна бета-версия. 📱Доступен для MacOs. Версии для Windows, iOS и Android - в разработке. Скоро поделюсь результатами тестов и первыми впечатлениями от Agent Mode. @ai_machinelearning_big_data https://chatgpt.com/atlas #OpenAI#Atlas#ChatGPT#AIbrowser#AgentMode
🌟NVIDIA OmniVinci: омнимодальная модель, которая бьет рекорды. OmniVinci - модель, способная одновременно понимать и обрабатывать разные типы информации: текст, изображения, видео и звук. Модель крайне эффективна, несмотря на то, что была обучена всего на 200 млрд. токенов (что в 6 раз меньше, чем у Qwen2.5-Omni - 1.2 трлн.). Это стало возможным благодаря архитектурным фишкам и тщательному подходу к подготовке данных. В основе OmniVinci 3 компонента: 🟢Temporal Embedding Grouping (TEG) - упорядочивает эмбеддинги из видео и аудио по временным меткам. 🟢Constrained Rotary Time Embedding (CRTE) - кодирует уже абсолютное время. 🟢OmniAlignNet - выравнивает эмбеддинги видео и аудио в общем латентном пространстве с помощью контрастивного обучения. Абляция показала, что вклад каждого элемента играет свою важную роль: базовая модель с простой конкатенацией токенов набирает в среднем 45.51 балла. Добавление TEG поднимает результат до 47.72 (+2.21), CRTE — до 50.25 (+4.74 от базовой), а финальный слой в виде OmniAlignNet доводит средний балл до 52.59, что в сумме дает прирост в 7.08 пункта. Данные для обучения - 24 млн. диалогов, которые пропустили через систему, где отдельная LLM анализирует и объединяет описания из нескольких модальностей, создавая единую и корректную аннотацю. Итоговый датасет на 36% состоял из изображений, на 21% из звуков, на 17% из речи, 15% - из смешанных данных и на 11% из видео. В бенчах OmniVinci обошла всех конкурентов. На Worldsense модель набрала 48.23 балла против 45.40 у Qwen2.5-Omni. На Dailyomni - 66.50 против 47.45. В аудио-задачах OmniVinci тоже молодец: 58.40 в MMAR и 71.60 в MMAU. В распознавании речи модель показала WER 1.7% на датасете LibriSpeech-clean. Применение модели протестили на практике. В задаче классификации дефектов полупроводниковых пластин, OmniVinci достигла точности 98.1%, что лучше, чем у специализированной NVILA (97.6%), и у более крупную 40-миллиардную VILA (90.8%). 📌Лицензирование кода : Apache 2.0 License. 📌Лицензирование: NVIDIA One Way Noncommercial License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#NVIDIA#OmniVinci
Hashtags
⚡️ Qwen Deep Research получил полезное обновление Теперь он создаёт не только отчёты, но и готовые веб-страницы и подкасты. Работает связка Qwen3-Coder, Qwen-Image и Qwen3-TTS. 👉Попробовать: chat.qwen.ai/?inputFeature=deep_research @ai_machinelearning_big_data #Qwen#AI#DeepResearch#Qwen3#AItools
✔️Искусственные нейроны научились “шептать” настоящим клеткам мозга Учёные из UMass Amherst создали первый искусственный нейрон, который общается с живыми нейронами с тем же микроскопическим напряжением около 0,1 В, как в мозге. Устройство использует белковые нанопроволоки бактерий, устойчивые к влаге, что позволяет прямую и энергоэффективную связь с живыми клетками. Большинство предыдущих искусственных нейронов работали на гораздо более высоких напряжениях и мощностях, авторы отмечают, что их устройство потребляет в 10 раз меньше напряжения и в ~100 раз меньше мощности по сравнению с ранними версиями. sciencealert ✔️Krea AI - открыли исходный код Krea Realtime Компания Krea AI выложила в открытый доступ Krea Realtime: 14B модель, которая генерирует видео в реальном времени со скоростью 11 кадров в секунду на одной NVIDIA B200. Модель основана на Wan 2.1 14B и обучена с помощью метода Self-Forcing, что позволило добиться высокой скорости при всего 4 шагах инференса. HF ✔️Google интегрировала Gemini с Google Maps Gemini теперь использует живые данные Google Maps - часы работы, рейтинги, маршруты и фото из 250 млн локаций. Модель отвечает на вопросы о местах не догадками, а на основе реальных данных. Разработчики могут передавать координаты и встраивать интерактивный виджет карт прямо в приложения. Фича уже доступна в последних моделях Gemini и может сочетаться с другими инструментами. Google ✔️Anthropic представила Claude for Life Sciences - ИИ-партнёра для научных исследований Anthropic расширила возможности Claude, запустив версию Claude for Life Sciences, созданную для биомедицинских и лабораторных задач. Модель ревзошла человека в тесте Protocol QA (0.83 против 0.79) и интегрируется с ведущими научными платформами - Benchling, BioRender, PubMed, Wiley Scholar Gateway и 10x Genomics. Claude теперь может выполнять автоматизацию лабораторных процессов - от проверки RNA-seq данных до генерации экспериментальных протоколов, используя систему Agent Skills. Anthropic также запустила программу AI for Science с бесплатными API-кредитами для исследователей, чтобы ускорить внедрение ИИ в науку. Claude ✔️IBM представила компактные LLM для кибербезопасности, которые обгоняют более крупные модели IBM разработала CyberPal 2.0 (4B–20B параметров), обученные на новом датасете SecKnowledge 2.0 с экспертными форматами и доказательной базой. Модели показывают на 7-14% лучшие результаты, чем крупные аналоги, в задачах классификации уязвимостей и поиска первопричин. Успех обеспечен не мощностью, а структурой и логикой рассуждений. Paper @ai_machinelearning_big_data #news#ai#ml
⚡️BERT is just a Single Text Diffusion Step Любопытны пост, где автор объяснил на примере очень простую и очевидную, но мощную идею. Он заметил, что то, что мы называем диффузией текста, на самом деле - это просто обобщённая версия классического обучения BERT. Как работаетBERT? В BERT модель берёт текст и маскирует часть слов, а потом учится угадывать, какие слова были скрыты. В диффузии происходит почти то же самое, только шагов больше: на каждом шаге модель немного «портит» текст (добавляет шум), а затем восстанавливает его, всё меньше и меньше теряя смысл, пока не соберёт финальный чистый текст. То есть BERT делает один шаг очистки - угадывает замаскированные слова. А диффузионная модель делает много таких шагов подряд, постепенно превращая случайный набор токенов в осмысленный текст. Барри дообучил RoBERTa, чтобы показать это на практике - и получил настоящий текстовый диффузионный генератор. В примере: - Используется RoBER (улучшенная версия модели BERT,) и датасет WikiText. - На каждом шаге часть токенов заменяется на <MASK>, модель восстанавливает их, потом снова маскирует — и так несколько раз. - После нескольких итераций модель способна генерировать связный текст, даже без автогенеративного декодера (как у GPT). 📈Результаты - Модель генерирует осмысленный текст, хотя и не идеально связный. - Качество улучшалось по мере добавления шагов диффузии. - По времени генерации RoBERTa Diffusion была немного медленнее, чем GPT-2 (~13 сек против 9 сек), но архитектура осталась полностью encoder-only. Автор упоминает, что позже наткнулся на работу DiffusionBERT, где идею реализовали глубже и подтвердили результатами. Главная мысль: BERT можно считать одноступенчатой версией текстовой диффузии. Если добавить больше шагов, то vs получаем диффузионный генератор текста. Если BERT - это один шаг диффузии, то будущее может принадлежать моделям, совмещающим "понимание" и "генерацию" текста в одном процессе. https://nathan.rs/posts/roberta-diffusion/ @ai_machinelearning_big_data #AI#Diffusion#RoBERTa#BERT#LanguageModel#MLM#Research
📊 GenAI Traffic - статистика по ИИ трафику. Свежие данные показывают, как меняется расстановка сил среди генеративных ИИ: - ChatGPT продолжает терять долю рынка. - Perplexity впервые перешагнул порог 2%. 🗓️Год назад: ChatGPT — 87.1% Gemini — 6.4% Perplexity — 1.7% Claude — 1.7% Copilot — 1.1% 🗓️6 месяцев назад: ChatGPT — 78.8% DeepSeek — 6.8% Gemini — 5.5% Grok — 3.1% Perplexity — 1.5% Claude — 1.3% Copilot — 1.3% 🗓️3 месяца назад: ChatGPT — 78.3% Gemini — 8.7% DeepSeek — 4.5% Grok — 2.6% Perplexity — 1.6% Claude — 1.5% Copilot — 1.2% 🗓️Месяц назад: ChatGPT — 76.4% Gemini — 10.8% DeepSeek — 4.0% Grok — 2.2% Perplexity — 2.0% Claude — 1.9% Copilot — 1.2% 🗓️Сегодня: ChatGPT — 74.1% Gemini — 12.9% DeepSeek — 3.7% Perplexity — 2.4% Grok — 2.0% Claude — 2.0% Copilot — 1.2% 📈Тенденция очевидна: ChatGPT теряет медленно, но верно трафик, рынок становится более сбалансированным, а Gemini и Perplexity показывают стабильный рост интереса пользователей. С выходом Gemini 3.0 рост, Google может ещё больше улучшить свои позиции. @ai_machinelearning_big_data #AI#GenAI#Analytics#ChatGPT#Gemini#Perplexity#Claude#DeepSeek#Copilot
📄 DeepSeek-OCR - модель для распознавания текста 🔍 DeepSeek выпустили мощную OCR-модель, способную преобразовывать изображения документов прямо в Markdown или текст. Что умеет: - Распознаёт текст на изображениях и в PDF - Работает с документами, таблицами и сложными макетами - Поддерживает разные режимы: Tiny, Small, Base, Large - Оптимизирована под GPU (PyTorch + CUDA 11.8) - MIT-лицензия — можно свободно использовать и модифицировать DeepSeek-OCR достигает высокой точности и эффективности за счёт компрессии визуальных токенов. На Omnidocbench - лучшая точность при минимуме визуальных токенов, превосходит другие OCR-модели по эффективности и скорости. 🟠HF: https://huggingface.co/deepseek-ai/DeepSeek-OCR 🟠Github: https://github.com/deepseek-ai/DeepSeek-OCR 🟠Paper: https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf @ai_machinelearning_big_data #ocr#DeepSeek