TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват413,800Просмотры последних постов
Последние посты

Последние посты

Тег: #deeplearning · 16 постов

当前筛选 #deeplearning清除筛选

Опубликован 1 дек.

🚀GELab-Zero - первый полноценный open-source стек “Model + Infra” для GUI-агентов. Это открытая альтернатива закрытым системам уровня GUI Agent MCP: готовая модель, готовая инфраструктура и новый бенчмарк, собранный под реальные задачи. Что внутри: • SOTA-модель 4B - лёгкая, быстрая, запускается локально. • One-Click инфраструктура - без ADB и сложных зависимостей. • AndroidDaily - новый бенчмарк, основанный на рабочих пользовательских сценариях. Производительность: • Лучшие результаты на открытых тестах - модель обходит гораздо более крупные системы вроде GUI-Owl-32B на ScreenSpot, AndroidWorld и OSWorld. • 73.4% точности на AndroidDaily - существенно выше, чем UI-TARS-1.5 (47%), Gemini-2.5-pro-thinking (36.6%) и GPT-4o (19.6%). Идея простая: скачивайте, запускайте локально, ломайте, улучшайте. Открытый стек для GUI-агентов наконец доступен. 🟠HuggingFace: https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview 🟠GitHub: https://github.com/stepfun-ai/gelab-zero 🟠Blog: https://opengelab.github.io/index.html @ai_machinelearning_big_data #AI, #Agents, #GUIAgents, #GELabZero, #OpenSource, #MachineLearning, #DeepLearning

31,400 views

Опубликован 25 нояб.

⚡️ HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B Tencent выложила в open-source новую модель HunyuanOCR. Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan. Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске. ⚡ Топ по бенчмаркам • 860 на OCRBench среди всех моделей до 3B • 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов 🌐 Что умеет HunyuanOCR Модель закрывает практически все типы OCR задач • текст на улицах, витринах, табличках • рукописный текст и художественные шрифты • сложные документы: таблицы, формулы, встроенный HTML и LaTeX • субтитры в видео • перевод текста на фото end-to-end сразу на 14 языков Это не каскадный пайплайн, а единое решение Один запрос и одно инференс-прогон дают готовый результат. Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки. 📌 Project Page web: https://hunyuan.tencent.com/vision/zh?tabIndex=0 mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0 🔗GitHub https://github.com/Tencent-Hunyuan/HunyuanOCR 🤗 Hugging Face https://huggingface.co/tencent/HunyuanOCR 📄 Technical Report https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf @ai_machinelearning_big_data #HunyuanOCR#TencentAI#OCR#VisionAI#DeepLearning#Multimodal#AIModels#OpenSourceAI#ComputerVision#DocumentAI

38,600 views

Опубликован 27 окт.

⚡️Glyph: масштабирование контекста через визуально-текстовую компрессию В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель. Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью. Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста. При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B. При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM. Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой. 📄Подробности: arxiv.org/abs/2510.17800 🧩Веса: huggingface.co/zai-org/Glyph 👉Репозиторий: github.com/thu-coai/Glyph @ai_machinelearning_big_data #AI#LLM#Multimodal#Research#DeepLearning

42,600 views

Опубликован 13 окт.

🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа: > • токенизатор (написан на Rust) > • pretraining > • SFT (supervised fine-tuning) > • RL (reinforcement learning) > • оценка модели (eval) Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей. 💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике. Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску. Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score). А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая: - 40+ на MMLU - 70+ на ARC-Easy - 20+ на GSM8K 🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать. 🟠GitHub:https://github.com/karpathy/nanochat 🟠Технические детали:https://github.com/karpathy/nanochat/discussions/1 @ai_machinelearning_big_data #LLM#nanochat#MachineLearning#DeepLearning#AI#GPT

44,400 views

Опубликован 9 окт.

AI21 представила Jamba 3B - компактную модель, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений. Более высокая эффективность, в сравнении с AI21 - 2–5× улучшение в производительности по сравнению с конкурентами за счёт меньшего KV-кэша и гибридной архитектуры. Секрет в архитектуре: 🔹 сочетание Transformer attention и Mamba state-space слоёв. 🔹 Mamba-часть эффективно обрабатывает длинные последовательности без тяжёлых attention-кэшей, 🔹 а Transformer-слои сохраняют способность к сложным рассуждениям. Результат, модель кушает меньше памяти, выдает высокую скорость и плавно работает даже на ноутбуках, GPU и мобильных устройствах. 📏 Контекст: до 256K токенов. ⚡ Скорость: около 40 токенов/сек даже на длинных контекстах, тогда как другие модели резко замедляются. На графике “интеллект против скорости” Jamba 3B опережает Gemma 3 4B, Llama 3.2 3B и Granite 4.0 Micro, демонстрируя высший интеллект и более быструю генерацию. 🟢Подробнее: huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B @ai_machinelearning_big_data #AI#LLM#Jamba3B#AI21#Mamba#Transformer#DeepLearning

34,600 views

Опубликован 8 окт.

🧩 Новая архитектура нейросетей от Samsung: Tiny Recursive Model (TRM) - обошла DeepSeek-R1, Gemini 2.5 Pro и o3-mini в задачах рассуждения ARC-AGI 1 и ARC-AGI 2. ✔️ Размер модели - всего 7 миллионов параметров и около 1000 обучающих примеров. Это меньше в 10 000 раз, чем у современных LLM, но результат лучше. Как работает TRM: 1️⃣Черновой ответ: модель сразу формирует быстрый набросок решения, а не пишет его по словам. 2️⃣Скрачпад: создаёт внутреннее пространство для логики и промежуточных рассуждений. 3️⃣Самокритика: многократно (6 раз) проверяет свои рассуждения, уточняя и исправляя ошибки. 4️⃣Переписывание: на основе улучшённой логики создаёт новую, более точную версию ответа. 5️⃣Цикличность: повторяет процесс до 16 раз, пока не достигнет уверенного, логически цельного решения. 💡 Чем интересна модель: - Меньше затрат на вычисления, а результат выше; высокая эффективность при низких издержках. - Доказательство того, что собственная логика и архитектура могут быть сильнее простого размера модели. Можно коротко описать ее: «думай, прежде чем действовать». - Мощные рассуждающие системы становятся доступными даже без огромных кластеров, модель можно запускать на ограниченных ресурсах. Это не просто «компактаная LLM», это другой способ мышления: модель, которая действительно *думает, прежде чем говорить*. 🟠Статья: https://arxiv.org/abs/2510.04871v1 🟠Github: https://github.com/SamsungSAILMontreal/TinyRecursiveModels @ai_machinelearning_big_data #TinyRecursiveModels#TRM#DeepLearning#NeuralNetworks

33,900 views

Опубликован 5 окт.

📘 Learning Deep Representations of Data Distributions — новая бесплатная книга от исследователей UC Berkeley (Sam Buchanan, Druv Pai, Peng Wang, Yi Ma). Главная идея книги - показать, почему и как глубокие нейросети учатся извлекать сжатые, информативные представления сложных данных, и что у них внутри: 💡В книге вы найдите: 🟠простое объяснение фундаментальных принципов архитектур нейросетей через оптимизацию и теорию информации. 🟠как модели формируют инвариантные и устойчивые представления 🟠связь с PCA, автоэнкодерами и дифференцируемыми отображениями — то есть, как нейросети по сути обобщают классические методы сжатия данных и учатся находить их оптимальное представление 🟠взгляд на обучение через энергию, энтропию и структуру данных 🟠свежие идеи для понимания LLM и генеративных моделей 📖 Читать онлайн: ma-lab-berkeley.github.io/deep-representation-learning-book 🖥Github: https://github.com/Ma-Lab-Berkeley/deep-representation-learning-book @ai_machinelearning_big_data #book#deeplearning#representationlearning#ucberkeley#machinelearning

37,800 views

Опубликован 30 сент.

⚡️ LoRA почти так же хороша, как полный fine-tuning, но в разы дешевле Thinking Machines выпустили новое исследование, которое смотрит на LoRA под другим углом. Главная идея исследования: LoRA может обучаться почти как полный fine-tuning, но при этом быть проще, дешевле и предсказуемее. Они доказали это экспериментально: взяли одинаковую модель, прогнали обучение двумя способами: полным fine-tuning и LoRA - и сравнили кривые потерь (loss vs steps). Процесс: - Дали чёткий рецепт, а не случайные гипотезы. - Показали, что процесс можно повторять с одинаковым результатом. - Выяснили, что если адаптеру не хватает памяти, модель не ломается, а просто замедляется. Результат показал, что при правильных настройках LoRA движется по той же траектории, что и FullFT. То есть качество модели и динамика обучения совпадают, пока у адаптера хватает параметров. Когда лимит достигается, у LoRA кривая не «обрывается», а просто идёт дальше медленнее. Именно за счёт этого LoRA демонстрирует предсказуемое и воспроизводимое поведение, а не случайные провалы, которые часто происходят при подборе гиперпараметров «на глаз». ✔️ Правила от команды Thinking Machines 1. Ставить LoRA на все слои, а не только на attention. 2. Использовать ~10× больший learning rate, чем обычно. 3. Не раздувать batch size - иначе падает стабильность. ✔️Что в итоге: - Кривые обучения LoRA почти совпадают с full fine-tuning. - Даже в упоре в лимит адаптера модель ведёт себя плавно. - Вычислений требуется на треть меньше, чем у FullFT. LoRA может стать инструментом для надёжного и дешёвого пост-трейнинга. Для Thinking Machines это шаг к миссии: они уверены, что непредсказуемость моделей - это не фича, а баг, который можно исправить. Если убрать случайность и сделать выходы стабильными - ИИ станет безопасным даже для критически важных процессов. 📌Подробнее @ai_machinelearning_big_data #LoRA#FineTuning#AI#MachineLearning#DeepLearning#LLM

37,900 views

Опубликован 22 сент.

🚀 Новая китайская модель LongCat-Flash-Thinking 🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений. ⚡ Основное: - Архитектура MoE, 560B параметров, из них 27B активируются. - Эффективность: требует на **64,5% меньше токенов**( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,). - Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом. - Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками. ⚙️ Оптимизации для продакшена: - Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения, - KV-cache reduction, квантование, chunked prefill, - статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation. - Поддержка SGLang и vLLM для эффективного деплоя. 📊 Бенчмарки: - Лидирует в tool use (**τ²-Bench, VitaBench**) - Хорошие результаты по instruction following (**IFEval, COLLIE, Meeseeks-zh**). Китайцы стабильно удерживают лидерство в reasoning-моделях. 🟠HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking @ai_machinelearning_big_data #AI#LLM#Reasoning#MoE#DeepLearning#OpenSource

29,300 views

Опубликован 11 сент.

🚀 Релиз:Qwen3-Next-80B-A3B - эффективная модель заточенная на работа работу с очень длинным контекстом! 🔹80B параметров, но активируется только 3B на токен → тренировка и инференс 10x дешевле и быстрее, чем у Qwen3-32B (особенно при 32K+ контексте). 🔹Гибридная архитектура: Gated DeltaNet + Gated Attention → сочетает скорость и точность. 🔹Ultra-sparse MoE: 512 экспертов, маршрутизируется 10 + 1 общий. 🔹Multi-Token Prediction → ускоренное speculative decoding. 🔹 По производительности обходит Qwen3-32B и приближается к Qwen3-235B в рассуждениях и long-context задачах. 🟢Qwen3-Next-80B-A3B-Instruct показатели почти на уровне 235B flagship. 🟢Qwen3-Next-80B-A3B-Thinking превосходит Gemini-2.5-Flash-Thinking. ▪Попробовать: https://chat.qwen.ai ▪Анонс: https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list ▪ HuggingFace: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d ▪ ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a ▪Kaggle: https://kaggle.com/models/qwen-lm/qwen3-next-80b ▪ Alibaba Cloud API: https://alibabacloud.com/help/en/model-studio/models#c5414da58bjgj @ai_machinelearning_big_data #AI#LLM#Qwen#DeepLearning#MoE#EfficientModels#LongContext#Reasonin

29,400 views

Опубликован 9 сент.

🎙️ Qwen3-ASR — универсальная модель распознавания речи! 🟢Поддержка EN/CN + ещё 9 языков: ar, de, en, es, fr, it, ja, ko, pt, ru, zh 🟢 Авто-определение языка 🟢 Модель умеет распознавать речь даже в сложных условиях — когда человек поёт, читает рэп или говорит под фоновую музыку. — WER <8% (ошибки меньше 8 слов на каждые 100) 🟢 Работает даже в шуме, низком качестве и на расстоянии 🟢 В модель можно добавить свои слова/термины/имена и фразы, и она будет их правильно распознавать ▪API:https://bailian.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2979031 ▪ModelScope Demo: https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo ▪Hugging Face Demo: https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo ▪Blog:https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list @ai_machinelearning_big_data #ASR#SpeechRecognition#Qwen3#AI#MachineLearning#DeepLearning#VoiceAI

26,800 views

Опубликован 8 сент.

🚀 Grok 2.5 теперь можно запускать локально! Unsloth выкатили оптимизированную версию модели: 🔹270B параметров работает на обычном Mac с 128GB RAM (~5 токенов/сек) 🔹 Размер уменьшен с 539GB до 118GB (–80%) 🔹 Ключевые слои модели сохранены в 8-битном формате, а все остальные сжаты с помощью динамического 3-битного GGUF. 🟢Гайд: https://docs.unsloth.ai/basics/grok-2 🟢 GGUF: https://huggingface.co/unsloth/grok-2-GGUF @ai_machinelearning_big_data #AI#xAI#Grok2#LLM#OpenSource#MachineLearning#DeepLearning

27,100 views
12
НазадСтр. 1 из 2Вперёд