TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #367 · 30.05

Поговорим про ML. Пару дней назад вышла новость о том, что в продажу поступила первая русскоязычная книга, половину текста в которой написала нейросеть ruGPT-3. А до этого вы все наверняка натыкались на очень яркие записи про Dalle и Imagen, где нейросеть по описанию рисует картинку, и получается очень любопытно. Такими темпами скоро нейросети превратятся в крипту: высокотехнологичную вещь, о которой, однако, в среде приличных технарей лучше не упоминать. Потому что то, каким образом это используется, и то, какой образ этому создают в массах, расходится не только с реальностью, но и с определённым уровнем вменяемости. Кстати, ML ещё и может ярко демонстрировать эффект Даннинга-Крюгера. Мем про "Ты чё, пёс, я математик!" нифига не шутка. Человек может считать себя крутым программистом, если научился комбинировать чужие библиотеки на питоне. Хотя на самом деле простейшую практическую задачу решить не способен -- я с такими сталкивался лично. ML-щики вообще пихают свои нейросети куда ни попадя, считая, что это волшебная таблетка и швейцарский нож для любых ситуаций. Мне рассказывали случай, когда на хакатоне по работе с данными выиграл человек, который просто аккуратно вручную подобрал нужные зависимости в Excel :) Глобально же нейросетями пытаются решать три вида задач: 1. Информации в вопросе много, а в ответе нужно мало. Например, распознавание образов и символов. Подбор значений каких-нибудь коэффициентов. Приложение "Хотдог или не хотдог" из сериала Кремниевая Долина. Обычно нейросети справляются с таким очень хорошо. Рукописный ввод распознают шикарно, по фото могут назвать породу собаки, математические формулы читают. Но важно понимать, что под капотом даже у такой нейросети не возникает никаких понятных вам символов. Например, при распознавании рукописного ввода случайный набор пикселей, не имеющий для человека смысла, может быть с той же степенью уверенности интерпретирован нейросетью, как совершенно чёткая буква А. Просто мы на такой случайный набор не попадаем почти всегда, и поэтому всё ок. 2. Информации в вопросе средне, и в ответе нужно средне. Как правило, это предсказание, восстановление недостающих данных, улучшение качества фото, раскрашивание ч/б. С такими задачами нейросети справляются уже средненько. Улучшенный нейросетью снимок сразу видно. Предсказание лишь ненамного точнее, чем случайный выбор. Польза в том, что в обращении такие сети просты, а результат всё-таки дают. Но не стоит их переоценивать. Например, сюда можно отнести задачу суммаризации текста (по большому объёму текстов тебе печатают выжимку). Мои товарищи в одном чате несколько дней игрались с ботом-суммаризатором, и в основном половина написанных им фраз это просто мусор и ерунда для ржача. Но в другой половине всё-таки какой-то совсем небольшой смысл проглядывался. Недостаточный для того, чтобы задалбывать этим ботом участников чата (привет, ребята :) ), но не абсолютный рандом. 3. Информации в вопросе мало, а в ответе нужно много. Это генерация данных: вот как раз написание текстов, составление рисунков, логотипов и так далее. Так вот, по моему скромному, но всё-таки хоть немного компетентному мнению, в таких вопросах нейросети выдают полную херню. И хвалёная логотипная нейросетка Лебедева — тоже полная херня. И распиаренная GPT ничего толкового не пишет. Когда читаешь примеры в новостях-анонсах, сразу думаешь: "Вау, как круто!". Но когда пробуешь сам: ruGPT-3 по уровню осмысленности где-то чуть ниже "Яндекс.Рефератов", если помните такой сервис и суть его работы. Я не знаю, будут ли сети по созданию изображений работать так круто (сейчас доступа к ним ни у кого нет), но книга в соавторстве с человеком стала возможна только по той причине, что в качестве человека взяли Павла Пепперштейна, который берёт случайные комбинации словосочетаний и выдаёт это за литературу. Поверьте: человечество пока что в безопасности касательно захвата машинами. #dev

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #thinkingwithvisualprimitives

当前筛选 #thinkingwithvisualprimitives清除筛选
AI一线|ShareCentre

@ShareCentre · Post #7252 · 30.04.2026 г., 13:58

DeepSeek 发布 Thinking with Visual Primitives:让多模态模型“边指边想” DeepSeek 多模态团队发布技术报告 Thinking with Visual Primitives,提出一种面向视觉推理的新范式:不再只让模型用语言写出思维链,而是在推理过程中同步使用点(points)和框(bounding boxes)作为“视觉认知锚点”,让模型像人类数数、找路、看图推理时用手指辅助一样,把抽象语言推理落到具体图像坐标上。 这项工作将问题定义为 Reference Gap:传统 Chain-of-Thought 主要停留在语言空间,面对密集空间布局时,很难精确指向“这个物体”“那条路径”或“下一步位置”,容易导致推理链中的指代混乱、逻辑坍塌和幻觉。 📌 核心思路:让模型“Point while it reasons” DeepSeek 的方法是把 points 和 bounding boxes 直接插入推理轨迹,作为视觉推理的最小单元。 - points:用于定位某个具体位置,例如数物体、标记路径节点、指向关键区域 - bounding boxes:用于框定视觉对象或空间范围,帮助模型维持稳定指代 - visual primitives:成为模型推理过程的一部分,而不只是最终输出的标注结果 换句话说,模型不是先“看图”,再用纯文本解释;而是在思考过程中不断把语言概念绑定到图像坐标上。 ⚙️ 解决什么问题? 报告重点面向三类任务: - Counting:顺序扫描与验证,减少漏数、重复数 - Spatial Reasoning:多跳空间逻辑推理,例如判断多个对象之间的位置关系 - Topological Reasoning:迷宫导航、路径追踪等结构化视觉推理任务 DeepSeek 表示,该方法尤其针对复杂结构推理中的 Reference Gap,而不是单纯追求“看得更清楚”。此前多模态模型常用高分辨率裁剪、图像重看等方式缓解 Perception Gap,但在需要精确指代和持续追踪的位置推理中,语言本身仍然不够精确。 📎 性能与模型基础 项目 README 显示,该方法构建在 DeepSeek-V4-Flash 架构基础上,并采用视觉 token 压缩:每 4 个 visual tokens 的 KV cache 压缩为 1 个 entry,以降低图像 token 消耗。 DeepSeek 称,在与研究重点相关的计数和空间推理基准上,该模型在更低图像 token 预算和较紧凑模型规模下,表现可对齐 GPT-5.4、Claude Sonnet 4.6、Gemini 3 Flash 等前沿模型。官方同时强调,这些成绩只覆盖论文相关评测维度,并不代表模型整体能力对比。 🔙 背景:DeepSeek 从长上下文走向视觉推理 这一发布紧接 DeepSeek-V4 预览版之后。此前 V4 系列强调 1M 上下文、DSA 稀疏注意力、Agentic Coding 与长上下文效率,V4-Flash 则定位更快、更便宜的轻量版本。 Thinking with Visual Primitives 可以看作 DeepSeek 在 V4 架构上的一次多模态扩展:从“长文本 / Agent 推理效率”进一步走向“视觉结构推理效率”。 ⚔️ 竞品对比 - OpenAI / Anthropic / Google:当前前沿多模态模型普遍具备图像理解、视觉问答和一定的视觉思维链能力,但多数仍以语言链条表达推理过程 - Qwen / MiMo / GLM:国产多模态模型近期密集更新,Qwen3.5-Omni、MiMo-V2.5、GLM-5V-Turbo 分别强调全模态、Agent 能力和视觉编程 - DeepSeek:此次切入点更偏“视觉推理机制”本身,用 points 和 boxes 作为可解释、可追踪的中间推理单元 这使 DeepSeek 的差异化不只是“多模态输入”,而是把视觉坐标变成推理语言的一部分。 🏢 DeepSeek 近况 DeepSeek 近期保持“技术报告 + 开源仓库 + 后续释放数据/权重”的节奏。官方表示,Thinking with Visual Primitives 的内部基准和部分 cold-start 数据将于未来公开,模型权重会集成进 foundation model 并在未来发布。 这延续了 DeepSeek 过去以技术路线和工程效率建立影响力的打法:先公开方法和报告,再逐步释放更完整的生态资源。 📎 资源链接 - 原推文:https://x.com/PKUCXK/status/2049798862504944117 - GitHub 仓库:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives - 技术报告:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf - 相关背景:DeepSeek-V4 预览版发布并开源:https://t.me/ShareCentre/7236 #DeepSeek#多模态#视觉推理#VLM#AI大模型#ThinkingWithVisualPrimitives