TGTGInsightаналитика telegramLIVE / telegram public index
← [404] — программирование

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @procode404 · Post #3988 · 19 мар.

​🔥Как работает нейросеть? — [9:59] Нейросети уже заполонили мир, особенно ChatGPT и Midjourney, поэтому важно приблизительно понимать как они работают. В этом ролике речь пойдёт об общем строении ИИ, что такое нейрон, вес и как подбирается результат. Перейти к просмотру #видео#ai

Результаты

Найдено 11,663 похожих постов

Общий глобальный поиск

Machinelearning

@ai_machinelearning_big_data · Post #8447 · 04.09.2025, 08:07

🌟POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки. Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench. POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст. Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию. Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности. Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему. Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами. Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей. На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных. Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре. 🟡Как в любом проекте - есть нюансы. Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки. ▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#VLM#POINTSReader#Tencent

APPKIT 数字游民生活指南

@APPKITLIFE · Post #73 · 20.01.2026, 09:21

#TwitterAlgorithm#OpenSource#Musk#AI#流量密码 流量解读 | 马斯克动真格了:X (Twitter) 推荐算法全开源 就在刚刚,马斯克兑现承诺,把 X 的“流量密码”放到了 GitHub 上。想知道你的推文为什么没人看?官方答案来了。 拆解“For You”时间线的核心逻辑 ▎流量漏斗三步走 并不是所有推文都能进入你的视野,必须经过:候补生源 (Candidate) ➡️ 排名打分 (Ranking) ➡️ 过滤筛选 (Filters)。 ▎黄金比例 5:5 你的首页内容来源很公平: • 50% 来自你关注的人 (In-Network) • 50% 来自“猜你喜欢” (Out-of-Network),依靠 Simclusters (兴趣社区) 算法来探测你的潜在兴趣。 ▎权重为王 一个 4800 万参数的神经网络模型会根据互动(点赞、转发、回复)给推文打分。分数越高,曝光越大。 ▎过滤机制 被屏蔽的用户、NSFW (不当内容) 以及你“已经看过”的推文,会在最后一步被无情剔除。 马斯克原话:代码现在看起来可能很“尴尬” (embarrassing) 甚至有错误,但透明是建立信任的第一步。 对于创作者来说,研究透这个 repo,就是掌握了 2026 年的流量钥匙。 信息来源:https://x.com/evanwritesx/status/2013542007935742048?s=46

Swift Academy

@swift_academy · Post #272 · 08.01.2026, 06:37

Prompt qanday yoziladi?#prompt_technology Yaxshi prompt bu bitta gap emas. Bu 5 ta muhim qismdan iborat birikma. Ular: 1. 𝐊𝐨𝐧𝐭𝐞𝐤𝐬𝐭 — vaziyatni aniqlash AI nimani, qayerda va kim uchun qilayotganini bilishi kerak. Misol: “Prompt tushunchasini IT sohasida yangi boshlayotgan talaba uchun sodda va misollar bilan tushuntirib ber.” 2. 𝐑𝐨𝐥 — nuqtai nazarni belgilash AI qaysi rolda fikr yuritishini aniqlaydi. Misol: “O‘zingni tajribali backend arxitektor sifatida tut va (ushbu topic)-ni shu rolda tushuntir.” 3. 𝐂𝐡𝐞𝐤𝐥𝐨𝐯 — chegaralarni qo‘yish Cheklovlar sifatni pasaytirmaydi, aksincha aniqlik beradi. Misol: “Texnik terminlarsiz, 5 banddan oshmagan holda va faqat amaliy jihatlarni yoz.” 4. 𝐍𝐚𝐭𝐢𝐣𝐚 𝐟𝐨𝐫𝐦𝐚𝐭𝐢 — javob qanday ko‘rinishda bo‘lsin Format aytilmasa, javob qayta ishlashni talab qiladi. Misol: “Natijani jadval ko‘rinishida ber: muammo, sabab, yechim.” 5. 𝐌𝐢𝐬𝐨𝐥 — kutilgan natijani ko‘rsatish Bitta yaxshi misol o‘nlab izohdan kuchliroq. Misol: “Uslub quyidagidek bo‘lsin: muammo → tahlil → xulosa. Mana shunga o‘xshash yozing.” Umumiy prompt misoli: (𝘒𝘰𝘯𝘵𝘦𝘬𝘴𝘵:) Mobil ilova ustida ishlayotgan kichik jamoa bor; loyiha tez o‘sishga tayyor va arxitektura qarori uzoq muddatli bo‘lishi kerak. (𝘙𝘰𝘭:) O‘zingni tajribali mobil arxitektor sifatida tut. (𝘊𝘩𝘦𝘬𝘭𝘰𝘷:) Faqat amaliy jihatlarga e’tibor qarat, nazariy ta’rif berma. Javob 5 banddan oshmasin. (𝘕𝘢𝘵𝘪𝘫𝘢 𝘧𝘰𝘳𝘮𝘢𝘵𝘪:) Muammo → Variantlar → Risklar → Tavsiya → Keyingi qadamlar. (𝘔𝘪𝘴𝘰𝘭 (𝘶𝘴𝘭𝘶𝘣 𝘺𝘰‘𝘯𝘢𝘭𝘵𝘪𝘳𝘶𝘷𝘤𝘩𝘪):) Har bir band 1–2 jumladan oshmasin, qisqa va qaror qabul qilishga yordam beruvchi ohangda yoz. Shu shartlar asosida loyiha uchun eng maqbul arxitektura qarorini tavsiya qil. Siz prompt yozayotganda shu 5 qismdan qaysisini ko‘pincha e’tiborsiz qoldirasiz? Mukhriddinbek Samidov 🔗YouTube | Instagram | LinkedIn | Telegram | Medium #prompt#ai#chatgpt#claude#deepseek#gemini

AI一线|ShareCentre

@ShareCentre · Post #7197 · 16.04.2026, 06:03

Google 发布 Gemini 3.1 Flash TTS:200+ 音频标签精确控制语音风格,支持 70+ 语言 Google 于 4 月 15 日发布 Gemini 3.1 Flash TTS,迄今最具表现力和可控性的文本转语音模型。核心创新是音频标签(Audio Tags)——在文本中嵌入 [excitement]、[whisper] 等自然语言指令,精确控制语音风格、语速和情绪。Artificial Analysis TTS 排行榜 Elo 1211 分,位于「质量-价格最优象限」。 📎 关键特性 - 200+ 音频标签:涵盖情绪、语速、口音、语调,嵌入文本即生效 - 导演模式:AI Studio 中设置场景上下文,角色跨多轮保持入戏 - 角色级精细控制:独立 Audio Profile + Director's Notes + 行内标签句中切换 - 原生多说话人对话 - 一键导出 API 代码,跨项目语音一致 - 70+ 语言支持(24 种高质量评估语言) - SynthID 水印防滥用 ⚙️ 可用渠道 - 开发者:Gemini API + Google AI Studio 预览 - 企业:Vertex AI 预览 - Workspace 用户:Google Vids 🔙 背景 - 3/26 发布 Gemini 3.1 Flash Live(实时对话语音,ComplexFuncBench 90.8%),Flash TTS 补齐「生成」维度 - 同日发布 Gemini CLI Subagents 和 Mac 原生应用,产品节奏创纪录 - 近期还发布了 Chrome Skills(4/14)、Gemma 4 开源(4/2)等 ⚔️ 竞品 - ElevenLabs:克隆质量高,但标签控制粒度不及 - 小米 MiMo-V2-TTS:唯一商用说唱一体,语言覆盖较窄 - 阿里 Qwen3.5-Omni:语音克隆 WER 6.24 领先,TTS 为全模态附属 - OpenAI GPT-4o Voice:对话自然,缺乏开发者级 TTS 控制 Google 差异化:200+ 音频标签 + 导演级 Studio 界面 + 70+ 语言 + SynthID 水印 🔗 链接 官方博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/ AI Studio 体验:https://aistudio.google.com/generate-speech Vertex AI:https://console.cloud.google.com/vertex-ai/studio/media/speech 模型卡片:https://deepmind.google/models/model-cards/gemini-3-1-flash-audio/ #Google#AI#TTS#Gemini#语音合成#AudioTags

Machinelearning

@ai_machinelearning_big_data · Post #9889 · 15.04.2026, 10:32

📌Массовое использование чат-ботов унифицирует то, как люди пишут и рассуждают Университет Южной Калифорнии опубликовал в журнале Trends in Cognitive Sciences статью, в которой утверждают, что массовое использование больших языковых моделей постепенно размывает индивидуальные различия в речи, письме и мышлении. Авторский коллектив возглавляет профессор психологии и информатики Мортеза Дехгани. Научные интересы Дехгани лежат на стыке психологии, когнитивной науки и искусственного интеллекта: он известен работами по вычислительному анализу морального и политического языка, применению методов NLP к большим текстовым корпусам (от социальных сетей до литературы) и изучению того, как ценности и групповая мораль проявляются в речи. По мнению исследователей, когда миллионы людей обращаются к узкому кругу одних и тех же чат-ботов, стилистические, смысловые и логические особенности отдельных людей стираются, а на выходе получается «стандартизированное выражение мыслей». Этот процесс вызывает беспокойство: модели не просто влияют на манеру письма, но и незаметно переопределяют, что считается достоверной речью, корректной точкой зрения и хорошим рассуждением. Тексты, сгенерированные LLM, менее разнообразны, чем написанные людьми, и в среднем воспроизводят язык, ценности и логические схемы западных, образованных, индустриальных, состоятельных и демократических сообществ. Причина - в обучающих выборках, где непропорционально представлены доминирующие языки и идеологии. В статье приводится и обратный эффект: отдельный пользователь с помощью чат-бота, как правило, генерирует больше идей, чем без него, однако группы людей, опирающиеся на LLM, в итоге выдают меньше оригинальных решений, чем те же группы, работающие без ИИ. Авторы также указывают, что популярные модели тяготеют к линейным схемам вроде CoT, что, по их оценке, может вытеснять интуитивные и абстрактные подходы. Они ссылаются на данные о том, что после взаимодействия с предвзятой моделью мнения пользователей смещаются в ее сторону. 🟡Рекомендация авторов При обучении моделей следует закладывать реальное языковое и культурное многообразие, а не случайные вариации. Это одновременно сохранит бы когнитивное разнообразие в обществе и улучшит способности самих чат-ботов к рассуждению. 🟡Дисклеймер Это не эмпирическое исследование с собственными экспериментами, обзорно-полемическая работа, обобщающая чужие исследования и выдвигающая гипотезу. Сужение стилистики, сдвиг мнений после общения с моделью - подтверждены отдельными исследованиями, а вот более широкие тезисы о глобальной гомогенизации мышления остаются дискуссионными. Работа выполнена при поддержке Управления научных исследований Минобороны США. @ai_machinelearning_big_data #AI#ML#LLM#Research#Cognitive#NLP

Machinelearning

@ai_machinelearning_big_data · Post #9228 · 11.12.2025, 09:07

📌SAPO: RL-метод, который приручил нестабильные градиенты в LLM и MoE. Qwen предложил RL-метод SAPO (Soft Adaptive Policy Optimization), который решает ключевую проблему нестабильного обучения LLM и архитектур MoE и предлагает более разумный и мягкий подход к контролю над процессом обучения. Reinforcement Learning, RL - это ингредиент, превращающий просто большую языковую модель в рассуждающего помощника. Именно RL учит ИИ решать олимпиадные задачи по математике, писать чистый код и понимать связь между текстом и изображением. Но у RL есть обратная сторона: катастрофическая нестабильность обучения, особенно для гигантских моделей. Главная техническая головоломка - это контроль над коэффициентами значимости на уровне каждого токена. В архитектурах MoE, где разные части модели активируются для разных задач, эти коэффициенты могут бесконтрольно «скакать». Слишком большие колебания коэффициентов превращают четкие обучающие сигналы в помехи, дестабилизирующие всю систему. До сих пор стандартными инструментами были GRPO и GSPO, которые использовали принцип хард-клиппинга. Если коэффициент выходил за заданные рамки, градиент просто обнулялся. 🟠Минус первый: Потеря информации. Ценные, но выбивающиеся данные безжалостно отбрасывались. 🟠Минус второй: Невозможный баланс. Сделаешь рамки узкими - задушишь обучение. Сделаешь широкими - полезет паразитный шум. Для капризных MoE-архитектур эта дилемма особенно актуальна. SAPO предлагает отказаться от хард-клиппинга в пользу интеллектуального сглаживания. Вместо резкого обнуления SAPO использует плавную, адаптивную функцию (контролируемую температурой), которая мягко снижает влияние проблемных градиентов, но не обнуляет их полностью. Это создает непрерывные области доверия, внутри которых модель может учиться более гибко и безопасно. 🟡Красота SAPO - в универсальности. 🟢Как GSPO, но умнее. Если в длинном ответе сбился лишь один токен, GSPO наказывает всю последовательность. SAPO избирательно подавляет только «виновника», сохраняя полезные сигналы от остальных слов. Это резко повышает эффективность наборов обучающих данных. 🟢Как GRPO, но плавнее. Вместо резкого отключения градиента для плохого токена SAPO применяет постепенное затухание. Это предотвращает резкие рывки в обучении, обеспечивая плавную и стабильную настройку политики модели. Вишенка метода - это асимметричный температурный дизайн. SAPO по-разному обрабатывает «хорошие» и «плохие» обновления. Для токенов с негативным вкладом используется более высокая температура, заставляющая их влияние затухать быстрее и сильнее. Это простое правило надежно гасит наиболее опасные колебания, что на практике приводит к беспрецедентной стабильности процесса RL-обучения. 🟡Теорию подтвердили тестами. При обучении Qwen3-30B-A3B-Base, SAPO не только показал более стабильную кривую обучения , но и достиг более высоких результатов на сложных математических бенчмарках AIME25, HMMT25. Причем он сделал это без трудоемкого маршрутизирующего воспроизведения, которая требовалась конкурентам для работы с MoE. Успех повторили в масштабном эксперименте с мультимодальной Qwen3-VL-30B-A3B, где SAPO стабильно обошел аналоги в смешанных задачах на кодинг, логику и математику. 🟡Статья 🟡Arxiv @ai_machinelearning_big_data #AI#ML#LLM#MoE#SAPO#Qwen

科技&趣闻&杂记

@kejiqu · Post #3671 · 31.07.2025, 14:11

Stack Overflow 数据揭示“几乎正确”的 AI 代码所带来的隐形生产力税 Stack Overflow 的一项调查显示,虽然 84% 的开发者使用或计划使用 AI 编码工具,但他们对 AI 准确性的信任度正在下降。 调查显示,只有 33% 的开发者信任 AI 代码的准确性,低于去年的 43%。 开发者对 AI 工具的满意度降低,主要原因是 AI 生成的代码看似正确,但包含需要大量调试才能发现的错误。 超过半数的开发者报告,修复 AI 生成的代码需要比预期更长的时间,从而影响了生产力。 该调查涵盖了全球超过 49,000 名程序员。Slashdot 🏷#AI#代码#生产力#开发者 📢频道👥群组📝投稿

Сумма технологий

@sum_tech · Post #74 · 20.10.2024, 04:31

Как и предсказывалось, массовое распространение искусственного интеллекта порождает мощнейшие вызовы общепринятой человеческой морали. Организация Internet Watch Foundation (IWF), сообщила, что изображения с сексуальным насилием над детьми, созданные с помощью ИИ, все чаще появляются в открытом доступе в интернете. За последние шесть месяцев количество таких материалов уже превысило показатели всего предыдущего года. Почти все изображения были обнаружены в открытых частях интернета, а не в даркнете. Этот вопрос уже неоднократно поднимался ранее, однако чисто в теоретическим плане: является ли искусственно сгенерированное изображение аналогом реальной порнографии? Сейчас, однако, дело дошло до практики, а учитывая, что распространение ИИ практически бесконтрольно, правоохранительные органы при любой позиции законодателя могут оказаться бессильны перед потоком генерации подобных изображений. Основной проблемой искусственной генерации изображений, в частности, детей и подростков, является отсутствие юридической возможности определения реального возраста человека. С этой проблемой законодатели уже не раз сталкивались при анализе жанра японской анимации хентай, где все герои являются рисованными. В IWF утверждают, что для обучения нейросети генерировать подобные видео и фото использовались реальные сцены с детьми и подростками, что является однозначным преступлением во всех странах мира. Однако пока что никаких доказательств этого утверждения не найдено. #кино#порно#ai#ии#iwf

12•••50•••100•••150•••200•••250•••300•••350•••400•••450•••500•••550•••600•••650•••700•••750•••789790791792793•••800•••850•••900•••950•••971972
НазадСтр. 791 из 972Вперёд