🔥Как работает нейросеть? — [9:59]
Нейросети уже заполонили мир, особенно ChatGPT и Midjourney, поэтому важно приблизительно понимать как они работают. В этом ролике речь пойдёт об общем строении ИИ, что такое нейрон, вес и как подбирается результат.
Перейти к просмотру
#видео#ai
🌟POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки.
Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench.
POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст.
Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию.
Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности.
Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему.
Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами.
Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.
На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.
Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре.
🟡Как в любом проекте - есть нюансы.
Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки.
▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить.
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#VLM#POINTSReader#Tencent
Prompt qanday yoziladi?#prompt_technology
Yaxshi prompt bu bitta gap emas. Bu 5 ta muhim qismdan iborat birikma.
Ular:
1. 𝐊𝐨𝐧𝐭𝐞𝐤𝐬𝐭 — vaziyatni aniqlash
AI nimani, qayerda va kim uchun qilayotganini bilishi kerak.
Misol:
“Prompt tushunchasini IT sohasida yangi boshlayotgan talaba uchun sodda va misollar bilan tushuntirib ber.”
2. 𝐑𝐨𝐥 — nuqtai nazarni belgilash
AI qaysi rolda fikr yuritishini aniqlaydi.
Misol:
“O‘zingni tajribali backend arxitektor sifatida tut va (ushbu topic)-ni shu rolda tushuntir.”
3. 𝐂𝐡𝐞𝐤𝐥𝐨𝐯 — chegaralarni qo‘yish
Cheklovlar sifatni pasaytirmaydi, aksincha aniqlik beradi.
Misol:
“Texnik terminlarsiz, 5 banddan oshmagan holda va faqat amaliy jihatlarni yoz.”
4. 𝐍𝐚𝐭𝐢𝐣𝐚 𝐟𝐨𝐫𝐦𝐚𝐭𝐢 — javob qanday ko‘rinishda bo‘lsin
Format aytilmasa, javob qayta ishlashni talab qiladi.
Misol:
“Natijani jadval ko‘rinishida ber: muammo, sabab, yechim.”
5. 𝐌𝐢𝐬𝐨𝐥 — kutilgan natijani ko‘rsatish
Bitta yaxshi misol o‘nlab izohdan kuchliroq.
Misol:
“Uslub quyidagidek bo‘lsin: muammo → tahlil → xulosa. Mana shunga o‘xshash yozing.”
Umumiy prompt misoli:
(𝘒𝘰𝘯𝘵𝘦𝘬𝘴𝘵:) Mobil ilova ustida ishlayotgan kichik jamoa bor; loyiha tez o‘sishga tayyor va arxitektura qarori uzoq muddatli bo‘lishi kerak. (𝘙𝘰𝘭:) O‘zingni tajribali mobil arxitektor sifatida tut. (𝘊𝘩𝘦𝘬𝘭𝘰𝘷:) Faqat amaliy jihatlarga e’tibor qarat, nazariy ta’rif berma. Javob 5 banddan oshmasin. (𝘕𝘢𝘵𝘪𝘫𝘢 𝘧𝘰𝘳𝘮𝘢𝘵𝘪:) Muammo → Variantlar → Risklar → Tavsiya → Keyingi qadamlar. (𝘔𝘪𝘴𝘰𝘭 (𝘶𝘴𝘭𝘶𝘣 𝘺𝘰‘𝘯𝘢𝘭𝘵𝘪𝘳𝘶𝘷𝘤𝘩𝘪):) Har bir band 1–2 jumladan oshmasin, qisqa va qaror qabul qilishga yordam beruvchi ohangda yoz. Shu shartlar asosida loyiha uchun eng maqbul arxitektura qarorini tavsiya qil.
Siz prompt yozayotganda shu 5 qismdan qaysisini ko‘pincha e’tiborsiz qoldirasiz?
Mukhriddinbek Samidov
🔗YouTube | Instagram | LinkedIn | Telegram | Medium
#prompt#ai#chatgpt#claude#deepseek#gemini
📌Массовое использование чат-ботов унифицирует то, как люди пишут и рассуждают
Университет Южной Калифорнии опубликовал в журнале Trends in Cognitive Sciences статью, в которой утверждают, что массовое использование больших языковых моделей постепенно размывает индивидуальные различия в речи, письме и мышлении.
Авторский коллектив возглавляет профессор психологии и информатики Мортеза Дехгани.
Научные интересы Дехгани лежат на стыке психологии, когнитивной науки и искусственного интеллекта: он известен работами по вычислительному анализу морального и политического языка, применению методов NLP к большим текстовым корпусам (от социальных сетей до литературы) и изучению того, как ценности и групповая мораль проявляются в речи.
По мнению исследователей, когда миллионы людей обращаются к узкому кругу одних и тех же чат-ботов, стилистические, смысловые и логические особенности отдельных людей стираются, а на выходе получается «стандартизированное выражение мыслей».
Этот процесс вызывает беспокойство: модели не просто влияют на манеру письма, но и незаметно переопределяют, что считается достоверной речью, корректной точкой зрения и хорошим рассуждением.
Тексты, сгенерированные LLM, менее разнообразны, чем написанные людьми, и в среднем воспроизводят язык, ценности и логические схемы западных, образованных, индустриальных, состоятельных и демократических сообществ. Причина - в обучающих выборках, где непропорционально представлены доминирующие языки и идеологии.
В статье приводится и обратный эффект: отдельный пользователь с помощью чат-бота, как правило, генерирует больше идей, чем без него, однако группы людей, опирающиеся на LLM, в итоге выдают меньше оригинальных решений, чем те же группы, работающие без ИИ.
Авторы также указывают, что популярные модели тяготеют к линейным схемам вроде CoT, что, по их оценке, может вытеснять интуитивные и абстрактные подходы. Они ссылаются на данные о том, что после взаимодействия с предвзятой моделью мнения пользователей смещаются в ее сторону.
🟡Рекомендация авторов
При обучении моделей следует закладывать реальное языковое и культурное многообразие, а не случайные вариации. Это одновременно сохранит бы когнитивное разнообразие в обществе и улучшит способности самих чат-ботов к рассуждению.
🟡Дисклеймер
Это не эмпирическое исследование с собственными экспериментами, обзорно-полемическая работа, обобщающая чужие исследования и выдвигающая гипотезу.
Сужение стилистики, сдвиг мнений после общения с моделью - подтверждены отдельными исследованиями, а вот более широкие тезисы о глобальной гомогенизации мышления остаются дискуссионными.
Работа выполнена при поддержке Управления научных исследований Минобороны США.
@ai_machinelearning_big_data
#AI#ML#LLM#Research#Cognitive#NLP
📌SAPO: RL-метод, который приручил нестабильные градиенты в LLM и MoE.
Qwen предложил RL-метод SAPO (Soft Adaptive Policy Optimization), который решает ключевую проблему нестабильного обучения LLM и архитектур MoE и предлагает более разумный и мягкий подход к контролю над процессом обучения.
Reinforcement Learning, RL - это ингредиент, превращающий просто большую языковую модель в рассуждающего помощника. Именно RL учит ИИ решать олимпиадные задачи по математике, писать чистый код и понимать связь между текстом и изображением.
Но у RL есть обратная сторона: катастрофическая нестабильность обучения, особенно для гигантских моделей.
Главная техническая головоломка - это контроль над коэффициентами значимости на уровне каждого токена. В архитектурах MoE, где разные части модели активируются для разных задач, эти коэффициенты могут бесконтрольно «скакать».
Слишком большие колебания коэффициентов превращают четкие обучающие сигналы в помехи, дестабилизирующие всю систему.
До сих пор стандартными инструментами были GRPO и GSPO, которые использовали принцип хард-клиппинга. Если коэффициент выходил за заданные рамки, градиент просто обнулялся.
🟠Минус первый: Потеря информации. Ценные, но выбивающиеся данные безжалостно отбрасывались.
🟠Минус второй: Невозможный баланс. Сделаешь рамки узкими - задушишь обучение. Сделаешь широкими - полезет паразитный шум. Для капризных MoE-архитектур эта дилемма особенно актуальна.
SAPO предлагает отказаться от хард-клиппинга в пользу интеллектуального сглаживания.
Вместо резкого обнуления SAPO использует плавную, адаптивную функцию (контролируемую температурой), которая мягко снижает влияние проблемных градиентов, но не обнуляет их полностью. Это создает непрерывные области доверия, внутри которых модель может учиться более гибко и безопасно.
🟡Красота SAPO - в универсальности.
🟢Как GSPO, но умнее. Если в длинном ответе сбился лишь один токен, GSPO наказывает всю последовательность. SAPO избирательно подавляет только «виновника», сохраняя полезные сигналы от остальных слов. Это резко повышает эффективность наборов обучающих данных.
🟢Как GRPO, но плавнее. Вместо резкого отключения градиента для плохого токена SAPO применяет постепенное затухание. Это предотвращает резкие рывки в обучении, обеспечивая плавную и стабильную настройку политики модели.
Вишенка метода - это асимметричный температурный дизайн. SAPO по-разному обрабатывает «хорошие» и «плохие» обновления. Для токенов с негативным вкладом используется более высокая температура, заставляющая их влияние затухать быстрее и сильнее.
Это простое правило надежно гасит наиболее опасные колебания, что на практике приводит к беспрецедентной стабильности процесса RL-обучения.
🟡Теорию подтвердили тестами.
При обучении Qwen3-30B-A3B-Base, SAPO не только показал более стабильную кривую обучения , но и достиг более высоких результатов на сложных математических бенчмарках AIME25, HMMT25. Причем он сделал это без трудоемкого маршрутизирующего воспроизведения, которая требовалась конкурентам для работы с MoE.
Успех повторили в масштабном эксперименте с мультимодальной Qwen3-VL-30B-A3B, где SAPO стабильно обошел аналоги в смешанных задачах на кодинг, логику и математику.
🟡Статья
🟡Arxiv
@ai_machinelearning_big_data
#AI#ML#LLM#MoE#SAPO#Qwen
Stack Overflow 数据揭示“几乎正确”的 AI 代码所带来的隐形生产力税
Stack Overflow 的一项调查显示,虽然 84% 的开发者使用或计划使用 AI 编码工具,但他们对 AI 准确性的信任度正在下降。 调查显示,只有 33% 的开发者信任 AI 代码的准确性,低于去年的 43%。 开发者对 AI 工具的满意度降低,主要原因是 AI 生成的代码看似正确,但包含需要大量调试才能发现的错误。 超过半数的开发者报告,修复 AI 生成的代码需要比预期更长的时间,从而影响了生产力。 该调查涵盖了全球超过 49,000 名程序员。Slashdot
🏷#AI#代码#生产力#开发者
📢频道👥群组📝投稿
Как и предсказывалось, массовое распространение искусственного интеллекта порождает мощнейшие вызовы общепринятой человеческой морали.
Организация Internet Watch Foundation (IWF), сообщила, что изображения с сексуальным насилием над детьми, созданные с помощью ИИ, все чаще появляются в открытом доступе в интернете. За последние шесть месяцев количество таких материалов уже превысило показатели всего предыдущего года. Почти все изображения были обнаружены в открытых частях интернета, а не в даркнете.
Этот вопрос уже неоднократно поднимался ранее, однако чисто в теоретическим плане: является ли искусственно сгенерированное изображение аналогом реальной порнографии? Сейчас, однако, дело дошло до практики, а учитывая, что распространение ИИ практически бесконтрольно, правоохранительные органы при любой позиции законодателя могут оказаться бессильны перед потоком генерации подобных изображений.
Основной проблемой искусственной генерации изображений, в частности, детей и подростков, является отсутствие юридической возможности определения реального возраста человека. С этой проблемой законодатели уже не раз сталкивались при анализе жанра японской анимации хентай, где все герои являются рисованными.
В IWF утверждают, что для обучения нейросети генерировать подобные видео и фото использовались реальные сцены с детьми и подростками, что является однозначным преступлением во всех странах мира. Однако пока что никаких доказательств этого утверждения не найдено.
#кино#порно#ai#ии#iwf