TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #839 · 17.06

Очень интересная ситуация развивается вокруг сайта Reddit. Reddit — один из первых сайтов в интернете, который целиком зависит от пользовательского контента. С него позже содрали Пикабу, но идея такая же: авторы просто дали площадку и систему голосования, а весь интерес для людей создают другие люди. Конкретно Reddit, надо заметить, ещё и довольно примитивен технически: и визуальные стили, и layout, и способы взаимодействия с контентом в основном так и остались на уровне 2005 года, когда он был создан. Более того — Reddit даже старается не хранить сам объёмные данные вроде картинок, а использует ссылки на сервисы вроде Imgur. Тем не менее, Reddit входит в топ-20 сайтов по посещаемости во всём мире, а его авторы зарабатывают десятки и сотни миллионов долларов в год. Сайт настолько популярен и известен в США, что туда не раз приходили даже многие знаменитости и в неформальном виде отвечали на вопросы обычных людей. Поскольку сам по себе Reddit, мягко говоря, требует некоторого привыкания к его UI/UX, люди зачастую пользуются сторонними клиентами. И до сих пор сайт бесплатно предоставлял API для этого. Но с недавнего времени решил брать деньги, причём, внушительные: так, например, автор Apollo — одного из самых популярных мобильных приложений для Reddit — посчитал, что ему для сохранения работоспособности придётся платить компании $20млн в год. Из-за этого владельцы сообществ решили устроить забастовку и стали массово закрывать свои сообщества. Если сообщество закрыто, в него нельзя писать, тогда нет нового контента, нет интереса для юзеров, и они в теории могут с Reddit уйти. На что главы Reddit сначала призвали всех своих сотрудников игнорировать забастовки, а потом и вовсе разослали модераторам такое предложение: кто из модераторов будет сотрудничать, тому мы передадим сообщество, отобрав его у владельца. Ну вот представьте: вы создаёте паблик ВК, набираете там миллион подписчиков, регулярно публикуете контент, а потом в какой-то момент вы ссоритесь с ВК, и у вас паблик просто отбирают и передают его кому-то из активных юзеров, кто готов взять на себя управление. Думаю, вы уже понимаете, о чём нам очередной раз напоминает эта история. Абсолютно любая монополия или другая корпорация, владеющая ресурсами, от которых вы зависите, может в любой момент на любых условиях эти ресурсы отобрать. Производитель телефонов выгонит ваш бизнес из магазина приложений из-за санкций, игровая приставка забанит вас по признаку гражданства, видеохостинг удалит все ваши видеоролики за политические взгляды и так далее. Даже ваша самая любимая компания, делающая чудесные продукты и сервисы, от которых вы в восторге. Даже если вы копите мерч этой компании, существуете в её экосистеме, являетесь преданным клиентом, пользователем или подписчиком десятки лет. Даже если владельцы этой компании кажутся святыми, а заявляемые публично ценности вам невероятно близки. Всё равно в какой-то момент левая пятка владельца не сойдётся с ретроградным Меркурием, и вы окажетесь у пустого корыта, если только это корыто кода-то было наполнено этой самой компанией. #web

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #pointsreader

当前筛选 #pointsreader清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8447 · 04.09.2025 г., 08:07

🌟POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки. Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench. POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст. Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию. Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности. Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему. Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами. Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей. На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных. Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре. 🟡Как в любом проекте - есть нюансы. Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки. ▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#VLM#POINTSReader#Tencent