TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #621 · 31.10

У меня в друзьях есть классный автор — Владимир Бычко. Владимир — проект-менеджер, ведёт реально интересный standalone-блог об управлении проектами и не только. Например, последний пост с правилами жизни — не какая-то унылая несовместимая с реальностью псевдофилософия "а ля Дуров", а действительно полезные и правильные наблюдения. Владимир один из самых интересных авторов среди моих ВК-подписок, однако, читаю я его посты крайне редко, и здесь проявляются серьёзные недостатки standalone, о чём я сейчас расскажу. Вообще, сервис-ориентированный интернет если не умирает, то, как минимум, теряет своих сторонников. Многие айтишники, интеллектуалы, авторы текстов уже высказываются о необходимости слезать с иглы корпораций, эти самые корпорации дешевеют, люди в сети активно выстраивают модели децентрализованного "веб три ноль". Дополнением к этому идёт акцент на медиа против текстов: сервисы уже не особо скрывают, что текстовая часть для них второстепенна, а внимание брошено туда, где хайп и толпы — например, в вертикальные видео и короткоживущий контент. В России этот эффект особенно заметен, именно поэтому вместо какой-нибудь устойчивой текстовой площадки большинство взрослых вменяемых авторов пишут в Telegram. Который для этого подходит чуть лучше, чем плоскогубцы для отвинчивания гаек — можно, конечно, и все мы так делали за неимением альтернатив. На этой волне неоднократно слышал призывы "уходи в standalone". Сделай свой сайт с RSS-фидом, любым оформлением, пиши туда. Как автор блога, я и правда мог бы такое сделать и даже видеть немало плюсов. Но, как читатель, я до сих пор не подписан ни на один standalone-блог, даже если мне очень нравится контент. Проанализировал основные четыре проблемы стэндэлонов. 1. Люди всё равно приходят из соцсетей, но ссылки в соцсетях оформлены некрасиво, понижаются в охватах и требуют дополнительное действие со стороны человека. Последнее особенно важно: конверсия в прочтение критически низкая даже для встроенных редакторов лонгридов и даже при условии, что пользователю сообщение со ссылкой покажется (например Telegram > Telegraph). 2. RSS это не замена ленте сообщений. Нет удобного централизованного способа читать RSS в формате той площадки, которая тебе близка. Сам Владимир, например, ссылается на RSS-бота для Телеграма, который требует для своей работы быть подписанным на какой-то канал. Ну ладно, есть нормальные RSS-боты везде, но это всё опять же выглядит как лента с внешними ссылками, а не как лента сообщений в формате площадки. 3. У каждого стэндэлона свой дизайн. Если я впервые на странице нового для себя автора ВК или в Telegram, я тут всё знаю. Мне привычно и удобно. Я знаком с навигацией, я привык к шрифтам, я знаю, где лайки и комментарии. К каждому новому стэндэлону нужно привыкать и тратить когнитивные ресурсы на обучение. 4. Обсуждений нет, если нет комьюнити. Да, какой-нибудь Вастрик смог создать вокруг своего стэндэлон-блога комьюнити, за которое люди даже платят. Но это единичные примеры. Обсуждения в ЖЖ работали, потому что был социальный граф: люди знали топовых авторов и более менее знали друг друга. Обсуждения в соцсетях работают по той же причине, пока в них есть аудитория: часть людей связана социальным графом, другая часть может в этот граф заходить со стороны и чувствовать себя комфортно, кроме случаев токсичной атмосферы. Но если мы проанализируем, как ведут себя обсуждения там, где социального графа нет (например, на YouTube), то увидим просто всплески очень ограниченных локальных диалогов под каким-то особо популярным комментарием и всё. Комьюнити там нет за редкими исключениями. Интернету пока ещё точно рано standalone. Только авторы, уже собравшие огромную аудиторию через соцсети, могут себе такое позволить. И то, с оговорками. #web

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #infoseek

当前筛选 #infoseek清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8459 · 05.09.2025 г., 13:00

🌟InfoSeek: синтез данных для deep‑research с формализацией HCSP. BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам. Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования. Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания". В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям. 🟡Синтез выполняет связка из 2 агентов. Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл: 🟢Инициализация из "якоря"; 🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами; 🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева; 🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности. Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется. Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения. 🟡Эксперименты. Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны. На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B. Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми. ▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B. 📌Лицензирование: Apache 2.0 License. 🟡Датасет 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#DeepResearch#Dataset#InfoSeek