TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #8459 · 5 сент.

🌟InfoSeek: синтез данных для deep‑research с формализацией HCSP. BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам. Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования. Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания". В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям. 🟡Синтез выполняет связка из 2 агентов. Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл: 🟢Инициализация из "якоря"; 🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами; 🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева; 🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности. Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется. Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения. 🟡Эксперименты. Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны. На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B. Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми. ▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B. 📌Лицензирование: Apache 2.0 License. 🟡Датасет 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#DeepResearch#Dataset#InfoSeek

Результаты

Найдено 15 похожих постов

1250 интервью ИИ-датасет Большое исследование уникальных кейсов использования ИИ в разных областях. Создано Antropic, структурированно Денисом. 😂Прикольно, зайдёт любителям искать идеи для стартапов) #dataset | AcidCrunch

Hashtags

Earth&Climate Tech

@earth_climate_tech · Post #401 · 19.10.2023, 16:00

​​Polymathic - междисциплинарный ИИ Ох, какая классная межуниверситетская инициатива - Polymathic🔥. Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п. В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков. На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI. #AI#ML

Hashtags

AI для продакта 🧠🚀

@aiforproduct · Post #581 · 17.02.2025, 15:35

🔍«Глубокий поиск» или 55 источников за один запрос Мы протестировали функцию Deep Research в Perplexity AI. Задача — выяснить, какие тренды ждут рынок ИИ-инструментов для личной эффективности. Ожидали стандартный пересказ очевидных вещей, но получили глубокий разбор рынка, сравнение продуктов и 55 источников. Что выдал Perplexity? 🔹 Никакой воды — только факты и подтвержденные данные. 🔹 Источники из актуальных исследований и профильных статей (2024–2025 гг.). 🔹 Сравнение реальных продуктов, а не абстрактные размышления. 💡Лайфхак: как получить крутой результат от «Глубокого поиска» Первая попытка была неудачной — мы задали слишком длинный запрос, уточняя много деталей. В итоге Perplexity сузил сильно тему и выдал поверхностный ответ. Второй запрос был короче, без лишней воды. Это позволило Perplexity не сдерживать себя и дать развернутый анализ. 📌 Запрос: Проведи анализ рынка и трендов 2025 года в сфере применения ИИ для личной эффективности. Нужны конкретные ИИ-продукты в сравнении, анализ того, чего не хватает или слабо развито. Поэтому чем короче и конкретнее запрос, тем лучше работает «Глубокий поиск». Такой результат вдохновил проверить, как на этот же вопрос ответят другие ИИ-модели: DeepSeek и ChatGPT o1. Они дали интересные выводы, но с совершенно другим подходом! Получился любопытный анализ. 🔥 Посмотрите его у нас в Дзене или в ВК. Уверены, что найдете открытия и для себя! #ИИ#AI#Нейросети#Perplexity ——— #Инструменты#deepresearch ✍️Подписывайтесь: @aiforproduct

#AI Немного ИИ-теории ❗️В недавнем иске против компании OpenAI Илон Маск утверждал, что GPT-4 является ранним AGI, по сути равным человеческому интеллекту. Что же такое AGI и когда он появится? 👤Сэм Альтман, CEO Open AI определяет AGI (artificial general intelligence) как интеллект, равный уровню обычного человека, который можно было бы принять в команду как сотрудника. Также популярно определение AGI как «системы, способной выполнить любую когнитивную задачу, доступную человеку». 📎Для справки: существует несколько видов (уровней развития) ИИ, а именно узкий ИИ (narrow, ANI), общий ИИ (genreal, AGI) и супер ИИ (super AI, ASI). ⏲Исследователи никак не могут прийти к консенсусу относительно даты появления AGI. По результатам Expert Survey on Progress in AI, существует 50% шанс того, что AGI появится до 2059 года. Тем не менее, поле ИИ изменяется постоянно и становится сложным оставаться в курсе событий. ⭐️Для этого мы нашли крупнейшее русскоязычное AGI-сообщество agirussia.org — у них есть канал и группа в Telegram. 🌐еще проходят еженедельные онлайн-семинары по тематике AGI на русском языке, записи семинаров за последние несколько лет доступны на YouTube и их сообществе в ВК. Держим руку на пульсе ИИ⭐ ⭐️Автор, Анна, @qcuqueen

Hashtags

Earth&Climate Tech

@earth_climate_tech · Post #399 · 17.10.2023, 16:00

Хакатончик от Xeek Two Birds, One Neural Network - так называется новый хакатон от Xeek в области Generative AI. Звучит как-будто нужно сделать свой Dalle-E2, но на самом деле, задача выглядит немного иначе. По условиям хакатона, участникам нужно сделать нейронную сеть, которая максимизирует разнообразие генерируемых результатов, отвечающих двум условиям. Авторы хакатона проводят параллели с добавлением двух геофизических измерений для ограничения сценариев геологических моделей. Буквально, нужно построить нейронную сеть, которая генерирует разнообразные значения x0, x1, сохраняя при этом их природу в виде нисходящих или восходящих прямых линий, удовлетворяющих заданным функциям y1, y2, как показано на картинке. Более подробное описание - тут. Призовой фонд $40К (первое место $19.5K). #hackathon#AI#ML

Илья AGI TV 🤖

@ilia_plasma · Post #567 · 20.08.2024, 05:15

Влияние #AI на жизнь и будущее наших детей неоценимо. Восьмилетняя девочка с помощью cursor создает свой первый сайт.

Hashtags

Илья AGI TV 🤖

@ilia_plasma · Post #491 · 21.04.2024, 15:47

🤔 Эксклюзив. Интервью Павла Дурова. 🆒 Подписывайся @ilia_plasma#AI

Hashtags

Илья AGI TV 🤖

@ilia_plasma · Post #489 · 21.04.2024, 11:43

❤️Интервью Павла Дурова на русском в 4k@durov 🎞 Ссылка на Youtube Решил поиграться с нашим #AI и перевести видео с липсинком полностью через бот @plasma_gpt_ai_bot На русский в разы сложнее переводить, чем на английский. Смотрите, что получилось)

Hashtags

12
НазадСтр. 1 из 2Вперёд