Закончил трилогию Денниса Тейлора "Мы — Легион. Мы — Боб" (плюс две другие книги серии).
Автор программист, нерд, гик и любитель фантастики, в 57 лет на спор решил написать книгу. Как это часто бывает, несколько издательств послали его с порога. Но потом он заключил контракт с крупным сайтом аудиокниг, и книга сразу вошла во все топы, принеся кучу денег.
По сюжету главный герой по имени Боб — нерд, гик, программист и любитель фантастики, подписывается на криоконсервацию, но в будущем ему дают не новое тело, а перекачивают сознание в компьютер, установленный на небольшом космическом корабле. У этого корабля есть околосветовой (но не сверхсветовой!) двигатель, а также 3D-принтер, позволяющий печатать что угодно, если найти сырьё. Изначальный план людей был в том, чтобы зонд отправился в соседнюю звёздную систему и построил там космическую станцию, но, волей случая, Боб оказывается сам по себе.
Другая важнейшая часть сюжета — способность героя полностью копировать себя. То есть построить второй такой корабль и сделать копию сознания, чем он и занялся в первую очередь. Копии начинают немного отличаться друг от друга. Из-за квантовых флуктуаций в характерах разных Бобов превалируют разные его черты: кто-то больше любит исследования и науку, кто-то занимается организацией, кто-то инженерией. Бобы создают сверхсветовую связь и "расселяются" по галактике сотнями копий, при этом сохраняя что-то вроде внутреннего общества и продолжая коммуникации с человечеством.
Тейлор, судя по всему, не стремился написать роман, который станет модным и будет обсуждаться, а просто кайфовал и сочинял фантазию для себя самого. Главный герой очевидно списан с автора практически полностью, и можно сказать, таким образом писатель устроил себе мини-приключение в космос. Из-за этого текст, хоть и простой с виду, вышел очень стройным, эмоционально насыщенным, я бы даже сказал душевным. Миллион отсылок к фантастической поп-культуре, забавные шутки в диалогах, даже имена себе Бобы выбирают по персонажам космоопер.
Поскольку Бобов много, автор переключается между ними и между хронологическими ветками, что позволяет ему параллельно рассказывать несколько историй: о войне, о дружбе, о потери, об исследовании, об одиночестве, о политике, о семейных конфликтах... Причем, рассказ всегда идёт от первого лица: в одном месте книги "я" это один Боб, в другом месте книги уже другой — немного с другим характером, находящийся в другой части галактики и переживающий совсем другие события. В статьях говорят, что Тейлор, как истинный программист и нерд, даже написал себе софтину для отслеживания сюжетных цепочек.
В общем, гик написал приключение для себя, но оно оказалось интересным и близким для огромного количества других гиков. В книгах не слишком много философии или уникальных фантастических идей, но под конец ты почти плачешь из-за необходимости расставаться с героями. В конце-концов, они бессмертны, а ты — всего лишь эфемер.
На русском языке я настоятельно рекомендую аудиокниги в исполнении Кирилла Радцига: во-первых, у чтеца ровно такой голос, какой мы представляем себе для человека по имени Боб, а, во-вторых, это один из лучших русских чтецов в современном аудиокнижном пространстве.
#fiction
1250 интервью ИИ-датасет
Большое исследование уникальных кейсов использования ИИ в разных областях. Создано Antropic, структурированно Денисом.
😂Прикольно, зайдёт любителям искать идеи для стартапов)
#dataset | AcidCrunch
🌟На Hugging Face вышла обзорная статья об открытых ML-датасетах
Автор новостного ресурса Daily Dose of Data Science собрал самые интересные релизы крупных датасетов и моделей. Среди них — Yambda-5B от команды Яндекса, крупнейший в мире открытый музыкальный рекомендательный датасет.
В Yambda-5B 4,79 млрд обезличенных взаимодействий: прослушивания, лайки и дизлайки треков. Датасет уже привлек внимание мировых исследователей и обещает стать важным инструментом для развития рекомендательных систем.
🔗Подробнее
@ai_machinelearning_big_data
#ai#ml#dataset
#вакансия#dataset#MLEngineer#AI#разработчик
Компания: ВодоходЪ.Технологии (www.vodohod.tech)
Позиция: ML-инженер/разработчик
Опыт работы: 1–3 года
Занятость: full-time проект
Локация: Офис/удаленно
Доход: 150-200K net
Ищем активных, перспективных коллег для усиления нашей команды в работе над технологическим проектом по разработке системы поддержки принятия решений с использованием алгоритмов искусственного интеллекта.
▶️Задачи:
Техническая проработка и техническое обоснование решений;
Сбор Data set;
Реализация и внедрение в ERP-систему AI-решений для моделирования и прогнозирования цен на основании статистических и исторических данных;
Data-driven разработка инструментов автоматизации маркетинговых кампаний.
▶️Требования:
Степень бакалавра (или выше) в области математики, информатики и смежных технических областей;
Знание линейной алгебры и статистики применительно к Data Science;
Понимание структуры моделей ML;
Уверенное владение Python (NumPy, SciPy, PyTorch, Sklearn);
Ответственность, внимательность, желание учиться новому.
▶️Будет плюсом:
Уверенное знание PostgreSQL, Redis, Kafka, ClickHouse;
Опыт работы с DVC, MLFlow, Airflow, Docker;
Опыт разработки проектов в областях Data Science, Deep Learning;
Умение работать с Git.
▶️Условия:
Возможность работать в технологической компании;
Конкурентоспособная заработная плата;
Аккредитованная IT-компания: льготы для сотрудников;
Адаптивный рабочий график;
Возможно временное оформление: договор услуг, подряда, ГПХ, самозанятые, ИП.
Отклики просьба присылать на почту [email protected]
🌟HY3D-Bench: 22 терабайта отборной 3D-геометрии.
Tencent Hunyuan вывалили в опенсорс монструозный пак HY3D-Bench на 22.5 ТБ и это подарок для всех, кто занимается 3D Gen и робототехникой.
Датасет разбит на 3 логических куска, каждый под свои задачи:
🟡Full-level Dataset (252K+ мешей, ~11 ТБ)
База с полностью замкнутой геометрией, без дырок и non-manifold артефактов, которыми обычно кишат сканы. Все нормализовано и готово к скармливанию в DiT или GAN. В комплекте идут сэмплы точек и мульти-вью рендеры.
🟡Part-level Dataset (240K+ объектов, ~5 ТБ)
Мёд для робототехников и тех, кто занимается geometric perception. Тут объекты с семантической сегментацией на части. Если учите сервоприводного друга манипуляциям или хотите генерить объекты кусками - вам сюда.
🟡Synthetic Dataset (125K+ объектов, ~6.5 ТБ)
Очевидная синтетика, чтобы закрыть редкие категории, которых нет в обычных датасетах. Охват - 1252 категории.
Ждем волну SOAT-level 3D-генераторов, дотюненных на этом наборе.
🟡Arxiv
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Dataset#HY3DBench#Tencent
🌟InfoSeek: синтез данных для deep‑research с формализацией HCSP.
BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.
Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.
Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".
В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.
🟡Синтез выполняет связка из 2 агентов.
Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:
🟢Инициализация из "якоря";
🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами;
🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева;
🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности.
Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.
Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.
🟡Эксперименты.
Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.
На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.
Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.
▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B.
📌Лицензирование: Apache 2.0 License.
🟡Датасет
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#DeepResearch#Dataset#InfoSeek
🌟OMC25: датасет для вычислительной химии.
ОMC25 - крупнейший набор данных по молекулярным кристаллам, рассчитанный методом теории функционала плотности (DFT) в пакете VASP.
В основе датасета лежат структуры, полученные из траекторий релаксации молекулярных кристаллов. Сами исходные кристаллы были сгенерированы с помощью инструмента Genarris 3.0, который, в свою очередь, использовал молекулы из известного набора OE62. Это обеспечивает преемственность данных и четкую привязку к проверенным химическим структурам, но масштаб здесь совершенно иной.
Тренировочная часть содержит почти 25 млн. фреймов. Это данные по 207 тыс. кристаллов, которые, в свою очередь, произошли от 44 тыс. уникальных молекул.
Валидационная часть меньше, но тоже весовая: около 1,4 миллиона кадров. Данные упакованы в формате ase-db как объекты LMDBDatabase, что является стандартом в задачах машинного обучения для химии.
Исходные кристаллы были созданы программой Genarris 3.0. Она, в свою очередь, использовала молекулы из популярного набора OE62. Так что у данных есть четкая привязка к проверенным химическим структурам.
Работа с данными сета происходит через библиотеку fairchem. Каждая структура хранится как объект ASE Atoms, что привычно для инженеров, работающих с атомистическим моделированием.
Ключевые метки для обучения моделей включают полную энергию DFT, силы, действующие на атомы, и тензор напряжений . Это "каноническая троица" для обучения межатомных потенциалов. Помимо физических величин, в атрибуте atoms.info зашиты критически важные метаданные.
Помимо самого набора, авторы выложили базовый чекпоинт eSEN-S, обученный на всём OMC25.
📌Лицензирование : CC-BY-4.0 License
🟡Датасет
🟡Модель
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Dataset#FAIR#Chemistry
🌟GenRobot RealOmni-OpenData: апдейт датасета для Embodied AI
RealOmni - это не просто каталог видео, где роборука хватает кубик на белом столе. Это мультимодальный подарок с траекториями, аннотациями и движениями суставов.
🟡Сенсоры
Картинка с Fisheye-камер, данные IMU (инерциалка), энкодеры и данные с тактильных датчиков с разрешением 1 мм.
🟡Сценарии
Снимали в 3000 реальных домах, никаких стерильных лабораторий: складывание одежды, завязывание шнурков, разбор посуды и сортировка всякого хлама.
🟡Bimanual manipulation
Почти все таски двурукие.
🟡Long-horizon
Медианная длина клипа ~ 210 секунд. То есть это не "схватил-положил", а полноценные процессы "достать, сложить, убрать в ящик".
В свежем обновлении добавили 35 тыс. клипов с фокусом на разгребание куч разнородных предметов. Это именно та задача, на которой сыпется большинство моделей.
Немного цифр о всем датасете
🟢Объем (заявленный): 95 ТБ (об этом ниже).
🟢Количество клипов: 1M+ (в планах).
🟢Разрешение: 1600x1296 @ 30fps.
🟢Формат: .mcap (стандарт для ROS, внутри сжатый H.264).
Весть проект запланирован объемом 95 ТБ и хронометражем 10,000 часов. Но если посчитать, то что уже залито (Stage 1 + Stage 2), то суммарно около 5.4 ТБ и ~1600 часов. Остальное обещают догрузить as soon as possible.
🟡Важно знать
Данные собраны специфическим гриппером GenDAS, так что если у вас другой сенсорный массив (или его нет), transfer learning может стать болью. Ассеты заточены под железку GenRobot.
Это все еще телеоперация. То есть мы учим робота копировать движения человека-оператора и если он тупил или руки дрожали сетка это тоже выучит.
Тем не менее, это очень крутой релиз для тех, кто пилит домашних роботов. Данные по завязыванию шнурков и разбору предметов в open-source редкость.
📌Лицензирование: CC-BY-NC-SA-4.0 License.
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Robotics#Dataset#RealOmni#GenRoborAI
😉 Благодарим всех, кто посетил онлайн-семинар с участием Ивана Викторовича Бегтина: теперь можно смело говорить о том, что дата-инженерия в DH интересна сотням людей!
Вы можете найти все выпуски «Цифровой среды» здесь (в ближайшее время на странице появится и запись «Дата-инженерии в цифровой гуманитаристике»).
Несколько полезных ссылок по мотивам доклада:
🔜 О глобальной инициативе OpenGLAM https://openglam.pubpub.org/
🔜Наборы данных для ИИ Национальной библиотеки Норвегии https://ai.nb.no/datasets/
🔜Открытые данные национальной библиотеки Финляндии https://data.nationallibrary.fi/
🔜 GLAM Workbench коллекция культурных данных и API Австралии https://glam-workbench.net/
🔜 Приоритетные площадки для работы исследователей – Hugging face https://huggingface.co/ и Kaggle https://www.kaggle.com/
🔜 Веб-архивы Сommon Crawl https://commoncrawl.org/ и Internet Archive https://archive.org/
🔜 Платформа для поиска данных Dateno https://dateno.io
#opendata#dataset#glam#openglam#datacatalogs#данные#датасеты
✍️ SuperCaption Qwen3-VL ● Ультимативный генератор описаний ● Portable by Nerual Dreming & Slait
Ссылка на оригинальный GitHub: https://github.com/timoncool/SuperCaption_Qwen3-VL
Репакеры:#NerualDreming, #Slait
Дата обновления: 26 ноября 2025
Версия: 1.0
Категории:#captioning, #img2txt, #AIvision, #video2txt, #OCR, #dataset
Платформа:#Windows
Язык: RU, EN, CN
Место на диске: ~15 ГБ (зависит от модели)
Системные требования: NVIDIA GPU (минимум 6 ГБ VRAM для 2B модели, рекомендуется 12+ ГБ для 8B+)
Совместимость:#Nvidia
🖥Описание софта
SuperCaption Qwen3-VL — это мощнейший комбайн для анализа визуального контента. В его основе лежит модель Qwen3-VL, которая "видит" мир лучше многих конкурентов.
Главная фича — использование Abliterated моделей, у которых отключена цензура. Это значит, что софт опишет абсолютно всё, что вы ему покажете, без морализаторства и отказов.
Идеальный инструмент для дата-сайентистов, контент-мейкеров и всех, кому нужно превратить гигабайты картинок и видео в структурированный текст.
😬Основные возможности SuperCaption Qwen3-VL
Работа с изображениями (50+ режимов):
🟣Генерация промптов: Создает готовые промпты для Stable Diffusion и MidJourney, теги в стиле Booru.
🟣Маркетинг и SEO: Пишет продающие описания товаров, SEO-тексты (до 160 символов), посты для соцсетей.
🟣 Продвинутый OCR: Распознает текст на 20+ языках, конвертирует таблицы с картинок сразу в HTML-код, извлекает данные в JSON.
🟣Сравнение и анализ: Режимы "До/После", сравнение товаров, контроль качества (поиск дефектов), анализ временных рядов.
🟣Object Detection: Находит объекты и выдает их координаты (bbox) в JSON или рисует рамки прямо на фото.
Интеллектуальный анализ:
🟣Thinking Mode: Режим "рассуждений" для сложных задач — модель сначала думает, потом отвечает.
🟣Решение задач: Пошаговое решение математики, физики, разбор учебных заданий.
🟣Аналитика: Читает графики, диаграммы, технические чертежи и медицинские снимки.
Видео-аналитика:
🟣Таймлайны: Создает хронологию событий с таймкодами.
🟣Саммари: Делает краткую выжимку содержания длинных видео.
🟣Анализ монтажа: Оценивает склейки, переходы, темп и операторскую работу.
🟣Поиск действий: Находит конкретные моменты (например, "когда человек начал бежать").
Прочее:
🟣Пакетная обработка: Закидываете папку с тысячей файлов -> идете пить кофе -> получаете TXT/JSON/CSV файлы для каждого.
🟣Гибкость: Полная поддержка кастомных промптов на русском языке.
💿Установка и запуск
⁍ Скачайте архив SuperCaption_Qwen3-VL.
⁍ Распакуйте в удобное место (путь без кириллицы!).
⁍ Запустите install.bat и выберите свою видеокарту.
⁍ Нажмите Enter и дождитесь окончания установки.
⁍ Запустите run_with_update.bat для старта.
⁍ Интерфейс откроется в браузере (http://127.0.0.1:7860).
➡️Скачать SuperCaption с GitHub — исходный код
➡️Скачать Portable установщик — скачает все что нужно
➡️Скачать Portable архив с окружением — Окружение под Win 11 и RTX 4090
💬Обсудить в нашем чате
👾НЕЙРО-СОФТ - делаем нейросети доступнее