#python#audio#deeplearning#minicpm#python#pytorch#speech#speech_synthesis#text_to_speech#tts#tts_model#voice_cloning
VoxCPM is a free, open-source TTS tool that turns text into realistic speech without tokens, creating expressive audio that matches context and clones voices perfectly from just 3-10 seconds of sample. Download VoxCPM1.5 (800M params) from Hugging Face, install via pip, and use simple Python or CLI commands for fast synthesis (RTF 0.15 on RTX 4090) or fine-tuning your own voices. You benefit by easily making natural audiobooks, podcasts, clones, or apps with pro-quality sound—saving time and costs on voice work.
https://github.com/OpenBMB/VoxCPM
1250 интервью ИИ-датасет
Большое исследование уникальных кейсов использования ИИ в разных областях. Создано Antropic, структурированно Денисом.
😂Прикольно, зайдёт любителям искать идеи для стартапов)
#dataset | AcidCrunch
🌟На Hugging Face вышла обзорная статья об открытых ML-датасетах
Автор новостного ресурса Daily Dose of Data Science собрал самые интересные релизы крупных датасетов и моделей. Среди них — Yambda-5B от команды Яндекса, крупнейший в мире открытый музыкальный рекомендательный датасет.
В Yambda-5B 4,79 млрд обезличенных взаимодействий: прослушивания, лайки и дизлайки треков. Датасет уже привлек внимание мировых исследователей и обещает стать важным инструментом для развития рекомендательных систем.
🔗Подробнее
@ai_machinelearning_big_data
#ai#ml#dataset
#вакансия#dataset#MLEngineer#AI#разработчик
Компания: ВодоходЪ.Технологии (www.vodohod.tech)
Позиция: ML-инженер/разработчик
Опыт работы: 1–3 года
Занятость: full-time проект
Локация: Офис/удаленно
Доход: 150-200K net
Ищем активных, перспективных коллег для усиления нашей команды в работе над технологическим проектом по разработке системы поддержки принятия решений с использованием алгоритмов искусственного интеллекта.
▶️Задачи:
Техническая проработка и техническое обоснование решений;
Сбор Data set;
Реализация и внедрение в ERP-систему AI-решений для моделирования и прогнозирования цен на основании статистических и исторических данных;
Data-driven разработка инструментов автоматизации маркетинговых кампаний.
▶️Требования:
Степень бакалавра (или выше) в области математики, информатики и смежных технических областей;
Знание линейной алгебры и статистики применительно к Data Science;
Понимание структуры моделей ML;
Уверенное владение Python (NumPy, SciPy, PyTorch, Sklearn);
Ответственность, внимательность, желание учиться новому.
▶️Будет плюсом:
Уверенное знание PostgreSQL, Redis, Kafka, ClickHouse;
Опыт работы с DVC, MLFlow, Airflow, Docker;
Опыт разработки проектов в областях Data Science, Deep Learning;
Умение работать с Git.
▶️Условия:
Возможность работать в технологической компании;
Конкурентоспособная заработная плата;
Аккредитованная IT-компания: льготы для сотрудников;
Адаптивный рабочий график;
Возможно временное оформление: договор услуг, подряда, ГПХ, самозанятые, ИП.
Отклики просьба присылать на почту [email protected]
🌟HY3D-Bench: 22 терабайта отборной 3D-геометрии.
Tencent Hunyuan вывалили в опенсорс монструозный пак HY3D-Bench на 22.5 ТБ и это подарок для всех, кто занимается 3D Gen и робототехникой.
Датасет разбит на 3 логических куска, каждый под свои задачи:
🟡Full-level Dataset (252K+ мешей, ~11 ТБ)
База с полностью замкнутой геометрией, без дырок и non-manifold артефактов, которыми обычно кишат сканы. Все нормализовано и готово к скармливанию в DiT или GAN. В комплекте идут сэмплы точек и мульти-вью рендеры.
🟡Part-level Dataset (240K+ объектов, ~5 ТБ)
Мёд для робототехников и тех, кто занимается geometric perception. Тут объекты с семантической сегментацией на части. Если учите сервоприводного друга манипуляциям или хотите генерить объекты кусками - вам сюда.
🟡Synthetic Dataset (125K+ объектов, ~6.5 ТБ)
Очевидная синтетика, чтобы закрыть редкие категории, которых нет в обычных датасетах. Охват - 1252 категории.
Ждем волну SOAT-level 3D-генераторов, дотюненных на этом наборе.
🟡Arxiv
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Dataset#HY3DBench#Tencent
🌟InfoSeek: синтез данных для deep‑research с формализацией HCSP.
BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.
Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.
Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".
В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.
🟡Синтез выполняет связка из 2 агентов.
Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:
🟢Инициализация из "якоря";
🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами;
🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева;
🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности.
Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.
Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.
🟡Эксперименты.
Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.
На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.
Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.
▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B.
📌Лицензирование: Apache 2.0 License.
🟡Датасет
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#DeepResearch#Dataset#InfoSeek
🌟OMC25: датасет для вычислительной химии.
ОMC25 - крупнейший набор данных по молекулярным кристаллам, рассчитанный методом теории функционала плотности (DFT) в пакете VASP.
В основе датасета лежат структуры, полученные из траекторий релаксации молекулярных кристаллов. Сами исходные кристаллы были сгенерированы с помощью инструмента Genarris 3.0, который, в свою очередь, использовал молекулы из известного набора OE62. Это обеспечивает преемственность данных и четкую привязку к проверенным химическим структурам, но масштаб здесь совершенно иной.
Тренировочная часть содержит почти 25 млн. фреймов. Это данные по 207 тыс. кристаллов, которые, в свою очередь, произошли от 44 тыс. уникальных молекул.
Валидационная часть меньше, но тоже весовая: около 1,4 миллиона кадров. Данные упакованы в формате ase-db как объекты LMDBDatabase, что является стандартом в задачах машинного обучения для химии.
Исходные кристаллы были созданы программой Genarris 3.0. Она, в свою очередь, использовала молекулы из популярного набора OE62. Так что у данных есть четкая привязка к проверенным химическим структурам.
Работа с данными сета происходит через библиотеку fairchem. Каждая структура хранится как объект ASE Atoms, что привычно для инженеров, работающих с атомистическим моделированием.
Ключевые метки для обучения моделей включают полную энергию DFT, силы, действующие на атомы, и тензор напряжений . Это "каноническая троица" для обучения межатомных потенциалов. Помимо физических величин, в атрибуте atoms.info зашиты критически важные метаданные.
Помимо самого набора, авторы выложили базовый чекпоинт eSEN-S, обученный на всём OMC25.
📌Лицензирование : CC-BY-4.0 License
🟡Датасет
🟡Модель
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Dataset#FAIR#Chemistry
🌟GenRobot RealOmni-OpenData: апдейт датасета для Embodied AI
RealOmni - это не просто каталог видео, где роборука хватает кубик на белом столе. Это мультимодальный подарок с траекториями, аннотациями и движениями суставов.
🟡Сенсоры
Картинка с Fisheye-камер, данные IMU (инерциалка), энкодеры и данные с тактильных датчиков с разрешением 1 мм.
🟡Сценарии
Снимали в 3000 реальных домах, никаких стерильных лабораторий: складывание одежды, завязывание шнурков, разбор посуды и сортировка всякого хлама.
🟡Bimanual manipulation
Почти все таски двурукие.
🟡Long-horizon
Медианная длина клипа ~ 210 секунд. То есть это не "схватил-положил", а полноценные процессы "достать, сложить, убрать в ящик".
В свежем обновлении добавили 35 тыс. клипов с фокусом на разгребание куч разнородных предметов. Это именно та задача, на которой сыпется большинство моделей.
Немного цифр о всем датасете
🟢Объем (заявленный): 95 ТБ (об этом ниже).
🟢Количество клипов: 1M+ (в планах).
🟢Разрешение: 1600x1296 @ 30fps.
🟢Формат: .mcap (стандарт для ROS, внутри сжатый H.264).
Весть проект запланирован объемом 95 ТБ и хронометражем 10,000 часов. Но если посчитать, то что уже залито (Stage 1 + Stage 2), то суммарно около 5.4 ТБ и ~1600 часов. Остальное обещают догрузить as soon as possible.
🟡Важно знать
Данные собраны специфическим гриппером GenDAS, так что если у вас другой сенсорный массив (или его нет), transfer learning может стать болью. Ассеты заточены под железку GenRobot.
Это все еще телеоперация. То есть мы учим робота копировать движения человека-оператора и если он тупил или руки дрожали сетка это тоже выучит.
Тем не менее, это очень крутой релиз для тех, кто пилит домашних роботов. Данные по завязыванию шнурков и разбору предметов в open-source редкость.
📌Лицензирование: CC-BY-NC-SA-4.0 License.
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Robotics#Dataset#RealOmni#GenRoborAI
😉 Благодарим всех, кто посетил онлайн-семинар с участием Ивана Викторовича Бегтина: теперь можно смело говорить о том, что дата-инженерия в DH интересна сотням людей!
Вы можете найти все выпуски «Цифровой среды» здесь (в ближайшее время на странице появится и запись «Дата-инженерии в цифровой гуманитаристике»).
Несколько полезных ссылок по мотивам доклада:
🔜 О глобальной инициативе OpenGLAM https://openglam.pubpub.org/
🔜Наборы данных для ИИ Национальной библиотеки Норвегии https://ai.nb.no/datasets/
🔜Открытые данные национальной библиотеки Финляндии https://data.nationallibrary.fi/
🔜 GLAM Workbench коллекция культурных данных и API Австралии https://glam-workbench.net/
🔜 Приоритетные площадки для работы исследователей – Hugging face https://huggingface.co/ и Kaggle https://www.kaggle.com/
🔜 Веб-архивы Сommon Crawl https://commoncrawl.org/ и Internet Archive https://archive.org/
🔜 Платформа для поиска данных Dateno https://dateno.io
#opendata#dataset#glam#openglam#datacatalogs#данные#датасеты
✍️ SuperCaption Qwen3-VL ● Ультимативный генератор описаний ● Portable by Nerual Dreming & Slait
Ссылка на оригинальный GitHub: https://github.com/timoncool/SuperCaption_Qwen3-VL
Репакеры:#NerualDreming, #Slait
Дата обновления: 26 ноября 2025
Версия: 1.0
Категории:#captioning, #img2txt, #AIvision, #video2txt, #OCR, #dataset
Платформа:#Windows
Язык: RU, EN, CN
Место на диске: ~15 ГБ (зависит от модели)
Системные требования: NVIDIA GPU (минимум 6 ГБ VRAM для 2B модели, рекомендуется 12+ ГБ для 8B+)
Совместимость:#Nvidia
🖥Описание софта
SuperCaption Qwen3-VL — это мощнейший комбайн для анализа визуального контента. В его основе лежит модель Qwen3-VL, которая "видит" мир лучше многих конкурентов.
Главная фича — использование Abliterated моделей, у которых отключена цензура. Это значит, что софт опишет абсолютно всё, что вы ему покажете, без морализаторства и отказов.
Идеальный инструмент для дата-сайентистов, контент-мейкеров и всех, кому нужно превратить гигабайты картинок и видео в структурированный текст.
😬Основные возможности SuperCaption Qwen3-VL
Работа с изображениями (50+ режимов):
🟣Генерация промптов: Создает готовые промпты для Stable Diffusion и MidJourney, теги в стиле Booru.
🟣Маркетинг и SEO: Пишет продающие описания товаров, SEO-тексты (до 160 символов), посты для соцсетей.
🟣 Продвинутый OCR: Распознает текст на 20+ языках, конвертирует таблицы с картинок сразу в HTML-код, извлекает данные в JSON.
🟣Сравнение и анализ: Режимы "До/После", сравнение товаров, контроль качества (поиск дефектов), анализ временных рядов.
🟣Object Detection: Находит объекты и выдает их координаты (bbox) в JSON или рисует рамки прямо на фото.
Интеллектуальный анализ:
🟣Thinking Mode: Режим "рассуждений" для сложных задач — модель сначала думает, потом отвечает.
🟣Решение задач: Пошаговое решение математики, физики, разбор учебных заданий.
🟣Аналитика: Читает графики, диаграммы, технические чертежи и медицинские снимки.
Видео-аналитика:
🟣Таймлайны: Создает хронологию событий с таймкодами.
🟣Саммари: Делает краткую выжимку содержания длинных видео.
🟣Анализ монтажа: Оценивает склейки, переходы, темп и операторскую работу.
🟣Поиск действий: Находит конкретные моменты (например, "когда человек начал бежать").
Прочее:
🟣Пакетная обработка: Закидываете папку с тысячей файлов -> идете пить кофе -> получаете TXT/JSON/CSV файлы для каждого.
🟣Гибкость: Полная поддержка кастомных промптов на русском языке.
💿Установка и запуск
⁍ Скачайте архив SuperCaption_Qwen3-VL.
⁍ Распакуйте в удобное место (путь без кириллицы!).
⁍ Запустите install.bat и выберите свою видеокарту.
⁍ Нажмите Enter и дождитесь окончания установки.
⁍ Запустите run_with_update.bat для старта.
⁍ Интерфейс откроется в браузере (http://127.0.0.1:7860).
➡️Скачать SuperCaption с GitHub — исходный код
➡️Скачать Portable установщик — скачает все что нужно
➡️Скачать Portable архив с окружением — Окружение под Win 11 и RTX 4090
💬Обсудить в нашем чате
👾НЕЙРО-СОФТ - делаем нейросети доступнее