TGTGInsighttelegram intelligenceLIVE / telegram public index
← GZ学习频道

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @olddriverGDstudy · Post #14 · Mar 17

由于前段时间群里发生了买资源之间的掐架事件,记录一些话。 无忌说: 无论有些伙计是卖资源还是什么, 车队也管不着 反正车队的资源是免费获取的 不过,就算是卖资源 不要护逼, 不要为了那所谓的标签故意推不靠谱的资源, 还不允许别人反映, 就算卖资源,也要卖靠谱的资源, 不靠谱的资源给别人卖了别人会寒心, 赚那几十块钱倒了牌子有意思吗? 做人做事都要凭良心, 不要纠缠什么利益, 单纯的做一个修车人, 不快乐吗? 彩虹(少妇小专家)说: 修车就是修车 你以为你是柳永? 你以为你是李白? 公益大队 我们要的是什么 我们要的是性爱的欢愉? 我们要的灵魂的交流? 我们要的是水乳交融的感受? 我们要的是洒脱感? 都错了 我们要的是整片森林 我们要的是广阔天地 我们要的是雄鹰展翅在这片土地上空 我们用几辆碎银要的是什么 女人 御姐 嫩妹 淑女 熟女 环肥燕瘦 各有各的滋味 各有各的感觉 各有各的微笑 各有各的呻吟 各有各的美好 各有各的回忆 要的是什么 问问你自己 爱情 肉体 灵魂 是统一的吗 是矛盾的吗 是对立而统一的吗 是螺旋前进的吗 曾经志在四方的我们 甘心被推广 被卖资源 被鸡头 被黑车 左右自己的情感吗 影响自己的勇气吗 不 大队 要的是杀伐的乐趣 要的是勇做先锋的勇气 要的是山无棱才敢与君绝的决心 要的是踏破铁鞋无觅处,得来全不费功夫的洒脱 要的是待从头,收拾旧山河的豪迈 要的是怒发冲冠,凭栏处,潇潇雨歇的悲壮 要的是手接飞猱搏雕虎,侧足焦原未言苦的勇气 悲痛啊 可悲啊 大队狂客落魄尚如此啊 愿我们风云感会起屠钓吧 要继承先人的意志啊 要有原则啊 幼女 未成年 龙女 都不能去搞 加油吧,各位 (彩虹(少妇小专家)是无锡车队的管理,无忌的朋友,纯粹的出击者) 作者:无忌 标签:#原创,#杂谈

Results

12 similar posts found

Search: #dataset

当前筛选 #dataset清除筛选

1250 интервью ИИ-датасет Большое исследование уникальных кейсов использования ИИ в разных областях. Создано Antropic, структурированно Денисом. 😂Прикольно, зайдёт любителям искать идеи для стартапов) #dataset | AcidCrunch

Hashtags

Data Stitches

@data_stitches · Post #108 · 09/30/2021, 08:54 PM

AIST++舞蹈动作数据集 - by Google Research,该数据集提供了视频中1000万张图像的详细注释,以及1408个三维人类舞蹈运动的序列",其中一些可以在网站上探索 #dataset

Hashtags

Data Stitches

@data_stitches · Post #103 · 09/28/2021, 11:01 PM

Covid19导致人类预期寿命自二战以来最大降幅 - 牛津大学发表的最新研究报告和可视化应用显示,大流行导致2020年人类预期寿命为二次世界大战以来的最大降幅,其中以美国男性的预期寿命降幅最大,以及这周经济学人的Daily Chart 的报道#dataset

Hashtags

Machinelearning

@ai_machinelearning_big_data · Post #8455 · 09/05/2025, 08:35 AM

🌟На Hugging Face вышла обзорная статья об открытых ML-датасетах Автор новостного ресурса Daily Dose of Data Science собрал самые интересные релизы крупных датасетов и моделей. Среди них — Yambda-5B от команды Яндекса, крупнейший в мире открытый музыкальный рекомендательный датасет. В Yambda-5B 4,79 млрд обезличенных взаимодействий: прослушивания, лайки и дизлайки треков. Датасет уже привлек внимание мировых исследователей и обещает стать важным инструментом для развития рекомендательных систем. 🔗Подробнее @ai_machinelearning_big_data #ai#ml#dataset

Data Science Jobs

@datasciencejobs · Post #1723 · 10/10/2023, 03:07 PM

#вакансия#dataset#MLEngineer#AI#разработчик Компания: ВодоходЪ.Технологии (www.vodohod.tech) Позиция: ML-инженер/разработчик Опыт работы: 1–3 года Занятость: full-time проект Локация: Офис/удаленно Доход: 150-200K net Ищем активных, перспективных коллег для усиления нашей команды в работе над технологическим проектом по разработке системы поддержки принятия решений с использованием алгоритмов искусственного интеллекта. ▶️Задачи: Техническая проработка и техническое обоснование решений; Сбор Data set; Реализация и внедрение в ERP-систему AI-решений для моделирования и прогнозирования цен на основании статистических и исторических данных; Data-driven разработка инструментов автоматизации маркетинговых кампаний. ▶️Требования: Степень бакалавра (или выше) в области математики, информатики и смежных технических областей; Знание линейной алгебры и статистики применительно к Data Science; Понимание структуры моделей ML; Уверенное владение Python (NumPy, SciPy, PyTorch, Sklearn); Ответственность, внимательность, желание учиться новому. ▶️Будет плюсом: Уверенное знание PostgreSQL, Redis, Kafka, ClickHouse; Опыт работы с DVC, MLFlow, Airflow, Docker; Опыт разработки проектов в областях Data Science, Deep Learning; Умение работать с Git. ▶️Условия: Возможность работать в технологической компании; Конкурентоспособная заработная плата; Аккредитованная IT-компания: льготы для сотрудников; Адаптивный рабочий график; Возможно временное оформление: договор услуг, подряда, ГПХ, самозанятые, ИП. Отклики просьба присылать на почту [email protected]

Machinelearning

@ai_machinelearning_big_data · Post #9494 · 02/09/2026, 10:05 AM

🌟HY3D-Bench: 22 терабайта отборной 3D-геометрии. Tencent Hunyuan вывалили в опенсорс монструозный пак HY3D-Bench на 22.5 ТБ и это подарок для всех, кто занимается 3D Gen и робототехникой. Датасет разбит на 3 логических куска, каждый под свои задачи: 🟡Full-level Dataset (252K+ мешей, ~11 ТБ) База с полностью замкнутой геометрией, без дырок и non-manifold артефактов, которыми обычно кишат сканы. Все нормализовано и готово к скармливанию в DiT или GAN. В комплекте идут сэмплы точек и мульти-вью рендеры. 🟡Part-level Dataset (240K+ объектов, ~5 ТБ) Мёд для робототехников и тех, кто занимается geometric perception. Тут объекты с семантической сегментацией на части. Если учите сервоприводного друга манипуляциям или хотите генерить объекты кусками - вам сюда. 🟡Synthetic Dataset (125K+ объектов, ~6.5 ТБ) Очевидная синтетика, чтобы закрыть редкие категории, которых нет в обычных датасетах. Охват - 1252 категории. Ждем волну SOAT-level 3D-генераторов, дотюненных на этом наборе. 🟡Arxiv 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI#ML#Dataset#HY3DBench#Tencent

Machinelearning

@ai_machinelearning_big_data · Post #8459 · 09/05/2025, 01:00 PM

🌟InfoSeek: синтез данных для deep‑research с формализацией HCSP. BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам. Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования. Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания". В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям. 🟡Синтез выполняет связка из 2 агентов. Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл: 🟢Инициализация из "якоря"; 🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами; 🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева; 🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности. Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется. Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения. 🟡Эксперименты. Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны. На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B. Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми. ▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B. 📌Лицензирование: Apache 2.0 License. 🟡Датасет 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#DeepResearch#Dataset#InfoSeek

Machinelearning

@ai_machinelearning_big_data · Post #9243 · 12/12/2025, 02:09 PM

🌟OMC25: датасет для вычислительной химии. ОMC25 - крупнейший набор данных по молекулярным кристаллам, рассчитанный методом теории функционала плотности (DFT) в пакете VASP. В основе датасета лежат структуры, полученные из траекторий релаксации молекулярных кристаллов. Сами исходные кристаллы были сгенерированы с помощью инструмента Genarris 3.0, который, в свою очередь, использовал молекулы из известного набора OE62. Это обеспечивает преемственность данных и четкую привязку к проверенным химическим структурам, но масштаб здесь совершенно иной. Тренировочная часть содержит почти 25 млн. фреймов. Это данные по 207 тыс. кристаллов, которые, в свою очередь, произошли от 44 тыс. уникальных молекул. Валидационная часть меньше, но тоже весовая: около 1,4 миллиона кадров. Данные упакованы в формате ase-db как объекты LMDBDatabase, что является стандартом в задачах машинного обучения для химии. Исходные кристаллы были созданы программой Genarris 3.0. Она, в свою очередь, использовала молекулы из популярного набора OE62. Так что у данных есть четкая привязка к проверенным химическим структурам. Работа с данными сета происходит через библиотеку fairchem. Каждая структура хранится как объект ASE Atoms, что привычно для инженеров, работающих с атомистическим моделированием. Ключевые метки для обучения моделей включают полную энергию DFT, силы, действующие на атомы, и тензор напряжений . Это "каноническая троица" для обучения межатомных потенциалов. Помимо физических величин, в атрибуте atoms.info зашиты критически важные метаданные. Помимо самого набора, авторы выложили базовый чекпоинт eSEN-S, обученный на всём OMC25. 📌Лицензирование : CC-BY-4.0 License 🟡Датасет 🟡Модель 🖥GitHub @ai_machinelearning_big_data #AI#ML#Dataset#FAIR#Chemistry

Machinelearning

@ai_machinelearning_big_data · Post #9412 · 01/21/2026, 09:07 AM

🌟GenRobot RealOmni-OpenData: апдейт датасета для Embodied AI RealOmni - это не просто каталог видео, где роборука хватает кубик на белом столе. Это мультимодальный подарок с траекториями, аннотациями и движениями суставов. 🟡Сенсоры Картинка с Fisheye-камер, данные IMU (инерциалка), энкодеры и данные с тактильных датчиков с разрешением 1 мм. 🟡Сценарии Снимали в 3000 реальных домах, никаких стерильных лабораторий: складывание одежды, завязывание шнурков, разбор посуды и сортировка всякого хлама. 🟡Bimanual manipulation Почти все таски двурукие. 🟡Long-horizon Медианная длина клипа ~ 210 секунд. То есть это не "схватил-положил", а полноценные процессы "достать, сложить, убрать в ящик". В свежем обновлении добавили 35 тыс. клипов с фокусом на разгребание куч разнородных предметов. Это именно та задача, на которой сыпется большинство моделей. Немного цифр о всем датасете 🟢Объем (заявленный): 95 ТБ (об этом ниже). 🟢Количество клипов: 1M+ (в планах). 🟢Разрешение: 1600x1296 @ 30fps. 🟢Формат: .mcap (стандарт для ROS, внутри сжатый H.264). Весть проект запланирован объемом 95 ТБ и хронометражем 10,000 часов. Но если посчитать, то что уже залито (Stage 1 + Stage 2), то суммарно около 5.4 ТБ и ~1600 часов. Остальное обещают догрузить as soon as possible. 🟡Важно знать Данные собраны специфическим гриппером GenDAS, так что если у вас другой сенсорный массив (или его нет), transfer learning может стать болью. Ассеты заточены под железку GenRobot. Это все еще телеоперация. То есть мы учим робота копировать движения человека-оператора и если он тупил или руки дрожали сетка это тоже выучит. Тем не менее, это очень крутой релиз для тех, кто пилит домашних роботов. Данные по завязыванию шнурков и разбору предметов в open-source редкость. 📌Лицензирование: CC-BY-NC-SA-4.0 License. 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI#ML#Robotics#Dataset#RealOmni#GenRoborAI

Гуманитарии в цифре

@DHRIsfu · Post #643 · 01/23/2025, 05:41 AM

😉 Благодарим всех, кто посетил онлайн-семинар с участием Ивана Викторовича Бегтина: теперь можно смело говорить о том, что дата-инженерия в DH интересна сотням людей! Вы можете найти все выпуски «Цифровой среды» здесь (в ближайшее время на странице появится и запись «Дата-инженерии в цифровой гуманитаристике»). Несколько полезных ссылок по мотивам доклада: 🔜 О глобальной инициативе OpenGLAM https://openglam.pubpub.org/ 🔜Наборы данных для ИИ Национальной библиотеки Норвегии https://ai.nb.no/datasets/ 🔜Открытые данные национальной библиотеки Финляндии https://data.nationallibrary.fi/ 🔜 GLAM Workbench коллекция культурных данных и API Австралии https://glam-workbench.net/ 🔜 Приоритетные площадки для работы исследователей – Hugging face https://huggingface.co/ и Kaggle https://www.kaggle.com/ 🔜 Веб-архивы Сommon Crawl https://commoncrawl.org/ и Internet Archive https://archive.org/ 🔜 Платформа для поиска данных Dateno https://dateno.io #opendata#dataset#glam#openglam#datacatalogs#данные#датасеты

✍️ SuperCaption Qwen3-VL ● Ультимативный генератор описаний ● Portable by Nerual Dreming & Slait Ссылка на оригинальный GitHub: https://github.com/timoncool/SuperCaption_Qwen3-VL Репакеры:#NerualDreming, #Slait Дата обновления: 26 ноября 2025 Версия: 1.0 Категории:#captioning, #img2txt, #AIvision, #video2txt, #OCR, #dataset Платформа:#Windows Язык: RU, EN, CN Место на диске: ~15 ГБ (зависит от модели) Системные требования: NVIDIA GPU (минимум 6 ГБ VRAM для 2B модели, рекомендуется 12+ ГБ для 8B+) Совместимость:#Nvidia 🖥Описание софта SuperCaption Qwen3-VL — это мощнейший комбайн для анализа визуального контента. В его основе лежит модель Qwen3-VL, которая "видит" мир лучше многих конкурентов. Главная фича — использование Abliterated моделей, у которых отключена цензура. Это значит, что софт опишет абсолютно всё, что вы ему покажете, без морализаторства и отказов. Идеальный инструмент для дата-сайентистов, контент-мейкеров и всех, кому нужно превратить гигабайты картинок и видео в структурированный текст. 😬Основные возможности SuperCaption Qwen3-VL Работа с изображениями (50+ режимов): 🟣Генерация промптов: Создает готовые промпты для Stable Diffusion и MidJourney, теги в стиле Booru. 🟣Маркетинг и SEO: Пишет продающие описания товаров, SEO-тексты (до 160 символов), посты для соцсетей. 🟣 Продвинутый OCR: Распознает текст на 20+ языках, конвертирует таблицы с картинок сразу в HTML-код, извлекает данные в JSON. 🟣Сравнение и анализ: Режимы "До/После", сравнение товаров, контроль качества (поиск дефектов), анализ временных рядов. 🟣Object Detection: Находит объекты и выдает их координаты (bbox) в JSON или рисует рамки прямо на фото. Интеллектуальный анализ: 🟣Thinking Mode: Режим "рассуждений" для сложных задач — модель сначала думает, потом отвечает. 🟣Решение задач: Пошаговое решение математики, физики, разбор учебных заданий. 🟣Аналитика: Читает графики, диаграммы, технические чертежи и медицинские снимки. Видео-аналитика: 🟣Таймлайны: Создает хронологию событий с таймкодами. 🟣Саммари: Делает краткую выжимку содержания длинных видео. 🟣Анализ монтажа: Оценивает склейки, переходы, темп и операторскую работу. 🟣Поиск действий: Находит конкретные моменты (например, "когда человек начал бежать"). Прочее: 🟣Пакетная обработка: Закидываете папку с тысячей файлов -> идете пить кофе -> получаете TXT/JSON/CSV файлы для каждого. 🟣Гибкость: Полная поддержка кастомных промптов на русском языке. 💿Установка и запуск ⁍ Скачайте архив SuperCaption_Qwen3-VL. ⁍ Распакуйте в удобное место (путь без кириллицы!). ⁍ Запустите install.bat и выберите свою видеокарту. ⁍ Нажмите Enter и дождитесь окончания установки. ⁍ Запустите run_with_update.bat для старта. ⁍ Интерфейс откроется в браузере (http://127.0.0.1:7860). ➡️Скачать SuperCaption с GitHub — исходный код ➡️Скачать Portable установщик — скачает все что нужно ➡️Скачать Portable архив с окружением — Окружение под Win 11 и RTX 4090 💬Обсудить в нашем чате 👾НЕЙРО-СОФТ - делаем нейросети доступнее