TGINSIGHT CHAT
ML Baldini • Nikita Boyandin
@ml_baldini
CareerРассказываю о своем опыте, решаем собесы, реализуем крутые проекты Реклама: @sasquato
Son gönderiler
Etiket: #petprojects · 2 gönderi
Yayınlandı 22 Nis
#Petprojects#Computer_vision#13дней Где-то месяц назад я был на Union Meetup, где познакомился с Володей. В моменте я не успел с ним плотно познакомится, а самое интересное я начал узнавать из его тг-канала. Помимо того, что он ведет очень крутой образ жизни, так и у него есть афигенный бот Емеля. Он по фотографии может определять калорийность продуктов, что очень помогает в подсчете КБЖУ и 100% будет полезна тем, кто следит за питанием. Так вот о чем я... Если уже есть реализация калорийности, почему нам не пойти чуть дальше и по фото находить артикулы вещей по WB. У этого проекта точно есть бизнес-значимость, да и клиентскую базу мы быстро найдем(от простых обывателей до стилистов, дизайнеров и перекупов). Ну что ж, давайте писать MLSD💗 1⃣ Формулировка проблемы ML-задача: гибридная система 🧍 Обнаружение одежды на любом фото — YOLOv8 📦 Поиск похожих вещей из базы WB — через эмбеддинги 🖼 Дополнительно: сравнение самих изображений (image similarity metrics) Итоговая метрика — комбинируем сходство в фичах и визуальную близость Ввод: любое фото с человеком Вывод: топ-N максимально похожих вещей из Wildberries 2⃣ МетрикиmAP (YOLOv8) Top-K Accuracy (поиск по базе) Perceptual similarity (LPIPS / SSIM) Скорость отклика blended score (эмбеддинг + визуал) 3⃣ Архитектура системы Пайплайн такой: Пользователь отправляет фото Бот → backend Backend: YOLOv8 находит вещи Из каждой — кроп Кропы → эмбеддинги (CLIP / ConvNeXt) Быстрый top-N поиск по базе (FAISS) Для кандидатов — сравнение картинок через LPIPS / SSIM Итог: top-3 самых похожих вещей Модули: detector.py: YOLOv8 инференс embedder.py: CLIP / ConvNeXt index.py: FAISS similarity.py: визуальное сравнение (LPIPS, SSIM) re_ranker.py: пересчёт итоговой метрики wb_parser.py: загрузка каталога WB bot.py, server.py: интерфейс и API 4⃣ Сбор и подготовка данных YOLOv8: размечаем датасет одежды с разных фото (street / соцсети / fashion lookbooks) WB база: Скачиваем карточки Фотки товаров → эмбеддинги Храним оригиналы для сравнения Фокус: обогащать базу и следить за качеством карточек 5⃣ Feature Engineering Resize + нормализация кропов CLIP эмбеддинг → быстрая фильтрация LPIPS / SSIM между оригинальным кропом и картинками-кандидатами Комбинированная метрика: score = α * similarity_in_features + β * image_similarity 6⃣ Обучение и оценка YOLOv8: дообучаем под задачи детекции одежды CLIP / ConvNeXt: pretrained Ручная проверка выдачи: насколько "похоже" выглядит подбор 7⃣ Telegram API Пользователь просто шлёт фото — и получает: 🧍список вещей на фото 🔗 артикулы + кнопки WB 🔄 “Похожие”, “Подобрать капсулу”, “Запомнить” 8⃣ Деплой и обновление FastAPI + Docker Хостинг: Railway или VPS Регулярное обновление базы артикулов Мониторинг качества: фидбэк от юзеров ❤️ - Сделать MLSD по LLM
Yayınlandı 21 Nis
#Petprojects#Classic_ML#14дней В последнее время люди, которые только готовятся пойти на стажку в ML, очень часто забивают на pet-projects, заменяя их хакатонами. Как по мне это большое упущение, поэтому я написал 5 постов(ML-system-doc) на каждую из сфер ML(classic, nlp, CV, RL, recsys). Надеюсь, что вам понравится такой формат💗 Первый проект можно считать классикой - предсказание аренды на жилье в Москве. Еще полгода назад я столкнулся с тем, что цены в Циан не очень соответствуют сезонности. Поэтому тут это проект. 1⃣ Формулировка проблемы ML-задача: регрессия (прогноз числового значения — аренда/мес) Запрос от пользователя: https://www.cian.ru/rent/flat/ Ответ от бота: По нашему прогнозу, справедливая цена аренды этой квартиры — 72 000 ₽ в месяц. Объявленная цена завышена на 14%. 2⃣ Метрики RMSE / MAE — классика для оценки качества регрессии R² — для понимания "насколько хорошо мы объясняем данные" Процент отклонения от реальной цены (если есть ground truth) 3⃣ Архитектура системы Схема взаимодействия: 1. Пользователь отправляет ссылку на квартиру 2. Telegram-бот → backend 3. Backend: Парсит сайт (например, ЦИАН или Авито) Извлекает характеристики квартиры Преобразует фичи Прогоняет через ML-модель Возвращает прогноз и комментарий Компоненты: parser.py: парсинг HTML страницы, извлечение признаков featurizer.py: преобразование признаков model.pkl: обученная модель (например, CatBoost) bot.py: Telegram API (через python-telegram-bot) server.py: FastAPI backend (для API запросов) 4⃣ Сбор и подготовка данных Источник: парсинг сайтов объявлений (ЦИАН, Авито) Фичи:Район / метро, площадь, кол-во комнат, Этаж / этажность, тип дома, год постройки, наличие мебели, ремонта и т.д. 5⃣ Feature Engineering Категориальные фичи: one-hot / target encoding Гео-признаки: расстояние до центра / метро Текст: ключевые слова из описания Признаки из HTML (например, "свежий ремонт", "панорамные окна") 6⃣ Разработка модели и оффлайн-оценка Модели:baseline — Linear Regression Бустинг — LightGBM / CatBoost CV: по району или дате публикации Валидация на отложенных квартирах 7⃣ Интеграция с Telegram API 🕺Бот слушает команды: /predict https://www.cian.ru/rent/flat/ Отправляет ссылку на backend Получает и форматирует ответ: ✅ Справедливая цена 📈 Отклонение 📍 Район / метро 🧱 Характеристики квартиры 8⃣ Деплой, мониторинг и обновления FastAPI-сервер → Docker-контейнер Хостинг: Railway / Render / VPS Мониторинг: лог ошибок парсера, частота запросов, время ответа Обновление модели: периодический запуск пайплайна с новыми данными Кэширование популярных ссылок (по id квартир) ❤️ - Сделать MLSD по CV
Hashtags