TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 2 слични објави

Пребарај: #scientist

当前筛选 #scientist清除筛选
Data Science Jobs

@datasciencejobs · Post #3048 · 26.11.2025 г., 16:04

#вакансия#data#scientist#ML#remote#удаленка Название компании: deeplay Формат работы: Удаленка Занятость: Полная Контакты: @hitommooo Мы разрабатываем роботов-аниматоров для интеллектуальных карточных игр: покер, бридж, маджонг, преферанс. Аниматоры создают активность на игровой платформе, привлекая пользователей 🎲🧩 Ищем сильного Middle Data Scientist 🎯 Что по задачам? - Разработка инструментов, автоматических отчётов и методов кластеризации данных и системы мониторинга работы ML-моделей - Контроль качества ML-моделей, обнаружение дата-дрифта и поддержание качества предсказаний на необходимом уровне - Аналитика данных, проверка гипотез, исследования данных и методов 🧑‍💻Наши ожидания - Коммерческий опыт работы в должности Data Scientist от 3х лет - Уверенное знание ML (опыт работы с полным ML-пайплайном) - Знание методов статистического анализа данных (EDA, LDA, MDS) - Знание методов кластеризации и её оценки, методов понижения размерности - Опыт программирования на Python - Знание различных видов визуализаций в python, любовь к графикам — приветствуется 🍪Мы предлагаем - Полностью удаленный формат работы - График работы с гибким началом и окончанием рабочего дня - Ежегодно проводим performance review, по итогу которых намечаем планы развития сотрудника - Частичная компенсация расходов на медицинские услуги, бассейн, массаж - Частичная компенсация расходов на спорт - Материальная помощь к важным событиям и в сложных жизненных ситуациях - Регулярные шаринги знаний, хакатоны, митапы, трансляции, турниры - Изучение английского языка для всех желающих 2 раза в неделю 📩 Контакты:@hitommooo

Data Science Jobs

@datasciencejobs · Post #1850 · 25.12.2023 г., 09:01

#вакансия#vacancy#senior#lead#data#scientist ✨Senior/Lead Data Scientist Компания: WILDBERRIES ЗП: по результатам собеседования Wildberries - это 9 млн заказов и 1 млрд поисковых запросов в сутки. Мы ищем Senior/Lead Data Scientist в команду FBO Wildberries. Наша команда управляет процессом с момента планирования поставки товара на склад Wildberries до момента, когда этот товар оказывается на месте хранения и становится доступен к продаже. Ключевые требования - Знание классического ML, DL. - Знание методов оптимизации, временных рядов. - Хорошее знание алгоритмов и структур данных. - Знание и умение применять для ML стек Python (Pandas, Sklearn, Numpy, Scipy, XGBoost/LightGBM/Catboost), а также SQL. - Опыт обучения моделей, которые работают в продуктах для массовой аудитории и приносят там пользу. - Для Lead опыт управления командой DS, внедрения корпоративных моделей данных. - Опыт работы – от 3 лет. Основные задачи Предстоит заниматься рекомендациями по завозу товаров, управлением потоком товаров по складам, а именно: - Прогнозирование спроса и предложений товара у покупателей для продавцов на Wildberrries. - Оптимизация потока завоза товаров на склады. - Динамическое тарификация для продавцов на склад, где цена будет меняться в зависимости от загрузки склада, длительности хранения и так далее. - Вместе с бэкендерами строить production pipeline. Компенсация/мотивационный пакет Мы предлагаем: - Оформление по ТК, ГПХ, ИП. - Гибридный формат работы: от офиса в Москве (с бесплатными завтраками, обедами и ужинами) до удаленки из любой точки мира. - Гибкое начало рабочего дня. - Возможность увидеть однозначные результаты работы, напрямую влияющие на бизнес с триллионами GMV. - Возможность брать 3 day-off в любой день. - Необходимое мощное железо и ПО. - Ежегодная 40%-ая скидка на покупку ноутбука или мобильного телефона. - Премии и бонусы по итогам работы. - Карьерный и профессиональный рост. Откликнуться: @yana_itrec Не забудьте уточнить, что вы из @datasciencejobs