TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 5 слични објави

Пребарај: #mailru

当前筛选 #mailru清除筛选
#️⃣Hashtag | Rasmiy kanal

@HashtagUz · Post #13075 · 27.08.2024 г., 10:06

📬Mail.ru → Mail ℹ️Mail yangilangan versiyasini taqdim etdi: endi nomida .ru domenisiz va korporativ palitrada quyuq ko'k va och yashil ranglar bilan. 🐶 Pochta ham maxsus maskotga ega - Bayt. U foydalanuvchilarni Mail mahsulotlarining xususiyatlari va yangilanishlari bilan tanishtiradi. Sun'iy idrok texnologiyasi bilan boyitilgan. ☹️ Aytgancha, afsonaviy Mail.ru Agent bir necha kun oldin faoliyatini yakunlagani haqida ham bilsangiz kerak... ➡️#mailru | Birinchi raqamli IT-Blog

Hashtags

AI для продакта 🧠🚀

@aiforproduct · Post #620 · 07.05.2025 г., 12:10

⚡️К Дню Победы запущен сервис, который может восстановить старые фотографии. Заходите на сайт, загружайте фото, и через несколько секунд получите обновленный снимок. Сервис способен восстановить незначительные детали или раскрасить черно-белое изображение. Работает бесплатно, без регистрации. На видео демонстрация работы. #ИИ#AI#Нейросети#Mailru ——— #Инструменты#Изображения ✍️Подписывайтесь: @aiforproduct

Data Science Jobs

@datasciencejobs · Post #2139 · 04.06.2024 г., 06:02

#вакансия Data Engineer в VK Adtech, Москва Департамент создаёт рекламные продукты и инструменты для бизнеса. Это myTarget, рекламный кабинет ВКонтакте и платформа VK Реклама. Наши разработки также интегрированы в другие продукты VK: Одноклассники, Портал и Почту Mail․ru. Всё это открывает бизнесу доступ к 95% мобильной аудитории рунета. В команде минимум бюрократии и максимум возможностей влиять на продукт — воплощение фич от идеи до релиза может занимать всего пару недель. Ищем опытного и самостоятельного дата-инженера, который будет участвовать в создании ML-инструментов. Предстоит разрабатывать и поддерживать код на Scala/Spark (UDF/UDAF, Spark ML Transformers, etc.) и Python (платформа ML/ETL). А ещё помогать команде следить за качеством генерируемых данных. У нас вы будете работать с данными популярных соцсетей (ВК, ОК, Дзен) и других проектов экосистемы VK. Также надеемся, что вам понравится наш кластер Hadoop на примерно 100 петабайтов. Задачи: • Проектировать, разрабатывать и поддерживать инструменты для создания надёжных пайплайнов обработки данных; • участвовать в развитии системы для создания и использования ML-моделей; • исследовать и интегрировать в продукт новые источники данных; • создавать витрины признаков для ML-моделей. Требования: • Знание алгоритмов и структур данных; • умение писать качественный, поддерживаемый код на Scala, Python, SQL; • опыт использования Hadoop, знание механизмов распределённого хранения и обработки данных (HDFS, Spark, Hive); • знакомство с Bash, Git, Linux, Docker; • опыт работы с терминалом по SSH. Будет плюсом: • Умение использовать Luigi, Airflow, Kafka; • опыт написания Spark UDF/UDAF на Catalyst API и трансформеров spark.ml; • знание Java и нюансов JVM; • понимание классических ML-моделей, задач и методов DS. ✍️ Отправить CV и по всем вопросам: https://t.me/olkony #de#ml#engineer#mailru#adtech#spark#python#hadoop#kafka#гибрид#remote#middle#senior

Data Science Jobs

@datasciencejobs · Post #2140 · 04.06.2024 г., 12:04

#вакансия Data analyst / Data scientist, Москва VK Реклама — одно из ключевых подразделений в VK. Ежедневно наши сервисы охватывают более 140 млн пользователей в России и странах СНГ. Более 100 тыс. рекламодателей каждый день запускают рекламные кампании у нас и находят своих клиентов. Мы — команда ML внутри VK Рекламы, отвечаем за её качество, чтобы пользователи могли увидеть наиболее подходящую им рекламу, а рекламодатели потратить свои бюджеты наиболее эффективно. Основная задача нашего направления — проверять гипотезы, искать инсайты и точки роста эффективности и впоследствии внедрять их в прод. У нас идёт полный ML-цикл от проработки гипотезы до проведения экспериментов и внедрения фич в продакшен. Результаты нашей работы напрямую влияют на эффективность такого большого продукта, как VK Реклама. Команда ad hoc аналитики занимается проверкой гипотез и поиском точек роста. Тестирует гипотезы в реальных экспериментах и оценивает изменения. Мы ищем в команду сильных аналитиков, совместными усилиями будем проводить различные аналитические исследования для повышения эффективности нашего продукта. Задачи: • Анализ больших данных для поиска потенциальных точек роста и выдвижения гипотез; • ad hoc аналитика, поиски зависимостей в данных; • проверка гипотез, поиск узких мест, донесение результатов до прода; • оптимизация моделей рекламного аукциона и моделей ранжирования пользователей; • проведение и статоценка экспериментов; • разработка и автоматизация отчётности; • сбор, обработка и дальнейшее использование больших данных. Требования: • Хорошее знание SQL (сложные запросы, порядок выполнения операций) — нужно написать не просто запрос, а оптимальный запрос, который сможет отработать на действительно больших данных; • знание Python для анализа данных; библиотеки Pandas, Numpy — нужно будет сделать анализ данных, проработать гипотезы и правильно их визуализировать. Недостаточно просто найти какой-то паттерн — нужно его правильно представить наружу; • работа с системами больших данных будет большим плюсом (Hadoop, PySpark); • хорошее понимание матстатистики; • анализ данных с учётом сезонности, поиски аномалий и выбросов в данных. Будет плюсом: • Опыт работы с ClickHouse, Hadoop, Git, Jenkins; • работа с инструментами BI-отчётности, понимание ETL-инструментов (делаем автоматические отчёты, готовим для них данные, настраиваем выгрузки и другое). ✍️ Отправить CV и по всем вопросам: https://t.me/olkony #ds#adhoc#analytics#ml#mailru#vk#adtech#sql#python#pandas#numpy#pysprak#hadoop#mathstat#clickhouse#гибрид#remote#middle#senior

Тёмный Лорд Коммуникаций

@dark_lord_of_communications · Post #562 · 24.10.2020 г., 08:25

Субботнее обращение Тёмный Лорд благодарен тем, кто в этом канале с самого начала, и не винит тех, кто подумал «да что я здесь делаю?» и отписался. Я знаю, что немногие готовы и способны переварить все перипетии информационных войн (таких специалистов в нашей стране вообще мало), а остальных могут не интересовать PR и журналистика. Но при этом мне искренне хочется, чтобы этот канал был достаточно прост для понимания и полезен не только профессионалам, но и всем неравнодушным к судьбе нашей Родины. Хочется показать, как всё, о чём здесь выходят посты, касается обычного человека. И, конечно, хочется подсветить ранее неизвестные или забытые медийной пучиной факты — честно и прозрачно для проверки. Так что надеюсь, что вам тут интересно. Обновлённый рубрикатор (жмите на тег, чтобы увидеть список постов с ним) Виды постов: #новости#подборка#опрос#кейс Сферы деятельности: #медиа#журналистика#PR#маркетинг#реклама#SMM#копирайтинг#работа Глобальное: #инфовойны#фейки#дезинформация Платформы: #Facebook#Google#Twitter#Instagram#TikTok#Telegram#Microsoft#Вконтакте#Mailru Страны/регионы: #Россия#США#Великобритания#Белоруссия#Прибалтика Издания: #RT#ВГТРК#МИА#Guardian#Bellingcat#Дождь Остальное: #иносми#СерыйКардинал#наблюдения#мемы#релизы#ООН#OSINT#расследование#руководство#инструменты#цитаты#теория#наука#источники#IT#выборы#политика#музыка#документы