TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 5 слични објави

Пребарај: #scala3

当前筛选 #scala3清除筛选
Data Science Jobs

@datasciencejobs · Post #2847 · 05.08.2025 г., 12:04

#вакансии#dataengineer#Spark#Scala3#Jenkins Ищем Инженера по инфраструктуре на курс по Spark для действующих Data Engineer. О нас: Standard Data – проектируем и реализуем образовательные решения под заказ крупных компаний в сфере ИИ, дата инжиниринга и веб-разработки. Задача: Собрать Jupyter Notebook с ядром Scala, который может: • запускать код прямо из тетрадки, • обращаться к реальному Hadoop-кластеру (чтение, запись, обработка данных). Курс ведётся в формате: преподаватель идёт по тетрадке, рассказывает теорию и показывает практику на реальных данных в кластере. Формат занятости: проектная работа (один проект) Оплата: 50 000 ₽ Резюме и рекомендации можно кидать сюда: @KaterinkaGl

Data Science Jobs

@datasciencejobs · Post #2991 · 20.10.2025 г., 13:16

#вакансии#dataengineer#Spark#Scala3#Jenkins#Senior Друзья, всем привет! Ищем Преподавателя для уроков и проверки задач на практический курс по разработке на Spark для действующих Data Engineer. О нас: Standard Data – проектируем и реализуем образовательные решения под заказ крупных компаний в сфере ИИ, дата инжиниринга и веб-разработки. Кого ищем: Преподавателя, которому интересно поучаствовать в качественном образовательном проекте. Что нужно делать: • Проводить занятия, обычно по выбранным (2-4) темам из всего курса. Занятия в формате вебинаров 2 раза в неделю по 2 часа. • Общаться в чате и отвечать на вопросы слушателей курса. • Проверять домашние задания и давать развернутую обратную связь слушателям. Что мы ждем от кандидата: • От 3 - 5 лет в роли DE, опыт оптимизации высоконагруженных приложений/ETL процессов; • Опыт работы со Scala 3; Spark; Kafka + Spark Structured Streaming; Hadoop; Oozie; Yarn. Что мы предлагаем: • Сумма оплаты возможна и больше, всё зависит от опыта, публикаций и результатов собеседования. • За проведение одного двухчасового занятия – 10т.р.-20т.р. в зависимости от вашего опыта. • За проверку ДЗ и итогового проекта – до 60т.р. в зависимости от количества человек в группе. Ждем тебя в нашей команде, пишите в тг, или сразу кидайте резюме: @Kate_HR_IT _____ За успешную рекомендацию по традиции бонус! Суммарно 15т.р.: при прохождении тестового 5 т.р., еще 10 т.р. после 2 месяцев хорошей работы. Если у Вас классный кандидат с большим опытом, то пишите в ЛС, согласуем другой бонус!

Data Science Jobs

@datasciencejobs · Post #2789 · 26.06.2025 г., 16:01

#вакансии#dataengineer#Spark#Scala3#Jenkins#Senior Друзья, всем привет! Ищем Преподавателя уроков и задач на практический курс по разработке на Spark для действующих Data Engineer. О нас: Standard Data – проектируем и реализуем образовательные решения под заказ крупных компаний в сфере ИИ, дата инжиниринга и веб-разработки. Кого ищем: Преподавателя, которому интересно поучаствовать в качественном образовательном проекте. Что нужно делать: • Проводить занятия, обычно по выбранным (2-4) темам из всего курса. Занятия в формате вебинаров 2 раза в неделю по 2 часа. • Общаться в чате и отвечать на вопросы слушателей курса. Что мы ждем от кандидата: • более 5 лет в роли DE, опыт оптимизации высоконагруженных приложений/ETL процессов; • Опыт работы со Scala 3; Spark; Kafka + Spark Structured Streaming; Hadoop; Oozie; Yarn. Что мы предлагаем: • Сумма оплаты возможна и больше, всё зависит от опыта, публикаций и результатов собеседования. • За проведение одного двухчасового занятия – 10т.р.-20т.р. в зависимости от вашего опыта. Если у Вас классный кандидат с большим опытом, то пишите в ЛС, согласуем другой бонус! Ждем тебя в нашей команде, пишите в тг, или сразу кидайте резюме: t.me/KaterinkaGl

Data Science Jobs

@datasciencejobs · Post #2695 · 25.04.2025 г., 07:51

#вакансии#dataengineer#Spark#Scala3#Jenkins#Senior Друзья, всем привет! Ищем авторов уроков и задач на практический курс по разработке на Spark для продвинутых Data Engineer. О нас: Standard Data – проектируем и реализуем образовательные решения под заказ крупных компаний в сфере ИИ, дата инжиниринга и веб-разработки. Кого ищем: Авторов уроков и задач, которым интересно сделать качественный образовательный продукт, решающий задачи нашей аудитории) Мы ожидаем от вас опыт работы со Spark для решения рабочих задач от 5 лет. Что нужно делать: • Разработка материалов: лекции, семинары, ДЗ, проекты по следующим темам: - Structured Streaming - Чтение потоков данных (Kafka, сокеты), - Реализация операций: трансформация потоков, фильтрация, агрегация и использование оконных функций. - Запись обработанных данных в разные целевые хранилища (файлы, базы данных). - Оптимизации: Checkpoints. Caching. Performance tuning. • Проводить занятия, по выбранным темам. Занятия в формате онлайн вебинаров 2 раза в неделю по 2 часа. Что мы ждем от кандидата: • более 5 лет в роли DE, опыт оптимизации высоконагруженных приложений/ETL процессов; • Опыт работы со Scala 3; Spark; Kafka + Spark Structured Streaming; Hadoop; Oozie; Yarn. Будет большим плюсом: Опыт в DevOps (Jenkins) и знание пакета MLib в Spark. Что мы предлагаем: • За разработку комплекта материалов к одной теме: лекция, семинар, тест, ДЗ – 30т.р.-50т.р. • Сумма оплаты возможна и больше, всё зависит от опыта, публикаций и результатов собеседования. • За проведение одного двухчасового занятия – 10т.р.-20т.р. в зависимости от вашего опыта. Ждем тебя в нашей команде, пишите в тг, или сразу кидайте резюме: t.me/KaterinkaGl

Data Science Jobs

@datasciencejobs · Post #2541 · 05.02.2025 г., 07:46

#вакансии#dataengineer#Spark#Scala3#Jenkins#Senior Друзья, всем привет! Ищем авторов уроков и задач на практический курс по разработке на Spark для продвинутых Data Engineer. О нас: Standard Data – проектируем и реализуем образовательные решения под заказ крупных компаний в сфере ИИ, дата инжиниринга и веб-разработки. Кого ищем: Авторов уроков и задач, которым интересно сделать качественный образовательный продукт, решающий задачи нашей аудитории! Мы ожидаем от вас опыт работы со Spark для решения рабочих задач от 5 лет. Кроме того, важна готовность работать в команде, быть на связи и регулярно уделять 10+ часов в неделю. Что нужно делать: • Разработка материалов: лекции, семинары, ДЗ, проекты. • Проводить занятия, обычно по выбранным (2-4) темам из всего курса. Занятия в формате вебинаров 2 раза в неделю по 2 часа. • Прямо сейчас мы на стадии старта разработки курса, поэтому наиболее актуальна именно разработка материалов. Далее, примерно через 3 месяца уже проведение занятий (и далее продолжаем развивать этот курс). Что мы ждем от кандидата: • более 5 лет в роли DE, опыт оптимизации высоконагруженных приложений/ETL процессов; • Опыт работы со Scala 3; Spark; Kafka + Spark Structured Streaming; Hadoop; Oozie; Yarn. Будет большим плюсом: Опыт в DevOps (Jenkins) и знание пакета MLib в Spark. Что мы предлагаем: • За разработку комплекта материалов к одной теме: лекция, семинар, тест, ДЗ – 30т.р.-50т.р. • Сумма оплаты возможна и больше, всё зависит от опыта, публикаций и результатов собеседования. • За проведение одного двухчасового занятия – 10т.р.-20т.р. в зависимости от вашего опыта. Ждем тебя в нашей команде, пишите в тг, или сразу кидайте резюме: t.me/KaterinkaGl