Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Ростелеком планирует выплатить дивиденды за 2025 год — глава компании Михаил Осеевский#RTKM
"В том размере, в каком будет принято решение. Ничего не скажу. Зачем загадывать", — сказал Осеевский.
Читать далее
👉https://smartlab.news/i/183835
мы в max
Ростелеком МСФО за 2025 год
♦️Выручка достигла 872,8 млрд руб. (+12% г/г),
♦️OIBDA — 331 млрд руб. (+9%).
♦️Чистая прибыль сократилась до 18,7 млрд руб. против 24,1 млрд годом ранее. В IV квартале падение прибыли оказалось резким — до 0,2 млрд руб. (–95,7% г/г) на фоне высокой ставки.
♦️FCF за год составил 37,8 млрд руб.,
♦️Долговая нагрузка — 2,1х по Чистый долг/OIBDA.
♦️Прогноз на 2026 год менеджмент не даёт.
#RTKM
Сайт | Бот | Invest Era
Ростелеком РСБУ 1 кв. 2026 г.:
📈 выручка ₽114,80 млрд (+5,7% г/г)
📉 чистый убыток ₽7,70 млрд (против убытка 4,40 млрд годом ранее) #RTKM
Читать далее
👉https://smartlab.news/i/188304
мы в max
Ростелеком РСБУ 2025 год:
📈Выручка ₽499,5 млрд (+10,9% г/г)
📉Прибыль ₽12,02 млрд (снижение в 4,5 раза г/г)
#RTKM
Читать далее
👉https://smartlab.news/i/179794
мы в max
#rtkm
Сегодня наблюдаем попытку закрепления выше верха клина.
При удачном закреплении быстро достигнем низа канала 58 - ключевое сопротивление, закрепление над которым станет сигналом на открытия лонга
Цель после открытия лонга - 62 (зеркальный уровень сопротивления).
Не иир
💬МЫ в МАХ (Канал Инвестиции Волжанина - лично мой канал, аналог текущего канала)
☝️Переходим и подписываемся
📱#rtkm
Всем доброго дня!!!!🤝🤝🤝
Начинаю сразу с идеи!
После импульса роста декабря, котировки Ростелеком ушли в боковик (консолидацию), выход из которого будет в сторону импульса, то есть вверх.
А пока он в боковике, можно внутри формации отработать уровни: лонг от красной трендовой 62.54.
✅Целевая отметка - 65 (верх боковика)
🔻Стоп-лосс - 61.4
Не иир