Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Пара слов про Индию. Все как у нас. Пошлины, налоги, импорт крайне дорог. Tata Motors - крупнейший производитель (ему принадлежит JLR) - строит легковые, грузовые, строительную технику. Основана в 1945 году (делала локомотивы), с 1954 года - машины, сейчас на 283 месте в мировом Топ-500 компаний.
Сейчас TATA обновила бюджетный PUNCH - 3,827 длина, 1,2 л турбо 118 лс, механика или автомат, монопривод. 2 цифровых монитора, люк, камеры кругового обзора, аудиосистема 8 динамиков и 6 подушек безопасности, климат контроль. Топ версия стоит 11,7 тыс долл или 900 тыс руб.
PUNCH можно сравнить с Granta, (она у нас стоит примерно также), и понять что Granta вообще выглядит неплохо.
Granta - 👍
TATA - 👌
Одно и тоже - 🤝
#tata
Сегодня ночью, во время патрулирования Деснянского района, водитель полицейского автомобиля #Toyota допустил столкновение с припаркованным эвакуатором #TATA на улице Бальзака, 61.
Оба полицейские получили травмы и были госпитализированы в больницу.
Причины аварии выясняются.
Фото: Светлана
АВТОВАЗ хочет разработать турбомотор и "автомат" вместе с индийскими компаниям
Волжский автогигант заинтересован в совместной разработке автомобильных технологий с индийскими партнерами, включая создание новой платформы и развитие гибридных решений. Об этом сообщил вице-президент АВТОВАЗа Сергей Громак, пишет РИА Новости.
По словам Громака, российский автопроизводитель видит перспективы в совместной работе с индийскими инжиниринговыми центрами над новыми платформами, гибридными силовыми установками, а также над развитием автоматических трансмиссий и турбированных двигателей.
Вице-президент также отметил интерес АВТОВАЗа к промышленным роботам, 3D-принтерам, штамповой оснастке и пресс-формам индийского производства. Речь идет как о поставках оборудования, так и о возможной локализации его производства в России.
Источник: rg.ru/2025/12/05/avtovaz-hochet-razrabotat-turbomotor-i-akp-vmeste-s-indijskimi-kompaniiam.html
#RCINews#АВТОВАЗ#Лада#LADA#Tata#Mahindra
Tata to pay $2.4 billion for troubled Air India
Tata will take charge of Air India after a winning bid of $2.4 billion, including equity and debt, the Indian government said, marking the end of years of struggle to privatize the financially troubled airline.
#Tata#AirIndia#TataAirIndiaBid#India#News#Reuters
Subscribe: http://smarturl.it/reuterssubscribe
Reuters brings you the latest business, finance and breaking news video from around the globe. Our reputation for accuracy and impartiality is unparalleled.
Get the latest news on: http://reuters.com/
Follow Reuters on Facebook: https://www.facebook.com/Reuters
Follow Reuters on Twitter: https://twitter.com/Reuters
Follow Reuters on Instagram: https://www.instagram.com/reuters/?hl=en
➖@reutersworldchannel➖