Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
📍INDALU GAME RESERVE
Активности: прогулка и общение со слонами, сафари, проживание. Здесь нет хищников, но все равно интересно. Подробности и цены на сайте.
#активности#mosselbay#дорогасадов#gardenroute
📍ФЕРМА Wilgewandel.
Список активностей довольно обширный: прогулка на верблюдах, зиплайн, паровозик, водяные горки, контактный зоопарк, картинг, минигольф, прогулка в повозке с осликами, тир, педальные машинки, батут, лодки, хайкинг.
В общем, воображение наше разыгралось. По факту территория фермы небольшая и все довольно скромное, в фермерском стиле. Моим 9 и 13-леткам было интересно. 19-летке уже нет. Хотя, я видела и взрослых на активностях. Так что, как говорится, depends.
Подробности и локацию можно посмотреть на их сайте.
Фото и видео чтобы вы прониклись атмосферой 😃. Стейк, кстати, страусиный. От мяса я не в восторге - жесткое и волокнистое. Но потребность по белку на сегодня закрыла 👌
#gardenroute#дорогасадов#mosselbay#активности
On 8 December, at the event “South Africa: New Horizons for Tourism and Business,” the Yekaterinburg-based travel company Neo Tours will present South Africa as a promising destination for travelers. 🌍✈️
The company’s founder, Marina Ledenyova (pictured), has recently returned from an extensive grand tour across South Africa.
The Office of the Honorary Consul met with Marina to discuss the content of her upcoming presentation for the 8 December event. 🤝🇿🇦
📹 The video shows Marina’s favorite beach in the town of Mossel Bay — we will share more about it in an upcoming post!
#SouthAfrica#Tourism#Travel#NeoTours#Yekaterinburg#BusinessAndTourism#MosselBay#ExploreSA
Mossel Bay — a vibrant coastal town on South Africa’s Garden Route, located about 400 km east of Cape Town — is a compact adventure hub offering everything from relaxed sunset walks to high-adrenaline ocean thrills. 🌊🦈✨
Here are the top things to do in Mossel Bay:
1. Speed Boat & Tubing — Perfect for adrenaline lovers. Ride the waves on a tube or speed boat and feel the ocean power beneath you. 🚤
2. Surfing at Santos Beach — Learn the basics and catch your first waves at one of the area’s most iconic beaches. 🏄♂️
3. Skydiving / Tandem Skydiving — Experience a 10,000-ft free fall with breathtaking views of beaches and valleys. 🪂
4. Sandboarding — Glide down coastal dunes or join a 4x4 dune trip designed for thrill-seekers. 🏜
5. Pinnacle Point Golf — An 18-hole championship course overlooking the Indian Ocean. A paradise for golfers. ⛳️
6. Shark Cage Diving — Get up close with the legendary Great White Shark — safely, of course! 🦈
7. Dias Museum Complex — The second-largest provincial museum, dedicated to the history of exploration and the journey of Bartolomeu Dias. 🏛️
📹 Video: https://www.youtube.com/watch?v=HwlsknWmdfM
#SouthAfrica#GardenRoute#MosselBay#TravelSouthAfrica#AdventureTravel#BeachHoliday#ExploreSA