Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
विकास पथ को गति दे रहे भारत के राष्ट्रीय राजमार्ग।। 🛣️
भारत के सड़क नेटवर्क के विस्तार के साथ-साथ प्रगति की यात्रा का गवाह बनें। यह परिवर्तन वास्तव में #NewIndia की गति और विकास का प्रमाण है।
#InfrastructureDevelopment
#Highway
Experience high-speed connectivity for industrial centres with the Nashik Phata – Khed Corridor!
Enhancing travel between Pune and Nashik along NH-60, this corridor reduces congestion around Pimpri-Chinchwad, fostering industrial growth and smoother transportation.
#InfrastructureDevelopment#NewIndia
#TransformingIndia
Guwahati's connectivity gets a major boost with the new Northern Guwahati Bypass!
Upgrading the existing bypass and constructing a major bridge over the Brahmaputra, this project will significantly improve travel efficiency and support regional development.
#InfrastructureDevelopment#NewIndia
#TransformingIndia
The Kanpur Ring Road project will complete the 6-lane National Highway Ring around Kanpur!
Enhancing traffic flow and reducing congestion, this project is set to transform Kanpur’s connectivity, making travel within the city and to other regions smoother and faster.
#InfrastructureDevelopment#NewIndia
#TransformingIndia
Boost industrial connectivity with the Pathalgaon & Gumla sections of the Raipur-Ranchi National High-Speed Corridor!
Linking mining areas in Gumla, Lohardaga, Raigarh, Korba, and Dhanbad to industrial zones in Raipur, Durg, Bilaspur, and Bokaro, this project promotes faster, efficient transportation.
#InfrastructureDevelopment#NewIndia
#TransformingIndia
Pilgrims can now reach Ram Mandir via the Ayodhya Ring Road!
This project facilitates quicker movement for devotees visiting the sacred site, enhancing the spiritual journey and supporting regional tourism and infrastructure development.
#InfrastructureDevelopment#NewIndia
#TransformingIndia
Ensure smooth freight movement with the Tharad – Deesa – Mehsana – Ahmedabad National High-Speed Corridor!
This corridor links industrial regions in Punjab, Haryana, and Rajasthan to major ports in Maharashtra, enhancing logistics efficiency and boosting industrial growth.
#InfrastructureDevelopment#NewIndia
#TransformingIndia
Unlock the North East with the Kharagpur-Moregram National High-Speed Corridor!
Connecting West Bengal, Odisha, and Andhra Pradesh to the North-East, this project will increase traffic capacity by over 5 times, promoting regional development and improving travel efficiency across these states.
#InfrastructureDevelopment#NewIndia
#TransformingIndia
Travel faster to iconic landmarks with the Agra-Gwalior National High-Speed Corridor!
Enhancing connectivity to tourist hotspots like Taj Mahal, Agra Fort, and Gwalior Fort, this corridor will double traffic capacity and cut travel time by 50%.
#InfrastructureDevelopment#NewIndia
#TransformingIndia
Experience seamless travel with 8 national high-speed road corridors spanning 936 km!
With an investment of Rs 50,655 crore, these corridors are set to revolutionize connectivity and boost economic growth across India.
#InfrastructureDevelopment#NewIndia
#TransformingIndia
India's National Highways - From Roadblocks To Road Wonders!
Witness the wide ride of progress as India's road network expands, solidifying its position as one of the largest in the world. This transformation is truly a testament to #NewIndia's growth and development.
#InfrastructureDevelopment
#Highway