Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🌍 One of the youngest islands on Earth, Hunga Tonga-Hunga Haʻapai, formed in 2015 after an undersea volcanic eruption. New land like this is rare and offers scientists a natural laboratory. ✨
#islands⚡#volcanoes⚡#geography⚡#nature⚡#earth
👉subscribe Amazing Geography
👉more Channels
🌎 The maleo bird of Sulawesi uses volcanic heat to hatch its eggs! It buries them in warm sand or soil, letting Earth's warmth do the work, and the chicks dig themselves out and run off ready to face the world—a rare strategy among birds. ✨
#volcanoes⚡#birds⚡#adaptation
👉subscribe Interesting Planet
🌎 Towering above Tanzania, Mount Kilimanjaro is the world’s tallest free-standing mountain. Unlike mountain ranges, it rises alone from the plains, formed by ancient volcanic eruptions. Its snowy peak is a surprising sight just south of the equator. ✨
#geology⚡#volcanoes⚡#Africa
👉subscribe Interesting Planet
🌎 Rising from an ancient volcanic crater, Aogashima is a remote Japanese island village with about 170 residents. The island’s school has fewer than 10 students, and access is by boat or helicopter due to rough seas and no airport. ✨
#geography⚡#settlements⚡#volcanoes
👉subscribe Interesting Planet
👉more Channels
🌍 Mount Etna in Italy is one of the world’s most active volcanoes, but it’s also growing taller each year as repeated eruptions pile new layers of lava onto its summit. ✨
#mountains⚡#volcanoes⚡#geology⚡#geography⚡#nature⚡#earth
👉subscribe Amazing Geography
👉more Channels
🌎 Layers of volcanic ash preserved in sediments create natural records of Earth's explosive history. By analyzing ash layers, scientists can pinpoint ancient eruptions and trace how ash traveled across continents. Some distant ash deposits reveal supervolcano eruptions that spread material for thousands of kilometers. ✨
#volcanoes⚡#geology⚡#sediments
👉subscribe Interesting Planet
👉more Channels
🌎 At the heart of Africa, Lake Nyos hides a deadly secret—an underwater layer of carbon dioxide gas that once erupted, suffocating everything nearby in 1986. This rare “limnic eruption” happens when gas builds up at depth and suddenly bursts to the surface, releasing an invisible, odorless cloud with devastating effects. ✨
#volcanoes⚡#disasters⚡#geology
👉subscribe Interesting Planet
🌍 Earth’s mountain-building processes are still active—over 80% of volcanoes erupt near tectonic plate boundaries, constantly creating new land and even islands in the world’s oceans. ✨
#geology⚡#volcanoes⚡#oceans⚡#geography⚡#nature⚡#earth
👉subscribe Amazing Geography
👉more Channels
🌎 Around 252 million years ago, the Permian-Triassic extinction wiped out about 90% of marine species and 70% of land vertebrates. Massive volcanic eruptions in Siberia released greenhouse gases that drove rapid global warming, ocean acidification, and low oxygen levels—making it the largest extinction event in Earth's history. ✨
#extinction⚡#volcanoes⚡#paleoclimate
👉subscribe Interesting Planet
👉more Channels
🌎 In northeast Azerbaijan, the Gobustan Mud Volcanoes regularly erupt with cool, viscous mud instead of lava. These eruptions can blast columns up to 200 meters high. About half of the world’s estimated 1,000 mud volcanoes are concentrated in this region, producing unique surface features and even spontaneous flames when natural gas ignites. ✨
#Azerbaijan⚡#volcanoes⚡#geology
👉subscribe Interesting Planet
👉more Channels
🌍 The ring-shaped chain of volcanoes called the "Ring of Fire" circles the Pacific Ocean, hosting about 75% of all active volcanoes on Earth and causing frequent earthquakes and eruptions. ✨
#volcanoes⚡#mountains⚡#tectonics⚡#geography⚡#nature⚡#earth
👉subscribe Amazing Geography
👉more Channels
🌍 Mount Erebus in Antarctica is one of the world’s southernmost active volcanoes. Its lava lake stays liquid year-round, despite harsh temperatures that often plunge far below freezing. ✨
#volcanoes⚡#Antarctica⚡#mountains⚡#geography⚡#nature⚡#earth
👉subscribe Amazing Geography🌍