Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Sirojiddin Juraev — Sirojiddin Juraev (Self-released, 2017)
#dutar#setar#shashmaqom#Tajikistan
Сироджиддин Джураев — композитор и аранжировщик из Таджикистана, создавший множество виртуозных произведений для дутара, танбура и сато. Этот альбом, записанный при поддержке фондаКарима Ага-хана, лидера мусульман-исмаилитов, включает как собственные произведения Джураева, так и классические турецко-арабо-персидские композиции. Сироджиддин исполняет произведения сольно, а также в сопровождении Аббосома Косимова (ударные) и Мукстора Мубораккадамова (сетар). Музыкант демонстрирует великолепное владение дутаром. Несмотря на то, что у инструмента всего две струны, Джураеву удается извлекать из него далеко не тривиальные мелодии и звуки.
Spotify | AppleMusic | VK
The Ensemble Of Rahim Takhari — Shirin Dahani / Sweet Lips: Music of North Afghanistan (Pan Records, 1996)
#traditional#rubab#dhol#zerbaghali#ghaychak#dutar#dambura#Afghanistan
«Shirin Dahani», что значит «сладкоголосие», — редкая запись, посвященная музыкальным традициям севера Афганистана. Там эта страна граничит с Таджикистаном и Узбекистаном, поэтому в музыке можно услышать влияние фольклорных традиций этих стран, а персидский элемент представлен ярче, чем на юге. Музыку на этом альбоме исполняет ансамбль Рахима Тахари, певца, исполнителя на дутаре и гайчаке. В его ансамбле также есть рубаб, дамбура, зербагали и дол. Исполнитель на рубабе, кстати, учился у знаменитого Устада Мохаммада Омара. Все песни исполнены на языке дари. Некоторые из них являются положенными на музыку газелями и рубаями, а некоторые — народными произведениями. Часть инструментальных композиций позаимствована из узбекских и пуштунских песен.
Spotify | AppleMusic | Soundcloud
Various Artists — In the Footsteps of Babur: Musical Encounters from the Lands of the Mughals (Smithsonian Folkways, 2010)
#traditional#dutar#setar#tabla#rubab#santur#Afghanistan#India#Tajikistan
«В месяц Рамадан 899 года и на двенадцатом году жизни я стал правителем в стране Ферганской», — так начинается автобиография Захируддина Мухаммада Бабура, основателя Империи Великих Моголов. Благодаря Smithsonian Folkways Recordings и благотворительной организацииКарима Ага Хана, лидера мусульман-исмаилитов, пять музыкантов из Центральной Азии, Афганистана и Северной Индии собрались вместе и записали совместный альбом, демонстрирующий музыкальное разнообразие территорий, которые некогда называлась Империей Великих Моголов. В число музыкантов входят исполнитель на индийском сантуреРахул Шарма, исполнитель на афганском рубабеХомаюн Сахи, афганско-американский виртуоз таблаСалар Надер, бадахшанский сетарист Мухтор Мубораккадомов и мастер дутараСирожиддин Джураев.
Spotify | AppleMusic
Abduvali Abdurashidov — Tadjikistan: Chants Et Musiques Classiques (Ocora, 2013)
#shashmaqom#maqam#sato#tanbur#dutar#dayere#Tajikistan
Абдували Абдурашидов — один из ведущих исполнителей и исследователей шашмакома. Шашмаком — это разновидность арабского макама, зародившаяся в Центральной Азии и получившая развитие на территории современных Таджикистана и Узбекистана.
Абдували учился игре на сато у известного узбекского мастера Тургунбая Алиматова и играет ключевую роль в современном возрождении шашмакома в Таджикистане. Абдували также является художественным руководителем Академии Макама в Душанбе, которую он основал в 2003 году при поддержке Музыкальной инициативы Ага Хана, лидера мусульман-исмаилитов.
Этот релиз был записан на французском лейбле Ocora, специализирующемся на традиционной музыке. Здесь сам Абдували играет на танбуре и сато. На дутаре ему подыгрывает другой таджикский мастер, Сирожиддин Джураев. За ритм на бубне дойра отвечает Бехруз Наим, а вокальные партии исполняет Озода Ашурова.
🔗Spotify | AppleMusic | VK
Embryo — Reise (Schneeball, 1979)
#traditional#field_recording#jazz#rock#hindustani#rubab#dilruba#kanjira#dutar#tabla#ghatam#dholak#thavil#Afghanistan#Pakistan#India
Во второй половине 70-х Кристиан Берчард решил прокатиться по «тропе хиппи» и пригласил свою группу Embryo составить ему компанию. Вместе они проехали через Ближний Восток, Афганистан, Пакистан и Индию, импровизируя по пути с профессиональными и уличными музыкантами. Из записей этих импровизаций и получился альбом «Reise», что значит «путешествие». Некоторые композиции сочетают в себе традиционную музыку с прогрессивным роком («Kurdistan») или даже с панком («Es Ist, Wie's Ist»), в то время как другие полностью традиционные («Chan Delawar Khan»). На альбоме отметилось множество выдающихся музыкантов. Среди них — виртуоз игры на афганском рубабе Мухаммад Омар, афганский исполнитель на саринде Мачин Абдул Рашид, перкуссионист Т. А. С. Мани и певица Рамамани из Бангалора, перкуссионист Рамеш Шотам из Южной Индии и многие другие.
Spotify | AppleMusic | VK