Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Anatol Stefanet — Moldavie: L'art du bratsch, Vol. 2 (Buda Records, 1997)
#traditional#balkan#viola#Moldova
Анатол Штефанет — руководитель группы Trigon, композитор, заслуженный артист Республики Молдова, член Союза румынских кинематографистов и арт-директор Этно-джазового фестиваля в Молдове. На этом альбоме Анатола собрана традиционная молдавская музыка. Сам Анатол выступает в роли исполнителя на альте. Альбом входит в серию Musique Du Monde французского лейбла Buda Records.
🔗Spotify | AppleMusic
Balkan Taksim — Disko Telegraf (Buda Musique, 2021)
#taksim#balkan#electronic#psychedelic#Romania
Balkan Taksim — проект Сана-Ливиу Стояновичи, музыканта и коллекционера народной музыки из Бухареста, и Алина Забрэуцяну, известного продюсера электронной музыки. Disko Telegraf — их долгожданный полноформатник. Сана проводил много времени, путешествуя и исследуя музыку и культуру Балкан, собирая мелодии, рассказы и инструменты. Звуки саза, нея и дарбуки наряду с традиционными мелодиями и историями, которые он собрал, использовались в качестве основы для новых композиций. Совместив традиционное наследие со знаниями Алина в области электроники, у Balkan Taksim получилась на редкость удачная ориентальная электронная музыка.
Spotify | AppleMusic
Alexandre Desplat — The Grand Budapest Hotel (ABKCO, 2014)
#baroque#classicism#traditional#balkan#soundtrack#Russia#France
Саундтрек Александра Деспла к фильму Уэса Андерсона «Отель „Гранд Будапешт“», созданному по мотивам рассказов Стефана Цвейга. Помимо того, что он содержит массу отсылок к григорианским хоралам, музыке эпохи борокко и классицизма, в нем очень широко представлена балканская музыка и музыка восточной Европы, а финальную композицию исполняет Оркестр народных инструментов имени Н. П. Осипова. Действие фильма разворачивается в вымышленной восточноевропейской стране Зубровке, в период между двумя мировыми войнами, и представляет собой аллегорию общественной и политической жизни восточной Европы первой половины 20 века. Очевидно, масштаб задумки Андерсона произвел впечатление на Деспла: он проделал титаническую работу для того, чтобы создать свою интерпретацию музыки того времени и тех мест.
Spotify | AppleMusic
Jovan Radivojev — Just Like That: Serbian Gajdaš (Canary Records, 2024)
#traditional#serbian#bagpipe#gadja#balkan#Serbia
В начале XX века, из-за того, что население США на 14% состояло из иммигрантов, крупные американские звукозаписывающие компании, такие как Columbia и Victor, начали выпускать пластинки на иностранных языках. К 1913 году Columbia выпустила тысячи таких записей, зафиксировав таким образом языковое и культурное разнообразие США того времени.
Этот альбом включает композиции с двух редких пластинок сербского народного певца Йована Радивоева, выпущенных Columbia Records в 1913 году. На них Радивоев исполняет традиционные сербские песни под аккомпанемент гайда (гајде) — балканской волынки, традиционного инструмента пастухов и участников обрядов.
Многие подобные записи с сербской народной музыкой утрачены из-за исторических потрясений, произошедших в Европе, включая две мировые войны. Однако эти записи сохранились благодаря тому, что были выпущены в США. Они дают редкое представление о жизни и музыкальной культуре сербских иммигрантов в начале XX века.
🔗Bandcamp
Gypsy Ska Orquesta — Sabarabulé (2020)
#ska#reggae#balkan#cumbia#swing#gypsy#jazz#Venezuela
Gypsy Ska Orquesta родилась на улицах Каракаса, Венесуэла. Музыка группы представляет собой необычное сочетание ска, кумбии, свинга и цыганской музыки Балканского полуострова. Их последний студийный альбом Sabarabulé был записан и спродюсирован Альберто Переса в Барселоне осенью 2019 года. На композиции Mandibuleo отметилась немецкая кларнетистка Фридерика фон Оппельн-Брониковски из группы Herje Mine, исполняющей балканскую музыку.
Spotify | AppleMusic | Bandcamp
Various Artists — Crowing at Night: Macedonian Traditional Dances & Songs from Radio Skopje ca. 1949-50 (Canary Records, 2024)
#traditional#balkan#bulgarian#macedonian#zurla#tapani#North_Macedonia
Этот альбом посвящен македонской традиционной музыке, записанной для Радио Скопье в 1949–1950 годах. В сборнике представлены композиции в стиле македонской городской песни «чалгия» (чалгија), а также записи флейты зурлы и барабана тапани — традиционных инструментов, генетически связанных с османскими зурной и давулом. Записи были сделаны в Скопье, а затем изданы в США благодаря усилиям македонского эмигранта Спирри Бога, основателя лейбла Sperry.
Спирри Бог, урожденный Спиро Богойевич, эмигрировал в США в 1923 году, а в 1950 году во время поездки на родину получил доступ к архиву Радио Скопье. Вернувшись в Детройт, он обработал записи и выпустил их на собственном лейбле Sperry. Записи стали очень популярны среди македонской диаспоры Детроита.
Помимо Спирри Бога, в середине прошлого века изданием македонской музыки занимался нью-йоркский лейбл Newtone. Примерно в то же время, что и Бог, лейбл выпустил несколько записей, сделанных на той же радиостанции в Скопье.
В итоге, в этом сборнике представлено 15 восстановленных композиций, среди которых преимущественно те, которые Спирри Бог вывез из Македонии, а также два трека (14-ый и 15-ый), выпущенных лейблом Newtone. Эти записи дают уникальную возможность взглянуть на музыкальное наследие Македонии в том виде, в котором оно было представлено в середине XX века.
🔗Bandcamp
Olivier Daviaud — Le Chat Du Rabbin (Naive, 2011)
#klezmer#balkan#jew#arab#Algeria#France#Netherlands#Ukraine
Саундтрек к французскому анимационному фильм «Кот раввина» по мотивам комиксов Жоанна Сфара. Действие мультфильма происходит в Алжире, в 1920-е годы. Здесь бок о бок живут мусульмане, евреи и христиане. У раввина есть дочь по имени Злабия, попугай и кот — именно от его лица ведётся рассказ. В какой-то момент кот съедает попугая и начинает говорить, после чего история превращается в затянувшийся спор обо всём на свете: о Боге, о кашруте, о собаках и о месте евреев в колониальной Северной Африке. Вскоре кот просит провести ему бар-мицву. Раввин советуется с коллегой, и вместе они решают, что кот не может быть евреем.
Параллельно из России приходит посылка с книгами. Внутри — живой человек, еврей-беженец, скрывающийся от советских погромов. Он художник и собирается отправиться в Иерусалим через Эфиопию, которую считает родиной «чёрных евреев». Фильм постепенно становится похож на дадаистское роуд-муви — с пустыней, караванами, мифами и разговорами на десятке языков.
Музыку к фильму написал Оливье Даво. Главные темы исполняетAmsterdam Klezmer Band — голландский ансамбль, сочетающий клезмер, балканские ритмы и фанковую подачу. Один из вокалистов, Алек Копыт, родом из Одессы — он поёт на русском, идише и румынском. Из-за этого саундтрек ощущается не как «подкладка под картинку», а как самостоятельный слой — с разными языками, акцентами и ритмами. Музыка не иллюстрирует происходящее, а движется рядом с персонажами — как будто бродит с ними по улицам Алжира, а потом пересекает и пустыню.
🔗Spotify | AppleMusic | YouTube
Petrojvic Blasting Company — A History of Public Relations Dilemmae (Self-released, 2010)
#gypsy#brass#jazz#accordion#balkan#trombone#trumpet#tuba#United_States
Единственный альбом цыганской группы из Лос-Анджелеса, основанной братьями Джастином и Джошем Петройвичами. Музыка группы сочетает в себе элементы традиционного джаза и звуки исторической родины братьев, балканского полуострова. Хотя у Blasting Company есть один альбом с своими песенями, записанный уже десять лет назад, группа исполняет традиционную балканскую музыку и предпочитает живые выступления на свежем воздухе. Petrojvic Blasting Company также принимали участие в написании ряда саундтреков, самый известный из которых — к мультфильму Патрика Макхэйла «По ту сторону изгороди».
🔗Spotify | AppleMusic