Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
📆 10 вересня 2019 року на площі перед будівлею Державної ради Удмуртської республіки акт самоспалення свідомо здійснив відомий у фіно-угорському світі науковець і громадський діяч Альбєрт Разін. Це був не розпач, не відчай, але спланований протест проти ґеноциду корінного народу зі сторони окупаційного режиму Москви.
✊ Альбєрт Разін був одним із тих, хто усвідомлював весь тягар сучасного становища не тільки удмуртів, а й інших фіно-угрів. Він залишився єдиним, хто не зміг промовчати й не захотів здаватися.
🕯 Альбєрт Разін, власне, завжди відчував біль і розпач одноплемінників й до останнього намагався допомогти своєму народові як справжній патріот. Його вогняна офіра не марна. Вічна пам'ять та слава!
#FinnoUgric#ФинноУграньЮропт#ФіноУгри
⌛ 2019 кизоня тюжяковть 10-це шистонза Удмуртонь элькунань Кирдемастор оцю пуромксонь кутть ваксса Альберт Разин кървястезе эсь прянц. Сон тянь тиезе сянкса, мес сонь ломаньтналонц, илякс — масторонь юрэряйхнень, тапазь тя модати саф лиятне. Конат састь синь кяльснон-вийснон машфтома.
💪 Альберт Разин ульсь фкясь сятнень эзда, конац шарьхкодезе юмамань-арамань сталмоть аф аньцек эсь удмуртонь тъналса, кода стане эди илядыкс суоми-угрань тъналхненге эса. Сон ульсь ськамонза, конанцты ашезь кирдев азомс вал тя лажнамать инкса. Конанц ашель мялец максомс пряшавфтомс.
🪔 Альберт Разин фалу марязе ломаньтналхнень седибичефксснон эди кирнесь мяльхть лездомс эсь тналонцты аф юмамс, ульсь сонь кельгиец-ванфтыец. Толса пряпълхтамац ашезь ту стактевонди. Улеза теенза пефтомлятфнема эди иневалда!
✨Марийцы отмечают праздник Шорыкйол🐑
2 января началась неделя традиционного марийского праздника Шорыкйол. Главное же республиканское народное гулянье пройдет в столице Марий Эл 7 января. Организатором мероприятия выступает региональный центр марийской культуры.
📜Программа и место проведения
Праздничные мероприятия начнутся в 11:00 на территории общественного пространства Марий парк (Ленинский проспект, д. 15). Программа включает:
• костюмированный парад творческих коллективов;
• театрализованную постановку, посвященную традициям праздника;
• выступления фольклорных ансамблей;
• работу игровых и спортивных площадок, таких как Модыш алан («Игровая поляна»), Шӱшканъече («Лыжи-самоходы») и другие;
• традиционные обрядовые действия и гадания – Лум каван («Снежный стог»), Шорыкйол капка» («Ворота Шорыкйол»).
🎯Цели мероприятия
Основными задачами праздника являются сохранение и популяризация национальной культуры народа мари, развитие народных традиций, а также приобщение детей и молодежи к изучению фольклора, сообщил Республиканский центр марийской культуры 🎭.
#ЙошкарОла#МарийЭл#марийцы#финноугры#Шорыкйол#YoshkarOla#MariEl#MariPeople#FinnoUgric#Shorykyol
🌐Доступен каталог марийской традиционной вышивки📖
В 2023 году увидел свет каталог «Марийская традиционная вышивка в этнографическом наследии Т. Е. Евсеева». Это издание впервые представляет в целостном виде музейную коллекцию, собранную известным этнографом и краеведом Тимофеем Евсеевым в 1920-х годах.
✍️ Каталог систематизирует образцы традиционной вышивки луговых мари, а также включает рукописи самого Евсеева с описанием орнаментов и этнографические рисунки Михаила Хохлова. Все эти материалы хранятся в фонде Национального музея Республики Марий Эл имени Т. Евсеева.
Издание было подготовлено в рамках проекта «Молодежная этно-лаборатория» при грантовой поддержке Всероссийского конкурса молодежных проектов 2022 года. Его автор-составитель — кандидат исторических наук Надежда Васканова.
🏛 Каталог будет полезен музейным работникам, историкам, этнологам, мастерам декоративно-прикладного искусства, краеведам, а также всем, кто интересуется историей и культурой марийского народа.
#МарийскаяВышивка#этнография#МарийЭл#марийцы#ТимофейЕвсеев#КультураМари#МарийТӱр#ТрадиционнаяВышивка#каталог#финноугры#MariEmbroidery#Ethnography#MariEl#MariPeople#TimofeyEvseev#MariCulture#MariTyr#TraditionalEmbroidery#Catalog#FinnoUgric