Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Яхшилик ва ёмонлик ўртасидаги чегара — бу пишган ғиштдан қурилган девор эмас, балки сувга чизилган чизиқдир.
Биз болаликдан дунёни "оқ ва қора"га ажратишга ўрганганмиз. Эртакларда ҳаммаси оддий: мана бу қаҳрамон, буниси эса ёвуз. Лекин реал ҳаётда бу чегара жуда шартли ва доимий ўзгарувчан.
Тарихга қаранг: кечаги "исёнчи" бугунги "озодлик қаҳрамони"га айланиши, бир маданиятда "уддабуронлик" саналган иш бошқасида "фирибгарлик" деб баҳоланиши мумкин.
Энг хавфлиси — ўзини мутлақ ҳақиқат ва эзгулик эгаси деб билишдир. Чунки энг катта ёмонликлар кўпинча "биз эзгулик томонидамиз" деган қатъий ишонч билан амалга оширилади.
Бу чегара хариталарда эмас, аслида ҳар биримизнинг ичимиздан, виждонимиздан ўтади. Ва биз ҳар куни, ҳар бир қароримизда бу чизиқнинг қайси томонида туришни қайтадан танлашга мажбурмиз.
#mulohaza#hayot
#adabiyot#hayot#sana#Bobur543
Ko‘ngli tilag‘an murodig‘a yetsa kishi,
Yo barcha murodlarni tark etsa kishi,
Bu ikki ish muyassar bo‘lmasa olamda,
Boshin olib bir sorig‘a ketsa kishi.
🗄Farrux Jabborbek
😅
Ba’zan charchaysiz,
lekin to‘xtashga ham haqqingiz yo‘qdek…
Chunki hayot hech kimni kutmaydi.
❌ Shunaqa paytlarda tushunasiz:
sizni hech kim qutqarmaydi —
o‘zingizdan boshqa.
Va rostini aytsam,
eng katta tayanch ham —
o‘zingizsiz. ❤️
#realtalk#hayot#haqiqat
😎@Milliarderlarim
Друзья, у нас очень хорошие новости! 🐾
Вчера к нам всего на один день прилетала Юлия Мане из Brigitte Bardot Foundation.
Мы обсудили наши совместные проекты:
🐾 стерилизацию бездомных животных
🐾 развитие приютов
🐾 лечение животных
🐾 обучение ветеринарных врачей и студентов по европейским технологиям
🐾 развитие нашего проекта Aral Vet Mission
Уже 7 апреля в Узбекистан приедут 4 ветеринарных врача фонда, которые начнут работу по лечению, стерилизации и чипированию наших собачек.
А в августе ожидается приезд большой международной команды ветеринаров для проведения масштабной стерилизации и обучения наших специалистов.
Это очень важный шаг для развития гуманного отношения к животным и внедрения современных ветеринарных практик в нашей стране.
Мы искренне благодарим фонд Brigitte Bardot и лично Юлию Мане за поддержку и сотрудничество. 🤍
Вместе мы можем сделать намного больше для животных. 🐾
#hayot#animalprotection#sterilization#BrigitteBardotFoundation#AralVetMission
Sunʼiy intellekt bizdan koʻp suv "ichib" qoʻyyaptimi?
Bilasizmi? 2025-yilda Sun'iy Intellekt (AI) butun insoniyat bir yilda ichadigan baklashkali suv miqdoridan koʻp suv sarfladi!
Ha, to'g'ri eshitdingiz, taxminan 765 milliard litr suv!
Bu suv data markazlarni sovutish va elektr energiyasi ishlab chiqarishga ketgan. Ya'ni, ChatGPT yoki boshqa AI bilan suhbatlashganingizda, orqada minglab litr suv "ichilayotgan" bo'lishi mumkin.
Butun dunyo bo'ylab biz ichgan suvdan (taxminan 446-468 milliard litr) AI oʼzib ketdi!
Bu raqamlar nufuzli ilmiy tadqiqotdan (Alex de Vries-Gao, Patterns jurnali, 2025-yil dekabr) olingan.
AI bizga qulaylik berayotgan bo'lsa-da, atrof-muhitga ta'siri juda katta. Biz nimani tanlaymiz - cheksiz AI yoki toza suv va sog'lom sayyora?
#DunyoQarash#fakt#ajoyibot#gʻaroyibot#SuniyIntellekt#AI#AtrofMuhit#SuvSarfi#Ekologiya#suv#hayot