Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
#Advert
My online marketing "secret weapon"
Hi there,
I just wanted to shoot you a quick update about a killer
tracking and optimization platform called ClickMagick:
https://clickmagick.com/go/Tajedo
It helps you to scientifically track and optimize all
your ads and promotions, all in one place ...
... and get more leads,conversions and revenues from
the same traffic you're already getting.
There's nothing else like this out there. Check out the
free trial and let me know what you think:
https://clickmagick.com/go/Tajedo
You can Read our Affiliate Disclosure.
#Advert
Software as a Service (SAAS) tool for business owner & Marketers
GrowMeOrganic
GrowMeOrganic is an all-in-one sales automation platform that helps you find verified business emails of your potential clients and send email sequences with automated email follow-ups.
Features:
✅ Extract unlimited emails from LinkedIn search results and export them in form of CSV
✅ Get access to 15 Million B2B company databases across the world which you can filter by a specific Industry and Country
✅ Find contact details of all the employees from any company
✅ Extract contact details of the local business list on google my business
✅ Send unlimited cold emails with automated follow-ups.
✅ Use our email warm-up system to avoid landing your emails in spam
Try GrowMeOrganic
#Advert
Business owners, product creators, service providers, coaches, retailers, ecommerce site managers, virtual assistants...
No matter who you are, if you're selling an offer online, you need a high-converting sales page.
And our brandable course, How to Create Sales Pages that Convert, walks through each essential step needed to put together a sales page that converts visitors to paying customers.
The package is one of our full Blaze course kits so it includes a Course Book, Action Guide, Cheat Sheet, Slideshow, Lead Magnet, Follow-Up Emails, Blog Posts, and more.
What's the weekend special?
Course: How to Create Sales Pages that Convert
Dates: Friday, October 14th to Monday, October 17th
Discount: 50% Off
NEW Upgrade Pack: Quizzes and Sale Copy
Upgrade Bonus: Social Media Images
#Advert
My online marketing "secret weapon"
Hi there,
I just wanted to shoot you a quick update about a killer
tracking and optimization platform called ClickMagick:
https://clickmagick.com/go/Tajedo
It helps you to scientifically track and optimize all
your ads and promotions, all in one place ...
... and get more leads,conversions and revenues from
the same traffic you're already getting.
There's nothing else like this out there. Check out the
free trial and let me know what you think:
https://clickmagick.com/go/Tajedo
You can Read our Affiliate Disclosure.
#Advert
#photoediting#graphicdesign
Even if you don’t know Photoshop, you can work on pictures with great design.
With the help of thousands of design templates on this site,
you can easily create booklets, logos, promotional images, packaging, presentations, promotional images, invitations, infographics and...
many other types of design images.
LINK 👉Canva