Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
#TakeResponsibility
If you observe any of these signs and symptoms, visit a healthcare facility for an accurate diagnosis and treatment.
Ensure you take extra precautionary measures while visiting to prevent the risk of spread.
Fake news can cause unnecessary anxiety and panic. PAUSE, and verify before you share!
Citizens are urged to take the recommended actions required to protect their families, friends, and selves.
🔗
https://ncdc.gov.ng/news/493/official-statement-on-the-new-covid-19-subvariants
#TakeResponsibility
Seek the advice of a qualified healthcare professional when you feel sick.
Self-medication can be harmful.
#TakeResponsibility by using antimicrobials appropriately
Seek the advice of a qualified healthcare professional when you feel sick.
Self-medication can be harmful.
#TakeResponsibility by using antimicrobials appropriately
Meningitis can affect any age group but is more common in children and young adults.
Visit a health center facility for immediate attention if you observe any of the below symptoms.
#TakeResponsibility to stay safe
Drugs save lives, however, they can harm when not taken properly.
Using drugs “anyhow” makes the treatment of infections more difficult.
Visit a healthcare professional when sick for accurate diagnosis and treatment.
Do not self-medicate!
#TakeResponsibility
Parents & caregivers should ensure that their children/wards receive the anti-diphtheria vaccine as recommended in the NPHCDA childhood immunisation schedule.
Visit a primary health care centre close to you to get the vaccine.
#TakeResponsibility
Parents & caregivers should ensure that their children are fully vaccinated against diphtheria with three (3) doses of the pentavalent vaccine as recommended in the childhood immunisation schedule.
#TakeResponsibility to protect yourself & loved ones
🔗
https://ncdc.gov.ng/news/435/diphtheria-public-health-advisory-amidst-outbreak-in-nigeria
The elderly, immunocompromised and those with existing health concerns are advised to:
➡️Wear face masks in outdoor spaces
➡️Wash hands regularly with clean water and soap
➡️Use hand sanitisers
➡️Avoid large gatherings
#TakeResponsibility to stay safe and healthy.
A clean environment and proper hygiene limit the spread of infectious diseases.
Clean all surfaces frequently and do not share personal items.
#TakeResponsibility to protect yourself and your loved ones.
To protect yourself and loved ones from Ebola virus disease, #TakeResponsibility:
✅Wash your hands using soap and running water
⛔Avoid direct handling of dead bats, monkeys etc
⛔Avoid physical contact with anyone with undiagnosed symptoms
📜Advisory
https://ncdc.gov.ng/news/423/public-health-advisory-following-declaration-of-ebola-virus-disease-outbreak-in-uganda
ДжоПи:
Как найти вопрос, на который не знаешь ответа?
Это как найти шапку, которую уже надел,
Но забыл об этом.
Как пристроить ответ, на который не задан вопрос?
(У меня их столько за жизнь заготовлено.)
Как снежков налепить в одиночку,
а не в кого бросить.
Вот прибрался в комнате,
и день прошёл.
А план не изменился.
#bitnev#стихи#takeresponsibility