Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
#NayibBukele Como el primer presidente en apoyar oficialmente el uso del Bitcoin como moneda de curso legal en El Salvador, Bukele demuestra su compromiso con un futuro innovador y financiero.
t.ly/rj5u
✅ Comparte
✅ Deja tu Like
✅ Comenta
ElSlv.com🇸🇻
#NayibBukele | We are buying one #Bitcoin every day starting tomorrow. // Estamos comprando un #Bitcoin todos los días a partir de mañana. #₿xday
#ElSalvador🇸🇻 | ⚡️t.ly/Rux7
#ElMilagroBukele | La impresionante historia de Nayib Bukele, el presidente que rescató a El Salvador. El éxito de su guerra contra la criminalidad y los choques con Gustavo Petro han logrado captar la atención de los colombianos. https://bit.ly/3JypeCs
#ElSalvador#NayibBukele
👀 ¡Turistas ven cocodrilos en #ElSalvador!
Pero no te preocupes, nuestra seguridad es excelente. Podrás disfrutar de la belleza natural de nuestro país con tranquilidad. 🐊💪#TurismoSeguro#NayibBukele🌴
¡Visítanos sin preocupaciones! 🛫
ElSlv.com🇸🇻❤️
😂¡Ahí no más para que se enojen los prianistas!
‼️La presidenta #ClaudiaSheinbaum es la jefa de Estado mejor evaluada de Latinoamérica, al tener 72.3 por ciento de aprobación, por encima de personajes como #NayibBukele, #JavierMilei y otros.
#MañaneraDelPueblo
Quiero agradecerle al excelentísimo señor Presidente #NayibBukele por hacer este Hospital El Salvador, estamos muy agradecidos como familia López, le extendemos este gran agradecimiento", manifestó Rubidia Villanueva, familiar de un paciente recuperado.
#HospitalElSalvador | #Compartir
Doña Marina Gutiérrez, residente en el cantón Potrero Grande, agradeció al Presidente #NayibBukele por enviar la ayuda alimentaria hasta su casa en el municipio de El Paisnal.
#PaquetesAlimentarios | #Compartir
⚡️ Valiente ALCALDESA de #QUITO ECUADOR, visita a #ELSALVADOR, para emular todos los programas EXITOSOS de #NAYIBBUKELE.
👉t.ly/gXsa
#QuieroElSalvador🚀💯
#Humor | Mientras tanto, #NayibBukele explicando como debe implementar el #RegimendeExcepcion en Honduras, la presidente 𝗫𝗶𝗼𝗺𝗮𝗿𝗮. 😜
#Compartir🇸🇻 | ⚡️t.ly/Rux7
#ElSalvadorReVive | María es una de los miles de personas dañadas por el accionar de las #pandillas, ahora destaca las estrategias de seguridad implementadas por #NayibBukele, la población agradece el ambiente de seguridad y el cambio histórico que atraviesa la nación.
#PandillasNuncaMás🇸🇻👊
Bitcoin Update and TikTok Acquisition Bid
Bitcoin price hits $87,000.
50 million USDC minted. 🪙
El Salvador President Nayib Bukele confirms continued Bitcoin purchases. 🇸🇻
Reddit co-founder Alexis Ohanian joins bid for TikTok U.S., promoting user data ownership through blockchain integration with Project Liberty.
For more details, visit the whale alert transaction and the Reuters article
#Bitcoin#USDC#ElSalvador#NayibBukele#TikTok#AlexisOhanian#Blockchain#DataOwnership#ProjectLiberty#Transparency#Accountability#Crypto#VC