TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 16 слични објави

Пребарај: #sangiuliano

当前筛选 #sangiuliano清除筛选
Ultimora.net - POLITICS

@ULTIMORAPOLITICS · Post #45147 · 29.10.2024 г., 17:04

❗️Caso Boccia, il Senato nega l'acquisizione delle chat del ministro #Sangiuliano, richiesta dal Tribunale dei Ministri. Il centrosinistra vota contro il parere della giunta @UltimoraPolitics

Hashtags

Ultimora.net - POLITICS

@ULTIMORAPOLITICS · Post #45051 · 06.09.2024 г., 14:58

ANSA - Il ministro della Cultura Gennaro #Sangiuliano sarebbe atteso a Palazzo Chigi in giornata. In ambienti della maggioranza stanno circolando voci di sue dimissioni. @UltimoraPolitics

Hashtags

Ultimora.net - POLITICS

@ULTIMORAPOLITICS · Post #45046 · 04.09.2024 г., 17:33

Maria Rosaria Boccia, atteso per questa sera un intervento del Ministro della Cultura Gennaro #Sangiuliano durante l’edizione delle 20:00 del Tg1 (Il Messaggero) @UltimoraPolitics

Hashtags

Ultimora.net - POLITICS

@ULTIMORAPOLITICS · Post #44416 · 02.12.2023 г., 20:13

I vertici della Gliptoteca di Monaco di Baviera chiedono di riavere il Discobolo Lancellotti. L'opera, conservata nel Museo Nazionale Romano, era stata venduta alla Germania nazista nel 1938 per volere di Benito Mussolini, per poi tornare in Italia nel 1948. Il ministro Gennaro #Sangiuliano: "Devono passare sul mio cadavere. L'opera deve assolutamente restare in Italia perché è patrimonio della Nazione" @UltimoraPolitics

Hashtags

Ultimora.net - POLITICS

@ULTIMORAPOLITICS · Post #43968 · 11.08.2023 г., 13:40

Incontro Musk-Zuckerberg in Italia, il ministro della Cultura Gennaro #Sangiuliano: "Grande evento di rievocazione storica. Non si terrà a Roma. Ci sarà una ingente donazione a due importanti ospedali pediatrici italiani" @UltimoraPolitics

Hashtags

Ultimora.net - POLITICS

@ULTIMORAPOLITICS · Post #43967 · 11.08.2023 г., 11:57

Elon Musk ha annunciato che il combattimento tra lui e Mark Zuckerberg si terrà a Roma, in una "location unica" concordata con #Meloni e #Sangiuliano Il magnate assicura: “Sarà un tributo al presente e al passato dell’Italia”. @UltimoraPolitics

Ultimora.net - POLITICS

@ULTIMORAPOLITICS · Post #44276 · 31.10.2023 г., 14:46

Caso Vittorio #Sgarbi, l’antitrust avvia un’istruttoria a seguito di una segnalazione trasmessale dal Ministro della Cultura, Gennaro #Sangiuliano, per possibili condotte illecite legate ad attività incompatibili con la titolarità di una carica di governo. @UltimoraPolitics

Ultimora.net - POLITICS

@ULTIMORAPOLITICS · Post #45059 · 10.09.2024 г., 05:05

L'ex ministro della Cultura Gennaro #Sangiuliano è indagato dalla Procura di Roma per peculato e rivelazione e diffusione di segreto d'ufficio, in relazione al coinvolgimento di Maria Rosaria #Boccia in attività istituzionali senza che lei ne avesse titolo @UltimoraPolitics

12
ПретходнаСтраница 1 од 2Следна