TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 4 слични објави

Пребарај: #lunesenmedium

当前筛选 #lunesenmedium清除筛选
El friki de los libros

@AxiomaBlog · Post #834 · 07.09.2020 г., 17:40

#LunesEnMedium El arte de cantar al viento 📖✍👌 Si ya sabemos que Miguel Asturias es genio de la lengua, Premio Nobel y uno de los grandes escritores del continente, ¿por qué recomendar, setenta años después de su publicación, Viento fuerte (1950), la primera novela de su Trilogía de las Repúblicas Bananeras? 👇👇👇 Sigue leyendo este texto de Miguel Ángel Castiñeira García.

El friki de los libros

@AxiomaBlog · Post #780 · 31.08.2020 г., 16:28

#LunesEnMedium El arte es como el abismo. Una realidad visible y a la vez, incognoscible, insondable. Todos viven una vida tranquila hasta que chocan con el dilema: ▪️¿Qué es la literatura? ▪️¿Qué diferencia a un enunciado literario de uno no literario? ▪️¿Quién y bajo qué criterio decide si algo es o no un poema, es o no una novela, etc.? Este breve ensayo no son más que las cavilaciones de un loco que ha pasado varios años sumergido, apenas sobreviviendo, en esos océanos de tinta. https://link.medium.com/ntqjeB83o9

El friki de los libros

@AxiomaBlog · Post #956 · 21.09.2020 г., 14:01

#Eureka#LunesEnMedium Un texto de Iván de la Nuez “Si el posmodernismo llegó a definirse por el «Everything Goes», las reyertas actuales parecen regirse, directamente, por el «Que nada funcione». Sin dejar de columpiarnos entre el adanismo y el mimetismo, la izquierda le habla a la sociedad con el lenguaje académico de las universidades norteamericanas, y la derecha, con el discurso antiacadémico del populismo norteamericano. Toda una telenovela colonial en la que los patriotas conservadores y los antimperialistas progresistas coinciden en imitar a los Estados Unidos y en la que lo mismo copiamos una carta de luminarias ofendidas por lo que llaman «cultura de la cancelación» que el «Yes We Can» de Obama.” https://medium.com/@revistaelestornudo/quiénes-son-los-amigos-del-pueblo-y-cómo-luchan-contra-los-posmodernos-e9a2cf45e71f

El friki de los libros

@AxiomaBlog · Post #907 · 14.09.2020 г., 19:44

Hoy @AxiomaBlog reinaugura su sección dedicada a los ensayos y los artículos de análisis •#Eureka • Porque para encontrar debemos indagar bajo la superficie vivible de las cosas Política y estética del meme 🖊Jorge Carrión “Mallarmé afirmó que en el mundo todo existe para culminar en un libro. Hoy todo existe para culminar en una fotografía”, escribió Susan Sontag en 1977. A juzgar por los contenidos que más circulan por nuestras bandas anchas, se podría afirmar que en 2020 todo existe para culminar en un meme. 📌TNYT#LunesEnMedium