TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 1 слични објави

Пребарај: #publiccouncil

当前筛选 #publiccouncil清除筛选

Просто о сложном! Сегодня на экранах снова Дни Общественного совета при Россотрудничестве 2024! Почему современных студентов интересует тема кибербезопасности? Как РУДН занимается адаптацией иностранных абитуриентов? И почему всем будущим профессионалам важно уметь пользоваться нейросетями? Об этом и многом другом вы узнаете из нового выпуска. Гостями стали ректор Российского университета дружбы народов имени Патриса Лумумбы (РУДН) (https://t.me/RUDNstudentslife), доктор юридических и экономических наук, профессор Олег Ястребов (https://t.me/yastrebovoleg) и проректор по международной деятельности РУДН, кандидат политических наук Марина Рекец. Ведущий — заместитель руководителя Россотрудничества Дмитрий Поликанов (https://t.me/polikanovgovorit). «Сейчас важно быть очень конкурентными. Мы в каждую программу вкладываем не только два языка, но и языки программирования, и нейросети, которые помогают быть в профессии лидером. Нейросеть никогда, наверное, не заменит интеллект человека. Но человек, который владеет нейросетями, точно заменит человека, который ими не владеет», — говорит Ястребов. Смотрите полное видео на YouTube https://www.youtube.com/watch?v=05vaarftk6c Не пропустите! In simple words about complex things! Today, the Days of the Public Council at Rossotrudnichestvo 2024 are back on the screens! Why are modern students interested in cybersecurity? How does RUDN deal with the adaptation of foreign applicants? And why is it important for all future professionals to know how to use neural networks? You will learn about this and much more from the new episode. The guests were Rector of the Peoples' Friendship University of Russia named after Patrice Lumumba (https://t.me/RUDNstudentslife), Doctor of Law and Economics, Professor Oleg Yastrebov (https://t.me/yastrebovoleg) and Vice-Rector for International Activities of RUDN, Candidate of Political Science Marina Rekets. The moderator is Dmitry Polikanov, Deputy Head of Rossotrudnichestvo (https://t.me/polikanovgovorit). "Now it is important to be very competitive. We put in every program not only two languages, but also programming languages and neural networks, which help to be a leader in the profession. A neural network will probably never replace human intelligence. But a person who owns neural networks will definitely replace a person who doesn't own them", Yastrebov said. Watch the full video on YouTube https://www.youtube.com/watch?v=05vaarftk6c. Don't miss it! #Rossotrudnichestvo#RussianHouse#PublicCouncil#RUDN#РусскийдомвБейруте#Русскийдом#Россотрудничество#RussianHouse#Russianhouseinbeirut#Rossotrudnichestvo