Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🔹IT-индустрия и туризм Значительное отставание России предстоит наверстывать в области IT-технологий. Причем нам нужно не только предотвратить пресловутую «утечку мозгов», но и создать условия для новых разработок. Большую роль здесь играет налоговое бремя. С учетом этого мы приняли решение до 2024 года освободить IT-компании от уплаты налога на прибыль.
Русофобские настроения и санкции значительно сужают возможности поклонников выездного туризма. Туристская индустрия, «просвевшая» за два года пандемии, нуждается не только в поддержке, но и в стимулах для роста. В связи с этим мы сразу на 5 лет освобождаем от НДС услуги по размещению в гостиницах и других объектах для временного проживания. Аналогичная преференция предусматривается для организаций , оказывающих услуги аренды или управления объектами туристской индустрии, введенными в эксплуатацию в 2022 году. Поскольку суть НДС такова, что этот налог закладывается в конечные цены для потребителей, есть все основания рассчитывать, что данные шаги позитивно скажутся и на доступности внутреннего туризма для граждан.
🔹Ускоренный возврат НДС. Организации смогут в заявительном порядке вернуть или зачесть сумму налога до завершения камеральной проверки поданной декларации. При этом если заявленная к возмещению сумма не превышает сумму налогов и страховых сборов за предыдущий год, банковская гарантия или поручительство не требуются. Права на использования данного механизма не имеют компании в процедуре банкротства, реорганизации или ликвидации.
🔹Кадастровая стоимость. Она зафиксирована на уровне, актуальном по состоянию на 1 января 2022 года. Редакцией документа, одобренной в первом чтении, предполагалось, что данная мера будет применяться к оценке стоимости имущества организаций, однако в ходе доработки мы распространили ее действие и на физлиц, что позволит защитить и бизнес, и граждан от роста налога на имущество и землю.
🔹Санкции за неуплату налогов. До 2023 года включительно приостановлено действие нормы, которая предусматривает начисление повышенной пени при просрочке по налоговым платежам продолжительностью более 30 дней. По действующему законодательству в таких случаях она начисляется в размере 1/300 ставки рефинансирования. После вступления закону в силу пеня будет рассчитываться по 1/150 – то есть санкции будут снижены фактически в 2 раза.
🔹Возможности для настройки налоговой системы на региональном уровне. До 2024 года пролонгированы полномочия субъектов РФ по введению налоговых каникул. Они могут быть установлены для физлиц, впервые зарегистрированных в качестве индивидуальных предпринимателей, а также тех, кто в перешел на упрощенную или патентную систему налогообложения при условии, что с момента регистрации прошло не более двух лет.
🔹Повышенный транспортный налог. Круг автовладельцев, обязанных платить «налог на роскошь» значительно сужен. Если раньше соответствующие обязательства появлялись у собственников легковых авто стоимостью от 3 миллионов рублей, после вступления закона в силу минимальный порог будет поднят до 10 миллионов рублей. Причем обновленные положения имеют обратную силу, то есть будут распространяться на транспортные средства, приобретенные с 1 января 2022 года.
🔹НДФЛ. Освобождены от НДФЛ процентные доходы, полученные по вкладам и остаткам на счетах в банках в 2021-2022 гг. Также от него освобождается полученная с 2021 по 2023 гг материальная выгода.
#налоги#кризис#экономика#Воронеж#vгn#ЧижовСергей#ГосударственнаяДума#EP#EP36
#Orgulloso
En todas las barras del mundo se crean 🍸cócteles cubanos 🇨🇺, desde Talea (Restaurante Italiano Michelin Guide 2023) en el Emirates Palace de Abu Dhabi:
"Maragato Special"
#cuba#cubanosporelmundo#ACC#asociaciondecantineros#Talea#EP