Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
#疫情动态#全国#CN
【中疾控周报:全国超8成人口已感染过新冠】
4月28日,中国疾控中心周报在线发表了《预先计划的研究:新冠疫苗对新冠病毒奥密克戎变异株感染和症状的有效性——中国,2022年12月至2023年2月》。文中根据调查数据推测,2022年12月至2023年2月期间,全国超过82%的人口感染新冠病毒。(In conclusion, China faced a significant COVID-19 epidemic, resulting in over 82% of individuals becoming infected between December 2022 and February 2023.)接种新冠疫苗加强针6个月内,对预防新冠病毒感染和症状方面是有效的。
文中介绍,自2022年12月至2023年2月,研究团队对中国31个省级行政区进行了4次在线调查。使用匿名问卷,收集参与者的性别、年龄、地址、职业、疫苗接种状况、疫苗类型、上次接种时间、感染状况(症状、诊断日期和诊断方法)以及感染的同居者人数等数据。研究结果显示,自我报告的感染率在2022年12月19日至21日达到峰值。截至2023年2月7日,全国82.4%的人口感染了新冠病毒。
文中提到,采用对照研究,调查新冠疫苗在预防新冠病毒奥密克戎变异株感染和相关症状方面的有效性。研究结果表明,接种新冠疫苗加强针可以有效预防新冠症状的发生,包括发热、鼻塞、鼻漏、咽喉痛、咳嗽、咳痰、头痛、肌肉酸痛、厌食、疲劳和低血糖等。接种新冠疫苗加强针3个月内,预防奥密克戎变异株感染的有效性为49.0%,接种后3到6个月为37.9%。此外,接种新冠疫苗加强针3个月内,对预防新冠病毒感染症状的有效性为48.7%至83.2%,3到6个月为25.9%至69.0%。(健康时报 @ 微博)
相关论文:
2022-04-28 -【Preplanned Studies: Effectiveness of COVID-19 Vaccination Against SARS-CoV-2 Omicron Variant Infection and Symptoms — China, December 2022–February 2023】- CCDC Weekly
#防控政策#中国#CN
【Chinese President Xi Jinping believes ‘frustrated students’ are behind Covid protests, EU officials say】
- European officials say Xi’s comments during a meeting with EU Council President Charles Michel may signal he is ready to loosen controls further
- The Chinese leader is also reported to have said that the dominant Omicron strain is ‘less lethal’, but expressed concern about vaccinating the elderly
Chinese President Xi Jinping told European Council President Charles Michel that people protesting against the country’s strict Covid-19 measures are “mainly students” who are “frustrated” after three years of the pandemic, according to senior EU officials.
They said he made the comments during a three-hour meeting in Beijing on Thursday.
Publicly, Beijing has not acknowledged the protests, which in some cases included calls for Xi himself to step down, in several cities last weekend and coverage has been heavily censored. His reported comments are the first known expression of his views on the unrest.
EU officials in the room took Xi’s broader remarks about pandemic controls as a signal that he was ready to further loosen tight restrictions, which have left tens of millions of people under lockdown across the country.
…
Full Text:👉(SCMP)