Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Инстаграм эффект в действии:
Первая фотка: Я-молодец в соцсетях.
Вторая фотка: то что было до уборки, и осталось за кадром после 10 минут разгребания и протирания.
Не забывайте что красивые люди из интернета тоже пукают :)
#inmyhead@cogload
👆Этот пост у меня родился из схемы по мотивам теории «Поток — психология оптимального переживания»
Книжку я не читал если что 🌚
Модель очень элегантная: из пограничных состояний лучше двигаться в сторону потока, где все весело и складно.
Стало скучно — увеличивай сложность (2-4) или качай другой навык (2-1)
Стало страшно — упрощай задачу (3-1) - дели на мелкие подзадачи, проси помощи. Либо качай навык (3-4)
🎤Ссылки на утро — второй канал
⏲«Бесплатно ускорить YouTube»
#inmyhead
Вот кстати очередная итерация рабочего места: с планшетом вместо мыши.
Во всей неприглядности беспорядка проводов)
Неидеально, да. Но тут я руководствуюсь принципом:
«Улучшай в себе что-то на 1% каждый день, и через год станешь лучше в 37 раз».
#inmyhead
Моя система рефлексии, чтобы понимать вещи про себя
Я пользуюсь Obsidian. Каждый день из шаблона создается заметка с такой структурой:
• Чеклист рутинных задач
Утренние процедуры, чем завтракал, ежедневные привычки
Потом идут три пустых раздела:
• Сделал
Все законченные задачки, даже бытовая мелочь, вроде: «☑️ повесил сетку от комаров»
• Научился
Мысли из подкастов, каналов и других мест. Когда узнал что-то достойное базы знаний — создаю вики-заметку.
• Думал
Мои мысли или старые заметки из базы знаний, которые я дополнил или обновил
В конце дня у меня стоит будильник «итоги дня за две минуты» — в голове прокручиваю что сегодня было, что заметил, быстро дополняю разделы.
Если ничего нет или некогда — это ок. Перестал гнобить себя, когда нечего добавить или не хочется делать. Но минимальное действие в 2 минуты очень помогает.
В конце месяца получается 5-10 интересных или ценных записей. В конце года (!) 120 — это целый отчет на пять экранов.
Причем заметки в Obsidian я веду уже второй год, но это реально начало работать, только когда в календаре поставил себе напоминалку для рефлексии в конце месяца
Если вы не гик и не хотите ничего настраивать — попробуйте Logseq — там похожая система работает из коробки.
Все бесплатно, без смс :)
Кстати, я до этого писал про свою еще более сложную систему в Obsidian. Как обычно сложные вещи не приживаются, если речь идет про внимание.
#ToolReview#inmyhead
Чем всё закончилось: модель культурных различий и стилей управления Эрин Мейер
Контекст в общении. Измеряет предпочтение к низкому или высокому контексту: в США, Германии и Нидерландах коммуникация точная и явная, все повторятся и закрепляется по нескольку раз, чтобы избежать непониманий. В Китае, Индии и Японии — сложная и подразумевающая «чтение между строк».
Оценки. Измеряет степень прямоты критики: американцы и французы дают обратную связь прямо, как есть. А японцы и китайцы дизбегают прямолинейности через обтекаемые формулировки.
Стиль лидерства. Определяет отношение к власти: в Скандинавии и Израиле отношения эгалитарные - стараются учесть интересы всех. А в Китае, России и Нигерии свойственно искать иерархическую структуру с фигурой лидера наверху
Принятие решений. Исследует процесс принятия решений: в Японии и Германии решения часто принимаются на основе консенсуса, тогда как в Китае и США решения чаще спускаются сверху-вниз
Доверие. Определяет, на чем строится доверие: в США, Германии и Великобритании доверие основывается на успешной совместной работе, а в Бразилии, Китае и Индии — на личных отношениях и взаимной симпатии.
Выражение несогласия. Измеряет отношение к конфликтам: немцы и голландцы охотно идут на открытые споры, а японцы и индонезийцы стараются избегать конфликта и дают обратную связь неявно для поддержания гармонии.
Планирование. Определяет отношение ко времени: в Германии, США и Швейцарии графики соблюдаются строго, а в Италии, Бразилии и Индии они воспринимаются гибко и как рекомендация.
Убеждение. Показывает предпочтение к дедуктивной или индуктивной аргументации: немцы и французы начинают с деталей и фактов, а американцы и британцы — с применимых выводов и рекомендаций.
Пройти тест по этим шкалам, чтобы посмотреть где находишься можно на сайте Harvard Business Review
https://hbr.org/2014/08/whats-your-cultural-profile
🎤Ссылки на утро — второй канал
⏲«Бесплатно ускорить YouTube»
#inmyhead#опыт
Гугловская нейросеть Gemini тоже научилась подхалимству
В конце апреля разработчикам ChatGPT пришлось откатить обновление нейросети 4o, потому что она слишком лебезила и хвалила пользователей по всяким пустякам.
Сегодня я такое заметил у гугловской Gemini: на обычное предложение использовать другой подход, нейронка назвала моё предложение ГЕНИАЛЬНЫМ!!1!
ну-просто-шедевр.gif
Ощущение очень неприятное — сразу начал думать, «А в чем еще оно мне льстит, но я этого уже не замечаю?»
Я про такое отношение с прищуром
🤔 упоминал в своем выступлении про то чем могут быть полезны нейронки, но как будто с каждым днем отлавливать такое становиться сложнее
🎤Ссылки на утро — второй канал
⏲YouTube за звезду (VPN за 2 ₽)
#нейронка@cogload#inmyhead@cogload
Сейчас активно работаю над тем, чтобы делать вовремя и не нарушать обещания. Такой пост — способ закрепить идею у себя в голове — буквально, «расскажи другим, чтобы понять самому».
Да, рекурсия с ссылкой на этот канал теперь будет и в следующих репостах тоже 🗿
Я пока не придумал как решить эту проблему — те, кто подписан и на Явно и на когнитивную нагрузку, будут видеть тот же пост два раза, ещё и с ссылкой на сам себя.
Если есть предложения как это элегантно решить — пишите.
#inmyhead#Дизайн