Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🦙 Meta lanza el modelo de lenguaje de código abierto más grande: Llama 3.1-405B
Meta ha sorprendido al mundo de la inteligencia artificial al presentar su nuevo y más potente modelo de lenguaje de código abierto:Llama 3.1-405B.
Hechos clave
⭐️ Parámetros: Llama 3.1-405B es el modelo más grande de la serie Llama, con 405 mil millones de parámetros. Esta última versión también incluye versiones mejoradas de modelos con 8 mil millones y 70 mil millones de parámetros.
El número de parámetros afecta la capacidad del modelo para razonar, entender el contexto y generar contenido diverso, preciso y creativo. Más parámetros requieren recursos informáticos más significativos.
📊Comparativas: El modelo insignia es competitivo con los principales modelos fundacionales en diversas tareas, incluyendo GPT-4o y Claude 3.5 Sonnet. Consulta la comparación en comprensión del lenguaje (MMLU), codificación (HumanEval) y matemáticas (GSM8K y MATH) 🔼
🖼 Multimodalidad: Llama 3.1 puede reconocer y generar tanto texto como imágenes. El modelo ya se ha integrado en la versión beta de WhatsApp para Android.
🔒Código abierto: Llama 3.1 permite a desarrolladores e investigadores utilizarlo en sus proyectos. Esto lo hace accesible para más usuarios, incluidas universidades y pequeñas empresas.
🖥 Ventana de contexto: El modelo utiliza un nuevo tokenizador que expande el vocabulario de 32K a 128K tokens, mejorando el procesamiento del lenguaje y permitiendo trabajar de manera más eficiente con el texto al recordar más contexto.
➡️ Prueba Llama 3.1-405B aquí.
📱 Mark Zuckerberg ya ha dado una entrevista en video.
En la serie anterior:
❓Código abierto vs. código cerrado
🦙Llama 3 ha sido lanzado. Es el mayor LLM de código abierto.
#noticias#llama@hiaimediaes
✴️Meta ускоряет план: Llama 4.X до конца года, Llama 5 — в 2026
Meta, судя по заявлениям Марка Цукерберга, готовит заметное обновление линейки после неоднозначного старта Llama 4. Компания ускоряет цикл релизов и одновременно чинит слабые места текущего поколения, чтобы вернуть доверие разработчиков и исследователей.
Что ожидается в ближайшее время:
🟡Llama 4.X выйдет до конца года и станет первым релизом нового подразделения Meta Superintelligence Labs (MSL).
🟡Llama 5 — следующая ступень линейки — запланирована на 2026 год.
🟡 Параллельно Meta раскатывает патчи для Llama 4 (версии 4.1 и 4.2) с упором на исправление замечаний по производительности и качеству ответов.
🤑ForgetMe | Boosty
Приобрести подписку на любые сервисы
⏩@forgetshop_bot
#нейросети#новости#llama
🪄Добавили в GPTunneL сразу две новые нейросети LlaMA 4
Теперь в нашем сервисе доступны передовые модели от Meta с архитектурой Mixture of Experts (MoE)*.
⚫️LlaMA 4 Maverick (400B):
Флагманская модель с контекстом в 1 миллион токенов, заточена под сложные задачи: математика, программирование, гуманитарные науки. Включает 128 экспертов (с 17B активными параметрами).
⚫️LlaMA 4 Scout (107B):
Компактная и быстрая модель с контекстным окном в 10 миллионов токенов, легко справляется с анализом длинных текстов. Использует 16 экспертов (из которых одновременно активны 17B параметров).
*Mixture of Experts (MoE) - это архитектура нейронной сети, где несколько «экспертных» моделейспециализируются на разных аспектах задачи, а специальная сеть-маршрутизатор определяет, какого эксперта использовать для конкретной задачи. Подробнее —в нашем гайде по промпт инжинирингу.
🦛Meta также анонсировала модель Llama 4 Behemoth с 288 миллиардами активных параметров и общей архитектурой на 2 триллиона параметров. Однако эта модель всё ещё находится в стадии обучения и пока недоступна для использования.
🔗Протестировать LlaMA 4 Maverick и Scout в GPTunneL
#update@gptunnel#llama@gptunnel
Meta 扩大员工使用竞争对手 AI 工具权限,含 ChatGPT-5、 Gemini 3 Pro 等
Meta正在积极推动“人工智能优先”的办公环境,扩大员工使用包括谷歌Gemini 3 Pro和OpenAI ChatGPT-5在内的外部人工智能工具的权限。公司内部文件显示,Meta鼓励员工将人工智能融入所有工作流程,并计划将自主研发的Llama系列模型与其他企业产品结合使用。Meta已在人工智能技术上投入巨资,并推出了Metamate等内部人工智能助手。此外,Meta还与Midjourney合作,将图像生成技术整合到自身产品中,并将内部办公套件迁移至谷歌Workspace。公司通过内部激励机制和绩效考核,鼓励员工积极应用人工智能技术,以提升工作效率和研发进度。IT之家
🏷#Meta#人工智能#Llama
📢频道👥群组📝投稿
¿Que puede hacer este bot?
🤖@mysticella_bot
📎Crea y chatea con modelos de IA en Telegram con soporte para GPT, Gemini, LLama y más. Uso gratuito.
#chatgpt#ai#llama
( Visto en: @BotsGram_Cu )
The Atlantic: на чьих книгах учатся ИИ-алгоритмы?
Ни для кого не секрет, что эффективность алгоритмов генеративного ИИ строится прежде всего на огромных базах данных текстовой информации. Но что составляет их основу? Чьими словами говорят с нами ChatGPT, Llama и другие языковые модели? Алекс Рейснер из The Atlantic пытается разобраться.
«Часть обучающих текстов берется из Википедии и других сетевых источников, но для качественного генеративного ИИ требуется более качественный материал, чем тот, который обычно можно найти в Интернете, то есть тот, который можно найти в книгах. В иске, поданном в Калифорнии в прошлом месяце, писатели Сара Сильверман, Ричард Кадри и Кристофер Голден утверждают, что Meta нарушила закон об авторском праве, использовав их книги для обучения LLaMA, большой языковой модели, аналогичной GPT-4 от OpenAI, — алгоритма, который может генерировать текст, подражая шаблонам слов, найденным в образцах текстов. Однако ни сам иск, ни комментарии вокруг него не дают возможности заглянуть под капот: мы не знаем точно, обучалась ли LLaMA на книгах Сильвермана, Кадри, Голдена или других авторов».
https://theidealist.ru/llama/
#TheAtlantic#технологии#ИИ#Llama#книги