TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 2 слични објави

Пребарај: #aiengineer

当前筛选 #aiengineer清除筛选
Data Science Jobs

@datasciencejobs · Post #3167 · 03.03.2026 г., 10:41

#AI#VoiceTech#DS#AIEngineer Привет, это Voximplant! Сейчас мы ищем AI Engineer для задач в направлении voice/text. 💻Мы международная SaaS компания в области облачных коммуникаций. Если быть точнее CPaaS - Communication Platform as a Service. Мы создаём платформу, которая позволяет компаниям по всему миру строить клиентские коммуникации внутри своих продуктов и бизнес-процессов. Через нашу инфраструктуру бизнесы запускают голосовые сервисы, контакт-центры, омниканальные коммуникации, автоматизацию взаимодействия с клиентами и решения на базе AI. У нас есть 2 направления бизнеса: B2B и B2D. B2B - облачные контакт-центры, B2D (business to developers) - платформа-лего для разработчиков, внутри которой можно строить свою собственную коммуникационную платформу. О Voximplant в 2026 году: С 2013 года на рынке облачных коммуникаций; 300+ сотрудников; 30 000 клиентов по всему миру; 3 млрд звонков обрабатываем в год. 🔖Задачи: Проектировать архитектуру голосовых ботов: многокомпонентные сервисы, API-интерфейсы, инструменты управления и автоматизации; Интегрировать RAG-решения, включая векторный поиск, чанкование, embedding; Погружаться в детали проектов, анализировать ограничения и выбирать подходы к реализации; Прототипировать интеграции с поставщиками (ASR, TTS, LLM, Turn Detector, Noise filter); Проводить бенчмаркинг поставщиков (latency, throughput, cost); Улучшать технические метрики продуктов (latency, количество ошибок); Развертывать модели в облаках и оборачивать их в сервисы; Развивать подходы к автотестированию в тексте и голосе; Вместе с продактом и технической командой работать над развитием продукта; Сопровождать запуски проектов для клиентов; 🖇Ожидания от будущего коллеги: Опыт проектирования комплексных LLM-систем или AI-платформ; Опыт интеграции моделей разных вендоров: OpenAI, Qwen и других; 🖇Опыт работы с ASR/TTS: управление потоками речи в реальном времени, корректное восстановление контекста после прерывания, согласование таймингов между распознаванием, ответом и синтезом речи; Понимание современных подходов к RAG, включая: работу с векторными базами данных, разработку и настройку embedding-пайплайнов. Опыт работы с function calling, tools, agents и понимание архитектуры цепочек промптов; Опыт участия, внедрения или создания внутренних инструментов для работы с LLM-инструментарием, а также их мониторинга; Уверенные навыки программирования на Python: построение пайплайнов, интеграция с API LLM и векторными базами, автоматизация процессов. Умение четко излагать технические идеи, документировать архитектурные решения и менторить коллег. ⌨️Будет плюсом: Опыт разработки платформенных решений, SDK или low-code инструментов для AI-ассистентов и поддержки команд; Знания и опыт работы с ML-мониторингом, логированием, observability и CI/CD для LLM-инструментов; Навыки проектирования мультимодальных систем: обработка текста, аудио и интеграция мультимодальных моделей. 🖱Предлагаем: Мы - продуктовая компания, которая создает технически сложный и востребованный продукт для бизнеса; Гибкое начало рабочего дня;; Работа в аккредитованной IT-компании; Одна из 2-х льгот на выбор за счет компании (с возможностью воспользоваться другой на корпоративных условиях): ДМС (Лучи), Корпоративное обучение английскому/испанскому языку до 2-х раз в неделю; Корпоративные скидки от BestBenefits; Удалённый формат работы, при желании гибрида — Московский офис находится в пяти минутах от метро Тульская, рядом с Даниловским рынком; Современные и удобные инструменты, софт и оборудование для работы. Процесс найма: Скрининг с HR; Техническое интервью; Оффер. Резюме ждёт Ольга @olgas_itrec

Data Science Jobs

@datasciencejobs · Post #2658 · 10.04.2025 г., 12:00

#вакансия#remote#AIengineer#LLM#RAG#hiring AI Engineer в амбициозную команду, которая строит не «очередной ИИ-инструмент», а систему, переосмысляющую принятие решений в условиях высокой неопределенности. Проект, в который идёт найм, он не из разряда "сделаем стартап и посмотрим". Это масштабный пивот для одного из самых интересных VC-фондов с глобальным охватом. Мы небольшая венчурная студия, которая помогает существующим компаниям резко наращивать капитализацию через точечные, но радикальные расширения и изменения, часто для переизобретения и пересборки смыслов. И когда такие изменения срабатывают, это уже не продукт, а настоящая "сюжетная арка" с эффектом hockey stick. Сейчас как раз тот самый момент. Команда собрана. Рынок подвижен. Вопрос только в том, кто будет собирать логику новой интеллектуальной системы. 🌍 Формат: удаленно 🧠 Уровень: Middle / Senior / Deep Thinker 💸 ЗП (gross, annual): ~$55K Middle / ~$85K Senior / ~$120K Deep Thinker 📍 Гео: неважно, главное -- мышление О проекте На фоне всех этих DeepSeek'ов 3.1, Llama 4 (и мы еще не успели увидеть ризонинг версию), Gemini 2.5 pro/Gemma 3, GPT 4.5 и даже сильно поумневшего ChatGPT 4o, и ожидания o3/o4/GPT 5/Qwen3 и многого-многого другого, самая сложная задача всё ещё та же: понять, когда ты неправ. Проблема не в доступе к данным, а в том, какие 5% контекста действительно важны. Всё остальное это только шум и самоуспокоение. Мы строим не чат-бот и не дашборд. И точно не RAG на изоленте и скотче. Это интеллектуальная система, которая помогает VC и инвестиционным командам выявлять слепые зоны, переосмысливать уверенность и точнее различать ценное и бесполезное. Она не заменяет человека, а помогает ему постоянно оставаться в тонусе. И еще иногда бьёт по самоуверенности, но очень фелигранно и аккуратно, только для повышения эффективности. 🔧 Технологический стек: [ ] LangChain, LlamaIndex [ ] Реализация высоконадежного Retrieval-Augmented Generation [ ] RAG, который работает в условиях реального давления, а не в демке [ ] Валидация источников и данных в реальном времени [ ] Python (FastAPI, Flask, Django), OpenAI, Claude, Gemini, Grok и друзья 👀 Мы ищем человека, который: [ ] Знает, что такое инженерия рассуждений, а не просто промпты [ ] Понимает, что эпистемология важнее вайрфреймов [ ] Может строить пайплайны, которые думают, а не просто индексируют [ ] Работал с AI в чувствительных или высокоответственных системах (финансы, безопасность, анализ рисков) Если хочется строить то, что действительно имеет значение, напиши в личку @ssmetyukh