TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 5 слични објави

Пребарај: #databricks

当前筛选 #databricks清除筛选
Data Science Jobs

@datasciencejobs · Post #2587 · 02.03.2025 г., 12:04

Ищем Data Engineer (Middle/Middle+/Senior) в аутстафф-компанию Top Selection для работы над зарубежным ритейл-проектом. Грейд: Senior Название компании: Top Selection Локация: Не важно Часовой пояс: МСК Предметные области: ритейл Формат работы: Удалёнка Мы ищем Data Platform Engineer с опытом работы в Microsoft Fabric или Databricks для построения и оптимизации дата-платформы в ритейле. Основная задача – разработка облачной платформы обработки данных, интеграция с различными источниками и аналитика в реальном времени. Работа в ритейле требует глубокого понимания данных о продажах, цепочке поставок, потребительском поведении и управлении товарными запасами. Обязанности: Ключевые обязанности (MS Fabric): - Проектирование архитектуры данных на Microsoft Fabric (OneLake, Lakehouses, Synapse Data Warehouse, Power BI). - Разработка и внедрение ETL/ELT-конвейеров данных (Fabric Data Pipelines, Azure Data Factory). - Оптимизация хранения и обработки данных в OneLake и Lakehouses. - Настройка Real-Time Analytics (анализ транзакций, логистика, продажи в режиме реального времени). - Интеграция с Power BI и построение семантических моделей. - Оптимизация SQL-запросов для больших объемов данных в Synapse Data Warehouse. - Автоматизация CI/CD-конвейеров (Azure GitOps). - Обеспечение безопасности данных и соответствие стандартам работы с персональными и коммерческими данными. Технологии, с которыми предстоит работать: - Microsoft Fabric: - OneLake (облачное lakehouse-хранилище данных) - Lakehouses (совмещение Data Lake и традиционных DWH) - Data Pipelines (аналог Azure Data Factory) - Synapse Data Warehouse (облачный аналитический движок) - Real-Time Analytics (потоковая обработка данных) - Power BI & Semantic Models (бизнес-аналитика) - KQL (Kusto Query Language) для анализа событий и логов - DevOps & CI/CD: - Azure GitOps, YAML-пайплайны - Автоматизированное развертывание и управление инфраструктурой данных Требования: - Практический опыт работы с Microsoft Fabric или Databricks (или другим релевантным облачным стеком). - От 2 лет опыта в data engineering и облачных хранилищах данных. - Глубокие знания SQL, Python, Spark/PySpark, T-SQL. - Опыт оптимизации SQL-запросов и работы с большими объемами данных. - Понимание архитектуры баз данных и lakehouse-концепции. - Опыт работы с ETL/ELT-процессами, DataOps, CI/CD для данных. Пожелания: Будет плюсом: - Опыт работы с потоковыми данными (Kafka, Event Hubs, Stream Analytics). - Знание ритейл-данных (ценообразование, товарные запасы, программы лояльности). - Опыт работы с Delta Lake, Databricks ML. - Оптимизация SQL-запросов и настройка кластера Spark. Сертификации (желательно): - Microsoft Certified: Fabric Analytics Engineer Associate - Microsoft Certified: Azure Data Engineer Associate - Databricks Certified Data Engineer Associate/Professional Контактные данные: @mherchopurian / @datasciencejobs #вакансия#DataEngineer#Middle#MSFabric#Databricks#Удаленно

GitHub Trends

@githubtrending · Post #15513 · 20.02.2026 г., 14:30

#python#agents#claude#cursor#databricks#vibecoding The Databricks AI Dev Kit enhances AI-driven development by providing your coding assistant (Claude Code, Cursor, etc.) with trusted Databricks knowledge and best practices. It includes a Python library, MCP server with 50+ tools, markdown skills teaching Databricks patterns, and a web-based builder app. You can build Spark pipelines, jobs, dashboards, knowledge assistants, and deploy ML models faster and smarter. The benefit is that your AI coding assistant gains direct access to Databricks functionality and patterns, enabling you to develop data and AI applications more efficiently with built-in governance and best practices. https://github.com/databricks-solutions/ai-dev-kit

Data Science Jobs

@datasciencejobs · Post #2029 · 15.04.2024 г., 16:25

#вакансия#удаленно#dataengineer#de#spark#databricks#kafka # Ищем Data Engineer на проектную занятость в Dodo Engineering (возможен неполный рабочий день) Компания: Dodo Engineering Локация: Remote Должность: Data Engineer (middle+/senior/lead) Занятость: проектная, на 3-6 месяцев, возможен вариант на неполный рабочий день (4 часа). Вилка: 350 000 - 500 000 р Формат: ГПХ\ИП О команде Мы разрабатываем платформу данных для it команд в Dodo. На данный момент перед нами стоит амбициозная задача по оптимизации затрат на дата платформу, поэтому в усиление нашей команде ищем на проектную занятость data engineer. Срок проекта - 3-6 месяцев. Мы ищем коллегу с бэкграундом в разработке, уверенным знанием Spark, Spark SQL. Если работали с databricks — будет большой плюс. Наш стек технологий: У нас современная платформа, которая базируется на облачных сервисах Azure Databricks. Данные загружаем с помощью debezium или принимаем события в Event Hub (Kafka). Храним в Delta Lake, всё раскладываем по слоям и Data Vault. Витрины храним в Kusto, а визуализация в Superset. Основной язык — python. Чем предстоит заниматься: - Оптимизация витрин, помощь другим командам в работе с данными и нашим инструментом - Оптимизация процессов в databricks для снижения затрат на compute и storage - Развертывание и обслуживание data сервисов Требования: - Уверенное владение одним из языков программирования: Python, Scala, Java. - Построение пайплайнов данных с мониторингом и логированием; опыт в оптимизации/изменении существующих пайплайнов. - Spark, Spark Streaming (у нас Structured Streaming) - Желателен опыт оптимизации аналитического кода Отправить резюме и задать вопросы можно тут: @AKoronnova 👉 Не забудьте уточнить, что вы из @datasciencejobs

Venture Village Wall 🦄

@venturevillagewall · Post #3425 · 18.12.2024 г., 12:12

Databricks Secures $10B Funding Round Databricks has successfully raised $10 billion in a funding round that concluded on December 17, 2024. For more details, visit Databricks. #Databricks#Funding#Tech#Investment#Data#Cloud#Analytics#Software#BigData#Startup#Round#Financing#VentureCapital#Database#Platform#Enterprise#AI#ML#SaaS#Growth#Innovation

Venture Village Wall 🦄

@venturevillagewall · Post #3881 · 15.01.2025 г., 10:00

Major Funding Rounds Announced Multiple companies secure significant funding this month: - Databricks: $5B on Dec 17, 2024. - Nordic Investment Bank: $795.2M on Jan 9, 2025. - Brex: $235M on Jan 13, 2025. - Bjelin Group: $204.31M on Jan 13, 2025. - Caidya: $165M on Jan 13, 2025. - Harbinger: $100M on Jan 14, 2025. - Vita Group: $84.53M on Jan 10, 2025. - Aerin Medical: $32.5M on Jan 13, 2025. - Clear Labs: $30M on Jan 13, 2025. - Labviva: $25M on Jan 13, 2025. - Raspberry AI: $24M on Jan 13, 2025. - Conceivable Life Sciences: $18M on Dec 17, 2024. - Pimax VR: $13.64M on Jan 13, 2025. - Intelex Vision: $6.82M on Jan 13, 2025. - bythen: $5M on Jan 14, 2025. - Genesy AI: $4.82M on Jan 14, 2025. - Primus: $3.5M on Jan 13, 2025. - Wultra: $3.09M on Jan 15, 2025. - BIMINI Biotech: $3.06M on Jan 13, 2025. - Red Sky Health: $3M on Jan 13, 2025. Details can be found in the respective links. #Funding#Investment#Databricks#NordicInvestmentBank#Brex#Caidya#Harbinger#VitaGroup#AerinMedical#Labviva#RaspberryAI#ConceivableLifeSciences#PimaxVR#IntelexVision#GenesyAI#Wultra#AI#VC#Healthcare