Важное про цифры и Юникод
0, 1, 2, 3, 4, 5, 6, 7, 8, 9 — неединственные символы, которые считаютсяцифрами. Python следует правилам Юникода и обрабатывает несколькосотенсимволов как цифры. Полный список находится здесь.
Это крайне важно знать, потому что эти символы влияют на такие функции, как int, unicode.isdecimal и даже re.match.
Думаю, в один момент это знание сэкономит вам время на исправление "бага" с такими странными символами. Предупрежден — значит вооружен.
#python#unicode
Дата-открытки: итоги работы и анализ тг-чата
Продолжаю парад дата-подарков и рассказываю про открытки, которые сделала для коллеги Маши.
На первой карточке — визуализация материалов по темам и форматам, над которыми Маша работала в ТАСС. Код для генерации графика написал Антон в observable еще для прошлых подарочных дата-плакатов👨💻
На второй открытке — облако слов из всех сообщений, которые Маша писала в наш полурабочий чат. Данные из сообщений я собрала с помощью python — запарсила архив чата (html). Если вам будет интересна серия постов с подробным описанием процесса и кодом, то ставьте 👾
Из всего набора слов я отобрала только существительные, прилагательные и междометия, позабавил контраст связанных с работой слов и нервного смеха. Глаголы и наречия в топ не забрала, т.к. они не отражали специфику диалога. Цветом отмечены топ-10 слов по частям речи.
Еще есть третья секретная открытка тоже с облаком слов. Для нее я отобрала только ругательства из сообщений и также выделила цветом топ слов по корням. Чтобы никого не компрометировать, оставлю содержание карточки в секрете🤫
P.S. За организацию печати открыток спасибо рукодельнице Насте!❤️
#датаарт#датавиз#личное#python
6 июня отмечают День русского языка. Это отличный повод вспомнить о творчестве русских поэтов и писателей🤓
Делюсь подборкой материалов, для которых провела работу по анализу текстов, нашла дополнительную фактуру и собрала результаты в единую историю:
1) Песни Виктора Цоя: моя первая подобная инфографика, которую делала еще стажером, недавно освоившим python. Было одновременно страшно и интересно😄
2) Песни Владимира Высоцкого: попыталась уместить все-все интересные факты. Получилось плотно и насыщенно (возможно, слишком)🤔
3) Визуальное и текстовое творчество Вознесенского: благодаря помощи Центра Вознесенкого удалось охватить и сравнить сразу два вида творчества❤️
4) Поэзия Владимира Маяковского: придумалась цветовая кодировка уникальных для периода слов в облаках (уверена, такое уже делали, но раньше не сообразила)☁️
5) Дневики Льва Толстого: пугал объем текстов (целая жизнь!), но все получилось💪
6) Басни Ивана Крылова: пришлось собирать данные вручную (спасибо Крылову, что практически все басни очень короткие). Открыла для себя новый тип визуализации пересечений множеств — UpSet Plot💡
Каждый проект — маленькое личное открытие. Надеюсь, эта коллекция будет и дальше пополняться🤞
#датавиз#инфографика#рабочее#python
Как Unicode CLDR локализует ваши смартфоны на тот или иной язык.
Unicode CLDR (Common Locale Data Repository) — это технический паспорт языка, который определяет, как он будет работать во всех мировых программах и операционных системах (Google, Apple, Microsoft).
Это не просто база данных. Это гарантия, что ваш язык будет работать в цифровой среде грамотно и естественно – источник текстов для цифровых устройств (смартфоны, часы, умные устройства, даже интерфейс автомобилей).
❌ БЕЗ CLDR: Язык выглядит "полупереведенным" и "неграмотным".
• Алфавит ломается: Буквы "Ҟ" или "Ө" стоят в конце списка контактов или файлов, поиск бесполезен.
• Ошибки интерфейса: В приложении написано: например, на Русском – "Найдено 5 статья", потому что система не знает правила склонения языка.
• Сбитые форматы: Даты и время показываются в чужом формате (английском) или без учета рода или числа.
✅ С CLDR: Язык работает как родной.
• Грамотность: Система показывает: "Найдено 5 статей", используя правила вашего языка.
• Полный Перевод: Кнопки "Отмена", "Сохранить" и ключевые команды переведены корректно.
• Универсальность: Вы можете искать эмодзи по названию на своем родном языке.
Главная Ценность:
CLDR — это самая долговечная форма цифровой каталогизации. Внося правила, мы:
1. Закрепляем официальную норму языка в мировом техническом стандарте.
2. Гарантируем, что название языка будет корректно отображаться на всех языках мира в меню настроек.
3. Обеспечиваем независимость: Наш язык сам диктует правила технологиям, а не наоборот.
P.S.: Вклад в CLDR — это возможность пропустить болезненный этап "кракозябр" и сразу дать нашим языкам достойную цифровую идентичность.
#Unicode#CLDR#ЯзыкиРФ#Цифровизация#NLP
👀 Релиз SAM 3.1 - одной из самых сильных open-source моделей для компьютерного зрения.
Модель понимает, что происходит на изображении или видео, и умеет находить объекты по текстовому описанию. Можно буквально написать «человек в красной футболке» и она найдёт нужных людей.
Работает не только с картинками, но и с видео. Объект можно задать один раз, и дальше модель будет отслеживать его между кадрами.
Ключевая идея - open-vocabulary. Модель не ограничена фиксированными классами, как старые системы. Она оперирует огромным количеством понятий и может находить практически любые объекты.
Ещё важный момент можно комбинировать способы управления: текст, клики, рамки, маски. Это даёт гораздо больше контроля и точности.
Под капотом новая архитектура, где отдельно решаются задачи поиска объектов и их отслеживания. За счёт этого модель лучше различает похожие вещи и стабильнее работает на видео.
В репозитории уже есть всё для старта: готовые веса, код, примеры и ноутбуки.
По факту это уже не просто инструмент для разметки, а полноценный vision-движок, который можно встраивать в реальные продукты от аналитики видео до автоматизации разметки данных.
Теперь модель может отслеживать до 16 объектов за один проход.
С multiplexing все объекты обрабатываются одновременно:
• меньше лишних вычислений
• нет узких мест по памяти
Результат: скорость обработки видео увеличивается примерно в 2 раза
с 16 до 32 FPS на одном NVIDIA H100!
На новом бенчмарке SA-CO, который включает 270 тысяч уникальных концептов, SAM 3 достигает 75–80% от уровня человека.
https://github.com/facebookresearch/sam3
@ai_machinelearning_big_data
#ai#ml#llm#cv#python
#вакансия#работа#remote#ds#python👋
Ищем:
DS-разработчик
Что нужно:
Python, pandas, numpy, sklearn, Понимание основ статистики: p-value, дисперсия, и пр., Умение общаться и доносить гипотезы в понятном бизнесу виде, Опыт работы с временными рядами как плюс
Задачи:
Прогнозирование спроса на товары, Работа с временными рядами, Подготовка данных и обучение линейных моделей (проект ~3мес, скорее всего с продлением)
Занятость: проектная
Тип: удаленный
Оплата: по договоренности от 1000р/час
Контакты: @olegvongola
Дополнительно:
Ищем начинающих ML/DS разработчиков на стажировку для задач, связанных с чатботами и файнтюнами.
#вакансия#python#ml#remote#fulltime
Компания: BrainShells;
Позиция: Python/ML разработчик;
Вилка: от 6000$;
Формат: удаленная работа;
Занятость: full-time;
Опыт: от 5 лет.
Мы - команда экспертов по искусственному интеллекту, работаем с фреймворками, решающими различные задачи deep learning: генерации текста, аудио и видео, а также проводим транскрибацию, распознавание объектов на видео, также решаем задачи по обогащению данных: сбор данных из соцсетей, видеохостингов и тд. Мы сфокусированы на решении различных архитектурных задач для этих проектов, а также поддержке и мониторинге работающих решений.
Находимся в поиске senior Python разработчика в нашу команду!
Чем предстоит заниматься:
- Разработка и поддержка программного обеспечения на Python;
- Разработка и реализация инновационных решений для задач ИИ: улучшение используемых алгоритмов, оптимизация производительности;
- Масштабирование существующего решений;
- Разработка и реализация инновационных решений для решения задач.
Требования к кандидату:
- Опыт коммерческой разработки python от 5 лет;
- Опыт в анализе данных / машинном обучении / deep learning;
- Понимание задач искусственного интеллекта;
- Призовые места в соревнованиях Kaggle;
- Высшее образование в области компьютерных технологий / прикладной математики и (или) прикладной информатики;
- Английский язык B2 и выше.
Будет плюсом:
- Знание и опыт работы с одним из языков программирования: Go/C/C++/C#/Java;
- Опыт работы с инструментами автоматизации, такими как Docker;
- Знание и опыт работы с базами данных: redis, postgreSQL, MySQL;
- Опыт логирования и мониторинга программного обеспечения;
- Работа с готовыми моделями текстовыми моделями, например, Hugging face и Open AI API;
- Опыт работы с asyncio, threads, и subprocesses; pytest/unittest; pandas, sklearn; pytorch/tensorflow/keras.
Что мы предлагаем:
- Участие в разработке динамично развивающегося продукта, работающего на рынке в реальном времени;
- Справедливую заработную плату по результатам собеседования и вашей квалификации в вилке от 6000$ и выше;
- Возможность прокачивать свою экспертизу за счет работы с топовыми коллегами и обучения в моменте;
- Классный молодой коллектив профессионалов, заряженных на результат. Ценим порядочность, честность и открытость;
- Возможность реализовывать смелые и амбициозные инициативы;
- Горизонтальную структуру, отсутствие бюрократии и синдромов «больших начальников»;
- Мы за результат, а не процесс. У всех наших сотрудников удобный график и полностью удаленная работа.
Для отклика пишите@valeriayanets