Небольшой трик с регулярными выражениями который редко вижу в чужом коде.
Допустим, вам нужно распарсить простой текст и вытащить оттуда пары имя+телефон. Вернуть всё это надо в виде списка словарей. Возьмем очень простой пример текста.
>>> text = '''
>>> Alex:8999123456
>>> Mike:+799987654
>>> Oleg:+344456789
>>> '''
Соответственно, для выделения нужных элементов будем использовать группы. Получится такой паттерн:
(\w+):([\d+]+)
Как мы будем формировать словарь из найденных групп?
>>> import re
>>> results = []
>>> for match in re.finditer(r"(\w+):([\d+]+)", text):
>>> results.append({
>>> "name": match.group(1),
>>> "phone": match.group(2)
>>> })
>>> print(results)
[{'name': 'Alex', 'phone': '8999123456'}, ...]
Можно немного сократить запись используя zip
>>> results = []
>>> for match in re.finditer(r"(\w+):([\d+]+)", text):
>>> results.append(dict(zip(['name', 'phone'], match.groups())))
Но есть способ лучше! Это именованные группы в regex. Можно в паттерне указать имя группы и результат сразу забрать в виде словаря.
>>> for match in re.finditer(r"(?P<name>\w+):(?P<phone>[\d+]+)", text):
>>> results.append(match.groupdict())
То есть всё что я сделал, это добавил в начале группы (внутри сбокочек) такую запись:
(?P<group-name>...)
Теперь найденная группа имеет имя и можно обратиться к ней как к элементу списка
>>> name = match['name']
Либо забрать сразу весь словарь методом groupdict()
>>> match.groupdict()
#tricks#regex
Обзор соревнований по ML за 2025 год
Есть такая платформа - https://mlcontests.com/, там можно увидеть список актуальных идущих соревнований по ML. Автор выускает ежегодный обзор по соревнованиям. Вот ссылка на мой пост про обзор 2023. 2024 я как-то пропустил, но вот сейчас увидел обзор за 2025: https://mlcontests.com/state-of-machine-learning-competitions-2025/?ref=mlcr25
Из интересного:
• В табличных соревнованиях всё ещё царят бустинги, но нейронки всё активнее используют в блендинге/стакинге
• Некоторые компании (не будем тыкать пальцами, но мы-то знаем) дают своим людям резиновое железо для соревнований. Например, победители одной соревы поделились, поделились тем, что тренировали 48 hours на 512 H100.
• Эпоха BERT в основном прошла, теперь люди активно используют Qwen2.5 и 3
• В соревнованиях по Computer Vision впервые доля решений с транмформерами превзошла долю решений с CNN
• В соревнованиях по аудио в основном используют затюненый Whisper
В отчёте ещё много всего интересного, рекомендую почитать.
#kaggle#datascience
#python#pandas#kaggle
😎
Machine Learning & Data Science with Python, Kaggle & Pandas
Machine Learning A-Z course from zero with Python, Kaggle, Pandas and Numpy for data analysis with hands-on examples
Machine learning is a branch of artificial intelligence (AI) and computer science which focuses on the use of data and algorithms to imitate the way that humans learn, gradually improving its accuracy.
🔗Link
-----
Main channel:@repo_science
Coupons:@freecoupons_reposcience
-----
🎮 Google и Kaggle запустили открытую Game Arena — платформу, где ИИ-системы соревнуются в стратегических играх, чтобы измерить интеллект.
🤖 Зачем это нужно? Старые бенчмарки уже не работают — LLM просто запоминают ответы. Идея в том, что игры — лучший бенчмарк для проверки интеллекта. Они проверяют не факты, а стратегическое мышление, адаптацию и память.
♟️ Первый турнир: шахматы пройдет сегодня. 8 передовых моделей, включая GPT‑4, Claude Opus и Gemini, сразятся друг с другом без использования внешних инструментов.
📊 По итогам матчей формируется открытый рейтинг моделей — кто реально умеет думать, а не просто угадывать.
🧠 Главное отличие от других арен:
✅ Круговая система «каждый играет с каждым».
✅ Позиции меняются каждую секунду
✅ Ошибки наказываются немедленно
✅ Побеждает не та, что знает ответ, а та, что думает
Kaggle собирает рейтинг моделей, который будет обновляться по итогам матчей. В будущем добавят Го, покер и видеоигры.
Стримы первых соревнований пройдут: 5–7 августа на YouTube с Хикару, Леви и Магнусом Карлсеном.
🟠 Подробнее об Арене: https://blog.google/technology/ai/kaggle-game-arena
@ai_machinelearning_big_data
#google#kaggle#arena