Небольшой трик с регулярными выражениями который редко вижу в чужом коде.
Допустим, вам нужно распарсить простой текст и вытащить оттуда пары имя+телефон. Вернуть всё это надо в виде списка словарей. Возьмем очень простой пример текста.
>>> text = '''
>>> Alex:8999123456
>>> Mike:+799987654
>>> Oleg:+344456789
>>> '''
Соответственно, для выделения нужных элементов будем использовать группы. Получится такой паттерн:
(\w+):([\d+]+)
Как мы будем формировать словарь из найденных групп?
>>> import re
>>> results = []
>>> for match in re.finditer(r"(\w+):([\d+]+)", text):
>>> results.append({
>>> "name": match.group(1),
>>> "phone": match.group(2)
>>> })
>>> print(results)
[{'name': 'Alex', 'phone': '8999123456'}, ...]
Можно немного сократить запись используя zip
>>> results = []
>>> for match in re.finditer(r"(\w+):([\d+]+)", text):
>>> results.append(dict(zip(['name', 'phone'], match.groups())))
Но есть способ лучше! Это именованные группы в regex. Можно в паттерне указать имя группы и результат сразу забрать в виде словаря.
>>> for match in re.finditer(r"(?P<name>\w+):(?P<phone>[\d+]+)", text):
>>> results.append(match.groupdict())
То есть всё что я сделал, это добавил в начале группы (внутри сбокочек) такую запись:
(?P<group-name>...)
Теперь найденная группа имеет имя и можно обратиться к ней как к элементу списка
>>> name = match['name']
Либо забрать сразу весь словарь методом groupdict()
>>> match.groupdict()
#tricks#regex
#Italia#Camera
ANSA - Mercoledì prossimo al termine della seduta d'Aula si terrà un ufficio di Presidenza della Camera sull'ipotesi di sollevare un conflitto di attribuzione nei confronti della procura di Roma in merito all'inchiesta sul caso Almasri, che vede indagata Giusi #Bartolozzi (#FI|EPP), ex Capo di Gabinetto del Ministero della Giustizia.
Sempre in settimana, il primo aprile, si terrà una riunione del Comitato consultivo sulla condotta dei deputati presieduto da Riccardo #Zucconi (#FdI|ECR) dopo la lettera inviata dal deputato del #PD|S&D Nico #Stumpo per chiedere una verifica sull'ex Sottosegratario #Delmastro (FdI|ECR).
Il Presidente della Camera #Fontana comunica le seguenti censure con interdizioni ai lavori del parlamento dopo i fatti sfociati nell'aggressione a #Donno: 15 giorni a Igor #Iezzi (#Lega); 7 ad #Amich (#Fdi), #Cangiano (#Fdi), #Forgiuele (#Lega), #Mollicone (#Fdi) e #Stumpo (#Pd); 4 a #Donno (M5S); 3 ad #Amendola (#Pd) e 3 a #Candiani (#Lega); 2 a #Scotto (#Pd) e 2 a #Stefanazzi (#Pd). (Dire)
@UltimoraPolitics