TGTGInsightаналитика telegramLIVE / telegram public index
← TeplitsaPRO
TeplitsaPRO avatar

TGINSIGHT POST

Post #178

@TeplitsaPRO

TeplitsaPRO

Просмотры2,600Количество просмотров
Опубликован24 февр.24.02.2018, 12:55
Содержимое поста

Содержимое

Сезон дата-активизма в России открыт. Второй день я участвую в хакатоне #Декларабум [1], организованном Трансперенси Интернешнл-Россия. Организаторы предоставили участникам базу данных антикоррупционных и предвыборных деклараций более 50 тысяч должностных лиц в формате json (mongoDB). 2 важных сюжета: 1) Рост культуры данных в сообществе Декларатора. Если еще пару лет назад, набор машиночитаемых данных Декларатора составлял около 13 тысяч должностных лиц, то сейчас он вырос почти в 4 раза, а скорость с которой новые декларации переводятся в стандартизированный вид постоянно растет. Почему это важно? На данный момент, антикоррупционные декларации, которые заполняют каждый год должностные лица, публикуются во всевозможных форматах – от табличек в экселе на несколько тысяч человек, до отсканированных pdf-документов. Проводить какой-либо анализ с разрозненными файлами сложно. Соответственно, приведение к единому стандарту и единой базе становится чрезвычайно важной задачей в контексте ответственности и подотчетности власти. Известный программистам закон Линуса гласит: "при достаточном количестве глаз баги выплывают на поверхность". Декларатор как раз и занимается обеспечением, чтобы у деклараций чиновников появилось "достаточное количество глаз". Если еще в прошлом году перед Декларатором стояла задача просто систематизировать все, что они насобирали (Андрей Жвирблис, руководитель Декларатора, тогда шутил, что проект страдает силлогоманией или патологическим накопительством), то в этом году есть четкий стандарт данных и участникам хакатона (около 10 проектов) предлагается работать именно с этим набором данных и сопоставлять его с другими источниками. Как удалось резко повысить качество данных и их перевод в машиночитаемый вид? Во-первых, единый стандартизированный формат – Декларатор сначала разработал xml-формат деклараций, а потом уже и более современный – json (запущен буквально перед хакатоном). Т.е. обрабатывать декларации стало возможно не только руками (монотонный ручной труд), но и полуавтоматически (сначала скрипт автоматически собирает все в базу данных, а потом человек наносит последнии штрихи). Во-вторых, Декларатор ввели базовую геймификацию всем волонтерам, обрабатывающим декларации – участники получают 1 балл за один обработанный документ. Эта система не только позволила добавить мотивации волонтерам, но и упростила учет работы в самом проекте. Пример Трансперенси показывает, что систематическая и умная работа с данными и мотивацией волонтеров приводит к экспоненциальному повышению производительности. Следовательно резко возрастает число степеней свободы для возможных инноваций, анализа, сервисов и т.д. 2) Второй сюжет – как раз про то, что прямо сейчас рождается на хакатоне на основе собранных данных. Это совершеннейшая фантастика, которую невозможно было представить еще 10 лет назад. Во-первых, проект t4 – это чат-бот в Телеграме, который предлагает вам найти чиновника по базе декларатора. Далее бот ищет чиновника в базе rusprofile и предлагает вам на выбор оценить, какой найденный ИНН чиновника больше всего подходит владельцу декларации. По ИНН, как вы понимаете, можно найти много всего. В общем, очень ценный инструмент для журналистов-расследователей. Во-вторых, проект "Своих не бросают", которую разрабатывают Ирина Долинина и Алеся Мароховская превращает всю базу данных Декларатора в огромный социальный граф (это такое облако соединенных точек) чиновников, который позволяет выделить устойчивые связи между т.н. "кланами" или "обоймами" чиновников, которые двигаются из ведомства в ведомство вслед за своим лидером если он меняет работу. Средний размер подобной видимой части обоймы (устойчивой группы) – около 4 человек, но неисключено, что некоторые группы могут быть значительно больше (за счет тех чиновников, которые занимают более низкие позиции и не подают декларации). В основном, говорят исследовательницы, феномен "обойм" прослеживается у сотрудников силовых ведомств (доступная им база, правда, пока не репрезентативна).