Поймал себя на том, что иногда мне нравится ездить на автомобиле, а иногда нет. Понятно, что чилить на автостраде это прикольно, а пробиваться через городские пробки — нет. Но я осознал, что иногда мне в городе вполне прикольно, а иногда нет. Я даже в пробках иногда стою спокойно.
Начал рефлексировать, и понял: мне приятно ездить, когда я никуда не тороплюсь. Когда можно опоздать на 5-10-15 минут, а то и на полчаса. В гости к друзьям обычно можно опоздать. В магазин можно опоздать, если ты не под закрытие едешь. А вот если едешь на какое-то мероприятие ко времени, то опаздывать нельзя, и обычно даже 10 минут неприятны.
Дорожная ситуация меняется не слишком предсказуемо. Время на поиск места парковки тоже не определено. Да и постоянное искушение где-то что-то нарушить, чтобы не опоздать. Либо наоборот — выезжаешь на машине сильно заранее, и на месте просто ждёшь полчаса.
В общем, машина хорошо решает задачу "Добраться куда-то в место, плохо доступное другими видами транспорта". Но не слишком хорошо решает задачу "Добраться куда-то к заданному моменту с точностью плюс-минус 5 минут". А, например, пешком + метро решает хорошо. Можно, конечно, пофантазировать на тему какого-то предсказания и правильного планирования, но на деле пара забитых перекрёстков вполне могут стоить вам 10 минут, что в контексте городской жизни довольно много.
P.S. Скоро у меня отпуск, и будут очень интересные посты про дроны и мототехнику. Хотя погода в Питере как обычно норовит подвести в самое неподходящее время. С таким климатом хоть на автомобиле езди!
#life
#geodata
У меня по работе переодически возникает необходимость быстро собрать данные о населении в какой-либо стране с детализацией до района или квартала. Благодаря этому сформировался набор источников, которые чаще всего помогают мне найти ответ на вопрос, где кто живет.
1. Лучший источник данных для такой задачи - это перепись населения. В отличие от России большинство стран агрегируют данные по небольшим статистическим территориям плюс минус равным по размеру населения ( обычно до 1000 человек), в крайнем случае по административным районам . Там можно найти информацию о доходах людей, семейном положении, возрасте, вероисповедании, уровне образования, наличии доступа к интернету, мобильной связи и тд. Найти данные переписи можно на портале открытых данных страны или на официальном сайте статистистического агенства.
Основной минус переписи- редкое обновление данных ( обычно раз в 10 лет), поэтому некоторые страны проводят промежуточные опросы между переписями, где они обновляют отдельные наиболее важные показатели, опрашивая небольшую. но репрезентативную выборку людей. Например, так делает Великобритания или ЮАР , правда последние предоставляют данные только на уровне региона, что все равно заставляет использовать данные переписи.
2. Второй источник, который приходит в голову - это OSM. Из открытых карт можно скачать локации жилых зданий и зная средний размер домохозяйств в разных регионах посчитать население. Проблема только в том, что далеко не у всех зданий указана высотность - ее приходится интерполировать, либо ставить среднее значение - из-за чего погрешность может оказаться достаточно большой.Плюс, в OSM данные о застройке могут отставать на 1-2 года. В итоге такие данные хорошо подходят только для задачи сравнения плотности населения на разных территориях.
3. Информацию о плотности населения публикуют международные агрегаторы:
1. WorldPop - собирают данные о населении стран Африки, Центральной и Южной Америке, Азии . Детализация по сеткам 1 км и 100м на основе данных переписи и спутниковым снимкам застройки. Также у них на сайте есть инструмент, который позволяет загрузить пользовательскую геометрию и настроить среднее число жителей на 1 домохозяйство.
2. HDX ( Humanitarian data exchange) - международная платформа для обмена данными между всеми странами. По факту - это агрегатор датасетов с национальных порталов открытых данных + данные компаний. Например, здесь можно найти датасеты Фейсбука - особенно много у них полезной информации по развивающимся странам
3. Иногда полезные датасеты попадаются на data.world
4. О стоимости жилья в разных районах городов можно судить по данным insideairbnb - проект, который парсит данные об объявлениях на airbnb и публикует в виде геодатасетов.
5. По идее для оценки экономической активности районов полезно выглядят данные Uber Movements, но мне они ниразу не пригодились
6. Мой любимый неформальный источник информации о городах - сайт номадист. Самый быстрый способ понять, где находятся в городе бедные кварталы, а где туристические районы и районы для "богатеньких буратино"
Думаю, что у некоторых из вас есть свой список источников данных о демографии зарубежом , поэтому, если не жалко поделиться, пишите в чат - буду расширять список
Добавление от читателей:
7. https://www.kontur.io/portfolio/population-dataset/ - собранный из разных источников датасет с плотностью населения по всему миру. Масштаб 1 ячейки информации - 100*100 м
8."10% и 20% анонимизированные выборки переписи 2002 и 2010. Это не совсем то же самое, про что у тебя в пункте 1, но там есть код муниципалитета, в принципе, что-то посчитать должно быть возможно (особенно на 20%)"
#geodata
" Построить модель любой может, куда сложнее найти для неё данные" - сказал мне недавно знакомый, который последние 3 года занимается моделями на стыке городской экономики и транспорта. Хотя это справедливо для любой отрасли, для города это особенно актуально.
Дело в том, что у городских данных нет единого владельца: часть данных принадлежит органам власти, часть есть у компаний, например такси, или девелопмента, и совсем немного данных у жителей города. Как результат неполные данные негативно влияют на качество принятия решений
В такой ситуации инициативы по развитию открытых источников данных как эта : http://osm-competition.tilda.ws/ супер важны.
OpenStreetMap - это источник данных об инфраструктуре, которым пользуются абсолютно все: от студента геофака до Яндекса. Построить граф дорог, получить информацию о высотности зданий в районе, посчитать число деревьев на улице итд - вся эта возможно сделать с помощью данных OpenStreetMap (OSM) и часто только с помощью данных OSM. И поэтому обидно, когда найдя статью по моделированию динамического ограничения скорости в Лондоне или Цюрихе, ты не можешь повторить ее на российский городах, потому что для них в OSM нет данных.
Еще одно "за" поучаствовать в конкурсе- это хорошая возможность научиться рисовать карты руками для, тех кто как и я , этого раньше не делал. Авторы сделали подробную инструкцию по добавлению объектов на OSM. Пожалуй, лучшую на русском языке из тех, что я видела в интернете.
#geodata
очень классные новости от @alexradchenko2 . Огромное спасибо ребятам за проделанную работу! Именно такие открытые данные и нужны городу , для того чтобы по-настоящему вовлекать жителей в процесс принятия решений. Потенциал действительно большой: от нового взгляда на проблему последней мили и поиска корелляций между уровнем дохода населения и числом поездок и до предложений по улучшению городской велоинфраструктуры.
Вобщем датасет сказка, ждите обратную связь и примеры анализа в канале:)
#geotools#geodata
Интересную статью выдал мне medium под вечер понедельника и внес немного баланса во вселенную. В статье автор показывает, как с помощью несложных манипуляций с OSM и геотеггированными фото становится возможным слежка за Большим Братом. Именно так, на мой взгляд, и должны работать открытые данные - давать информацию о действиях властей, которую они сами открыто афишировать не планируют, тем самым позволяя обществу контролировать власти в ответ на их контроль. У меня только один вопрос: даже если выборка неполная, точно ли локации военных баз - эта та информация, которая должна быть в открытом доступе на OSM?🤔
#geotools#geodata
Хорошим поводом отвлечься от рабочих геозадач и применить свои знания для решения актуальной городской проблемы стал хакатон сервиса аренды самокатов Whoosh , первый этап которого прошел в эти выходные. Организаторы сформулировали 3 темы : безопасность поездки, навигация и транспортная доступность. Наша команда решала задачу обеспечения безопасности. Мы предложили на основе данных об авариях с участием самокатов и исторических данных о скорости их передвижения создать карту, где все участки дорог в городе будут проранжированы по уровню их безопасности для езды на самокате. Это позволит сервису улучшить свои рекомендации маршрутов, а ДТ правильно выбирать зоны для ограничения скорости.
Небольшие выводы по ходу работы:
1. Наиболее удобный формат работы с геоданными: собирать и обрабатывать в питоне (библиотеки geopandas, shapely), визуализировать - в web-сервисах, мой личный топ - Unfolded.AI. Про него лучше написать отдельно, скажу только, что его делали ребята из uber - авторы kepler.gl и h3, а потому он имеет в себе весь их функционал и даже болеьше. У участников, кто пользовался qgis, 6 млн строк историии поездок на самокате сильно висели и они мало, что успели сделать.
2. искали решения похожих задач зарубежом: нашли bike compatibility index ( например, но для самокатов ничего подобного пока не расечили, а они на волне популярности удже 3 года
3. Некоторые датасеты портала ОД Москвы обладают удивительным свойством : в их названии есть слово “ Карта“, при этом они не содержат геоданных, как например эта “Карта среднемесячной загруженности дорог с индексами загруженности”
4. Из-за небольшой погрешности коодинаты самокатов плохо привязываются к графу дорог, загруженному из OSM. Чтобы это сделать нужно сначала создать прямоугольный buffer вокруг линии
5. При построении модели прогноза аварийности, если не хотите получить вывод, что аварий больше там, где больше самокатов, используйте в качестве таргета вероятность аварии, а не абсолютное число)
6. Карта ДТП (https://dtp-stat.ru/) - замечательный источник полезных открыты данных о Москве
7. Не хватило открытых данных по скоростным ограничениям для автомобилей, а также по парковкам и зонам для самокатов. Еще мы мечтали о ширине тротуаров
Первые выводы по самой задаче :
1. В Москве между числом аварий и уровнем пешеходности есть сильная прямая зависимость, то есть, чем больше может быть людей на улице, тем выше вероятность столкновения
2. В Москве наличие велодорожек никак не коррелирует с аварийностью, хотя в Европе установлено, что на велодорожки приходится самый низкий уровень аварий. Видимо, в Москве их длина настолько незначительна относительно всей длины дорог, что модель воспринимает их наличие и ширину, как погрешность
3. Вне центра Москвы почти все аварии на дорожных развязках. Кажется повод задуматься о наземных переходах.
3. Скутеры, благодаря встроенной системе gps и гибкости в выборе маршрутов , отличные источники данных для изучения поведения горожан на улице
В рубрике как это устроено у них могу сказать что для меня открытие этого года в том сколько спешно-успешно распространяются сервисы для доступа к геоданным на базе спецификации STAC (SpatioTemporal Asset Catalogs). Я как раз обновляю реестр каталогов данных Dateno и у меня сервисов поддерживающих спецификацию STAC накопилось уже 168. Скорее будет больше. При этом изначально я их классифицировал как отдельное ПО, потому что большая часть сервисов были на базе референсных реализаций, а правильнее классифицировать как протокол, а ПО определять иначе. Например, после появления расширения STAC для Geoserver (ПО с открытым кодом для создания OGC совместимых API, используется по всему миру)
Особенность спецификации STAC в том что из нее сложно преобразовывать в другие спецификации и отсюда сложность в индексации в Dateno. То что обычно называют датасетом в STAC называется каталогом, в рамках этого каталога публикуются ресурсы охватывающие территорию заданную этим каталогом, но в разные промежутки времени (еженедельно, ежедневно, ежечасно и тд). В результате внутри одного набора данных могут быть тысячи и миллионы файлов. Рассматривать ресурсы как отдельные наборы данных будет некорректно, а как отображать карточки с таким числом файлов непонятно.
И, кстати, перечень каталогов STAC сервисов на StacIndex неполон, у нас в реестре Dateno полнее будет, а в живой природе их сильно больше потому что, как я упоминал, он теперь поддерживается расширением GeoServer'а, а этих инсталляций в мире очень много.
P.S. Кстати, у Роскосмоса тоже есть открытый STAC каталог, с декларируемыми примерно 200ТБ данными. Явление необычное при нынешнем тренде в РФ на закрытость.
#opendata#geodata#datasets
GlobalBuildingAtlas набор данных по всем зданиям в мире, общим объёмом в 36 терабайт. Опубликован в апреле 2025 г. , доступен для полной выгрузки и как сервис WFS. Под лицензией CC-BY-NC 3.0 (свободное использование для некоммерческих целей)
#opendata#datasets#geodata
В продолжение текста о том как искать данные в принципе, поговорим о том где искать геоданные. С геоданными, всё, и лучше, и хуже, но важнее то что всё по другому. Иногда очень по другому.
Первое что важно знать это то что геоданные не индексируются Google Dataset Search и большей частью поисковиков которые я ранее не упоминал. Очень часто геоданные находятся, в принципе, за пределами обычного поиска и искать их необходимо в специальных каталогах и специальных сервисах.
Конечно, в первую очередь я порекомендую Dateno ;) где проиндексировано более чем 5.5 миллионов геоданных-ресурсов из геопорталов, практически по всем странам.
Но есть и другие источники:
- Geoseer - единственный известный мне поисковик по геоданным. Чем-то похож на Dateno, а Dateno на него. Охватывает 3.5 миллиона точек с гео API, в основном WMS, WFS, WCS и WMTS.
- ArcGIS Hub - портал открытых данных на базе платформы ArcGIS, охватывает все экземпляры порталов с открытыми данными на базе облачного сервиса ArcGIS
- ArcGIS Search - поисковик от ArcGIS по всем общедоступным ресурсам на их геосерверах. Шире чем поиск ArcGIS Hub, охватывает не только цифровые слои, но и другие геоартефакты
- Spatial Data Catalog - каталог данных от Carto, более 11 тысяч наборов данных удобных для интеграции с их платформой. Примерно 2/3 данных доступны только за деньги, считаются premium data
- Spatineo Directory - не каталог данных, но каталог источников геоданных, геосерверов. Можно найти нужны сервер и искать уже в нём.
А также стоит обратить внимание на порталы США: geoplatform.gov, sciencebase.gov и Европы data.europe.eu, где тоже много геоданных
Источников геоданных куда больше, это только основные ресурсы. А есть ещё базы спутниковых снимков, интерфейсы доступа к ним через стандарт STAC и многое другое. Об этом я регулярно пишу и ещё напишу здесь.
#opendata#geodata#datacatalogs
В рубрике интересных продуктов с открытым кодом MapLibre набор библиотек и спецификаций для создания настраиваемых онлайн карт с активным использованием GPU для оптимизации обработки и отображения изображений.
Делается довольно большой командой и большим числом контрибьюторов, это один из эффективных открытых проектов по сбору денег со спонсоров -по итогам 1-го квартала 2025 года их баланс составлял $653 тысячи, что для не самого крупного проекта довольно неплохо.
В частности в ноябре они выпустили первую версию сервера Martin для создания векторных плиток на лету из баз PostGIS и многое другое. Жаль они у них в планах нет выпуска каталога геоданных потому что Geonetwork и Geonode развиваются медленно.
#opensource#geodata#geospatial
На работе постоянно возникают задачи максимально точной оценки населения в разных концах света от Нигерии и Саудовской Аравии до Бразилии и Индонезии.
Из-за этого приходится держать руку на пульсе и следить за появляющимися датасетами зданий - детальнее всего можно оценить население, измерив объем жилых строений
По совету друзей протестировала датасет 3D-GloBFP. Подробные логику и результаты тестирования описала в статье на Medium, здесь напишу краткие тезисы:
🌍Про датасет
3DGloBFP - первый глобальный набор с высотами зданий (с 2020 год). Напомню, у Microsoft и Google высоты есть только в отдельных (US, EU) странах.
Авторы заявляют высокое качество оценки: R2 = 0.66–0.96, ошибка (RMSE) : 1.9–14.6 м
🔎Мой тест
Для теста я взяла уже проверенный датасет с высотами для 1 района Сан-Паоло и сравнила с данными из 3D-GloBFP (Все операции в Python) по двум показателям: покрытие и точность высот.
📍Покрытие
Пропущено 51% коммерческих и 38% жилых зданий
Геометрии очень неточные
📐Высоты
Оставив только пересекающиеся полигоны из 2 датасетов получила следующий результат:
- R2 ≈ -0.0027 ( при цели получить R2=1)
- RMSE: 17.2 м при средней реальной высоте 13.2 м → ошибка ~130%
Если разбить по интервалам высот: R² всегда отрицательный, RMSE растёт с высотой. Видна лишь слабая корреляция для очень высоких зданий
⚠️ Выводы
- На микроуровне (район, квартал) — данные неточные: много пропусков, ни полигоны ни высоты не отражают реальность.
- Если без высоты никак, то лучше взять геометрию Microsoft или Google и совместить с этим слоем. Альтернативно, можно сравнить с GHSL, про них писала ранее
Вероятно, лучше работает на макроуровне (страна, регион) и в зонах приоритета (Китай, США)
P.S. Весь анализ я проводила в Python. Если вы хотите научиться решать подобные задачи, велком на мой курс
#building_footprint#open_data#geodata
В рубрике интересных проектов на данныхGeoSeer [1], поисковая система по геоданным, а конкретнее по точкам API по стандартам WFS, WMC, WCS по всему миру. Я писал о нём год назад [2] и в течение года ни раз обращал внимание.
Из интересного:
1. 3.5 миллиона проиндексированных георесурсов/геоданных
2. За деньги доступно API для поиска
3. Любопытная статистика по охвату [3]
4. Дают расширенное описание георесурсов с учётом его геохарактеристик (области, атрибутов WFC/WMS и др.) [4]
Из особенностей:
- более 60%, примерно 2 миллиона записей - это геоданные Германии. Для сравнения в Dateno 4.4 миллиона георесурсов из которых к Германии относятся 1.89, это около 43%.
- реестр источников не публикуют, вернее обещают доступность только через API при платном тарифе
- фасетного поиска нет, только достаточно простой язык запросов
- поскольку индексируются WMS, WFC, WCS и WMTS то охватывает гораздо больше точек подключения в этих стандартах, но не охватывает все остальные геоданные, на порталах открытых данных и в каталогах ArcGIS и не только.
Разницу между GeoSeer и Dateno можно описать так:
1. ✅В Dateno есть публичный реестр всех источников, он не скрывается, любой желающий может скачать его как датасет [4].
2. ✅В Dateno есть много открытой статистики [5]. Она пока мало визуализируется, но с ней можно работать.
3. ✅В Dateno есть быстрый фасетный поиск и фильтрация по странам/территориям и другим критериям
4. ✅Dateno агрегирует геоданные из порталов неохваченных GeoSeer поскольку они не по стандартам OGC.
5. ❌Пока в Dateno нет охвата любых источников геоданным по стандартам OGC
6. ❌Пока в Dateno нет расширенного вывода метаданных для георесурсов
В целом пересечение индексов GeoSeer и Dateno в части геоданных около 60-80%. GeoSeer для проекта выглядит как хороший референсный проект для проверки полноты собственной базы.
Ссылки:
[1] https://www.geoseer.net
[2] https://t.me/begtin/5071
[3] https://www.geoseer.net/stats/
[4] https://github.com/commondataio/dataportals-registry/
[5] https://github.com/commondataio/dateno-stats
#opendata#datasearch#datasets#geodata#spatial
Всем привет, на связи "Город на карте"!
Всё началось с того, что пару месяцев назад моему другу пришла идея создать канал на тему урбанистики и картографии. Посовещавшись, мы пришли к следующим темам, о которых будем писать (под названиями тем будут хештеги для быстрого поиска постов на канале):
Городской общественный транспорт
#public_transport
Официальное уличное искусство
#street_art
Данные и геоданные
#geodata
Городское благоустройство
#urban_development
Картографические сервисы
#mapping
Ностальгическое и просто интересное.
Перечень тем, вероятно, будет дополняться и совершенствоваться. Приятного чтения)