@datainthecity · Post #281 · 08/20/2025, 07:32 AM
На работе постоянно возникают задачи максимально точной оценки населения в разных концах света от Нигерии и Саудовской Аравии до Бразилии и Индонезии. Из-за этого приходится держать руку на пульсе и следить за появляющимися датасетами зданий - детальнее всего можно оценить население, измерив объем жилых строений По совету друзей протестировала датасет 3D-GloBFP. Подробные логику и результаты тестирования описала в статье на Medium, здесь напишу краткие тезисы: 🌍Про датасет 3DGloBFP - первый глобальный набор с высотами зданий (с 2020 год). Напомню, у Microsoft и Google высоты есть только в отдельных (US, EU) странах. Авторы заявляют высокое качество оценки: R2 = 0.66–0.96, ошибка (RMSE) : 1.9–14.6 м 🔎Мой тест Для теста я взяла уже проверенный датасет с высотами для 1 района Сан-Паоло и сравнила с данными из 3D-GloBFP (Все операции в Python) по двум показателям: покрытие и точность высот. 📍Покрытие Пропущено 51% коммерческих и 38% жилых зданий Геометрии очень неточные 📐Высоты Оставив только пересекающиеся полигоны из 2 датасетов получила следующий результат: - R2 ≈ -0.0027 ( при цели получить R2=1) - RMSE: 17.2 м при средней реальной высоте 13.2 м → ошибка ~130% Если разбить по интервалам высот: R² всегда отрицательный, RMSE растёт с высотой. Видна лишь слабая корреляция для очень высоких зданий ⚠️ Выводы - На микроуровне (район, квартал) — данные неточные: много пропусков, ни полигоны ни высоты не отражают реальность. - Если без высоты никак, то лучше взять геометрию Microsoft или Google и совместить с этим слоем. Альтернативно, можно сравнить с GHSL, про них писала ранее Вероятно, лучше работает на макроуровне (страна, регион) и в зонах приоритета (Китай, США) P.S. Весь анализ я проводила в Python. Если вы хотите научиться решать подобные задачи, велком на мой курс #building_footprint#open_data#geodata