#python#audio#deeplearning#minicpm#python#pytorch#speech#speech_synthesis#text_to_speech#tts#tts_model#voice_cloning
VoxCPM is a free, open-source TTS tool that turns text into realistic speech without tokens, creating expressive audio that matches context and clones voices perfectly from just 3-10 seconds of sample. Download VoxCPM1.5 (800M params) from Hugging Face, install via pip, and use simple Python or CLI commands for fast synthesis (RTF 0.15 on RTX 4090) or fine-tuning your own voices. You benefit by easily making natural audiobooks, podcasts, clones, or apps with pro-quality sound—saving time and costs on voice work.
https://github.com/OpenBMB/VoxCPM
Можно сказать что новый термин INDS (Integrated national data system) / Интегрированная национальная система данных. В блоге Мирового банка [1] заметка о таких системах в Гане, Эстонии и Мексике и со ссылкой на доклад World Development Report 2021: DATA FOR BETTER LIVES [2] того же Мирового банка.
Доклад полезный, есть версия на русском языке [3], много примеров, но не о России, но не в России, а жаль, в России немало примеров работы с данными на государственном уровне и в частном секторе.
Ссылки:
[1] https://blogs.worldbank.org/opendata/creating-integrated-national-data-system-lessons-estonia-ghana-and-mexico
[2] https://www.worldbank.org/en/publication/wdr2021
[3] https://openknowledge.worldbank.org/bitstream/handle/10986/35218/211600ovRU.pdf
#data#opendata
В Коммерсанте вышла статья [1] "Фабрика-цифра"
Там есть и мой краткий комментарий, но на самом деле он был не краткий и я написал много тезисов, но журналисты сократили их и значительно.
Вот что я думаю про это:
1. На многие данные и механизмы взаимодействия с гражданами у государства есть безусловная монополия. Например, это данные о юридических лиц, или данные цифрового профиля гражданина или данные о платежах граждан в бюджет (ГИС ГМП) и ещё много другого. Бизнес ищет возможности как доступа к данным, так и возможности интеграции с сервисами государства для расширения возможностей их продуктов. Например, банки хотят оказывать госуслуги, а многие хотят пользоваться авторизацией в ЕСИА (Госуслуги) и так далее
2. Проблем довольно много и не последняя из них в отсутствии чётко сформулированной, последовательной и подкрепленной реальными полномочиями и инструментами их применения государственной политики в области данных. Единственная более-менее крупная инициатива в этой области о которой можно упомянуть - это НСУД (Национальная система управления данными) которая из большой регуляторной инициативы выродилась в модель для точечного применения корпоративных принципов управления данных к ограниченному число систем, относительно контролируемых правительством. При этом в остальном в России остаётся ситуация которую в западной прессе называют digital mandarins (цифровые "мандарины"), а в русской традиции правильнее называть "цифровыми царьками". Большинство органов власти существуют в своих полу-замкнутых отраслевых колодцев, а Минцифры было и остаётся лишь одним из органов власти с весьма куцыми полномочиями. В итоге в регуляторике очень много ограничений, у нас реально десятки "тайн" такие как: гостайна, служебная тайна, тайна следствия, адвокатская тайна, врачебная тайна, налоговая тайна, персональные данные и ещё много всего что ограничивает раскрытие и/или передачу данных из ГИС третьим лицам.
3. Я бы сказал что очень многое зависит от этих возможностей и проработанности предложений Ассоциации больших данных. Не видя их текста трудно сейчас сказать насколько они проходимы, но я как руководитель другой ассоциации АУРД, состоящей из игроков среднего и малого бизнеса считаю что здесь важно чтобы реакция государства учитывала что в стране существуют не только монополисты крупный цифровой бизнес, но и развитый средний и малый бизнес также желающий работать с ГИС и с данными государства.
И, конечно, больше открытых данных нужно всем.
Ссылки:
[1] https://www.kommersant.ru/doc/4539873
#data#opendata
В догонку про геоданные и их доступность, Максим Дубинин из NextGIS поделился статистикой их проекта [1] облачного, не государственного, сервиса российского происхождения и международной аудиторией:
- 2.1 млн скачиваний клиента для QGIS, 0.7 за последний год
- 1800+ сервисов
- 1000 авторов сервисов из 50 стран.
Максим был одним из основателей ГИС Лаборатории [2], одного их первых сообществ по открытым геоданным в России. А NextGIS - это пример коммерческого проекта на открытых данных и с открытым кодом для общественной пользы.
Ссылки:
[1] https://www.facebook.com/maxim.dubinin/posts/10111830597349957
[2] https://gis-lab.info/
#opendata#tech#opensource
Access Info пишут [1] о том что Еврокомиссия планирует отозвать обещание по требованию со стран-членов Евросоюза по раскрытию реестров компаний.
Тема эта давняя, о балансе интересов продавцов этих данных и выгоды для рынка от их доступности. Все стороны правы по своему, но политика последних лет была в сторону открытия этих реестров и логики того что сколько бы не зарабатывали страны на продаже доступа к ним, тем не менее экономический эффект от открытия данных куда выше. А сейчас вышел документ оценки влияния этого регулирования и Access Info его раздобыли [2] и уже подготовили свои комментарии [3].
На Impact Assessment стоит обратить внимание ещё и потому что там не только про данные компаний, но и про High Value Datasets и влияние раскрытия данных на экономику.
Ссылки:
[1] https://www.access-info.org/2021-06-03/open-company-registers-eu-at-risk/
[2] https://www.access-info.org/wp-content/uploads/Deloitte-Study-2020.pdf
[3] https://www.access-info.org/wp-content/uploads/2021-06-03-Commission-Impact-Assessment-AIE-Briefing-Note.pdf
#opendata#eu
В качестве регулярных напоминаний, о том где брать открытые данные в России и о России.
Негосударственное
- datacatalogs.ru каталог порталов открытых данных, государственных, академических, некоммерческих и всех других. Охватывает практически порталы всех уровней кроме некоторых муниципальных.
- hubofdata.ru - общественный хаб открытых данных, здесь всегда можно опубликовать свои наборы данных
- clearspending.ru - общественный проект по прозрачности контрактной системы в России. Дампы данных по госконтрактам.
- Awesome opendata Russia - список ссылок в Github на ресурсы посвящённые открытым данным в России. Был прообразом для datacatalogs.ru.
- репозитории Инфокультуры - многочисленные репозитории с данными и кодом Инфокультуры, в том числе с большими датасетами
Государственное
- data.gov.ru - официальный портал открытых данных Российской Федерации.
- fedstat.ru - официальные статистические показатели, в том числе в форматах открытых данных
- data.mos.ru - официальный портал открытых данных Правительства Москвы
- ehd.moscow - единое хранилище данных г. Москвы (статпоказатели и отчеты, нет открытых лицензий)
Международное
- data.worldbank.org - портал данных Мирового Банка, есть данные статистики по России
- data.un.org - портал статистики ООН, есть данные статистики по России
Рекомендации и руководства
- opendatareview.infoculture.ru - работа с открытыми данными: особенности публикации и использования в российском правовом поле
Коммерческие
- datacrafter.ru - каталог проекта Датакрафтер, с открытыми и иными данными собранными из официальных источников и доступных в формате API.
- labelme.ru - каталог данных для машинного обучения от компании LabelMe
Академические
- sophist.hse.ru - единый каталог экономических и социологических данных НИУ ВШЭ
- social.ranepa.ru - социологические данные РАНХиГС
Доступных данных гораздо больше, если Вы знаете каталоги данных которых нет в datacatalogs.ru, отправьте их через форму и мы его обязательно добавим.
#opendata#russia
Регулярные напоминания
Я время от времени, по мере роста числа подписчиков, напоминаю о проектах которые я и моя команда ведём. Это не исчерпывающий список, а самое что ни на есть основное.
В телеграм
- @begtin - мой канал в телеграм где я пишу про данные, госданные, иногда про госфинансы и госуправление, ИТ в гос-ве и около, технологии и про госзакупки.
- @infoculture - телеграм канал АНО "Инфокультура" которое я возглавляю
- @ahminfin - телеграм канал моей коллеги, Ольги Пархимович, она ведёт разработку проекта Госрасходы (spending.gov.ru) и руководит проектом Госзатраты (clearspending.ru) и регулярно пишет о разных проблемах и достижениях профильных органов власти в этой области и про открытые данные, не только в госфинансах.
Проекты (активные)
По госфинансам
- Госрасходы (spending.gov.ru) - аналитический портал Счетной палаты РФ с анализом данных о госрасходах включая полную базу госконтрактов, субсидий (до ноября 2020 года), иных данных. С открытыми данными, API и так далее. А также с аналитикой по нацпроектам и госпрограммам.
- Госзатраты (clearspending.ru) - изначальный общественный негосударственный проект по анализу госконтрактов созданный для Комитета Гражданских Инициатив. Сейчас поддерживается и развивается Инфокультурой. Также с открытыми данными и API.
По НКО
- Открытые НКО - портал по всем некоммерческим организациям которые существуют в России, включая данные по их контрактам, субсидиям, полученным грантам, идущим арбитражным делам и сдаваемых ими отчетам. С открытыми данными и API.
- Данные НКО - портал открытых данных созданных специально для НКО для раскрытия данных о их деятельности. На базе CKAN с открытыми данными и API.
По открытым данным
- Хаб открытых данных - общественный портал открытых данных, включает многие данные которые мы собирали параллельно официальным порталам открытых данных. В последнее время обновляется сильно реже, давно думаем о его реорганизации. На базе CKAN с открытыми данными и API.
Другое
- Простой русский язык - простой инструмент измерения сложности текстов, выдает показатель в годах обучения. С открытым API и открытым кодом
- Национальный цифровой архив - проект по архивации веб-сайтов Рунета и иных цифровых объектов/артефактов. На практике совокупность проектов под одним брендом. С большими данными в виде дампов архивов сайтов.
- День открытых данных - ежегодное мероприятие по открытым данным в России/Москве.
Исследования
- Приватность государственных мобильных приложений в России - о том какие трекеры в каких госприложениях.
- Open Data Review - Открытые данные в российском правовом поле: обзор лучших практик, рекомендаций и барьеров
- Оценка открытости государственных информационных систем в России - о том какие ГИС есть в России и насколько они открыты
- Открытость государства в России - ежегодный доклад Счетной палаты и ряда НКО
- Утечки данных из государственных информационных систем - о том как персональные данные утекают из государственных и регулируемых государством информационных систем
Блоги и медиа
- Блог Инфокультуры на Хабре - тексты большого формата, пишем туда нечасто, не писали много лет, но начали снова.
- Рассылка Инфокультуры - регулярные новости про открытые данные и события, и иную деятельность как нашу Инфокультуры так и партнёров. 7,5 тысяч подписчиков.
- Моя личная рассылка на Substack - я стараюсь писать туда 2-4 раза в месяц. Темы шире чем у рассылки Инфокультуры и веду я её лично, с середины прошлого года специально для лонгридов.
- Блог begtin.tech - мой блог для публикаций "среднего размера", регулярно возвращаюсь к нему, хотя пишу даже реже чем в рассылку.
Дополнительные ресурсы
- открытый код на Github infoculture, datacoon, ruarxive, ivbeg
- открытые данные на data.worldinfoculture, ibegtin
- документированные госAPI на Postman infoculture-public
- профили на международном портале данных гуманитарных кризисов infoculture
#opendata#opengov
Для тех кто интересуется моя презентация Особенности открытого доступа и открытых данных в гуманитарных науках [1] в открытом доступе, с обзором открытого доступа и открытых научных данных
Ссылки:
[1] https://www.beautiful.ai/player/-OTvQBg2a4JCj0PfyeTk
#opendata#openaccess
На следующей и через неделю мы от Ассоциации участников рынка данных и Инфокультуры проводим две экспертные сессии о том как бизнес предоставляет данные НКО, исследователям и госорганам для решения социальных проблем (пандемии, катастрофы, преступность, экология, длительность жизни, бедность) и так далее. И как исследователи, НКО, государственные органы используют эти данные или могли бы использовать.
Состав уже довольно представительный и содержательный, будет речь о том как это происходит в мире, какую пользу приносит и какова мотивация всех участнков.
Ещё есть время в программе, поэтому если есть те готовы не просто послушать, а ещё и рассказать о своём опыте с любой из этих сторон, пишите мне на [email protected] или в телеграм @ibegtin. Нужны подробности: какую организацию представляете, ФИО и краткие тезисы на 10-15 минут.
Мероприятия пройдут 25-го и 29-го июня. Их результаты пойдут в разработку модели коммуникации бизнеса и исследователей, НКО и государства.
В течение года мы ещё вернёмся к этой теме на более широко, открыто, с большими панелями на больших конференциях, а сейчас это именно экспертные встречи на 2-3 часа.
Также предварительный анонс - от АУРД мы будем проводить серию мероприятий до конца года. По тематикам: - государственные данные в региональном/муниципальном разрезе
- персональные данные и рынок обмена
- открытые данные по отраслям/территориям
- доступ к государственным информационным системам
и ещё по ряду направлений.
Что-то будет только онлайн, что-то в гибридном формате.
Если у Вас есть предложения по мероприятиям, готовность выступить с интересной историей и тд. пишите мне также на [email protected]
И напоминаю что АУРД - это ассоциация участников рынка данных, в ассоциацию входят представители бизнеса, НКО и университетов. Для некоммерческих организаций и университетов/образовательных организаций членство в ассоциации бесплатно, для бизнеса оно настолько велико что можно вступать без зазрения совести.
#data#opendata#events
47.8 миллионов километров дорог распознано в картах Bing и выложено Microsoft онлайн в виде открытых данных под лицензией ODbl [1]. В данных совсем нет Китая, Японии, Кореи, Папуа Новая-Гвинея.
Но Россия есть, и обитаемая зона её не так велика как географическая.
Все данные в формате TSV, сжатый объём около 10GB.
Ссылки։
[1] https://github.com/microsoft/RoadDetections
#opendata#datasets#microsoft
В рубрике как это устроено у них могу сказать что для меня открытие этого года в том сколько спешно-успешно распространяются сервисы для доступа к геоданным на базе спецификации STAC (SpatioTemporal Asset Catalogs). Я как раз обновляю реестр каталогов данных Dateno и у меня сервисов поддерживающих спецификацию STAC накопилось уже 168. Скорее будет больше. При этом изначально я их классифицировал как отдельное ПО, потому что большая часть сервисов были на базе референсных реализаций, а правильнее классифицировать как протокол, а ПО определять иначе. Например, после появления расширения STAC для Geoserver (ПО с открытым кодом для создания OGC совместимых API, используется по всему миру)
Особенность спецификации STAC в том что из нее сложно преобразовывать в другие спецификации и отсюда сложность в индексации в Dateno. То что обычно называют датасетом в STAC называется каталогом, в рамках этого каталога публикуются ресурсы охватывающие территорию заданную этим каталогом, но в разные промежутки времени (еженедельно, ежедневно, ежечасно и тд). В результате внутри одного набора данных могут быть тысячи и миллионы файлов. Рассматривать ресурсы как отдельные наборы данных будет некорректно, а как отображать карточки с таким числом файлов непонятно.
И, кстати, перечень каталогов STAC сервисов на StacIndex неполон, у нас в реестре Dateno полнее будет, а в живой природе их сильно больше потому что, как я упоминал, он теперь поддерживается расширением GeoServer'а, а этих инсталляций в мире очень много.
P.S. Кстати, у Роскосмоса тоже есть открытый STAC каталог, с декларируемыми примерно 200ТБ данными. Явление необычное при нынешнем тренде в РФ на закрытость.
#opendata#geodata#datasets
GlobalBuildingAtlas набор данных по всем зданиям в мире, общим объёмом в 36 терабайт. Опубликован в апреле 2025 г. , доступен для полной выгрузки и как сервис WFS. Под лицензией CC-BY-NC 3.0 (свободное использование для некоммерческих целей)
#opendata#datasets#geodata
#python#mcp#mcp_server#open_data#opendata
Data.gouv.fr MCP Server lets AI chatbots like Claude or ChatGPT search, explore, and analyze over 74,000 French open datasets via simple questions, such as "Show latest Paris population data" or "Find real estate prices," without manual browsing. Connect easily to the free public endpoint https://mcp.data.gouv.fr/mcp—no API key needed. You benefit by getting instant, accurate access to public data like company info, metrics, and resources, saving time on research or apps and enabling quick insights from France's top-ranked open data platform.
https://github.com/datagouv/datagouv-mcp