На данной странице представлено описание алгоритма создания базы данных «Опасные природные явления по данным открытых источников», общий обзор полученных данных и демонстрационный датасет. Если вы хотите получить отдельную выгрузку из базы данных, смотрите условия использования и контакты для запроса ниже.
Алгоритм обработки новостных текстов для создания БД ОПЯ
Первым шагом работы стала подготовка списка интернет-источников, которые потенциально содержали новостные тексты об опасных природных явлениях. Для каждого из источников, прошедших отбор по ряду технических и концептуальных критериев, адаптировался инструмент выполнения парсинга – автоматизированного скачивания контента с сайтов. Контентом в данном случае являлись все имеющиеся новостные сообщения в определенном разделе сайта, без определения их релевантности тематике проекта. В полученном объеме сообщений фильтровались релевантные новости, то есть те, которые содержат информацию о произошедших или прогнозируемых опасных природных явлениях из круга интересующих (30 видов ОПЯ).

Для каждого сообщения, прошедшего фильтрацию, было выполнено извлечение информации с помощью генеративной большой языковой модели (БЯМ). Модель распознает информацию для заполнения 14 полей табличной базы по следующим тематическим группам: тип новости, вид ОПЯ, время, место, характеристики природного явления, социально-экономические последствия явления, ответные мероприятия. Средняя точность распознавания составила от 0,65 до 0,97 для различных рубрик. Корректность распознавания вида ОПЯ контролируется негенеративными методами обработки текста. На их же основе организован автоматизированный контроль содержания «тематических» полей базы (о характеристиках природного процесса, социально-экономических последствиях и ответных мерах): определяется наличие в текстовых фрагментах слов, которые должны и не должны фигурировать в определенных рубриках. Созданные записи также прошли постобработку. Во время неё автоматизировано нормализуются и унифицируются написания в ряде полей, где возможные варианты содержания известны и фиксированы, например, видов ОПЯ и типов новостей, а также полей дат. Унификация содержания численных полей о пострадавших и денежной оценке ущерба выполняется вручную, так как количество записей с информацией составляет первые сотни и они имеют высокую информационную ценность.
Записи полученной табличной базы геокодировались: по текстовым названиям локаций отыскивались географические координаты этого места. На основе полученных координат и с учетом типа локации (регионы, районы, населенные пункты и т.п.), созданы пространственные геометрии – специализированное координатное описание, распознаваемое геоинформационными системами для отображения объектов на карте и пространственного анализа.
Наконец, последним блоком алгоритма стал поиск групп сообщений, описывающих или прогнозирующих одно и тоже индивидуальное проявление какого-либо вида ОПЯ. Поиск организован методом сопоставления вида ОПЯ, дат и пространственных геометрий; при этом учитываются индивидуально разработанные по видам ОПЯ допуски по времени и пространству.
В процессе выполнения описанных шагов обработки, записи не исключались из общего пула при неуспешном выполнении какого-либо шага. Для формирования пользовательской версии БД ОПЯ отбирались только наиболее полные и информативные записи: сообщения о реализовавшихся событиях (исключаются прогнозы и предупреждения), с корректно распознанным видом ОПЯ и наличием какой-либо информации о социально-экономических последствиях. База организована по федеральным округа РФ и технически состоит из двух блоков – табличных файлов в формате *.xlsx и геоданных в формате *.shp, связывание элементов между ними возможно по уникальным идентификаторам текстовых сообщений. Табличная часть содержит 19 полей, геоданные - 12. Табличная часть именно этой версии базы зарегистрирована в качестве Результата Интеллектуальной Деятельности (Свидетельство о государственной регистрации № 2024625468).
Весь алгоритм автоматизированной обработки создан на языке Python.
В результате парсинга было получено более 8 млн индивидуальных новостных текстов. По итогам фильтрации осталось 52,4 тыс. сообщений или 0,6% скачанного объема. Этот тот корпус сообщений, который обрабатывался языковой моделью. Около пятой части из них являются сообщениями о реализовавшихся событиях (13,7 тыс.), остальные – прогнозами и предупреждениями. Пользовательская версия базы, получаемая после отбора записей, состоит из 11,7 тыс. сообщений о 8,3 тыс. индивидуальных событий.
Статистика обработанного корпуса сообщений
Приведенная ниже статистика относится к корпусу новостных текстов, обработанных языковой моделью и успешно разложенных в поля табличной структуры базы данных (50,9 тыс. сообщений).
Наибольшее количество новостных текстов про опасные природные явления в сформированном корпусе получено из социальной сети ВКонтакте (ВК) – более 3/4 всех имеющихся сообщений (Рисунок №2а). Однако большая часть из них относится к прогнозам и предупреждениям (Рисунок №2б). Более ценными, с точки зрения получения сведений о реализовавшихся событиях, являются СМИ и ресурсы МЧС. Однако последние публикуют довольно много сообщений, не содержащих нужной нам информации, но и не отсеиваемых фильтром в его текущей реализации (Рисунок №2б, категория «другое»); это, например, сведения о пожарах в помещениях или отчеты об отсутствии природных пожаров. Анализ содержания текстов выявил, что многие прогнозы и предупреждения, публикуемые в ВК, являются перепечатыванием материалов, подготовленных МЧС, то есть два этих источника предоставляют пересекающийся контент. СМИ характерно отличаются от двух других источников публикацией материалов преимущественно об уже произошедших событиях. В сумме, публикации о реализовавшихся событиях составляют 27% всех рассматриваемых текстов.

Объем имеющихся сообщений более-менее равномерно охватывает все федеральные округа, за исключением Северо-Кавказского (Рисунок №3а, СКФО). Причем бóльшая часть сообщений из этого ФО приходится на Ставрополье, хотя Кавказские горы являются одной из самых насыщенных физико-географических областей в России по разнообразию и частоте возникновения ОПЯ. Этот кейс ярко демонстрирует, что собранная база подсвечивает территории, где много пишут, а не где возникает много ОПЯ. Временнóе распределение сообщений (Рисунок №3б) неравномерно, их количество нарастает в последние годы. Однако это является следствием не учащения количества опасных процессов, а повсеместной цифровизации, в том числе органов власти. Так, например, с 2022 года все муниципалитеты обязаны вести группы во Вконтакте.

Обработанные тексты содержат различное наполнение деталями о природном явлении, месте и времени его проявления, социально-экономических последствиях (Рисунок №4). Общие паттерны частоты встречаемости той или иной информации совпадают с таковыми, выявленными при ручной разметке тестового набора новостей. Языковая модель смогла установить вид ОПЯ для 95% всех обработанных сообщений или для 99% сообщений типов «реализовавшееся событие» и «прогноз/предупреждение». Такую же высокую долю заполнения демонстрирует поле года; дату начала явления иногда затруднительно установить из содержания текста и даты его публикации, а дата окончания может и вовсе еще не наступить на момент публикации новости. Практически всегда из самого текста или названия паблика-источника ВКонтакте можно установить затронутый регион, однако другие детали локализации могут отсутствовать. Это особенно характерно для метеорологических предупреждений. Контрастируя с обобщенной статистикой, сообщения о реализовавшихся событиях содержат субрегиональную локализацию в более чем в 4/5 случаев. Информация о социально-экономических последствиях фигурирует менее чем в половине текстов из общей массы, потому что их основная масса относится к прогнозам и предупреждениям; среди сообщений о реализовавшихся событиях такая информация есть в 99% случаев. Численные сведения о денежном выражении ущерба и затронутых людях встречаются реже всего в использованных источниках. Из 50 тысяч сообщений, лишь 200 содержат денежные оценки, менее 1000 – сведения о погибших людях, около 1600 – о затронутых тем или иным способом людях.

Созданный алгоритм в целом и промпт для языковой модели в частности были нацелены на распознавание 30 видов опасных явлений. По результатам обработки было обнаружено, что в имеющимся корпусе текстов встречается только 19 из них. Среди общего количества текстов было идентифицировано 35,8 тыс. индивидуальных проявлений ОПЯ (Рисунок №5). Подавляющее большинство содержит информацию о метеорологических и связанных ОПЯ, постоянное прогнозирование которых лежит в области ответственности Росгидромета, а публичное уведомление о потенциальном достижении опасных значений – на МЧС. Криосферные и геологические процессы не упоминаются ни разу (термин «наледеобразование», использующийся в профессиональной среде для обозначения гидрогеологических наледей, интерпретировался моделью аналогично гололеду). Максимальное число текстов связанно с плохой погодой. Также очень часто упоминаются ландшафтные пожары, как на прямую, так и через указание класса пожарной опасности. Однако список лидеров отличается для сообщений о реализовавшихся событиях: наводнения (паводки, половодья, подтопления и др.) становятся вторым по частоте упоминания видом ОПЯ после сильных осадков, причем в 15% текстов они упоминаются совместно. Наиболее крупная группа текстов об одном происшествии (104 сообщения) относится к прохождению половодья на р.Тобол в Курганской области и окрестных регионах; местные органы самоуправления регулярно информировали жителей о ситуации и принимаемых мерах в пабликах ВКонтакте. Крупные группы образуют не только сообщения о масштабных бедствиях, но массовая публикация метеопредупреждений: сообщение о плохой погоде в июле 2022 г. по Архангельской области были опубликованы 34 раза в различных муниципальных пабликах ВКонтакте.

Верификация базы
Созданная БД экспертно верифицирована коллективом профильных специалистов по различным видам ОПЯ. Верификация была направлена на: i) проверку корректности распознавания языковой моделью вида ОПЯ; ii) анализ соответствия между типичным сутевым содержанием сообщения от неспециалистов (авторов текстов) и представлениями, в том числе терминологическим аппаратом, в профессиональной среде; iii) оценку содержания рубрик и пространственно-временной полноты созданной БД относительно имеющихся аналогов. Было разработано две методики, подходящих для различных видов ОПЯ в зависимости от их природы:
- Пространственная верификация. Ряд природных явлений требует конкретных природных условий, определяющих возможность их возникновения в том или ином месте. Для организации автоматизированной проверки территориальной принадлежности использовались существующие векторные геоданные по распространению ОПЯ. Пересечение их пространственных геометрий с геометриями записей БД ОПЯ оценивалось как «положительная» верификация, а локализация записи вне контуров — как «отрицательная». Записи с отрицательными результатами верификации дополнительно отсматривались экспертом; было установлено, что они, в основном, являются прогнозами регионального охвата с перечислением множества явлений.
- Фактологическая верификация. Существование других баз данных схожей тематики позволяет попытаться выполнить прямую сверку наличия упоминаний об одном и том же событии. Так как отсутствие упоминания о событии во внешних БД не является критерием его ложности, данная методика предполагает только «положительную» верификацию для записей о реализовавшихся событиях. Привлекались публично доступные базы данных Росгидромета, БД Роснедр, АИС ГМВО, МЧС, Рослесхоза, Vega-Science; сравнение с частью из них было автоматизировано.
Отзывы работавших экспертов и внутренний анализ результатов показывают, что модель хорошо справляется с распознаванием типа ОПЯ, указанного в тексте, однако иногда его терминологически неверно указывают авторы. Затруднительными кейсами являются каскадные процессы. Географическая локализация записей (результат работы языковой модели + геокодера + создания геометрии) обычно корректна в рамках созданного алгоритма и исходных текстов, однако не всегда соответствует сути природного явления. Проблемным также является класс текстов, где по разным поводам упоминаются несвязанные ОПЯ в рамках одной или нескольких локаций. Не смотря на объективные ограничения выборки и не стопроцентно корректную работу алгоритма, созданная база вызывает интерес у экспертов объемом, в том числе охватом «локальных» событий и более подробной, чем у большинства аналогов, структурой полей.
Демонстрационный фрагмент базы данных
Здесь можно скачать демонстрационный фрагмент Базы данных "Опасные природные явления РФ по данным открытых источников", свидетельство Роспатента о регистрации #2024625468.
Фрагмент состоит из четырёх частей - (1) табличной базы в формате Microsoft Excel на 50 записей; (2) геоданных, связываемых с ней по уникальным индексам, в формате ESRI Shapefile; (3) файла с описание полей обеих частей базы, в формате Microsoft Excel; (4) файла README.txt с описанием источника данных, лицензионных условий и авторства.
Если не указано иное, то данные доступны по лицензии "Creative Commons BY-NC-SA 4.0. С указанием авторства-Некоммерческая-С сохранением условий версии 4.0 Международная". Вы можете использовать данные, например в исследовательских и образовательных целях с последующей публикацией результатов, но не можете использовать данные и их производные в коммерческих целях. Вы всегда обязаны указывать исходных авторов данных, в том числе при публикации производных происведений; рекомендуемый текст для цитирования представлен ниже. Вы обязаны сохранять такую же лицензию для публикуемых происходных продуктов. Полный текст лицензии и краткие разъснения по использованию представлены по ссылке.
Для получения основного корпуса данных, специальной выборки и/или других условий использования, свяжитесь с нами: geodata@hse.ru
Как цитировать:
Анискина Т.А., Деркачева А.А., Краев Г.Н., Сакиркина М.А. База данных "Опасные природные явления РФ по данным открытых источников" [Электронный ресурс] / Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет «Высшая школа экономики», Москва. — 2024. — Свидетельство Роспатента о регистрации 2024625468