LLM-алгоритм обработки новостных текстов для создания БД ОПЯ

Алгоритм предназначен для автоматической обработки текстов новостей с помощью большой языковой модели (LLM), выявления в них информации об опасных природных явлениях и создания структурированной базы данных об опасных природных явлениях.

Программный код принимает на вход таблицу с текстом новости и датой публикации, после чего LLM с помощью промпта извлекает из новости следующие атрибуты:

Тип реализации (прогноз или событие);
Вид опасного природного явления (до 30 отдельных видов);
Место, где произошло явление (субъект РФ, муниципальный район, место);
Дата начала и конца события;
Характеристики природного явления (интенсивность, площадь проявления и причина возникновения);
Материальный и экономический ущерб (разрушения, повреждения, приостановка деятельность и т.п.);
Сумма ущерба и сумма компенсации;
Количество пострадавших и погибших людей.
Мероприятия по ликвидации последствий;
Превентивные меры.

После чего выполняется геокодирование каждой новости с географической привязкой записи к наиболее детальным локациям, упомянутым в тексте.

Результатом работы алгоритма являются таблица в формате Microsoft Excel с извлеченными и структурированными из каждого текста сведениями об опасном природно событии и шейп-файл с соответствующими геоданными, связываемый с табличной частою по уникальным идентификаторам текстов.

Технические характеристики алгоритма:

Скорость обработки данных – 1000 записей/час
Тип LLM - OpenAI o4 mini
Точность распознавания: от 0,65 до 0,97 для различных рубрик
Количество распознаваемых видов опасных природных явлений - 30
Галлюцинирование – 0%
Язык реализации – Python

Алгоритм зарегистрирован как результат интеллектуальной деятельности (Программа для ЭВМ).

Правообладатель: НИУ ВШЭ

Свидетельство Роспатента №2025683474