LLM-алгоритм обработки новостных текстов для создания БД ОПЯ

Алгоритм предназначен для автоматической обработки текстов новостей с помощью большой языковой модели (LLM), выявления в них информации об опасных природных явлениях и создания структурированной базы данных об опасных природных явлениях.

Программный код принимает на вход таблицу с текстом новости и датой публикации, после чего LLM с помощью промпта извлекает из новости следующие атрибуты:

  1. Тип реализации (прогноз или событие);
  2. Вид опасного природного явления (до 30 отдельных видов);
  3. Место, где произошло явление (субъект РФ, муниципальный район, место);
  4. Дата начала и конца события;
  5. Характеристики природного явления (интенсивность, площадь проявления и причина возникновения);
  6. Материальный и экономический ущерб (разрушения, повреждения, приостановка деятельность и т.п.);
  7. Сумма ущерба и сумма компенсации;
  8. Количество пострадавших и погибших людей.
  9. Мероприятия по ликвидации последствий;
  10. Превентивные меры.

После чего выполняется геокодирование каждой новости с географической привязкой записи к наиболее детальным локациям, упомянутым в тексте.

Рисунок №1. Принципиальная схема автоматизированного алгоритма
Рисунок №1. Принципиальная схема автоматизированного алгоритма

Результатом работы алгоритма являются таблица в формате Microsoft Excel с извлеченными и структурированными из каждого текста сведениями об опасном природно событии и шейп-файл с соответствующими геоданными, связываемый с табличной частою по уникальным идентификаторам текстов.

Технические характеристики алгоритма:

  • Скорость обработки данных – 1000 записей/час
  • Тип LLM - OpenAI o4 mini
  • Точность распознавания: от 0,65 до 0,97 для различных рубрик
  • Количество распознаваемых видов опасных природных явлений - 30
  • Галлюцинирование – 0%
  • Язык реализации – Python

Алгоритм зарегистрирован как результат интеллектуальной деятельности (Программа для ЭВМ).

Правообладатель: НИУ ВШЭ

Свидетельство Роспатента №2025683474