LLM-алгоритм обработки новостных текстов для создания БД ОПЯ
Алгоритм предназначен для автоматической обработки текстов новостей с помощью большой языковой модели (LLM), выявления в них информации об опасных природных явлениях и создания структурированной базы данных об опасных природных явлениях.
Программный код принимает на вход таблицу с текстом новости и датой публикации, после чего LLM с помощью промпта извлекает из новости следующие атрибуты:
- Тип реализации (прогноз или событие);
- Вид опасного природного явления (до 30 отдельных видов);
- Место, где произошло явление (субъект РФ, муниципальный район, место);
- Дата начала и конца события;
- Характеристики природного явления (интенсивность, площадь проявления и причина возникновения);
- Материальный и экономический ущерб (разрушения, повреждения, приостановка деятельность и т.п.);
- Сумма ущерба и сумма компенсации;
- Количество пострадавших и погибших людей.
- Мероприятия по ликвидации последствий;
- Превентивные меры.
После чего выполняется геокодирование каждой новости с географической привязкой записи к наиболее детальным локациям, упомянутым в тексте.
Результатом работы алгоритма являются таблица в формате Microsoft Excel с извлеченными и структурированными из каждого текста сведениями об опасном природно событии и шейп-файл с соответствующими геоданными, связываемый с табличной частою по уникальным идентификаторам текстов.
Технические характеристики алгоритма:
- Скорость обработки данных – 1000 записей/час
- Тип LLM - OpenAI o4 mini
- Точность распознавания: от 0,65 до 0,97 для различных рубрик
- Количество распознаваемых видов опасных природных явлений - 30
- Галлюцинирование – 0%
- Язык реализации – Python
Алгоритм зарегистрирован как результат интеллектуальной деятельности (Программа для ЭВМ).
Правообладатель: НИУ ВШЭ