Проект

Университет Иннополис разработал алгоритм лингвистического анализа документов для МВД РФ

Заказчики: Министерство внутренних дел РФ (МВД)

Москва; Государственные и социальные структуры

Продукт: Искусственный интеллект (ИИ, Artificial intelligence, AI)

Дата проекта: 2020/10 — 2020/10
Технология: Big Data
подрядчики - 225
проекты - 629
системы - 237
вендоры - 194
Технология: Data Mining
подрядчики - 252
проекты - 849
системы - 291
вендоры - 209
Технология: Data Quality - Качество данных
подрядчики - 196
проекты - 1056
системы - 60
вендоры - 42
Технология: Робототехника
подрядчики - 270
проекты - 532
системы - 540
вендоры - 396

2020: Разработка алгоритма лингвистического анализа документов

Университет Иннополис 30 ноября 2020 года сообщил о разработке решения для Департамента информационных технологий, связи и защиты информации МВД РФ.

Университет разработал алгоритм, который проводит лингвистический анализ документов, после чего преобразует повествование от первого лица в текст от третьего лица: например, из сочетания «Я увидел, что Иванов подошёл ко мне» в «Он увидел, что Иванов подошёл к нему». Команда Университета Иннополис обучила нейронную сеть (архитектура БЕРТ) на датасете новостных сводок объёмом 12 Гб, она размечает принадлежность сказуемого к нужному подлежащему, определяет форму слова и морфологические категории.

Результаты нейросети использовались для написания Python-алгоритма на основе эвристик и правил русского языка. Решение учитывает специфику ведомственных текстов, а также способно обрабатывать художественные тексты. Алгоритм обрабатывает местоимения, глаголы, предлоги, цитаты, прямую речь, определяет принадлежность местоимений к именам и выделяет героев, даты, суммы денег, локации.

Сотрудники российского ИТ-вуза предложили внедрить алгоритм в комплексный сервис с веб-интерфейсом, куда пользователь может вставить текст, загрузить текстовые файлы разных форматов, аудио-файлы для распознавания речи и изображения с текстом. Также разработан плагин для LibreOffice с выделением измененных частей текста.

«
Разработанное решение протестировали эксперты из МВД РФ. Алгоритм показал отличные результаты на их примерах. Мы за 48 часов разработали кросс-платформенный автономный продукт, который готов к внедрению в ведомство и способен избавить сотрудников органов внутренних дел от рутинных задач, — рассказал лидер команды, сотрудник Центра искусственного интеллекта Университета Иннополис Семён Киселёв.
»