Проект

В школе цифровой экономики ДВФУ создают синтетическую личность на основе искусственного интеллекта

Заказчики: Дальневосточный Федеральный Университет (ДВФУ)

Владивосток; Образование и наука

Продукт: PuzzleLib Нейросетевая библиотека
На базе: Искусственный интеллект (ИИ, Artificial intelligence, AI)

Дата проекта: 2019/06
Технология: Средства разработки приложений
подрядчики - 196
проекты - 431
системы - 680
вендоры - 345

2 июля 2019 года ДВФУ сообщил, что в его школе цифровой экономики создадут цифровой корпус русского языка для обучения машин, нейросетей и разработки синтетической личности на основе искусственного интеллекта. Проект реализуется в Лаборатории машинного обучения ШЦЭ ДВФУ на базе магистерской образовательной программы «Искусственный интеллект и большие данные». Электронный сбор заявок на участие в первом этапе работы будет открыт в сентябре.

Одним из первых продуктов по итогам проведённой работы станет цифровой менеджер — синтетическая личность на основе искусственного интеллекта, способная поддерживать сложные диалоги с пользователем, задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи. На подобном принципе можно будет построить работу call-центров, систем обучения языкам, переводчиков, различных экспертных систем, систем управления сложными машинными механизмами.

«
Мы уже начали разработку синтетической личности в партнёрстве со «Сбербанком», что и привело к постановке более глобальных задач. Серьёзным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнёром по машинному обучению — компанией «Нейросети Ашманова». Она предоставит нам технологию цифровой разметки материала. Результаты нашей совместной работы мы поэтапно будем передавать для открытого использования всем заинтересованным сторонам,
рассказал Илья Мирин, директор Школы цифровой экономики ДВФУ
»

Эксперт объяснил, что фактически речь идёт о подготовке академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Самый главный шаг на этом пути – собрать аудио-корпус и разметить его специальным образом, понятным машине. Сбор материала будет происходить через сайт и мобильное приложение.

«
Это чрезвычайно объёмная работа с перспективой на много лет. Однако первичный этап накопления языкового материала мы в ШЦЭ планируем завершить уже через год, после чего приступим к его оцифровке,
пояснил Илья Мирин, директор Школы цифровой экономики ДВФУ
»

На первом этапе к работе будут привлечены волонтёры из числа студентов ДВФУ. Далее подключатся профессиональные лингвисты, и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала: разобьют его на части речи, проставят ударения, паузы, разделят на диалоги и монологи, приведут произнесённые фразы к точному соответствию написанному тексту, а тексты, начитанные с листа, отделят от произнесённых естественным образом. При этом предстоит решить целый комплекс сопутствующих задач.

«
Для развития алгоритмов искусственного интеллекта обучающие данные не менее важны, чем алгоритмы. Появление в прошлом десятилетии открытого корпуса из 14 млн. изображений ImageNet оказало большое влияние на развитие компьютерного зрения – исследователи и разработчики смогли создавать различные методы анализа данных и применять компьютерное зрение в реальных задачах. Вместе с ДВФУ мы сможем собрать «голосовой ImageNet», который продвинет исследования в области распознавания и синтеза речи в России и мире. Кроме того, мы постараемся собрать не только русские речевые корпуса, но и корпуса для языков малых народов России,
отметил Станислав Ашманов, генеральный директор «Нейросетей Ашманова»
»

«
На длительном отрезке времени выжили те языки, которые имели письменность, а бесписьменные — практически вымерли. Мы говорим о новой письменности — формате языка, пригодном для обучения машин. В этой связи появилась опасность, что те языки, на которых не будут разговаривать машины — от микроволновок и принтеров до автомобилей и промышленных роботов, — скорее всего, тоже со временем вымрут. По этой причине язык надо оцифровать, перевести его в модель самообучающейся нейросети. Эту важную цивилизационную задачу мы будем решать попутно с разработкой прикладных продуктов на основе искусственного интеллекта,
резюмировал Илья Мирин, директор Школы цифровой экономики ДВФУ
»