Разработчики: | ЛЭТИ СПбГЭТУ - Санкт-Петербургский государственный электротехнический университет, Сибирский Федеральный Университет ФГАОУ ВПО |
Дата премьеры системы: | июль 2022 г. |
Отрасли: | Информационные технологии |
2022: Анонс нейросети, которая распознает рукописный текст на русском языке с 99-процентной точностью
В конце июля 2022 года стало известно о создании в России нейросети, которая распознает рукописный текст на русском языке. Это разработка специалистов Сибирского федерального университета (СФУ) и Санкт-Петербургского государственного электротехнического университета «ЛЭТИ».
Речь идет о так называемой свёрточной нейросети (CNN). Она способна читать рукопись на русском языке с точностью до 99%, утверждают разработчики. По их словам, алгоритм ориентируется независимо от почерка, защищён от утечки информации и не требует подключения к интернету.
Обучение нейросети проводилось с помощью предварительно обработанных данных хранилища CoMNIST — известной базы данных, содержащей образцы рукописного написания букв на латинице и кириллице. Первым делом учёные создали новый набор данных с помеченным изображением для 33 букв русского алфавита, затем разработали новую архитектуру CNN для обнаружения рукописных букв и сравнили её с уже существующими моделями. После этого выложили полное описание свёрточной нейросети и исходного кода, чтобы другие исследователи имели возможность воспроизводить эти данные. Для программирования был выбран язык Python и интерактивная среда разработки Jupyter.
По словам доцента кафедры систем искусственного интеллекта СФУ Анастасии Сафоновой, набор данных содержит 13 299 фотографий прописных, печатных и написанных курсивом букв. Приблизительно на 85% этих снимков нейронная сеть (CNN) училась распознавать буквы русского алфавита, а ещё на 15% шла проверка усвоенных «знаний». Всё обучение заняло 3 часа. Точность прогнозирования модели составила до 95,83%.Метавселенная ВДНХ
Разработчики нейросети загрузили проект на платформу GitHub, чтобы все желающим могли обучить модель на собственном наборе данных. [1]