Заказчики: Российский центр научной информации, РЦНИ (ранее Российский фонд фундаментальных исследований, РФФИ) Продукт: Deductor Дата проекта: 2009/01 — 2009/12
|
Технология: Data Mining
Технология: Data Quality - Качество данных
|
Основная задача Российского фонда фундаментальных исследований – проведение конкурсного отбора лучших научных проектов из числа тех, что представлены Фонду учеными в инициативном порядке, и последующее организационно-финансовое обеспечение поддержанных проектов.
Организация деятельности в Фонде позволяет каждому исследователю вне зависимости от звания, возраста и ведомственной принадлежности на равных условиях участвовать в конкурсах и в случаях успеха получать финансовую поддержку своим исследованиям. Важным достижением РФФИ можно считать создание эффективной системы экспертизы научных проектов.
Информация в РФФИ собиралась много лет, в течение которых изменились и технологическая база, и принципы сбора данных, и информационные системы, и СУБД и многое другое. Все это, а также необходимость ввода персональной информации и сведений об исследованиях самими учеными объективно привели к тому, что накопленная база содержала большое количество ошибок: дубликаты, опечатки, аномалии, пропуски и тому подобное.
Однако ценность собранных сведений даже с учетом накопившихся за годы использования информационной системы ошибок очень велика. Для повышения качества и достоверности данных, а также для решения задач по развитию информационных систем Фонда было необходимо провести аудит накопленных данных, оценить их качество, классифицировать типы ошибок, выработать рекомендации по улучшению текущего состояния и недопущению ухудшения качества данных в будущем.
Решение поставленной задачи было разработано на базе аналитической платформы Deductor. В ходе работы была реализована процедура автоматической проверки данных на наличие ошибок по следующим категориям:
1. Технический уровень. Оценивались проблемы, связанные с нарушением структуры и целостности данных, наличием неинформативных полей, использованием различных форматов ввода в одном поле, нарушением логики полей и т.д.
2. Аналитический уровень. Выявлялись аномальные значения, противоречивые и дублирующие записи, опечатки, фиктивные значения, пропуски, ошибки ввода и т.д.
Дмитрий Бородачев, DатаРу Облако: Наше преимущество — мультивендорная модель предоставления облачных услуг
На основе полученных результатов были подготовлены следующие отчеты:
- Сравнительная характеристика используемых баз данных, описание текущего состояния информационных систем.
- Ошибки в структуре сбора данных, включая рекомендации по его изменению для обеспечения более качественного сбора сведений.
- Ошибки в наполнении имеющихся баз данных: классификация типов проблем, статистика, критичность и причины возникновения ошибок, возможность исправления, рекомендации по улучшению качества данных.
Полученные рекомендации позволят существенно улучшить качество информационного наполнения баз Фонда и лягут в основу системы мониторинга качества поступающих и накапливаемых в РФФИ данных.