Проект

Российский фонд фундаментальных исследований (Deductor)

Заказчики: Российский центр научной информации, РЦНИ (ранее Российский фонд фундаментальных исследований, РФФИ)

Москва; Образование и наука

Продукт: Deductor

Дата проекта: 2009/01 — 2009/12
Технология: BI
подрядчики - 452
проекты - 3080
системы - 1154
вендоры - 561
Технология: Data Mining
подрядчики - 254
проекты - 861
системы - 296
вендоры - 212
Технология: Data Quality - Качество данных
подрядчики - 199
проекты - 1064
системы - 60
вендоры - 42
Технология: OLAP
подрядчики - 104
проекты - 857
системы - 61
вендоры - 50

Основная задача Российского фонда фундаментальных исследований – проведение конкурсного отбора лучших научных проектов из числа тех, что представлены Фонду учеными в инициативном порядке, и последующее организационно-финансовое обеспечение поддержанных проектов.

Организация деятельности в Фонде позволяет каждому исследователю вне зависимости от звания, возраста и ведомственной принадлежности на равных условиях участвовать в конкурсах и в случаях успеха получать финансовую поддержку своим исследованиям. Важным достижением РФФИ можно считать создание эффективной системы экспертизы научных проектов.

Информация в РФФИ собиралась много лет, в течение которых изменились и технологическая база, и принципы сбора данных, и информационные системы, и СУБД и многое другое. Все это, а также необходимость ввода персональной информации и сведений об исследованиях самими учеными объективно привели к тому, что накопленная база содержала большое количество ошибок: дубликаты, опечатки, аномалии, пропуски и тому подобное.

Однако ценность собранных сведений даже с учетом накопившихся за годы использования информационной системы ошибок очень велика. Для повышения качества и достоверности данных, а также для решения задач по развитию информационных систем Фонда было необходимо провести аудит накопленных данных, оценить их качество, классифицировать типы ошибок, выработать рекомендации по улучшению текущего состояния и недопущению ухудшения качества данных в будущем.

Решение поставленной задачи было разработано на базе аналитической платформы Deductor. В ходе работы была реализована процедура автоматической проверки данных на наличие ошибок по следующим категориям:

1. Технический уровень. Оценивались проблемы, связанные с нарушением структуры и целостности данных, наличием неинформативных полей, использованием различных форматов ввода в одном поле, нарушением логики полей и т.д.
2. Аналитический уровень. Выявлялись аномальные значения, противоречивые и дублирующие записи, опечатки, фиктивные значения, пропуски, ошибки ввода и т.д.
Дмитрий Бородачев, DатаРу Облако: Наше преимущество — мультивендорная модель предоставления облачных услуг

На основе полученных результатов были подготовлены следующие отчеты:

  • Сравнительная характеристика используемых баз данных, описание текущего состояния информационных систем.
  • Ошибки в структуре сбора данных, включая рекомендации по его изменению для обеспечения более качественного сбора сведений.
  • Ошибки в наполнении имеющихся баз данных: классификация типов проблем, статистика, критичность и причины возникновения ошибок, возможность исправления, рекомендации по улучшению качества данных.

Полученные рекомендации позволят существенно улучшить качество информационного наполнения баз Фонда и лягут в основу системы мониторинга качества поступающих и накапливаемых в РФФИ данных.