Заказчики: Московский кредитный банк (МКБ) Москва; Финансовые услуги, инвестиции и аудит Продукт: OpenMetadataВторой продукт: Kubernetes Третий продукт: PostgreSQL СУБД Дата проекта: 2023/04 — 2023/09
|
Технология: Data Quality - Качество данных
Технология: MDM - Master Data Management - Управление основными мастер-данными
Технология: Средства разработки приложений
|
Содержание |
2023: Внедрение каталога данных OpenMetadata
МКБ (Московский кредитный банк) внедрил каталог данных c открытым исходным кодом OpenMetadata. Его задача — упорядочить работу с данными, сделать ее более оперативной, а сами данные — более качественными, сообщили представители МКБ 16 ноября 2023 года. Внедрение решения, по оценкам специалистов банка, экономит порядка трети рабочего времени аналитиков.
Для банка данные самого разного характера — это основа для принятия решений, в том числе управленческих, создания рекомендательных систем, и, конечно, скоринга. И если эти данные недостаточно качественны (основные критерии здесь — правильность, актуальность и полнота), то решения могут быть неверными, а также запоздалыми — если на поиск нужных данных уходит слишком много времени (до 80% рабочего времени аналитиков). Эти две проблемы становятся все более и более серьезными по мере того, как бизнес развивается: объем данных растет, в связи с чем найти нужную информацию становится непростой задачей.
Кроме того, добавляется и тот факт, что информация о данных — метаданные — хранилась в банке разрозненно: в Confluence, Jira и других электронных таблицах. А находить оперативно нужные сведения могут аналитики, работающие с теми или иными данными. Поэтому уход такого ИТ-специалиста может привести к частичной потере экспертизы в определенном сегменте данных.
Чем поможет каталог?
По задумке МКБ, внедрение каталога данных поможет повысить уровень доверия к ним, упростит процесс поиска нужных данных, а также избавит от так называемых бесхозных данных, за качество и состояние которых никто не несет ответственность.
Еще один важный фактор — безопасность данных. Стопроцентной гарантии от утечек и утери данных не бывает, но необходимо минимизировать риски, для чего данные необходимо ранжировать по критичности, знать, где и как они хранятся и какими средствами обеспечивается их безопасность, какие сотрудники имеют к ним доступ, с каким уровнем привилегированности и так далее. Также в случае наступления нежелательного инцидента при наличии каталога будет понятно, какие блоки данных оказались скомпрометированы, что облегчит ликвидацию последствий.
Как выбирали решение
В текущих условиях, когда решения от крупных зарубежных производителей программного обеспечения (ПО) недоступны, создать каталог данных в банке можно двумя путями — либо разработать самостоятельно, либо воспользоваться готовым open source-решением. Самостоятельная разработка — очень затратный процесс с точки зрения времени и финансов. В случае с уже готовым open source-решением, со сложностями сопряжен сам процесс внедрения, интеграции с уже работающими информационными системами банка, ведь документация часто недостаточно подробна, а опытных внедренцев с нужной экспертизой на рынке может просто не быть.
В результате была выбрана открытая система каталогизации данных OpenMetadata. Любой каталог данных должен уметь подключаться к системам источников и считывать их метаинформацию. Это данные о данных — таблицы, структура таблиц, где эти таблицы лежать, название базы, название схемы, название таблицы. В идеальном состоянии — еще и комментарии. OpenMetadata это как раз делает умеет.Метавселенная ВДНХ
Система может получать метаданные не только из баз данных, но также из систем для работы с потоковыми данными Apache Kafka, Apache Airflow, BI-систем.
Внедрение и сложности
Процесс внедрения системы занял два месяца и состоял из тестового и полномасштабного «боевого» внедрений. Изначально по соображениям безопасности было принято решение развернуть OpenMetadata не «тестовом полигоне», в контуре разработки. В качестве платформы для работы каталога OpenMetadata использовали Kubernetes, в качестве СУБД для хранения метаданных — PostgreSQL. В этом состояла особенность данного кейса внедрения такой системы — базовая документация каталога составлена для работы с MySQL. Кроме самой OpenMetadata, для нормальной работы каталога в МКБ также развернули такие системы, как Apache Airflow (для считывания метаданных из источников) и поисковая система Elasticsearch.
Основная сложность — это внедрение каталога данных в процессы банка, так как требуется перестройка процессов работы с данными и разработки. В работе используются разнородные системы. Например, разработка технического задания ведется в Сonfluence, но после его реализации аналитиком построенная таблица описывается также и в каталоге данных.
Каждому аналитику данных необходимо выделить время на поиск, разметку и описание своих данных в каталоге. Привить культуру управления данными и сформировать необходимые привычки — ключевая задача.
Результаты и эффективность
Каталог уже развернут и полноценно эксплуатируется в МКБ. К нему подключены 8 основных информационных систем банка: корпоративное хранилище данных, система ЦФТ-Банк, CRM и др. Процесс описания и разметки данных (наполнение каталога данных информацией) продолжается.
По отзыву МКБ, по сравнению с прежним форматом организации работы с данными, каталог уже успел продемонстрировать свои преимущества: экономия рабочего времени аналитиков уже составляет 32% (исследовалась работа по тем блокам данных, которые уже описаны в каталоге).
Что дальше
У МКБ на каталог данных большие планы. Планируется интеграция каталога данных с инструментом по контролю качества данных (DQ). И конечно, продолжает оставаться актуальной тема внедрения культуры управления данными и формирование необходимых привычек работы с ними у специалистов банка, — поделились представители МКБ. |