2022/08/02 10:44:18

Обработка данных в глубинных нейронных сетях: достижения и вызовы текущего момента

Конечно, сегодняшние ИИ-механизмы не умеют «мыслить» и принимать решения на уровне человека. Однако и на этом пути ИИ может достигать впечатляющих успехов, делая то, что не под силу человеку, например, обрабатывать огромные объемы данных практически в реальном масштабе времени. Именно эти возможности стали базисом для мощного развития механизмов машинного обучения в его нынешнем наиболее популярном виде – глубинных нейронных сетей (ГНС или DNN – Deep Neural Network).

Статья входит в обзор TAdviser "Технологии искусственного интеллекта"

Глубинная нейронная сеть – это искусственная нейронная сеть (ИНС) с несколькими слоями нейронов, расположенных между входным и выходным слоями.

ГНС находит корректный метод математических преобразований, чтобы превратить исходящие данные в выходящие, независимо от линейной или нелинейной корреляции. Сеть продвигается по слоям, рассчитывая вероятность каждого выхода. Например, ГНС, которая обучена распознавать породы собак, пройдет по заданному изображению и вычислит вероятность того, что собака на изображении относится к определенной породе,- поясняет Андрей Остроух в своей монографии «Интеллектуальные системы» (Красноярск, Научно-инновационный центр, 2020 г.).

С точки зрения обработки данных, происходит следующее: поток подлежащей обработке (распознанию) информации поступает на входной слой, проходит через внутренние слои и результаты обработки информации выдаются через выходной слой искусственных нейронов. Во внутренних слоях устанавливаются связи между входным и выходным сигналами нейронной сети. Изменчивость связей между входом и выходом такой сети обеспечивается за счет различия порогов чувствительности входного и выходного слоев, которые устанавливаются и корректируются в процессе обучения сети.

Источник: habr.com/ru/post/456186/

ГНС могут моделировать сложные нелинейные отношения. Архитектуры ГНС генерируют композиционные модели, в которых объект выражается в виде многоуровневой композиции примитивов, отмечает эксперт:

Дополнительные уровни позволяют составлять элементы из более низких уровней, потенциально моделируя сложные данные с меньшим количеством единиц, чем мелкая сеть с аналогичными показателями.

Понятно, что состав конкретных нелинейных слоев зависит от решаемой проблемы. При этом используются как скрытые слои нейронной сети, так и слои сложных логических преобразований.

Таким образом, глубинное обучение сегодня - это алгоритмы машинного обучения для моделирования высокоуровневых абстракций с применением многочисленных нелинейных преобразований. Именно с этими преобразованиями экспериментируют исследователи, подбирая наилучшие функции для конкретных задач. TAdviser Security 100: Крупнейшие ИБ-компании в России 58.8 т

Что еще можно «выжать» из данных ГНС?

Автоматизация обучения ГНС

Одна из базовых задач любой системы машинного обучения – подготовка обучающей выборки данных и собственно обучение сети. Сегодня наиболее популярен метод, основанный на корректировке ее структуры с учетом результатов пробных решений. Поясняет Андрей Остроух:

Предварительно готовится достаточно представительная обучающая выборка – множество пар входных и выходных сигналов. Затем входные данные обучающей выборки последовательно вводятся в сеть для получения выходных данных сети, которые потом сравниваются с выходными данными обучающей выборки. Если они совпадают, то сеть считается обученной и никакой корректировки связей внутри сети не производится. В противном случае эти связи корректируются, и процесс обучения повторяется до тех пор, пока не будет достигнута необходимая точность совпадения выходных данных сети с выходными данными обучающей выборки.

Главной особенностью этих искусственных нейронных сетей является то, что они ориентированы на использование примеров (прецедентов) или образцов приемлемого исполнения целевой функции. При их проектировании не нужно заниматься формализацией процесса решения задачи. Необходимо лишь подготовить достаточно представительную выборку обучающих примеров и провести на ее основе обучение системы.

Источник: Источник: Искусственные нейронные сети и приложения: учеб. пособие /Ф.М. Гафаров, А.Ф. Галимянов. – Казань: Изд-во Казан. ун-та, 2018. –121 с.

Очевидно, что если нейросети могут обрабатывать огромные объемы данных, значит, их можно не только эксплуатировать, но и эффективно обучать. При этом под эффективностью понимается гораздо большая скорость обучения, чем в случае традиционных методов обучения нейронной сети вручную человеком.

Разработка технологий обучения нейросетей под новые задачи является отдельной крайне важной проблемой, и очевидно, что без таких технологий нет искусственного интеллекта,- подчеркивает Дмитрий Николаев, к.ф.-м.н., технический директор компании Smart Engines.

Такие решения разрабатываются для различных прикладных задач. Например, Smart Engines используется их в ПО распознавания документов.

Если мы умеем быстро синтезировать данные, то при получении постановки новой задачи мы можем формально, даже если не видели ни одного подобного примера из жизни, заранее синтезировать данные,- рассказывает Дмитрий Николаев.- И если наша система моделирования имела достаточно точные данные, была реалистична, то мы заранее обучим ИИ решать задачи еще до того, как они возникли.

Синтез изображений

Одним из важнейших прорывов ИИ 2021 года специалисты называют создание компанией OpenAI нейронной сети DALL·E, которая генерирует изображения из текстового описания на естественном языке.

DALL·E – это версия GPT-3 (третье поколение алгоритма обработки естественного языка), обученная генерировать изображения из текстовых описаний на датасете из пар текст-изображение. OpenAI создала несколько вариантов DALL·E: 125 миллионов до 175 миллиардов признаков. Результаты работы новой программы впечатлили общественность тем, насколько креативно она подходит к созданию новых образов.

Результат работы DALL·E по запросу «Улитка-арфа»

Источник: habr.com/ru/post/536236/

Несмотря на слово «Open», модель GPT-3 – это ПО с закрытым программным кодом, доступ к которому необходимо приобретать за деньги. А вот команда SberDevices на основе статьи про разработку OpenAI и кода модели GPT-2 к осени 2021 г. разработали русскоязычный аналог DALL·E под названием ruGPT-3 (ruDALL-E Kandinsky) с, действительно, открытым кодом. Он использует мощности суперкомпьютера «Кристофари» для поддержки пяти вариантов ПО: от 125 млн. до 13 млрд. признаков (модель самого верхнего уровня не является открытой).

Наступает эра «великого объединения» языковых моделей, компьютерного зрения и генеративных сетей. То, что мы видим сейчас, уже поражает воображение своими результатами, не говоря уже о том, насколько подобные подходы могут изменить процесс генерации контента,- восклицает Михаил Константинов @Dirac на habr.com/ru/.

Однако Валерий Андреев, заместитель генерального директора по науке и развитию компании ИВК, призывает к более сдержанным оценкам происходящих изменений:

Образно говоря, сегодняшний ИИ — это ребенок в «коротких штанишках», который только учится делать первые шаги. Ребенок, безусловно, умный и перспективный, но поручать ему серьезные «взрослые» дела пока совершенно преждевременно.

Он поясняет на примерах:

Например, Алису и другие голосовые помощники называют искусственным интеллектом. Но каждый, кто с ними общался, знает: стоит задать более-менее нестандартный вопрос – и вы получаете удивительно нелогичный ответ. Когда мы беседуем с «умной колонкой» ради забавы, такие ответы никак не влияют на нашу жизнь, разве что поднимают настроение. Но если врач положится на неверные советы ИИ, последствия для пациента могут быть катастрофическими.

Валерий Андреев обращает внимание на популярные средства генерации новых изображений на основе предложенных фотографий:

Лица, которые рисует ИИ на основании изучения фотографий множества людей, выглядят как бы живыми. «Как бы» здесь – ключевое слово. На самом деле мы каким-то шестым чувство сразу распознаем – это модель лица, а не изображение лица реального человека. Жутковатая правдоподобная имитация, не имеющая никакого отношения к реальности. Вероятно, портреты, скульптуры и фотографии передают образ реального человека несовершенно. Но в этих несовершенствах и есть человечность.

С тем, как придать сгенерированным сущностям еще больше естественности, несомненно, исследователи будут разбираться дальше. Однако и без этого у современных нейронных систем накопился достаточный груз проблем, требующих оперативного решения.

Проблемные точки современных ГНС

В сообществе ML/DL уже укрепилось стойкое мнение, что чем больше модель, тем лучшие результаты она дает. Яркий пример – скоринговые модели, с помощью которых банки оценивают платежеспособность потенциальных заемщиков. Например, в компании Mobile Scoring, которая предлагает услуги скоринга, по словам его генерального директора Виталия Щипкова, используется 3,5 тыс. параметров заемщика.

Главное, за счет чего ИИ добивается отличных результатов в скоринге, – это объемы разрозненных данных, которые собираются и анализируются разными компонентами системам,- говорит Иван Барчук, директор департамента сбора, хранения и анализа данных компании «ВС Лаб».- Чем больше данных, тем более изощренные их комбинации может построить ИИ, выявить больше закономерностей и связей, узнать о клиенте максимум необходимой информации.

В ход идет информация о работодателе клиента, как из коммерческих баз данных (СПАРК, Контур.Фокус, ЕГРЮЛ, ЕГРИП), так и из СМИ и соцсетей. Из баз данных берется информация о состоянии компании, ее активности в госзакупках, известные данные об обороте и численности компании. А в СМИ и соцсетях собираются слухи об ухудшающемся или улучшающемся положении компании, сведения о скандалах, связанных с директором, владельцем или учредителями. В Data Lake банка поступает также информация из соцсетей о составе друзей, сведения, кто из них уже является клиентом банка, подтверждение родственных связей, группы, в которых состоит человек и т.д.

Эти данные можно либо приобрести на рынке, либо использовать OSINT-системы.

На рынке предлагаются OSINT-системы, например, IQPLATFORM, которые предоставляют информацию такого рода в размеченном виде. Корпоративным алгоритмам ИИ остается забрать ее из OSINT-системы и запустить в обработку,- замечает Иван Барчук.

Еще один источник информации – сведения о клиентах из банковской экосистемы: доставка продуктов, заказы такси, интернет-покупки, увлечения, состав семьи – все эти данные используются для анализа. Также источниками могут служить данные с бирж, занимающихся продажей cookie, ведь в них собраны все интересы клиента банка, его поисковые запросы и многое другое. С помощью этих данных ИИ может, например, выяснить, что заемщик – постоянный клиент онлайн-казино, и он решил взять кредит.

• Проблемы наличия больших данных. Владимир Козлов, эксперт в сфере оценки рисков финансового сектора, обращает внимание на то, что объемы имеющихся открытых данных по людям позволяют сформировать практически любую выборку клиентов по любому имущественному/неимущественному признаку. Люди буквально оказываются «раздетыми», с точки зрения информационной безопасности. Возможно, стоит поднять вопрос о закрытии информации? – задает вопрос эксперт. К тому же с большими объемами данных о людях – много головной боли.

Например, разработка и тестирование моделей машинного обучения проводится, как правило, на реальных данных, для чего Data Science-аналитикам требуется доступ к максимально большому объему данных, которому заранее невозможно четко задать границы. Это означает, что снижения рисков утечек данных клиентов требуется создание специализированных промышленных сред с особым режимом информационной безопасности.

К тому же большое количество данных – это просто дорого, с точки зрения стоимости ИТ-инфраструктуры для хранения и обработки больших объемов информации. Вот почему Лидия Храмова, Lead data scientist компании QIWI, сокрушается по поводу увлечения дата-сайнтистов огромными наборами признаков: «Лучше использовать 50-70 тщательно отобранных параметров, чем контролировать риски деградации пяти тысяч признаков».

• Проблемы качества данных. Пожалуй, ключевой проблемой ML-моделей сегодня является снижение качества работы моделей, которое порой может проявляться буквально через нескольких дней после запуска модели в эксплуатацию. На деградации работы модели сказываются различные факторы. Например, незначительные изменения в структуре и статических свойствах данных, которые сложно заметить или трудно оценить их влияние в рамках традиционного подхода к аналитике, могут существенно повлиять на качество работы моделей машинного обучения.

Поэтому параметры модели необходимо постоянно «тюнинговать», причем, делается это методом проб и ошибок. Юрий Сирота, старший вице-президент, Chief Analytics Officier банка УРАЛСИБ, отмечает, что при этом важно ориентироваться не на математические метрики, хотя работа идет именно с математическими моделями, а на бизнес-метрики. Так, например, чрезмерный акцент на краткосрочных закономерностях в данных может нанести ущерб точности модели в будущем. Поэтому те модели принятия решений, которые напрямую влияют на финансовые результаты компании, должны обновляться чаще и более оперативно. Но сегодня такая работа сродни искусству.

Словом, в элементарных ситуациях с простым и четким сценарием ИИ уже помогает, но там, где требуется взглянуть на ситуацию под разными углами зрения, он пока бессилен. Поэтому случаев реально полезного применения немного. Более того, есть примеры масштабных провалов,- говорит Валерий Андреев.

Он ссылается, в частности, на выступление Германа Грефа на «Уроке цифры» в частной школе в Москве (он опубликовано на сайте корпоративного TV Сбербанка). Глава Сбера опытом применения ИИ:

Искусственный интеллект, как правило, принимает решение в больших системах. Маленькая ошибка, закравшаяся в алгоритм, может приводить к очень большим последствиям. В нашей практике мы теряли большие деньги на этом. Из-за того, что машина совершала маленькую ошибку на больших объемах, мы теряли миллиарды рублей.

Жизненный цикл моделей ML

Можно сказать, что самой актуальной темой сегодняшнего дня является ModelOps - управление процессами бесперебойной интеграции аналитических моделей в бизнес, когда модели, созданные командой аналитиков, реализуются в ИТ-окружении компании в условиях регулярных изменений и обновлений. Аналитики Gartner в своем исследовании Hype Cycle for Artificial Intelligence, 2021 подчеркивают:

Организации должны рассмотреть возможность эксплуатации моделей (ModelOps) для эксплуатации решений ИИ. ModelOps сокращает время, необходимое для перехода моделей искусственного интеллекта от пилотного проекта к производству, благодаря принципиальному подходу, который может помочь обеспечить высокую степень успеха. Подход ModelOps также предлагает систему управления и управления жизненным циклом всех ИИ (графов, лингвистических, основанных на правилах систем и других) и моделей принятия решений.

Речь идет о подводных камнях и рутине, связанной с управлением жизненным циклом ML-моделей: Так, необходимо своевременное обновление модели. Приходится постоянно искать новые данные, которые могут быть полезны для работы моделей и поддержки их актуальности при условии, что параметры исследуемой ситуации могут меняться с течением времени. При этом стандартный подход айтишников – автоматические перетренировки по расписанию – здесь не работает, поскольку потеря моделью своих предиктивных свойств – вещь, практически не поддающаяся формализации. Это область сродни искусству, где велика роль личного таланта датасайентистов и бизнес-аналитиков.

Кроме того, организация должна четко формулировать критерии качества работы ML-моделей не только, с точки зрения математических методов, но и с позиций бизнеса. А традиционно, замечает Владимир Козлов, скажем, скоринг рассматривается, в первую очередь, как борьба с исходными данными. Но так происходит потому, что данными обычно занимается ИТ-отдел, а результатами работы моделей пользуется бизнес. Связь качества работы моделей с бизнес-метриками – это область, с которой корпоративному сектору еще только предстоит научиться работать.

Как справиться с модельными рисками

В банке ВТБ для снижения модельных рисков выстроена целая система внутреннего контроля из трех линий защиты. Так, на первом уровне качеством работы моделей занимаются сами разработчики моделей. На втором - независимое подразделение валидации и управления модельным риском. Оно осуществляет независимую проверку разработанных моделей ИИ. И на третьей линии - отдельное подразделение внутреннего аудита, которое контролирует соблюдение внутренних стандартов сотрудниками на первых двух линиях.

Павел Николаев, управляющий директор департамента интегрированных рисков банка «Открытие», сравнивает набор различных ML-систем в банке с лоскутным одеялом: одновременно работают различные модели, созданные с помощью различных инструментов, разными группами дата-сайентистов. Такое положение дел обусловливает специфический риск: команды могут вмешиваться в данные, нарушая необходимые связи.

Решение – внедрение платформы ML-моделирования корпоративного масштаба IRIS компании Neoflex. По словам Лины Чудновой, руководителя бизнес-направления Fast Data и практики DevOps компании Neoflex, реализована идея Continuous Integration/Continuous Delivery/ Continuous Training моделей на базе общего репозитория моделей и единой платформы для всех бизнес-юнитов банка. Такой подход позволяет платформе интегрироваться со всеми кредитными конвейерами, и в то же время обеспечивается нужный уровень децентрализации работы с моделями – каждая команда дата-сайентистов получает в свое распоряжение свой кусочек общего пространства работы с интеллектуальными моделями, то есть собственную среду с динамическим расширением ресурсов для обучения модели.

Исследовательская компания Mediascope вместе с Neoflex запустила в промышленную эксплуатацию Data Science платформу для разработки и внедрения моделей машинного обучения. Как рассказали в компании, Mediascope получила масштабируемое и управляемое пространство для разработки ML-моделей, которое позволяет оперативно подключать внутренние команды дата-сайентистов с возможностью оценки результатов их работы. Компания также сможет быстро и с минимальными трудозатратами привлекать внешние ML-команды. Всем специалистам доступен централизованный каталог готовых пайплайнов, что даст возможность переиспользовать готовых компонентов.

При этом архитектура платформы обеспечивает автоматизированный процесс разработки и внедрения моделей, их перенос в промышленную среду, а также предоставляет инструменты для визуализации метрик экспериментов. Платформа построена на базе СПО Kubeflow, которое обеспечивает централизованные средства разработки ML-моделей, пайплайнов и управления артефактами. Используется также Argo Workflow - развитый оркестратор рабочих процессов на Kubernetes, который входит в состав Kubeflow, - он облегчает процесс использования разработанных моделей.

В ВТБ правильность работы моделей ИИ помогает отслеживать специальная автоматизированная система мониторинга моделей: внутренний учет разработанных моделей ведется в системе управления моделями, а правила и процесс взаимодействия подразделений регламентируются утвержденным стандартном жизненного цикла моделей.

Высокий уровень потребления вычислительных ресурсов решениями на базе ML-моделей неминуемо приводит к идее облачных сервисов. Так, решение для быстрого процессинга ML-моделей компании Neoflex одинаково легко может быть развернуто, как на локальной инфраструктуре банка, так и в облаке: AWS, Yandex Cloud, Mail Cloud Solutions.

Свое суперкомпьютерное облако открыли для всех разработчиков Сбербанк и SberCloud: облачная платформа ML Space на базе вычислительных мощностей суперкомпьютера «Кристофари» с более чем тысячей GPU предназначена для разработчиков ИИ-сервисов любого масштаба. Платформа ML Space ориентирована на полный цикл разработки прикладных решений на базе машинного обучения и совместной работы команд специалистов по данным над созданием и развертыванием моделей машинного обучения. Архитектура ML Space сформирована из интегрированных модулей-сервисов, каждый из которых рассчитан на решение определенных задач: хранение, анализ, управление доступом и жизненным циклом данных, датасетов, моделей, Docker-контейнеров и другое.

Децентрализованное машинное обучение

Растущие объемы моделей машинного обучения приводят к формированию новой проблемной точки: ML на больших моделях способны создавать и поддерживать лишь немногие очень крупные технологические компании.

Для того чтобы сделать машинное обучение более доступным и демократичным процессом, исследователи ИИ из Microsoft опубликовали открытый код проекта децентрализованного и коллаборативного ИИ на блокчейне. Благодаря прозрачному учету и органичному сотрудничеству на всех стадиях жизненного цикла машинного обучения, рассказывают в Microsoft, удается максимально упростить контроль новых версий модели, включая корреляцию конкретных изменений с определенной продуктивностью. Решение получило название «Децентрализованный и коллаборативный ИИ (Decentralized & Collaborative AI, DCAI) на блокчейне».

DCAI – это фреймворк для хостинга и тренировки моделей машинного обучения на инфраструктуре блокчейна. Текущая версия DCAI создана на базе Ethereum и использует смарт-контракты для реализации механизмов тренировки в моделях машинного обучения. С функциональной точки зрения, DCAI структурирует процесс добавления данных/тренировки модели машинного обучения на основе трёх основных компонентов:

Механизм мотивации. Этот компонент должен способствовать вводу высококачественных данных.
DataHandler. Компонент хранит данные и метаданные в блокчейне.
Модель. Компонент содержит определенную модель машинного обучения, которая обновляется в соответствии с предварительно заданными алгоритмами тренировки.

DCAI структурирует процесс добавления данных/тренировки модели машинного обучения

Источник: Microsoft, Habr

DCAI – не единственная актуальная инициатива в сфере децентрализованного ИИ/ML. В мире реализуется еще несколько подобных инициатив:

SingularityNet. Разработчик платформы – компания, известная благодаря разработке ПО для популярного робота Софии. Построенная на блокчейне Эфириума, SingularityNet предоставляет модель, где различные участники сети мотивированы реализовать или использовать сервисы ИИ.
Ocean Protocol. Предлагает децентрализованную сеть поставщиков и потребителей данных, позволяющую реализовать и использовать приложения ИИ. Ocean реализует множество традиционных инфраструктурных элементов приложений ИИ, таких как хранение, вычисления и алгоритмы, посредством токенизированного сервисного слоя, использующего основные компоненты программ децентрализованного ИИ.
Erasure. Созданная инновационным хедж-фондом Numerai, Erasure предлагает децентрализованный протокол для создания и запуска прогностических моделей. Цель Erasure – предоставить децентрализованную площадку, где специалисты по данным смогли бы загружать прогнозы, основанные на доступных данных, делать ставки на них с помощью криптовалютных токенов и получать вознаграждение в зависимости от эффективности прогнозов.
OpenMined. Один из самых активных проектов на рынке децентрализованного ИИ. Это экосистема инструментов и фреймворков для реализации приложений децентрализованного ИИ. OpenMined удалось сформировать очень активное сообщество разработчиков и обеспечить слаженную интеграцию с технологиями мейнстримного машинного обучения.

Следующий материал обзора >>>
Главная страница обзора >>>