«Глаза» ИИ: что видят системы компьютерного зрения сегодня и что разглядят завтра?
Темпы развития рынка систем компьютерного зрения (Computer Vision, CV) в РФ впечатляют: аналитики ожидают, что после 2021 г. его среднегодовой прирост может достичь 40% в год. Такие темпы роста обусловлены буквально революционными прорывами в математических методах, которые произошли несколько лет назад. В результате весь мир интенсивно наращивает объемы практических проектов в области видеоаналитики. В чем заключаются вызовы дальнейшего развития, и что мешает получить умных автономных роботов, которые «видят как человек»?
Статья входит в обзор TAdviser "Технологии и решения искусственного интеллекта: точка перелома"
Содержание |
Основная статья: Компьютерное зрение (машинное зрение)
Эволюция технологий
Взрывной рост внедрений CV-решений произошел всего лишь несколько лет несколько лет назад – он связан с началом активного использования сверточных нейронных сетей.
Сеть представляет собой совокупность нейронов со связями и передачей сигналов. Такие системы можно назвать условно универсальными: мы постоянно дообучаем сеть, добавляя новые слои нейронов, связи и используя все большее количество изображений для обучения, рассказывает Татьяна Воронова, руководитель направления анализа данных компании «Центр 2М».
|
Эксперименты с архитектурой: как они меняют рынок
Современные нейронные сети для задач CV содержат от 500 тыс. до 10 млн. нейронов, а применение данного подхода требует высокого уровня экспертизы, так как используются разнообразные способы подготовки данных, методы оптимизации работы сетей.
Используются также разные архитектуры сетей, зачастую необходимо разрабатывать отдельную архитектуру под отдельную задачу, добавляет Татьяна Воронова.
|
Юрий Визильтер, начальник подразделения интеллектуального анализа данных и технического зрения ФГУП «ГосНИИАС» полагает, что способ дообучения с постоянным добавлением в обученную сеть новых слоев нейронов - это достаточно экзотический вариант.
Базы примеров, действительно, постоянно пополняются, и готовые сети обычно дообучаются на новых примерах без изменения архитектуры, - замечает эксперт. - В случае же необходимости изменить именно архитектуру, разработчики просто пробуют различные новые готовые архитектуры, меняя их параметры, и при этом каждый раз обучая сеть заново. |
Постоянный поиск лучшей архитектуры сетей – это нынешняя реальная жизнь разработчиков. С завидной регулярностью - несколько раз в год - в мире появляются новые архитектуры нейронных сетей, которые существенно превосходят результаты предыдущих архитектур.
Для всех основных задач компьютерного зрения (классификация, обнаружение объектов, слежение за объектами, семантическая сегментация, аннотирование видео, распознавание лиц и т.д.) есть (и постоянно появляются новые) общепризнанные публичные тестовые данные, подчеркивает Визильтер.
|
На этих базах по принятым правилам (протоколам) тестирования соревнуются лучше научные и коммерческие команды разработчиков, и все практики внимательно следят за тем, какие архитектуры сетей, функции потерь, приемы обучения показали лучшие результаты.Михаил Садиров, SMART technologies: На тестирование мультивендорных решений есть спрос
Поскольку в научных сообществах машинного обучения и компьютерного зрения в последнее десятилетие принято, что новые архитектуры сетей открыто публикуются, то путь от передовой научной разработки до создания прикладного продукта, по оценкам специалистов, может составлять всего несколько месяцев.
Это вдохновляющая возможность. Но одновременно и серьезная коммерческая опасность. Ведь в настоящее время, в отличие от прежних десятилетий, утверждать, что какая-либо компания надолго захватила технологическое лидерство на том или ином рынке, уже невозможно. Тот, кто перестал следить за самыми последними достижениями и перестал совершенствовать свой продукт, рискует немедленно проиграть в конкурентной борьбе самому зеленому новичку, комментирует Юрий Визильтер.
|
Хороший пример такого положения вещей – технологии биометрического распознавания лиц. Так, российская команда компании NTech Lab в 2015 г. разработала алгоритм FaceN, способный распознавать лица точнее человека. В том же году алгоритм FaceN стал победителем чемпионата мира The MegaFace – он сумел распознать идентичные лица среди миллиона образцов, опередив более сотни команд со всего мира, включая Google. А ведь до этого в мире на этом поле господствовало несколько известных компаний, которые десятилетиями пестовали и совершенствовали свои биометрические решения.
Распознавание лиц: революция с продолжением
Решения распознавания лиц предыдущих поколений требовали строго фронтальной съемки лиц с хорошим разрешением в хороших контролируемых условиях. Появление в 2015 г. глубоких нейронных сетей перевернуло этот мир устоявшихся технологий: новые алгоритмы распознавания позволяли идентифицировать лица в произвольном ракурсе, причем, на изображениях гораздо худшего качества.
Десятки команд разработчиков по всему миру соревновались в достижении лучших результатов, и в итоге качество распознавания лиц буквально за год было поднято на принципиально новый уровень. Лидеры менялись еженедельно - это можно было отследить по рейтингам на сайтах соответствующих баз изображений, среди которых основной тогда была база LFW (Labeled Faces in the Wild). Среди лидеров не раз оказывались российские команды. В том числе и мы, ГосНИИАС - в 2015 г. победили на первом российском публичном конкурсе по распознаванию лиц в сложных условиях, проводившемся ФПИ,
вспоминает события недавнего прошлого Юрий Визильтер.
|
Когда появилась новая гигантская база MegaFace, сообщество разработчиков переключилось на нее, а одним из первых победителей этого конкурса стала российская компания NTech Lab. Сегодня скорость роста качества решений в лицевой биометрии несколько замедлилась, замечает Юрий Визильтер, но по-прежнему несколько раз в год появляются качественно новые научные решения, а лучшие коммерческие разработки постоянно совместно тестируются как в публичном поле, например, в тестах американского национального института по стандартизации NIST.
Отметим, что в числе победителей в тестах NIST в последнее время оказываются российские разработчики. Так, алгоритм распознавания лиц компании Vision Labs весной прошлого года стал победителем в категории Mugshot (фотопортрет преступника, где освещение и фон вариативны, а качество изображения может быть плохим), где использовалось более миллиона фотографий людей, и разные фото одного и того же человека могли быть сделаны с разницей в 14 лет. В этом тесте VisionLabs заняла первое место (99,5%, при доле ошибочных срабатываний 0,001%) c самым устойчивым к возрастным изменениям алгоритмом распознавания лиц.
В категории Visa, где распознавание происходит на фотографиях хорошего качества, задача поиска нужного человека осложняется тем, что в базе собрано несколько тысяч фото людей из разных стран. Здесь алгоритм VisionLabs взял «серебро» - показал второй результат в мире с уровнем распознавания 99,5% при доле ошибочных срабатываний 0,0001%. А в международном конкурсе, который проходил в рамках специализированной конференции по компьютерному зрению CVPR-2019, Vision Labs обошла всех конкурентов в тестах на обнаружение обмана компьютерной системы: ее система Liveness отличает лицо живого человека не только от его фотографии, но от видеозаписи.
Ситуация смены лидеров сегодня характерна для всех областей компьютерного зрения. Именно поэтому долгосрочное технологическое лидерство здесь сегодня невозможно, какие бы денежные средства ни были вложены в разработки. Слишком велико международное сообщество разработчиков, методы глубокого обучения развиваются, потому велика вероятность, что кто-то еще завтра совершит следующий прорыв и получит лучшие результаты. И такое положение будет сохраняться, по крайне мере, до тех пор, пока не завершится происходящая сегодня технологическая революция в компьютерном зрении, подчеркивает Юрий Визильтер.
|
Достижения сегодняшнего дня
Знаем всех в лицо
По состоянию на 2020 год технологии NTech Lab обеспечивают детектирование лиц в толпе, даже находящихся вдалеке, повернутые в сторону от камеры, полуприкрытые, например, масками. Распознаются также лица на фото, сделанных в сложных условиях, например, при плохом освещении, или на размытых изображениях, скажем, сделанных в полумраке зрительного зала.
Между тем, реальная жизнь вносит свои поправки – на улицах и в общественных местах сегодня множество людей появляется в медицинских масках. Стало ли это вызовом для нынешних систем видеонаблюдения?
Все очень сильно зависит от установленных камер. Если это камеры с плохим качеством, то маска может закрыть половину лица, которое и так было сложно распознать. Если же мы говорим про офис, магазин, склад, то здесь точность распознавания практически не страдает. Более того, мы предлагаем заказчикам дообучить системы: к стандартным паспортным фотографиям, уже загруженным в системы для распознавания, добавить изображение сотрудников в маске. Обогащение портфолио по сотрудникам позволяет существенно увеличивать точность распознавания, |
По мнению эксперта из Atos, настоящим «крепким орешком» для систем распознавания лиц и других объектов является распознавание эмоции: «Особенно эмоции русского человека. Здесь пока уровень ложных срабатываний крайне высок».
На таких решениях, в частности, сфокусировала внимание компания «Центр 2М». В ее решениях контроля доступа в помещения, используется функция распознавания эмоций посетителя, а также произойдет точная идентификация человека, даже если он попытался изменить внешность, скажем, наденет очки, парик, накладную бороду, шапку и т.д. Кроме того, есть встроенная система антиспуффинга – она препятствует проникновению в помещение злоумышленника с помощью фотоснимка реального сотрудника.
Это стало возможным после появления специальных технологий, предназначенных для описания лица человека. Так, каждое распознанное лицо может быть представлено набором уникальных параметров, называемых «дескрипторами лица». Эти дескрипторы существенно экономят память компьютерной системы. Кроме того, исходное изображение лица невозможно восстановить из извлеченных дескрипторов, отмечают специалисты Vision Labs и подчеркивают: «Такой принцип работы позволяет соблюдать правила защиты персональных данных».
Городская видеоаналитика – составная часть умного города
В марте 2020 г. стало известно, что биометрическая система распознавания лиц «Визирь» группы компаний ЦРТ включена в базу эффективных кейсов организации «Цифровая экономика». База кейсов, в которой сегодня находится три десятка ИТ-решений, создается АНО «Цифровая экономика» при участии региональных властей и бизнеса с целью развитие цифровой экономики в субъектах России. Биометрическая система «Визирь», которая представляет собой универсальную информационную систему обнаружения и идентификации лиц по видеоизображению в условиях плотного потока людей, включена в блок «Общественная безопасность».
Система показывает высокую результативность в сложных условиях: плохое освещение, низкие температуры, угловой ракурс. Распознавание и верификация человека происходят по ходу его движения, то есть в реальном времени. Реагируя на актуальные вызовы, специалисты ЦРТ провели модернизацию системы для адаптации ее работы условиях эпидемиологической обстановки, в частности, для ретроспективного поиска лиц, по которым есть информация о потенциальном заражении коронавирусом.
Между тем, МВД разрабатывает новую городскую систему распознавания преступников и подозреваемых с помощью видеокамер. От нее ожидают умения распознавать в уличной толпе преступника по лицу, голосу, радужной оболочке глаза, татуировкам на открытых частях тела и походке. По ранее озвученным планам, запустить систему предполагается до конца 2021 г.
Видеоаналитика: промышленное видеонаблюдение
К числу наиболее популярных решений видеаналитики для промышленных предприятий относится ряд видов мониторинга:
- Нарушение опасного периметра.
- Наличие средства индивидуальной защиты (СИЗ).
- Выявление брака на производственных линиях.
Например, у горноперерабатывающих предприятий распространенная проблема - рудозасорение. На ленты конвейера часто попадают элементы шахтной крепи, буровой инструмент, деревянные и другие немагнитные элементы, что может привести к разрыву ленты, поломке дробилки и повышенному износу дробящих тел. Выявление ненужных элементов на конвейере – одна из популярных задач видеоаналитики.
В компании «Центр 2М» рассказывают, что в портфеле выполненных проектов компании есть такие, в которых система видеонаблюдения за производственным объектов охватывает территорию размером с десяток футбольных полей. И на всей этой территории отслеживается наличие у любого сотрудника всех элементов СИЗ, необходимых в каждом конкретном случае. Специально обученная нейронная сеть распознает, как элементы СИЗ (каски, жилеты, респираторы, защитные очки и т.д.), так и элементы оборудования, а также условия работы оборудования.
Компания «Крок» разработала комплексное решение по видеоаналитике для охраны труда и промышленной безопасности (ОТиПБ) на основе машинного зрения и искусственного интеллекта. Система помогает выявлять потенциально опасные ситуации благодаря предиктивной аналитике, ее можно использовать для расследования инцидентов. Решение также поможет отследить местоположение персонала и контролировать доступ в опасные зоны. При этом наблюдаемая зона может быть динамической и перемещаться в поле зрения камеры.
Видеоаналитика в ритейле
В большинстве магазинов сегодня работают решения подсчета посетителей на базе лазерного датчика либо видеокамеры со специальным ПО. А сетевые ритейлеры тестируют технологии распознавания лиц, которые дают им возможность автоматически буквально «знать в лицо» постоянных клиентов - это помогает, в том числе, запускать персонализированные программы лояльности. Например, если камера на кассе распознает человека как постоянного посетителя, ему автоматически предоставляется скидка, а продавец имеет возможность обратиться к нему по имени. Так, в магазинах сети «Перекресток» технологии компьютерного зрения помогают сокращать очереди на кассах: когда количество человек превышает допустимый уровень, руководству поступает сигнал о том, что нужно открыть дополнительную кассу.
Компьютерное зрение в рабочих процессах
Ключевым направлением развития данного сегмента рынка эксперты в один голос называют создание такого прикладного ПО, в котором CV-решения включаются в те или иные производственные или бизнес-процессы.
Татьяна Воронова отмечает:
Сегодня лучше всего «заходят» у заказчиков решения, связанные с платформами видеоаналитики, когда в рамках одной платформы, скажем, распознается количество человек около объекта, встроен биометрический анализ, а также распознаются символы на оборудовании и проверяются технологические процессы. То есть имеется единый «фронт» для отображений разных событий. Конечно, все эти события связаны с производственным процессом заказчика, но сами по себе они разноплановые: в них содержится информация и о людях, и об оборудовании, и о взаимодействии людей с оборудованием. |
Логическая интеграция процессов, считают в «Центр 2М», – это на сегодняшний момент, пожалуй, наивысшее достижение интеллектуальных технологий, потому что в рамках нетривиальных современных проектов информатизации не просто меняются навыки работы человека на конкретном рабочем месте, а последовательность действий разных сотрудников, то есть некоторый производственный или бизнес-процесс в целом.
Яркий пример такого подхода – «безлюдные магазины»
Безлюдные магазины
Развитие технологий CV, в том числе, дали толчок развитию «безлюдных» магазинов, работающих без людей-продавцов. В 2018 г. в Сиэтле был открыт первый такой автоматизированный супермаркет «Amazon Go». В нем камеры и датчики следят за тем, какой товар покупатель взял с полки, а затем списывают деньги со счета посетителя. Множество камер отслеживают каждое действие покупателя с разных ракурсов, а компьютерная система идентифицирует покупателей и товар в тележке, формирует виртуальную корзину товаров и осуществляет безналичный платеж.
В России первый «безлюдный» магазин открылся осенью 2019 г. в сети «Пятерочка». Это небольшой уличный магазин – контейнер, его можно легко перевезти с помощью грузовика-манипулятора на другое место. Для входа в киоск нужно приложение «Пятерочка с собой», которое, в том числе, формирует динамический QR-код – по нему можно попасть внутрь киоска.
Видеокамеры сканируют все пространство магазина, а компьютерная система анализирует действия всех покупателей одновременно. В частности, если человек попытается выйти из магазина, не оплатив покупки, дверь останется закрытой.
Дорога к массовым решениям CV
Помимо информации об объектах, можно извлекать информацию об изображении в целом, например, месте, где происходила съемка - помещение, улица, город, страна, день и т.д.. Также можно определять характеристики объекта: цвет, размер, форма, идентификация. Можно даже определять силу ветра по виду флагов на изображении. Еще можно классифицировать движения людей, например, падения или разговоры по телефону, извлекать биометрические данные, рассказывает Татьяна Воронова.
|
Съемка на камеры мобильных телефонов и соответствующие алгоритмы обработки, простейшие 3D-камеры со структурным светом, камеры видеонаблюдения и видеоаналитика с помощью нейронных сетей — это все, так или иначе, присутствует в массовых сегментах, резюмирует Михаил Смирнов, технический директор компании «Системы компьютерного зрения» («СКЗ»).
|
Правда, вопрос тиражирования решений, которые можно считать массовыми, не так прост.
В каждом новом проекте есть своя специфика, нужно дорабатывать функционал. Но, в целом, сейчас хорошо тиражируются решения, связанные с распознаванием символов с четкой структурой (например, распознавания автомобильных номеров), распознаванием часто встречающихся объектов (например, силуэтов людей) при достаточном качестве изображения и размере объекта на изображении, поясняет Татьяна Воронова.
|
Такие решения массово востребованы со стороны финансовых учреждений, в первую очередь, банков и исполнителей муниципальных программ «Безопасный город». Эти решения достигли уровня коробочных и легко подключаются к внутренним процессам организации.
Роман Гоц рассказывает о проекте, который компания Atos ведет на 116 АЗС Tesco в Великобритании:
С помощью нашего программно-аппаратного комплекса, устанавливаемого на АЗС, компании Tesco удалось автоматизировать систему пожаротушения и убрать «узкое горлышко» - заменить уникального сотрудника, отвечающего за пожаробезопасность на АЗС, на алгоритм обнаружения дыма и огня. Цель внедрения такой системы - обеспечить непрерывность деятельности, в частности, в связи с риском заболевания сотрудника в период пандемии. |
Технологические вершины CV
Что касается наиболее продвинутых решений CV, то к ним Михаил Смирнов относит системы двух классов:
Первый — это системы, в которых камеры и технологии компьютерного зрения совмещаются с другими сенсорами: лидарами, GPS-датчиками, инерциальными датчиками и т.д. Как правило, от них требуется высокая точность, основную сложностью представляет собой настройка и калибровка такой системы. |
Ко второму классу эксперт относит системы, реализованные на максимально простых и низкокачественных камерах (fish-eye, смартфоны и т.д.), но способные на полученных с них изображениях решать сложные задачи, например, самостоятельно калиброваться, делать 3D-реконструкцию, панорамы, вытягивать качество и многое другое.
Скажем, автономный дрон, способный без присутствия человека произвести осмотр и сканирование горной выработки в труднодоступной местности, может использовать камеры разного качества и, соответственно, разное ПО для получения результатов нужного качества.
Решения завтрашнего дня
Новый уровень автономной навигации
Существенный прогресс в области алгоритмов автономной визуальной навигации произошел еще до появления глубоких нейронных сетей. В начале 2000-х годов появился класс алгоритмов Structure-from-Motion (SfM), позволявших полностью в автоматическом режиме реконструировать трехмерные данные по произвольным наборам ракурсных снимков. Но эти алгоритмы требовали для своей работы больших вычислительных затрат. Затем появились алгоритмы SLAM (Simultaneous Localization And Mapping), обеспечивающие одновременно построение трехмерных моделей и оценку параметров положения и движения автономного аппарата даже при съемке с одной камеры. К тому же алгоритмы SLAM были достаточно «легкими» и могли выполняться в реальном времени даже на процессорах сотовых телефонов того времени. Важным технологическим моментом было также то, что в фотограмметрии появились методы достаточно точной калибровки широкоугольных камер (вплоть до fish-eye), и эти камеры стали основой систем технического зрения автономных наземных и воздушных платформ.
Таким образом, уже к 2010 г., то есть до начала революции нейронных сетей, область компьютерного зрения уже обладала практически применимыми инструментами для автономной бортовой навигации. Впрочем, сегодня – в 2020 году - все эти задачи решаются при помощи глубоких нейронных сетей (иногда в комбинации со старыми методами для ускорения вычислений), которые добавляют возможности интеллектуального анализа ситуаций и формируют для автономных систем управления необходимые динамические семантические модели окружающей обстановки,
поясняет Юрий Визильтер.
|
Так, в компании «СКЗ» в настоящее время идет совместный проект с одним из ведущих производителей смартфонов по автоматическому выделению объектов разных типов в 3D облаке.
Для этого важно знать не только расположение объектов, но и их тип (деревья, столбы) и материал (бетон, дерево, стекло, сталь). Для этого мы разрабатываем интегрированное решение для построения 3D-карты по данным с широкоугольной камеры, нейронной сети для распознавания типов объектов и поляризационной камеры для определения типа материала по коэффициенту преломления,
отмечает Михаил Смирнов.
|
Умные системы помощи водителю
Система продвинутой помощи водителю - ADAS (Advanced Driver-Assistance Systems) - сегодня входит в состав любой серьезной системы мониторинга автотранспорта, которые предлагаются на нашем рынке. В составе базового набора она включает предупреждение о столкновении, контроль дистанции, предупреждение о пешеходе, предупреждение о пересечении полосы разметки. Обычно АDAS корпоративного уровня включает также анализ водительского поведения, выявление отклонений от нормы на базе полученных видеоданных, а также контроль возникновения опасных ситуаций со стороны диспетчера. В некоторых решениях реализуется интеграция с ИТ-системой страховой компании.
Решение Vision Labs для управления транспортным средством обеспечивает целый спектр функций автоматического наблюдения за водителем: обнаружение лица, отслеживание лица, мониторинг положения головы, мониторинг глаз, отслеживание взгляда, а также определение реального человека (Liveness). При этом распознавание осуществляется при любом повороте головы, при перекрытии части лица шарфом или головным убором.
Комбинируя разные модули, мы создаем продукт для анализа поведения водителя,- рассказывают в компании.- Например, определить уровень сонливости водителя возможно, комбинируя мониторинг зоны рта для отслеживания зевания и мониторинг состояния глаз для измерения времени, в течение которого глаза были закрыты. |
В декабре 2019 г. Камский автозавод представил рабочий образец перспективного тягача KAMAZ Continent, который считается прототипом тягача следующего поколения K6. Эта модель снабжена ADAS третьего уровня: сенсоры и радары системы автопилота спрятаны за декоративной черной глянцевой панелью, заменившей решетки радиатора. Это значит, что грузовик может самостоятельно перестраиваться между полосами, парковаться, следовать в колонне.
В бортовой системе автомобиля реализованы различные возможности: навигация, интернет-серфинг, просмотр видео, прослушивание аудио, часы, прогноз погоды, запас хода, остаток топлива, сроки следующего ТО и прочее. Также имеются две камеры, направленные на водителя: компьютерная система будет оценивать положение его головы, частоту моргания, фокусировку взгляда и ряд других показателей физического состояния. При тревожных симптомах система подаст сигнал о том, что человеку за рулем пора отдохнуть.
Ближайшее будущее систем ADAS городского класса - помощь водителю в формате подключенного автомобиля. Так, компания Nissan представила прототип ADAS, выполненный в концепции Invisible-to-Visible (I2V), то есть система помогает водителям увидеть то, что скрыто, например, за поворотом или за углом здания.
Собирая данные с помощью датчиков, расположенных внутри и снаружи автомобиля и сопоставляя их с данными из облачного хранилища, система может не только понять, что происходит в данный момент вокруг, но и предвидеть, что произойдет дальше. «Подключенный» автомобиль дает водителю легкие для восприятия подсказки, включая различные пиктограммы, отображаемые на приборной панели, в частности, об обстановке вокруг автомобиля и актуальные данные о дорожном трафике.
Беспилотные роботы курьеры
Компания «Яндекс» заинтересовалась не многотонными грузовиками, а небольшими и юркими роботами – курьерами. Тестирование этих шустрых «младших братишек» беспилотных автомобилей «Яндекса» началось прошлой осенью, а сегодня им уже поручают реальные дела, например, отвезти пакет с бумажной документацией или забрать посылку для сотрудника со склада сервиса «Бери».
Правда, «младшенький» только выглядит небольшим и слабосильным. На самом деле его программно-аппаратная платформа не уступает старшим «товарищам». Более того, специально для Яндекс.Ровер в компании разработали собственный лидар и видеокамеру. Как отметил Дмитрий Полищук, руководитель направления беспилотных автомобилей «Яндекса», невысокая стоимость оборудования – критически важный фактор для массового производства таких «самобеглых колясок».
Кроме того, в отличие от коммерческой зарубежной продукции, имеющейся сегодня на рынке, ПО лидара дает возможность настраивать параметры сканирования во время движения. Например, он может сфокусировать внимание на отдаленном объекте (на расстоянии до 200 метров) и точно определить, что это объект: пешеход, велосипедист и т.д.
Дмитрий Полищук пояснил, за счет чего реализуются такие способности Яндекс.Ровера:
Лидары сторонних производителей анализируют и фильтруют данные на этапе сбора. Используя собственные лидары, мы получаем больше информации благодаря доступу к «сырым» данным». |
В том числе, к данным видеокамеры – она, как рассказывают в компании, одинаково хорошо видит ярко освещенные и затененные объекты в одном кадре, быстро адаптируется при резкой смене освещения, например, при въезде в туннель или выезде с подземной парковки.
Анализ медицинских изображений – точка роста рынка систем CV
В начале массового развития находится сегмент решений для анализа медицинских изображений.
В этих задачах очень строгие требования к качеству распознавания. Плюс к этому надо обрабатывать большие объемы визуальной информации. Так, при анализе КТ легких нужно делать вывод о наличии патологии сразу по совокупности снимков-срезов, например, для того чтобы отличать сосуды от образований. Это направление компьютерного зрения сейчас активно развивается, в нем есть уникальные специфичные решения, которые еще не вышли на широкий коммерческий рынок». говорит Татьяна Воронова.
|
Хороший пример - Botkin.AI, платформа для анализа медицинских изображений, разработанную в компании «Интеллоджик». Данная платформа осуществляет диагностику и анализ рисков развития заболеваний на основе математических моделей представления состояния здоровья пациентов.
В конце марта компания сообщила, что оперативно разработала и добавила в платформу Botkin.AI функционал для анализа пневмонии. В «Интеллоджик» рассчитывают, что это позволит снизить риски и смягчить возможные последствия эпидемии коронавируса COVID-19. Компания открыла бесплатный доступ к новому функционалу платформы для всех медицинских организаций, участвующих в диагностике и лечении больных с COVID-19.
Компания «СКЗ» по заказу израильской клиники ведет разработку ПО, которое поможет определять позиции сердечных клапанов пациентов на снимках УЗИ. В качестве базовой модели выбрана архитектура нейронной сети Unet, часто используемая в задачах обработки биомедицинских изображений. После доработки нейросетевой архитектуры, как рассказали в компании, точность результата превысила 95%.
Даже в случае низкого качества полученных снимков, где клапаны сердца не всегда хорошо и отчетливо видны, разработанный классификатор с высокой точностью определит их расположение. Для решения поставленной задачи применен метод семантической сегментации, так как данный метод учитывает не только пространственную, но и контекстную информацию, получаемую со снимка». рассказывает Михаил Смирнов.
|
В «СКЗ» рассказали, что заказчик планирует установить разработанное ПО на существующие аппараты УЗИ.
Видеоаналитика для сельского хозяйства
Летом 2019 г. на авиасалоне МАКС компании «Аэромакс» и «СИТРОНИКС» подписали соглашение о сотрудничестве в реализации цифровых решений и сервисов для нужд сельского хозяйства, лесной отрасли и регионального управления. «Аэромакс» планирует проводить сбор информации с помощью беспилотных летательных аппаратов и датчиков, установленных на сельскохозяйственном транспорте. На основе собранных данных «СИТРОНИКС» будет формировать ИТ-сервисы для сельхозпотребителей. Предполагается, что компании - партнеры займутся созданием цифровых карт сельхозугодий с возможностью планирования посева по данным о состоянии почвы, ее влажности и минерализации, освещенности поля солнцем, о силе ветра и перепадах температуры, что позволит планировать оптимальный полив и удобрение, выбирать лучшее время для сбора урожая.
Мониторинг полей с помощью беспилотных авиасистем и автоматизированная обработка данных — это прорыв для агробизнеса и сельскохозяйственной отрасли в целом. Мы планируем распространить наш опыт на все регионы России, так как он может существенно облегчить жизнь фермерским хозяйствам и крупным аграрным предприятиям, отметил председатель Совета директоров «Аэромакса» Валерий Шанцев
|
Согласно данным консалтинговой компании Tractica, до 2024 г. в мире ожидается бурный рост применений автономной умной сельскохозяйственной техники: объем поставок возрастет с 32 тыс. единиц в 2016 г. до 594 тыс. единиц в 2024 г.
Аналитики Tractica отмечают следующие ключевые области применения роботов в АПК:
- беспилотные тракторы и летательные аппараты;
- управление материальными ресурсами;
- автоматизированные системы вегетации агрокультур;
- лесопользование, недропользование;
- автоматизированные системы управления молочными фермами.
В 2016 г. Cognitive Technologies провела первые тесты своей системы компьютерного зрения на беспилотной сельхозтехнике. А в июле прошлого года договорилась установить свою систему автономного управления Agro Pilot на комбайны «Русагро ГК». Комплекс включает искусственный мозг или вычислитель (Агродроид), видеокамеру, дисплей, а также ряд других датчиков и элементов управления. Комплекс способен полностью взять на себя управление движением, а механизатор при этом может полностью сосредоточится на контроле параметров уборки (контроль угла наклона жатки, обмолота, и т.д.).
В прошлом году Cognitive Agro Pilot также был внедрен в ряде агрохозяйств Томской области. Тестирование умной техники проводилось в сложных условиях: различная текстура полей, крутые подъемы и спуски, изрезанная геометрия полей, темное время суток. А при испытании системы в Курганской области был установлен рекорд уборки - 67 центнеров с гектара. У системы есть заказчики и из Бразилии, США и стран Азии.
Групповой интеллект умных устройств
Работа беспилотной техники, безусловно, производит впечатление на стороннего наблюдателя. Еще более впечатляют совместные действия целой группы умных автономных объектов. Мы это регулярно можем наблюдать, например, во время больших торжественных церемоний на открытом воздухе – множество дронов поднимаются в воздух, составляют надписи, танцуют в небе и т.д. Профессионалы развивают специальное направление в теории управления – так называемое, сетецентрическое управление группой интеллектуальных объектов. А у обывателей появляется соблазн возвести эти разработки в ранг автономного интеллекта и даже приписать им наличие некоторой воли в принятии решений.
Александр Спиридонов, руководитель лаборатории информационной и сетевой безопасности компании «Криптонит», помогает отделить зерна от плевел:
Сильный искусственный интеллект, о котором сегодня много говорят, – это интеллект, схожий с человеческим - он может успешно выполнять все или почти все умственные задачи, которые под силу людям. Но пока данный вид искусственного интеллекта остается в популярных фантастических фильмах и головах некоторых маркетологов, которые им искусно пользуются. |
Автопилот, поясняет эксперт, это имитация действий человека-водителя, его опыта с целью максимально безопасного пилотирования автомобиля.
Конечно, для этого нужны сложные системы управления, системы ориентации в пространстве. Но под «волей» в данном случаем скрываются те же алгоритмы, которые срабатывают при определенных условиях по принципу «если пробежала черная кошка, то автопилот нажимает на тормоз. С дронами - абсолютно та же ситуация. Есть некоторая математическая модель управления дронами на основе параметров полета, текущих координат, заряда батареи, и т.д. Есть цель – взлететь и встать в определенный строй. Далее эта модель на основе поступающих параметров полета отправляет команды управления, корректирует траекторию полета дрона с целью выстраивания нужной «композиции, поясняет Александр Спиридонов.
|
Компьютерное зрение на пути интеграции с дополненной реальностью
Интересное перспективное направление развития систем CV - интеграция с технологиями виртуальной/дополненной реальности AR. Компания Accenture разработала приложение GoodsAR, предназначенное для помощи покупателю в магазине. Оно адаптировано для смартфонов, планшетов и специальных очков с дополненной реальностью (AR).
Приложение устанавливается на планшет или мобильный телефон, позволяет импортировать список покупок из любого мессенджера, а затем прокладывает маршрут до ближайшей зоны в торговом зале, где находится первая покупка. И далее ведет покупателя от полки к полке в соответствии со списком. С помощью очков дополненной реальности всю необходимую информацию о маршруте и товарах можно видеть прямо перед собой, не заглядывая в планшет.
Может быть, прокладывание маршрута между полок супермаркета кому-то покажется идеей, далекой от реальной жизни. Но не надо спешить с выводами: подобные алгоритмы оказываются реально полезны, например, в больших аэропортах. Например, в прошлом году на выставке Passenger Terminal EXPO в Лондоне компания Panasonic представила инновационное решение «Умный аэропорт», которое базируется на технологии распознавания лиц и предоставляет пассажирам различные полезные сервисы. Среди них - программный помощник, отображающий на экране информацию о текущем местоположении человека и прокладывающий маршрут к необходимой точке на территории аэропорта.
Будущее AR эксперты во многом связывают с развитием технологии AR Cloud. Она сегодня находится в самом начале восхождения на пик ожиданий на известной кривой развития новых технологий компании Gartner.
AR Cloud – это фактически точная модель мира в масштабе 1:1, точнее, «программная копия» мира, полученная с помощью сканирования физических предметов вокруг нас, к которым добавляются элементы дополненной реальности.
Приложения на базе AR Cloud уже появляются. Например, платформа YaPlace и приложение Augmented.City дают возможность посмотреть через камеру своего смартфона на здание и получить поверх видео полезную информацию разного рода, скажем, историческую справку, список расположенных в здании организаций или рейтинг ресторанов на первом этаже из приложения TripAdvisor. Разработчик обещал к маю 2020 г. выпустить AR-приложение по итальянскому городу Бари. Вот только ситуация с коронавирусом может сдвинуть начало паломнического сезона на юге Италии…
Компания ««СКЗ» создала приложение для промышленных предприятий, которое с помощью AR Could позволяет работникам завода проходить по заводу, фокусировать камеру на интересующем его оборудовании (станке) и получать в реальном времени информацию, например, сведения о параметрах работы оборудования, последнем техническом осмотре и т.д.
Вызовы, стоящие перед отраслью. Может ли умная программа «видеть, как человек?»
Цель системы компьютерного зрения – извлекать информацию из изображения также или лучше, чем человек. Есть даже специальный тест Тьюринга для компьютерного зрения: компьютер может дать такой же объем информации об изображении, что и человек. Собственно, поэтому эта сфера исследований попадает в область искусственного интеллекта. Решить эту задачу достаточно сложно, потому что человек обучается этим навыкам с самого рождения, рассказывает Татьяна Воронова.
|
Видеть как человек: практическая постановка задачи
Но нужно ли на практике ставить такую задачу? Может быть, практические воплощения технологий компьютерного зрения всегда будут иметь нишевый, специализированный характер?
Вот что думает по этому поводу Михаил Смирнов:
Функции системы компьютерного зрения диктуются ее назначением. То есть анализ трехмерных изображений, динамический и потоковый анализ, а также изменяющихся сцен в реальном времени — это впечатляюще и важно, но не всегда нужно. На первое место я бы ставил такие факторы, как оптимальность для решения задачи и надежность. Система должна быть адекватна по цене, обладать достаточным быстродействием и работать надежно. Если это распознавание объектов, то факторами качества системы могут быть дальность распознавания, число ложных срабатываний, возможность системы самой определять свою дисфункцию. Для 3D — сложность съемки сцены для реконструкции, скорость работы, требования к вычислителю и памяти. Что касается потокового анализа, показателем качества будут сложность вычислителя, быстродействие, резервируемость и надежность. |
На пути к универсальному компьютерному зрению
На пути систем CV к универсальному распознаванию есть сугубо технический момент.
Пока такие системы по требуемым ресурсам превышают возможности доступных вычислителей. Все системы CV решают какой-то конечный набор задач. Но, скажем, автопилот машины – это приближение к такой универсальной системе. Но только на технологиях компьютерного зрения его пока не реализовать. Требуется решить ряд вопросов качества, надежности и точности, полагает Михаил Смирнов.
|
Задачи такого решает, в частности, российская компания Cognitive Technologies. В конце 2018 г. она разработала 4D-радар Cognitive Imaging Radar, который в отличие от обычных радаров, излучающих радиоволны в плоскости, за счет оригинальной конструкции антенной решетки сканирует пространство, причем без применения механики позволяет «видеть» форму объектов дорожной сцены и получить эффективные характеристики по разрешению и точности детекции. Причем, поясняют в компании, устройство позволяет формировать четырехмерную картину дорожной сцены за один цикл приема – передачи сигнала. Это дает возможность повысить частоту обновления данных и как следствие, определять параметры динамичных объектов и эффективно использовать энергетику радара, а также гарантирует низкую итоговую стоимость готового прибора.
В традиционных автомобильных системах для получения дополнительных сведений о дорожной обстановке в дополнение к видеокамере используется лидар (лазерный сканер) – устройство дорогостоящее и чувствительное к пыли и осадкам. Cognitive Imaging Radar справляется с задачами лидара, например, умеет распознавать форму предмета и осуществлять его классификацию. Более того, он может осуществлять идентификацию нескольких видимых объектов, например, сможет «увидеть» пешеходов, стоящих напротив транспортного средства, и т.д.
Летом прошлого года Cognitive Technologies подписала соглашение с компанией Hyundai Mobis: ПО российского разработчика, встроенное в автомобили класса люкс появятся на рынке в 2021-2022 гг. Речь идет о системе помощи водителю C-Pilot четвертого уровня: она предполагает, что основную часть дороги транспорт сможет проехать без участия водителя в любое время суток и при любой погоде: в темноте, во время дождя, снега, тумана и др.
А в конце ноября «Сбербанк» и Cognitive Technologies объявили о создании новой компании, ориентированной на развитие беспилотного транспорта. Помимо автомобилей, новая компания будет умной сельскохозяйственной техникой, железнодорожными локомотивами и трамваями.
Вызовы для математического обеспечения систем CV
Развитие данного сегмента объективно подталкивается совершенствованием оборудования: идет повышение разрешения камер, разрабатываются линзы с быстрой сменой фокусировки, поляризационные камеры, повышаются мощности вычислителей. Однако эксперты видят и направления развития соответствующего ПО.
Есть два основных подхода к разработке конкретного решения компьютерного зрения: создание модели объекта и его признаков самостоятельно или обучение готовой модели под признаки такого объекта. В первом случае получается более точная модель, которая хорошо работает с узким классом объектов, но с высокой точностью. Во втором случае, как правило, точность ниже, но и затраты меньше и можно объединить более разнообразные объекты, рассказывает Михаил Смирнов.
|
По его оценке, ощущается потребность в совершенствовании соответствующих математических аппаратов:
Если модель сейчас можно построить достаточно сложную, то обучить и настроить ее – большая задача. Cразу встает вопрос настройки этих алгоритмов под типы объектов. Хочется видеть это максимально автоматизированным. В идеале еще и уйти от потребности в сотнях и тысячах примеров для обучения, как обычно требуется сейчас. Отдельный вопрос – валидация модели. Она требует большого количества экспериментов, и сама по себе является большой задачей. |
Алексей Выскребенцев, руководитель центра экспертизы решений компании «Форсайт» добавляет:
Если говорить про ограничения, то это требования к производительности и к каналам передачи данных. Сейчас работоспособность алгоритмов поддерживают достаточно мощные сервера, однако с ростом производительности носимых устройств, эти минусы перестанут быть минусами. Второе ограничение – это проблемы шума в данных и то, что алгоритмы достаточно легко «обмануть». Сейчас наблюдаем смещение интересов к поиску решений в неидеальных условиях, например, туман, темное время суток и т.д. Это, безусловно, будет способствовать повышению качества самоуправляемых устройств. |
О необходимости постоянного дообучения моделей говорит и Татьяна Воронова:
Несмотря на то, что за годы существования Интернета накопилось гигантское множество примеров изображений, имеются специфические объекты, используемые только, например, в конкретном производстве, скажем, специальные инструменты, оборудование или знаки. Датасет для таких данных необходимо постоянно расширять по новому видеоматериалу, например, на основе данных, поступающих с камер заказчика, и регулярно дообучать систему. |
Если изменения объектов только визуальные, этого достаточно. Если же появляются более сложные зависимости, возможно, понадобится менять саму модель. Для простых случаев можно рассмотреть вариант с самообучающейся моделью,
добавляет Михаил Смирнов.
|
«Крепкие орешки» для систем компьютерного зрения
- Михаил Смирнов:
Классификаторы с точностью 99,9%. Для большинства классификаторов на нейронных сетях отсутствует подход к тестированию. Это черный ящик, и затраты на тестирование могут стать избыточными. Точность систем зачастую ограничена доступными камерами и оптикой. Для работы в широком диапазоне требуется комбинировать камеры с различной оптикой и т.д. |
- Татьяна Воронова:
Считаются непростыми задачи, где ответ очень сильно зависит от ракурса и освещения. Например, белый объект может часто выглядеть серым. Из-за ракурса могут быть искажены представления о форме, количестве объектов, объекты перекрывают друг друга. Вызывают трудности также ситуации, где надо искать повреждения или маркировки на материале, потому что эти повреждения могут быть не видны из-за загрязненности, затемнений. |
Куда движется научный мир
Достижения отрасли компьютерного зрения к моменту способны поразить воображение простого обывателя. А ученый мир штурмует новые вершины. По оценке Юрия Визильтера, к числу наиболее интересных направлений научного поиска области глубоких нейронных сетей (ГНС) для компьютерного зрения следует отнести следующие:
- Структурированные и нерегулярные сети, ГНС на графах (Graph Convolutional Networks, GCN), а также сети с вниманием (Attention networks), которые пришли из области NLP и активно начали использоваться в компьютерном зрении.
- Интерпретация видео на естественном языке: Action Detection and Prediction, Image Captioning & Video Annotation, Video-Language Understanding, Visual Question Answering (VQA), Visual Dialogues.
- Автоматическое обучение и подбор архитектур ГНС: AutoML, Neural Architecture Search (NAS).
- Атаки на ГНС (Adversarial Attack), поиск уязвимостей ГНС, обнаружение атак и защита от них.
- Синтез визуальных данных, перенос обучения (Domain Adaptation, Generative Adversarial Networs, GAN).
- Мимикрия и извлечение знаний (Knowledge Distilling).
- Обучение на малом числе примеров (Few-Shot Learning / Detection / Segmentation).
- Обучение без примеров (Zero-Shot Learning, Grounding).
- Сети с памятью (Memory Nets).
- Построение и использование графов сцены (Scene Graph).
И, конечно, общая проблема всего класса Deep Learning - непрозрачность работы алгоритма ГНС, которая требует инновационных разработок с целью объяснения работы ГНС (CNN Explanation).
В целом есть ощущение, что революция в компьютерном зрении продолжается, но немного замедляется. Скорость и направления дальнейшего продвижения будут зависеть от того, как и когда удастся справиться с возникшими проблемами, а также от того, когда и какие сбудутся надежды, отмечает Юрий Визильтер.
|
К числу проблем ученый относит, в первую очередь, уязвимости ГНС и противодействие атакам, методы эффективного переноса обучения в практических задачах реального мира, дефицит реальных данных для практических приложений. Среди всего списка проблем, требующих решения, стоит выделить те, которые характерны для всего сфер применения глубоких нейронных сетей и, более, являются тормозом на пути наращивания реальных внедрений:
- Реальных данных для обучения нейросетей катастрофически не хватает!
- Перспективные методы обучения требуют слишком больших вычислительных ресурсов!
- Мостик через пропасть между зрением и языком/пониманием теоретически сущсетвует, но массового его использования в практических задачах все никак не случится!
Когда отрасль компьютерного зрения справится со всеми вышеперечисленными проблемами и барьерами, тогда откроются, в частности, широкие перспективы для массового перехода нейростевых рассуждений с уровня видимых объектов на уровень семантических конструкций (онтологий), в том числе Object Level SLAM. А реализация объектного подхода, в свою очередь, обеспечит средства для перехода к совместному решению задач зрения и управления. И только тогда можно будет говорить о том, что мир достиг нового уровня развития технологий компьютерного зрения. Можно предположить, что это станет новой точкой взрывного роста технологий для автономных роботов. Но движение в эту сторону уже началось.
Смотрите также
- Искусственный интеллект (ИИ, Artificial intelligence, AI)
- Искусственный интеллект (рынок России)
- Искусственный интеллект (мировой рынок)
- Компьютерное зрение: технологии, рынок, перспективы
- Системы видеоаналитики Каталог систем и проектов видеоаналитики