Сбер Kandinsky Video
Нейросеть для генерации полноценного видео

Продукт
Название базовой системы (платформы): Сбер Kandinsky Нейросеть для генерации изображений по описанию
Разработчики: Сбербанк
Дата премьеры системы: 2023/11/22
Дата последнего релиза: 2024/12/12
Технологии: Big Data

Содержание

Основные статьи:

2024

Kandinsky 4.0 Video

Сбер 12 декабря 2024 года бета-версию нейросети Kandinsky 4.0 Video для создания реалистичных видеороликов по текстовому описанию или стартовому кадру. Нейросеть могут использовать как обычные пользователи, чтобы создать анимированные ролики с поздравлением близких людей, так и дизайнеры, маркетологи, мультипликаторы, для которых Kandinsky может стать помощником в генерации трейлеров и клипов.

«
За год с момента релиза первой версии модели Kandinsky Video на AI Journey 2023 наша команда значительно улучшила такие показатели, как качество и скорость генерации полноценных видеороликов, открывая тем самым безграничные горизонты для креатива, а также продуктовых применений модели. Теперь каждый пользователь обновленной версии Kandinsky Video может воплотить свои идеи и выразить их в видеоформате. Мы всегда рады видеть, как наши технологии помогают людям реализовывать свои самые смелые творческие задумки. При этом всё ближе то время, когда искусственный интеллект будет способен решать множество задач сразу, причем с самыми разными типами данных и в разных доменах. И такие модели как Kandinsky Video способствуют мировому развитию в этом важном направлении, значительно приближая современные технологии к тому синергетическому уровню обработки, восприятия и создания информации, каким обладает человек,
сказал Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка.
»

Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности.Дмитрий Бородачев, DатаРу Облако: Наше преимущество — мультивендорная модель предоставления облачных услуг

Важнейшими отличительными свойствами данной модели являются улучшенное визуальное качество — высокий контраст и чёткость кадров, выстраивание общей композиции сцены, и реалистичность движений генерируемых объектов. Добиться такого качества позволило сотрудничество научных и инженерных команд, которые вместе работали как над развитием архитектуры новой модели, так и над сбором и фильтрацией данных для обучения.

В дополнение к основной модели команда Kandinsky представила быструю версию Kandinsky 4.0 Video Flash, которая генерирует видеоряд продолжительностью до 12 секунд в разрешении 480p (720x480) по любому текстовому описанию всего за 15 секунд.

Kandinsky 4.0 Video — это ансамбль моделей, главная часть которого является диффузионным трансформером с 5 млрд параметрами. Инженеры команды Kandinsky использовали передовые алгоритмы и способы оптимизации обучения больших моделей, что позволило эффективно выучить модель такого размера на огромных массивах видео. Модель разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института AIRI на объединённом датасете Сбера.

Первыми доступ к обновленной версии Kandinsky Video получат представители креативных индустрий — художники, дизайнеры и кинематографисты. Для широкой аудитории нейросеть будет доступна в 1Q 2025 года.

Постановка первого ИИ-балета

В июле 2024 года в Южно-Сахалинске состоялась премьера первого в России балета, созданного с применением технологий искусственного интеллекта (AI). Спектакль «Озаренность», повествующий об истории любви семьи инженеров, отправившихся на стройку века, стал уникальным проектом на стыке искусства и современных технологий.

Как сообщает «Коммерсантъ», AI-технологии «Сбера» были комплексно использованы при создании спектакля. Нейросеть GigaChat помогла уточнить сценарий и хореографию, Kandinsky сгенерировал эскизы декораций и костюмов, а SymFormer создал оригинальные музыкальные партии в стилистике современной классической музыки.

В Южно-Сахалинске состоялась премьера первого в России балета, созданного с применением технологий искусственного интеллекта

Автором идеи и режиссером выступил заслуженный артист России Кирилл Ермоленко. Он отметил, что решение раскрыть потенциал AI-технологий в творчестве было принято совместно с командой, и выразил уверенность в создании нового тренда в искусстве благодаря поддержке Сбера и уникальных специалистов.

В постановке приняли участие артисты Михайловского театра оперы и балета из Санкт-Петербурга и театра танца «Диалог» Сахалинской филармонии, впервые выступившие вместе на одной сцене. Композитором спектакля стал Руслан Сабиров, хореографом — Иван Зайцев, а художником-постановщиком — Мария Семакова.

Премьера AI-балета состоялась в рамках AI-трека проектно-образовательного интенсива «Архипелаг-2024». Проект является важной частью технологической трансформации Сахалинской области, начатой Сбером и регионом в 2023 году. В ходе трансформации планируется сконцентрировать AI-технологии на территории области, выделить площадки для апробации решений и раскрыть все факторы развития искусственного интеллекта, включая инфраструктуру, регулирование и кадры.

«
Синергия творчества людей и нейросетей даст зрителям возможность получить настоящее наслаждение от музыки и танца, — подчеркнул Андрей Незнамов, начальник Центра человекоцентричного AI Сбербанка.[1]
»

2023: Представление первой в России генеративной модели для создания видеороликов по тексту

Сбер представил нейросеть Kandinsky Video — первую в России генеративную модель для создания полноценных видеороликов по текстовому описанию. Об этом 22 ноября 2023 года TAdviser сообщили представители Сбера. По словам первого заместителя Председателя Правления Сбербанка Александра Ведяхина, модель генерирует видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду.

Видео, сгенерированное нейросетью Kandinsky Video

Архитектура Kandinsky Video состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй — за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. В основе двух блоков лежит обновленная модель синтеза изображений по текстовым описаниям Kandinsky 3.0.

Формат сгенерированного видео представляет собой непрерывную сцену с движением как объекта, так и фона. Именно это отличает видеоролики, синтезированные моделью Kandinsky Video, от анимационных видеороликов, в которых динамика достигается за счёт моделирования пролёта камеры относительно статичной сцены. Нейросеть создаёт видеоролики с разрешением 512 х 512 пикселей и различным соотношением сторон. Модель обучена на датасете из более чем 300 тыс. пар «текст — видео». Генерация видео занимает до трёх минут.

Видео, сгенерированное нейросетью Kandinsky Video

«
«Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а уже сегодня представляем модель совершенно другого уровня — первую в России модель по генерации полноценных видеороликов по тексту. Это важный вклад в развитие российских генеративных нейросетей. У пользователей появится ещё больше возможностей для креатива и реализации своих творческих задумок любой направленности», — заявил Александр Ведяхин, первый заместитель Председателя Правления Сбербанка.
»

.

Как он добавил, люди смогут создавать уникальные видеоролики абсолютно бесплатно. А сама модель будет доступна в open source.

Видео, сгенерированное нейросетью Kandinsky Video

Ранее у активных пользователей Kandinsky 2.2 в тестовом режиме появилась возможность создания анимационных видеороликов. По одному запросу можно создать видео длиной в четыре секунды с выбранным эффектом анимации, с частотой 24 кадра в секунду и разрешением 640 х 640 пикселей. Пользователи нейросети Kandinsky 3.0 также могут создавать видеоролики по текстовому описанию в режиме анимации. Оценить возможности нейросети Kandinsky Video можно на платформе fusionbrain.ai и в Telegram-боте[2], где можно оставить заявку на доступ.

Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.

Примечания



СМ. ТАКЖЕ (4)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (120)
  Большая Тройка (46)
  Умная Логистика (14)
  Сбербанк (14)
  Доверенная среда (13)
  Другие (482)

  Доверенная среда (5)
  Большая Тройка (4)
  Цифра (4)
  Ростелеком (3)
  БизнесАвтоматика НПЦ (3)
  Другие (54)

  БизнесАвтоматика НПЦ (12)
  OneFactor (Уанфактор) ЕдиныйФактор (3)
  РИР (Росатом Инфраструктурные решения) (3)
  Сбербанк (2)
  Яндекс (Yandex) (2)
  Другие (44)

  БизнесАвтоматика НПЦ (5)
  РИР (Росатом Инфраструктурные решения) (3)
  Яндекс.Облако (Yandex Cloud) (2)
  Axenix (ранее Аксенчер Россия) Аксеникс (2)
  CM.Expert (АвтоЭксперт) (2)
  Другие (65)

  БизнесАвтоматика НПЦ (8)
  Сбер Бизнес Софт (3)
  Синимекс (Cinimex) (2)
  Университет Иннополис (2)
  Retail Rocket (Ритейл Рокет) (2)
  Другие (74)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (2, 119)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Триафлай (1, 13)
  Сбербанк (10, 10)
  Другие (255, 130)

  Триафлай (1, 5)
  Большая Тройка (2, 4)
  Цифра (1, 4)
  БизнесАвтоматика НПЦ (1, 3)
  Умная Логистика (2, 2)
  Другие (6, 8)

  БизнесАвтоматика НПЦ (1, 12)
  РИР (Росатом Инфраструктурные решения) (2, 3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (1, 2)
  МегаФон (2, 1)
  TData (ТДата) (1, 1)
  Другие (7, 7)

  БизнесАвтоматика НПЦ (1, 5)
  РИР (Росатом Инфраструктурные решения) (3, 4)
  Сбербанк (2, 2)
  CM.Expert (АвтоЭксперт) (1, 2)
  Цифра (1, 2)
  Другие (15, 16)

  БизнесАвтоматика НПЦ (1, 7)
  Сбербанк (3, 3)
  Цифра (1, 2)
  Retail Rocket (Ритейл Рокет) (1, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Другие (16, 17)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 119
  Большая Тройка: АИС Редактор территориальных схем - 39
  Триафлай BI-платформа - 13
  ZIIoT Платформа для работы с промышленными данными - 10
  Luxms BI - 8
  Другие 131

  Триафлай BI-платформа - 5
  ZIIoT Платформа для работы с промышленными данными - 4
  Visary BI Платформа бизнес-аналитики - 3
  Большая Тройка: АСУ Управление отходами - 2
  Цифровая Траектория: Action Track (ATC) - 2
  Другие 10

  Visary BI Платформа бизнес-аналитики - 12
  Росатом Цифровое теплоснабжение - 2
  PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2
  N3.Аналитика - 1
  МегаФон: Аналитика городской среды - 1
  Другие 6

  Visary BI Платформа бизнес-аналитики - 5
  CM.Expert Data Mining платформа - 2
  Росатом Цифровое теплоснабжение - 2
  Arenadata Catalog - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Другие 16

  Visary BI Платформа бизнес-аналитики - 7
  Luxms BI - 2
  Arenadata Catalog - 2
  Retail Rocket: Smart Placement Ads - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Другие 13