Сбер GigaAM (Giga Acoustic Model)

Продукт
Разработчики: SberDevices (СалютДевайсы, ранее СберДевайсы)
Дата премьеры системы: 2024/04/08
Дата последнего релиза: 2024/12/13
Технологии: Речевые технологии

Содержание

Основные статьи:

2024

*Поддержка дообучения и инференса с Flash Attention

13 декабря 2024 года Сбербанк сообщил о том, что семейство open source моделей машинного обучения для распознавания речи и эмоций GigaAM (Giga Acoustic Model) получило большое обновление.

Как рассказал технический директор GigaChat Федор Минькин, в обновленной версии акустических моделей GigaAM улучшены подготовка данных и технология предобучения базовой модели. За счёт этого удалось значительно снизить количество ошибок в словах (Word Error Rate) при распознавании русскоязычных запросов. Для самой сильной модели семейства GigaAM-RNNT этот показатель улучшен на 25% относительно предыдущей версии и на 56% превосходит OpenAI-Whisper-large-v3.Как развивается рынок Open Source в России. Обзор TAdviser 12.9 т

Кроме того, за счёт перехода на другое позиционное кодирование, обновлённая линейка моделей GigaAM поддерживает дообучение и инференс с Flash Attention, что дает существенное ускорение на современных видеокартах, отметили в Сбере. Для повышения доступности использования моделей команда упростила код, снизила число зависимостей и подготовила конвертацию в формат ONNX (открытая библиотека программного обеспечения). Обновленные модели публикуются с лицензией MIT, что допускает их коммерческое использование.

Представление GigaAM

Компания SberDevices 8 апреля 2024 года представила GigaAM — семейство open source моделей машинного обучения для распознавания речи и эмоций.

Эти акустические модели можно использовать для подготовки дипломных работ и научных статей.

GigaAM — Audio Foundation Model, предобученная на разнообразной русской речи. Она отлично подходит для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и другие.

GigaAM-CTC — открытая модель для распознавания русскоязычных запросов. Как показала оценка качества на 7 срезах данных (от запросов в умные колонки до записей из телефонного канала), модель допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с такими популярными решениями, как NeMo-Conformer-RNNT и Whisper-Large-v3.

GigaAM-Emo — акустическая модель для определения эмоций. Она продемонстрировала лучший результат на датасете Dusha среди известных моделей. Все модели размещены в открытом доступе с некоммерческой лицензией и могут быть использованы для подготовки дипломных работ и научных статей.

Улучшенные версии этих моделей бизнесу доступны на нашей платформе для синтеза и распознавания речи SaluteSpeech API, а физические лица также могут ими воспользоваться в приложении SaluteSpeech App.



Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (48)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (40)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (29)
  SteadyControl (19)
  Naumen (Наумен консалтинг) (16)
  Другие (258)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Другие (28)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (5)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4)
  Авантелеком (3)
  Другие (39)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (8)
  Сбербанк (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
  ОБИТ (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Другие (30)

  Группа компаний ЦРТ (Центр речевых технологий) (1)
  Сбер Бизнес Софт (1)
  Сбербанк (1)
  ТелеМедХаб (1)
  Другие (0)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (18, 50)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (6, 41)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (13, 32)
  Сбербанк (24, 24)
  SteadyControl HoReCa (1, 24)
  Другие (499, 298)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  SteadyControl HoReCa (1, 7)
  SteadyControl (1, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 6)
  Другие (18, 29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Сбербанк (3, 5)
  SteadyControl HoReCa (1, 5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 5)
  SteadyControl (1, 5)
  Другие (29, 47)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 8)
  Сбербанк (2, 8)
  СалютДевайсы (ранее SberDevices) (2, 8)
  Яндекс (Yandex) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4, 4)
  Другие (25, 31)

  СалютДевайсы (ранее SberDevices) (2, 2)
  Сбербанк (2, 2)
  ТелеМедХаб (1, 1)
  Группа компаний ЦРТ (Центр речевых технологий) (1, 1)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2023 год
2024 год
2025 год
Текущий год

  МТТ VoiceBox - 24
  SteadyControl Система контроля и управления персоналом - 24
  BSS Digital2Speech - 21
  Сбер: GigaChat (ГигаЧат) - 17
  EXpress Защищенный корпоративный мессенджер - 16
  Другие 275

  МТТ VoiceBox - 9
  SteadyControl Система контроля и управления персоналом - 7
  EXpress Защищенный корпоративный мессенджер - 6
  BSS Digital2Speech - 5
  SmartLogger II - 4
  Другие 22

  SteadyControl Система контроля и управления персоналом - 5
  EXpress Защищенный корпоративный мессенджер - 5
  BSS Digital2Speech - 4
  Napoleon IT отзывы - 3
  Сбер: GigaChat (ГигаЧат) - 3
  Другие 38

  Сбер: GigaChat (ГигаЧат) - 7
  МТС Exolve Виртуальная АТС - 6
  YandexGPT - 4
  VS Robotics: VS Робот-оператор - 3
  EXpress Защищенный корпоративный мессенджер - 3
  Другие 28

  LazyDoc Программный комплекс для заполнения и анализа медицинской документации - 1
  ЦРТ: SpeechXplore ИИ-решение для исследования и развития коммуникаций с клиентами - 1
  Сбер: GigaChat (ГигаЧат) - 1
  Другие 0