Разработчики: | Apache Software Foundation (ASF) |
Дата последнего релиза: | 2020/05/14 |
Технологии: | Средства разработки приложений |
Содержание |
Apache Spark - фреймворк для создания проектов распределённой обработки неструктурированных и слабо структурированных данных, входит в экосистему проектов Hadoop[1].
2020: Выход Apache Spark 3.0
14 мая 2020 года компания NVIDIA объявила о сотрудничестве с сообществом разработчиков ПО с открытым кодом, чтобы сообщить GPU-ускорение движку анализа и обработки больших массивов данных Apache Spark 3.0.
Со слов разработчика, с выходом Spark 3.0 специалисты по работы с данными и машинному обучению смогут применить GPU-ускорение к ETL-обработке (выборка, преобразование и загрузка), часто выполняемой с помощью операций базы данных SQL.
Как отметили в NVIDIA, обучение ИИ-модели можно проводить на том же кластере Spark, не перенося процессы на отдельную инфраструктуру. Это позволяет проводить высокоскоростной анализ данных на всех этапах конвейера анализа данных, ускоряя десятки и тысячи терабайт данных - от озера данных до обучения моделей. Более того, нет необходимости изменять существующий код, используемый для приложений Spark, работающих в локальной среде и облаке.
«Анализ данных – это самая большая вычислительная задача, стоящая перед компаниями и исследователями. Нативное GPU-ускорение для всего конвейера Spark 3.0 — от ETL до обучения и инференса — обеспечивает производительность и масштаб, необходимые для объединения потенциала больших данных и силы ИИ», отметил Манувир Дас (Manuvir Das), руководитель Enterprise Computing в NVIDIA |
Являясь стратегическим партнером NVIDIA в области ИИ, Adobe одной из первых получила доступ к Spark 3.0 на Databricks. Первая же серия тестов показала 7-кратный прирост производительности и 90% сокращение расходов, благодаря GPU-ускоренному анализу данных для разработки продуктов в Adobe Experience Cloud и поддержке возможностей, поддерживающих цифровые бизнесы.Витрина данных НОТА ВИЗОР для налогового мониторинга
Согласно заявлению разработчика, прирост производительности в Spark 3.0 повышает точность моделей, позволяя обучать их на более крупных наборах данных и чаще переобучать. Это дает возможность обрабатывать терабайты новых данных каждый день, что очень важно для специалистов, поддерживающих рекомендательные системы и анализирующих новые исследовательские данные. Кроме того, ускоренная обработка означает, что для получения результатов требуется меньше аппаратных ресурсов, а значит значительно сокращаются затраты.
NVIDIA и Databricks совместно оптимизируют Spark с помощью ПО RAPIDS для Databricks, обеспечивая GPU-ускорение для обработки данных и машинного обучения на Databricks в здравоохранении, финансах, рознице и многих других отраслях, подчеркнули в NVIDIA.
NVIDIA предоставляет RAPIDS для Apache Spark с открытым кодом, чтобы помочь специалистам увеличить производительность своих конвейеров. Ускоритель отменяет функции, ранее выполняемые на CPU, применяя GPU для следующих задач:
- ускорение ETL-конвейеров в Spark за счет повышения производительности операций Spark SQL и DataFrame без необходимости в изменении кода;
- ускорение подготовки данных и обучения моделей в той же инфраструктуре, без необходимости в отдельном кластере для машинного и глубокого обучения;
- ускорение переноса данных между узлами в распределенном кластере Spark. Эти библиотеки используют открытый фреймворк Unified Communication X (UCX) Консорциума UCF и минимизируют латентность, перемещая данные напрямую в памяти GPU.
На май 2020 года предварительная версия Spark 3.0 уже доступна у Apache Software Foundation. В ближайшие месяцы будет открыт доступ к основной версии.
2016: Описание Apache Spark
В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с дисковым хранилищем, Apache Spark использует специализированные примитивы для рекурентной обработки в оперативной памяти, посредством чего получает преимущество в скорости работы для некоторых классов задач, в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения.
По информации на апрель 2016 года проект предоставляет программные интерфейсы для языков Java, Scala, Python, R. Написан в основном на Scala. Состоит из ядра и нескольких расширений:
- Spark SQL (позволяет выполнять SQL-запросы над данными),
- Spark Streaming (надстройка для обработки потоковых данных),
- Spark MLib (набор библиотек машинного обучения),
- GraphX (предназначен для распределённой обработки графов).
Может работать в среде кластера Hadoop под управлением YARN и без компонентов ядра Hadoop, поддерживает несколько распределённых систем хранения — HDFS, OpenStack Swift, NoSQL-СУБД Cassandra, Amazon S3.
Примечания
См. также
Заказчик | Интегратор | Год | Проект |
---|---|---|---|
- Mediascope (Медиаскоп, ранее TNS Россия, ТНС Гэллап Медиа) | Неофлекс (Neoflex) | 2020.02 | |
- Аэрофлот | Иннодата (Innodata) | 2020.01 | |
- Ассоциация Независимых Аптек (АСНА) | DIS Group - ДИС Групп - Дата Интегрейшн Софтвер - Data Integration Software | 2019.05 | |
- Uber | Uber | 2018.09 |
Подрядчики-лидеры по количеству проектов
Солар (ранее Ростелеком-Солар) (46)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (15)
Форсайт (11)
Axiom JDK (БеллСофт) ранее Bellsoft (10)
Бипиум (Bpium) (10)
Другие (388)
Солар (ранее Ростелеком-Солар) (8)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (4)
Консом групп, Konsom Group (КонсОМ СКС) (2)
ЛАНИТ - Би Пи Эм (Lanit BPM) (2)
IFellow (АйФэлл) (2)
Другие (30)
Солар (ранее Ростелеком-Солар) (10)
Форсайт (3)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
КРИТ (KRIT) (2)
Cloud.ru (Облачные технологии) ранее SberCloud (2)
Другие (13)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Солар (ранее Ростелеком-Солар) (2, 48)
Microsoft (41, 47)
Oracle (49, 26)
Hyperledger (Open Ledger Project) (1, 23)
IBM (33, 18)
Другие (592, 303)
Солар (ранее Ростелеком-Солар) (1, 8)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (1, 4)
Microsoft (4, 3)
Oracle (2, 3)
SAP SE (2, 2)
Другие (16, 19)
Солар (ранее Ростелеком-Солар) (1, 11)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 3)
Форсайт (1, 3)
Сбербанк (1, 2)
Cloud.ru (Облачные технологии) ранее SberCloud (1, 2)
Другие (9, 9)
Солар (ранее Ростелеком-Солар) (1, 6)
Unlimited Production (Анлимитед Продакшен, eXpress) (1, 6)
Мобильные ТелеСистемы (МТС) (1, 4)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 4)
Форсайт (1, 3)
Другие (14, 24)
Мобильные ТелеСистемы (МТС) (2, 3)
Солар (ранее Ростелеком-Солар) (1, 3)
Unlimited Production (Анлимитед Продакшен, eXpress) (1, 3)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
Т1 Иннотех (ГК Иннотех) (1, 1)
Другие (11, 11)
Распределение систем по количеству проектов, не включая партнерские решения
Solar appScreener (ранее Solar inCode) - 48
Hyperledger Fabric - 23
Windows Azure - 20
FIS Platform - 15
Форсайт. Мобильная платформа (ранее HyperHive) - 12
Другие 323
Solar appScreener (ранее Solar inCode) - 8
FIS Platform - 4
Парадокс: MES Builder - 2
Java - 2
Siemens Xcelerator - 2
Другие 22
Solar appScreener (ранее Solar inCode) - 11
BSS Digital2Go - 3
Форсайт. Мобильная платформа (ранее HyperHive) - 3
Cloud ML Space - 2
Tarantool Data Grid - 1
Другие 8