Amazon EMR – Платформа больших данных

Amazon EMR – ведущая в отрасли облачная платформа больших данных для обработки огромных объемов информации с использованием инструментов с открытым исходным кодом, таких как Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi и Presto. EMR позволяет анализировать данные в масштабе петабайтов более чем в два раза дешевле, чем традиционные локальные решения, и более чем в 3 раза быстрее, чем при стандартном использовании Apache Spark. Для коротких заданий можно развертывать и отключать кластеры, оплачивая использованные инстансы на посекундной основе. Для продолжительных рабочих нагрузок можно создавать кластеры высокой доступности, которые автоматически масштабируются в зависимости от нагрузки. Если у вас есть существующие локальные развертывания инструментов с открытым исходным кодом, таких как Apache Spark и Apache Hive, можно также запустить кластеры EMR в AWS Outposts.

Как сократить расходы и упростить операции путем переноса локальных рабочих нагрузок в EMR.

Как Apache Hudi упрощает конвейеры для захвата меняющихся данных (CDC) и соблюдение требований в вопросах конфиденциальности

An introduction to Amazon EMR (3:00)

Преимущества

Простота использования

Аналитики и специалисты по работе с данными могут использовать блокноты EMR Notebooks, что позволяет командам и отдельным специалистам работать сообща, а также изучать, обрабатывать и визуализировать данные в интерактивном режиме. Достаточно просто указать версию приложений EMR и тип вычислений, которые вы хотите использовать. EMR берет на себя выделение и настройку кластеров, благодаря чему вы можете сосредоточиться на выполнении аналитических задач.

Низкая стоимость

Стоимость EMR формируется просто и предсказуемо: плата начисляется на основе посекундного тарифа за каждую секунду использования каждого инстанса; минимальный порог оплаты составляет одну минуту. Запустить кластер EMR, содержащий 10 узлов, можно всего за 0,15 USD в час. Кроме того, можно сэкономить 50–80 % от стоимости инстансов, выбрав спотовые инстансы Amazon EC2 для временных рабочих нагрузок и зарезервированные инстансы для продолжительных рабочих нагрузок. Можно также использовать тарифы Savings Plans.

Эластичность

В отличие от жесткой инфраструктуры локальных кластеров, EMR разъединяет вычислительные ресурсы и постоянные хранилища, позволяя независимо масштабировать их и воспользоваться преимуществом многоуровневого хранения Amazon S3. EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов для обработки данных любого масштаба. Количество инстансов можно увеличивать или уменьшать вручную или автоматически, используя сервис Auto Scaling (который управляет размером кластеров в соответствии с уровнем использования). Оплате подлежат только реально используемые ресурсы.

Надежность

Сэкономьте время на настройке и мониторинге кластера. Сервис EMR оптимизирован для работы в облаке и постоянно контролирует кластер: повторно запускает задания, которые не удалось выполнить, и автоматически заменяет инстансы с низкой производительностью. У кластеров есть множество главных узлов, что подразумевает высокую доступность и автоматическую обработку отказа одного из узлов. EMR предоставляет наиболее актуальное стабильное программное обеспечение с открытым исходным кодом, благодаря чему можно избежать необходимости управлять обновлениями и исправлять ошибки. Это упрощает работу и позволяет тратить меньше усилий на поддержание среды.

Безопасность

EMR автоматически настраивает брандмауэр EC2, управляющий сетевым доступом к инстансам, и запускает кластеры в Amazon Virtual Private Cloud (VPC). Можно применять шифрование на стороне сервера или на стороне клиента с использованием AWS Key Management Service или собственных ключей пользователя. EMR позволяет без труда включать и другие варианты шифрования, например шифрование при передаче и при хранении, и усиленную аутентификацию с помощью Kerberos. Для точного контроля доступа к данным в базах данных, таблицах и столбцах можно использовать AWS Lake Formation или Apache Ranger.

Гибкость

Вы полностью контролируете кластер с доступом root к каждому инстансу. Вы можете запускать кластеры EMR с собственными образами AMI Amazon Linux и легко устанавливать дополнительные приложения с помощью загрузочных скриптов. EMR позволяет на лету перенастраивать приложения на работающих кластерах без необходимости их перезапуска. Кроме того, при использовании Hadoop 3.0 можно упаковывать зависимости библиотек в контейнеры Docker и отправлять их вместе с заданиями, чтобы упростить зависимости среды.

Примеры использования

Машинное обучение

Используйте встроенные в EMR инструменты машинного обучения (в том числе Apache Spark MLlib, TensorFlow и Apache MXNet) для работы с масштабируемыми алгоритмами машинного обучения. С помощью настраиваемых AMI и скриптов при начальной загрузке добавляйте выбранные библиотеки и инструменты, чтобы создать собственный инструментарий для прогнозной аналитики.

Извлечение, преобразование и загрузка данных (ETL)

EMR можно использовать для быстрого и экономичного выполнения рабочих нагрузок по трансформации данных (ETL) – сортировке, агрегированию, слиянию – на больших наборах данных.

Узнайте, как компания Redfin использует временные кластеры EMR для ETL »

Анализ истории посещений

Анализируйте данные о посещениях от Amazon S3, используя Apache Spark и Apache Hive, чтобы разделять пользователей на категории, выяснять их предпочтения и показывать более эффективную рекламу.

Потоковая передача в режиме реального времени

Анализируйте события от Apache Kafka, Amazon Kinesis и других потоковых источников данных в режиме реального времени с помощью Apache Spark Streaming и Apache Flink, чтобы создавать долгосрочные и устойчивые к ошибкам конвейеры потоковых данных с обеспечением высокой доступности. Сохраняйте преобразованные наборы данных в S3 или HDFS, а аналитические выводы – в Amazon Elasticsearch Service.

Узнайте, как компания Hearst использует Spark Streaming »

Интерактивная аналитика

Блокноты EMR Notebooks предоставляют управляемую аналитическую среду на основе решения Jupyter с открытым исходным кодом, с помощью которой специалисты по работе с данными, аналитики и разработчики могут подготавливать и визуализировать данные, совместно работать с коллегами, создавать приложения и выполнять интерактивный анализ.

Геномика

EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.

Подробнее об Apache Spark и точной медицине »