Amazon EMR

Эффективно запускайте и масштабируйте Apache Hadoop, Spark, HBase, Presto, Hive и другие инфраструктуры для работы с большими данными.

Запросить поддержку в оценке возможностей

Amazon EMR предоставляет управляемую инфраструктуру Hadoop, которая способна эффективно, быстро и экономично обрабатывать большие объемы данных на динамически масштабируемых инстансах Amazon EC2. В EMR можно также запускать другие известные распределенные инфраструктуры, включая Apache Spark, HBase, Presto и Flink, и работать с данными, находящимися в других хранилищах данных AWS, таких как Amazon S3 и Amazon DynamoDB. EMR Notebooks – среда разработки и совместной работы, основанная на популярных блокнотах Jupyter, для выполнения спонтанных запросов и разведочного анализа.

EMR безопасно и надежно выполняет обработку больших данных для различных примеров использования, включая анализ журналов, индексацию веб‑сайтов, трансформацию данных (ETL), машинное обучение, финансовый анализ, научное моделирование и биоинформатику.

Знакомство с Amazon EMR (3:00)

Преимущества

Простота использования

Для запуска кластера EMR потребуется несколько минут. Не нужно заниматься выделением узлов, настройкой или оптимизацией кластера, а также конфигурацией Hadoop. Об этом позаботится EMR, а вы можете сконцентрироваться на аналитических задачах. Специалисты по обработке данных, разработчики и аналитики также могут использовать EMR Notebooks – управляемую среду на основе блокнотов Jupyter для создания приложений и совместной работы с коллегами.

Низкая стоимость

Стоимость EMR формируется просто и предсказуемо: плата начисляется на основе посекундного тарифа за каждую секунду использования, минимальный порог оплаты составляет одну минуту. Запустить кластер EMR, содержащий 10 узлов, с такими приложениями, как Hadoop, Spark и Hive, можно всего за 0,15 USD в час. Благодаря встроенной поддержке зарезервированных и спотовых инстансов Amazon EC2 сервис EMR позволяет сэкономить 50–80 % от стоимости используемых инстансов.

Эластичность

EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов для обработки данных любого масштаба. Увеличивать или сокращать число инстансов легко можно вручную или с помощью функции Auto Scaling, оплачивая только используемые ресурсы. EMR также разделяет вычислительные инстансы и постоянное хранилище, чтобы их можно было масштабировать независимо.

Надежность

Вы можете сэкономить время на настройке и мониторинге кластера. EMR осуществляет настройку Hadoop для облака, а также мониторинг кластера, повторно запуская задания, выполнить которые не удалось, и автоматически заменяя инстансы с низкой производительностью. EMR предоставляет наиболее актуальное стабильное программное обеспечение с открытым исходным кодом, благодаря чему можно избежать необходимости управлять обновлениями и исправлять ошибки. Это упрощает работу и позволяет тратить меньше усилий на поддержание среды.

Безопасность

EMR автоматически настраивает брандмауэр EC2, управляющий сетевым доступом к инстансам, и вы можете запускать кластеры в Amazon Virtual Private Cloud (VPC) – созданной вами логически изолированной сети. Для объектов, которые хранятся в среде S3, можно применять шифрование S3 на стороне сервера или Amazon S3 на стороне клиента на базе EMRFS с использованием AWS Key Management Service или собственных ключей пользователя. Можно без труда включить другие варианты шифрования и аутентификацию по протоколу Kerberos.

Гибкость

Вы полностью контролируете свой кластер. Доступ с правами root к каждому инстансу позволяет без труда устанавливать дополнительные приложения и настраивать каждый кластер с помощью загрузочных скриптов. Можно также запускать кластеры EMR с помощью настраиваемых образов Amazon Linux AMI.

Примеры использования

Анализ истории посещений

EMR можно использовать для анализа истории посещений, чтобы разделять пользователей на категории, собирать информацию об их предпочтениях и создавать более эффективную рекламу.

Узнайте, как компания Razorfish использует EMR для анализа навигации »

Аналитика в режиме реального времени

Собирайте и обрабатывайте данные в режиме реального времени из Amazon Kinesis, Apache Kafka и других потоков с помощью расширения Spark Streaming в EMR. Используйте отказоустойчивые методы анализа потоковых данных и записывайте результаты в S3 или файловую систему HDFS.

Узнайте, как компания Hearst использует Spark Streaming »

Анализ журналов

EMR можно использовать для обработки файлов журналов, генерируемых мобильными и интернет‑приложениями. EMR позволяет клиентам обрабатывать петабайты неструктурированных или слабоструктурированных данных, чтобы получить полезные выводы о приложениях или пользователях.

Извлечение, преобразование и загрузка данных (ETL)

EMR можно использовать для быстрого и экономичного выполнения рабочих нагрузок по трансформации данных (ETL) – сортировке, агрегированию, слиянию – на больших наборах данных.

Узнайте, как компания Redfin использует транзитные кластеры EMR для ETL »

Прогнозная аналитика

Apache Spark в EMR содержит библиотеку масштабируемых алгоритмов машинного обучения MLlib, а также позволяет использовать собственные библиотеки. За счет хранения наборов данных в памяти Spark показывает высокую производительность при выполнении типовых рабочих нагрузок в области машинного обучения.

Узнайте, как компания Intent Media использует Spark MLib »

Геномика

EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.

Подробнее об Apache Spark и точной медицине »