Amazon EMR
Эффективно запускайте и масштабируйте Apache Hadoop, Spark, HBase, Presto, Hive и другие инфраструктуры для работы с большими данными.
Amazon EMR предоставляет управляемую инфраструктуру Hadoop, которая способна эффективно, быстро и экономично обрабатывать большие объемы данных на динамически масштабируемых инстансах Amazon EC2. В EMR можно также запускать другие известные распределенные инфраструктуры, включая Apache Spark, HBase, Presto и Flink, и работать с данными, находящимися в других хранилищах данных AWS, таких как Amazon S3 и Amazon DynamoDB. EMR Notebooks – среда разработки и совместной работы, основанная на популярных блокнотах Jupyter, для выполнения спонтанных запросов и разведочного анализа.
EMR безопасно и надежно выполняет обработку больших данных для различных примеров использования, включая анализ журналов, индексацию веб‑сайтов, трансформацию данных (ETL), машинное обучение, финансовый анализ, научное моделирование и биоинформатику.
Преимущества
Простота использования
Для запуска кластера EMR потребуется несколько минут. Не нужно заниматься выделением узлов, настройкой или оптимизацией кластера, а также конфигурацией Hadoop. Об этом позаботится EMR, а вы можете сконцентрироваться на аналитических задачах. Специалисты по обработке данных, разработчики и аналитики также могут использовать EMR Notebooks – управляемую среду на основе блокнотов Jupyter для создания приложений и совместной работы с коллегами.
Низкая стоимость
Стоимость EMR формируется просто и предсказуемо: плата начисляется на основе посекундного тарифа за каждую секунду использования, минимальный порог оплаты составляет одну минуту. Запустить кластер EMR, содержащий 10 узлов, с такими приложениями, как Hadoop, Spark и Hive, можно всего за 0,15 USD в час. Благодаря встроенной поддержке зарезервированных и спотовых инстансов Amazon EC2 сервис EMR позволяет сэкономить 50–80 % от стоимости используемых инстансов.
Эластичность
EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов для обработки данных любого масштаба. Увеличивать или сокращать число инстансов легко можно вручную или с помощью функции Auto Scaling, оплачивая только используемые ресурсы. EMR также разделяет вычислительные инстансы и постоянное хранилище, чтобы их можно было масштабировать независимо.
Надежность
Вы можете сэкономить время на настройке и мониторинге кластера. EMR осуществляет настройку Hadoop для облака, а также мониторинг кластера, повторно запуская задания, выполнить которые не удалось, и автоматически заменяя инстансы с низкой производительностью. EMR предоставляет наиболее актуальное стабильное программное обеспечение с открытым исходным кодом, благодаря чему можно избежать необходимости управлять обновлениями и исправлять ошибки. Это упрощает работу и позволяет тратить меньше усилий на поддержание среды.
Безопасность
EMR автоматически настраивает брандмауэр EC2, управляющий сетевым доступом к инстансам, и вы можете запускать кластеры в Amazon Virtual Private Cloud (VPC) – созданной вами логически изолированной сети. Для объектов, которые хранятся в среде S3, можно применять шифрование S3 на стороне сервера или Amazon S3 на стороне клиента на базе EMRFS с использованием AWS Key Management Service или собственных ключей пользователя. Можно без труда включить другие варианты шифрования и аутентификацию по протоколу Kerberos.
Гибкость
Вы полностью контролируете свой кластер. Доступ с правами root к каждому инстансу позволяет без труда устанавливать дополнительные приложения и настраивать каждый кластер с помощью загрузочных скриптов. Можно также запускать кластеры EMR с помощью настраиваемых образов Amazon Linux AMI.
Примеры использования
Анализ истории посещений
EMR можно использовать для анализа истории посещений, чтобы разделять пользователей на категории, собирать информацию об их предпочтениях и создавать более эффективную рекламу.
Аналитика в режиме реального времени
Собирайте и обрабатывайте данные в режиме реального времени из Amazon Kinesis, Apache Kafka и других потоков с помощью расширения Spark Streaming в EMR. Используйте отказоустойчивые методы анализа потоковых данных и записывайте результаты в S3 или файловую систему HDFS.
Анализ журналов
EMR можно использовать для обработки файлов журналов, генерируемых мобильными и интернет‑приложениями. EMR позволяет клиентам обрабатывать петабайты неструктурированных или слабоструктурированных данных, чтобы получить полезные выводы о приложениях или пользователях.
Извлечение, преобразование и загрузка данных (ETL)
EMR можно использовать для быстрого и экономичного выполнения рабочих нагрузок по трансформации данных (ETL) – сортировке, агрегированию, слиянию – на больших наборах данных.
Прогнозная аналитика
Apache Spark в EMR содержит библиотеку масштабируемых алгоритмов машинного обучения MLlib, а также позволяет использовать собственные библиотеки. За счет хранения наборов данных в памяти Spark показывает высокую производительность при выполнении типовых рабочих нагрузок в области машинного обучения.
Геномика
EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.
Публикации в блогах и статьи
Начать работу с AWS
Обучение с помощью 10-минутных учебных пособий
Начните разработку с AWS
Подробнее об Amazon EMR







