Amazon EMR

Execute e escale facilmente o Apache Spark, o Hadoop, o HBase, o Presto, o Hive e outras estruturas de big data

O Amazon EMR fornece uma estrutura Hadoop gerenciada que torna fácil, rápido e econômico processar grandes quantidades de dados em instâncias do Amazon EC2 escaláveis dinamicamente. Você também pode executar outras estruturas distribuídas populares, como Apache Spark, HBase, Presto e Flink no EMR, e interagir com dados em outros armazenamentos de dados da AWS, como Amazon S3 e Amazon DynamoDB. Os EMR Notebooks, baseados no popular Notebook Jupyter, fornecem um ambiente de desenvolvimento e colaboração para consultas ad hoc e análises exploratórias.

O EMR processa um amplo conjunto de casos de uso de big data com segurança e confiabilidade, inclusive análise de logs, indexação da web, transformações de dados (ETL), Machine Learning, análise financeira, simulação científica e bioinformática.

Uma introdução ao Amazon EMR (3:00)

Benefícios

Fácil de usar

É possível iniciar um cluster EMR em minutos. Você não precisa se preocupar com o provisionamento de nós, a configuração de cluster, a configuração do Hadoop ou o ajuste de cluster. O Amazon EMR cuida dessas tarefas para que você se concentre na análise. Os cientistas de dados, desenvolvedores e analistas também podem usar EMR Notebooks, um ambiente gerenciado baseado no Jupyter Notebook, para criar aplicativos e colaborar com os colegas.

Baixo custo

A definição de preço do EMR é simples e previsível: você paga uma taxa por instância para cada segundo usado, com uma cobrança mínima de um minuto. Você pode iniciar um cluster EMR de 10 nós com aplicativos como Hadoop, Spark e Hive, por apenas 0,15 USD por hora. Como o EMR oferece suporte nativo para instâncias spot e reservadas do Amazon EC2, é possível economizar de 50 a 80% no custo das instâncias subjacentes.

Elástico

Com o EMR, você pode provisionar uma, centenas ou até mesmo milhares de instâncias de computação para processar dados em qualquer escala. É possível aumentar ou diminuir facilmente o número de instâncias manualmente ou usando o Auto Scaling e pagar apenas pelo que usar. O EMR também desacopla instâncias de computação e armazenamento persistente, para que possam ser dimensionadas de forma independente.

Confiável

Você pode gastar menos tempo ajustando e monitorando seu cluster. O EMR ajustou o Hadoop para a nuvem. Além disso, ele monitora o cluster, tentando executar novamente tarefas com falha e substituindo automaticamente instâncias com baixa performance. O EMR fornece os lançamentos de software de código aberto mais recentes e estáveis, para que você não precise gerenciar atualizações e correções de erros, levando a menos problemas e menos esforço para manter o ambiente.

Seguro

O EMR configura automaticamente as configurações de firewall do EC2 que controlam o acesso via rede para as instâncias, e você pode executar clusters em uma Amazon Virtual Private Cloud (VPC), uma rede lógica isolada definida por você. Para objetos armazenados no S3, você pode usar a criptografia no lado do servidor ou a criptografia no lado do cliente do Amazon S3 com o EMRFS, com o AWS Key Management Service ou com chaves gerenciadas pelo cliente. Você também pode habilitar facilmente outras opções de criptografia e autenticação com o Kerberos.

Flexível

Você tem controle total sobre seu cluster. Você tem acesso root a todas as instâncias, pode instalar facilmente aplicativos adicionais e pode personalizar cada cluster com ações de bootstrap. Você também pode iniciar clusters EMR com AMIs personalizadas do Amazon Linux.

Casos de uso

Análise de clickstreams

O EMR pode ser usado para analisar dados de clickstream para segmentar usuários, compreender preferências dos usuários e criar anúncios mais eficazes.

Saiba como o Razorfish usa o EMR para análise de clickstreams »

Análise em tempo real

Consuma e processe dados em tempo real do Amazon Kinesis, do Apache Kafka ou de outros streams de dados com o Spark Streaming no EMR. Execute a análise de streaming de modo tolerante a falhas e grave os resultados no S3 ou no HDFS.

Saiba como a Hearst usa o Spark Streaming »

Análise de logs

O EMR pode ser usado para processar logs gerados por aplicativos móveis e da web. O EMR ajuda os clientes a transformar petabytes de dados não estruturados ou semi-estruturados em insights úteis sobre seus aplicativos ou usuários.

Extract Transform Load (ETL)

O EMR pode ser usado para executar de modo econômico cargas de trabalho de transformação de dados (ETL), como classificar, agregar e associar em grandes conjuntos de dados.

Saiba como o Redfin usa os clusters transitórios do EMR para ETL »

Análises preditivas

O Apache Spark no EMR inclui o MLlib para algoritmos de Machine Learning escaláveis ou você pode usar suas próprias bibliotecas. Ao armazenar conjuntos de dados na memória, o Spark pode disponibilizar excelente performance para cargas de trabalho comuns de Machine Learning.

Saiba como a Intent Media usa o Spark MLib »

Genômica

O EMR pode ser usado para processar grandes quantidades de dados de genoma e outros grandes conjuntos de dados científicos de maneira rápida e eficaz. Os pesquisadores podem acessar dados genômicos hospedados gratuitamente na AWS.

Saiba mais sobre o Apache Spark e a medicina de precisão »