Amazon EMR - Plataforma de big data

O Amazon EMR é a plataforma de big data em nuvem líder do setor para processar grandes quantidades de dados usando ferramentas de código aberto, como Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi e Presto. Com o EMR, você pode executar análises em escala de Petabytes a menos da metade do custo das soluções tradicionais locais e mais de três vezes mais rápido que o Apache Spark padrão. Para trabalhos de execução curta, você pode aumentar e diminuir os clusters e pagar por segundo pelas instâncias usadas. Para cargas de trabalho de longa execução, você pode criar clusters altamente disponíveis que são dimensionados automaticamente para atender à demanda. Se você tiver implantações no local de ferramentas de código aberto como o Apache Spark e o Apache Hive, poderá executar os clusters EMR no AWS Outposts.

Saiba como você pode reduzir custos e simplificar as operações migrando cargas de trabalho locais para o EMR

Descubra como o Apache Hudi simplifica os pipelines para captura de dados de alteração (CDC) e regulamentações de privacidade

An introduction to Amazon EMR (3:00)

Benefícios

Fácil de usar

Analistas, engenheiros e cientistas de dados podem usar Blocos de anotações do EMR, permitindo que equipes e indivíduos colaborem facilmente e explorem, processem e visualizem dados. Você pode simplesmente especificar a versão dos aplicativos EMR e o tipo de computação que deseja usar. O EMR cuida do provisionamento, configuração e ajuste de clusters, para que você possa se concentrar na execução da análise.

Baixo custo

A definição de preço do EMR é simples e previsível: você paga uma taxa por instância para cada segundo usado, com uma cobrança mínima de um minuto. Você pode lançar um cluster do EMR de 10 nós por apenas 0,15 USD por hora. Você também pode economizar 50-80% sobre o custo das instâncias, selecionando Amazon EC2 Spot para cargas de trabalho transitórias e Instâncias reservadas para cargas de trabalho de longa execução. Você também pode usar Savings Plans.

Elástico

Ao contrário da infraestrutura rígida dos clusters locais, o EMR desacopla o armazenamento computacional, permitindo a você escalar cada um de forma independente e aproveitar o armazenamento em camadas do Amazon S3. Com o EMR, você pode provisionar uma, centenas ou até mesmo milhares de instâncias de computação para processar dados em qualquer escala. É possível aumentar ou reduzir o número de instâncias de forma automática usando o Auto Scaling (que gerencia o tamanho do cluster com base na utilização) e você só paga pelo que usa.

Confiável

Você pode gastar menos tempo ajustando e monitorando seu cluster. O EMR está ajustado para a nuvem e monitora constantemente o cluster, tentando executar novamente tarefas com falha e substituindo automaticamente instâncias com baixa performance. Com vários nós mestre, os clusters têm alta disponibilidade e falham automaticamente em caso de uma falha do nó. O EMR fornece os lançamentos de software de código aberto mais recentes e estáveis, para que você não precise gerenciar atualizações e correções de erros, o que leva a menos problemas e menos esforço para manter o ambiente.

Seguro

O EMR configura automaticamente as configurações de firewall do EC2 que controlam o acesso via rede para as instâncias e você pode executar clusters em uma Amazon Virtual Private Cloud (VPC). A criptografia no lado do servidor ou a criptografia no lado do cliente podem ser usadas com o AWS Key Management Service ou suas próprias chaves gerenciadas pelo cliente. O EMR facilita a habilitação de outras opções de criptografia, como a criptografia em trânsito e em repouso, e a autenticação forte com Kerberos. Você pode usar o AWS Lake Formation ou o Apache Ranger aplicar controles de acesso a dados refinados para bancos de dados, tabelas e colunas.

Flexível

Você tem controle completo sobre seu cluster com acesso raiz a todas as instâncias. Você pode iniciar clusters do EMR com AMIs personalizadas do Amazon Linux e instalar facilmente aplicativos adicionais com ações de bootstrap. O EMR permite reconfigurar aplicativos nos clusters em execução em tempo real sem a necessidade de reiniciar clusters. Além disso, usando o Hadoop 3.0, você pode empacotar dependências da biblioteca em contêineres do Docker e enviá-las com suas tarefas para simplificar as dependências do ambiente.

Casos de uso

Machine learning

Use as ferramentas incorporadas de machine learning do EMR, o que inclui o Apache Spark MLlib, o TensorFlow e o Apache MXNet para algoritmos escaláveis de machine learning e use ações de bootstrap e AMIs personalizadas para facilitar a adição de suas bibliotecas e ferramentas preferidas para criar seu próprio conjunto de ferramentas analíticas preditivas.

Extract transform load (ETL)

O EMR pode ser usado para executar de modo econômico cargas de trabalho de transformação de dados (ETL), como classificar, agregar e associar em grandes conjuntos de dados.

Saiba como o Redfin usa os clusters transitórios do EMR para ETL »

Análise de clickstreams

Analise dados de clickstream do Amazon S3 usando o Apache Spark e o Apache Hive para segmentar usuários, entender as preferências dos usuários e criar anúncios mais eficazes.

Streaming em tempo real

Analise eventos do Apache Kafka, do Amazon Kinesis ou de outras fontes de dados de streaming em tempo real com o streaming do Apache Spark e o Apache Flink para criar pipelines de dados de streaming de longa duração, com alta disponibilidade e tolerantes a falhas no EMR. Persista os conjuntos de dados transformados para o S3 ou o HDFS e as informações para o Amazon Elasticsearch Service.

Saiba como a Hearst usa o Spark Streaming »

Análise interativa

Os Blocos de anotações do EMR disponibilizam um ambiente analítico gerenciado, baseado no Jupyter de código aberto, que possibilita que cientistas de dados, analistas e desenvolvedores preparem e visualizem dados, colaborem com colegas, desenvolvam aplicativos e executem análises interativas.

Genômica

O EMR pode ser usado para processar grandes quantidades de dados de genoma e outros grandes conjuntos de dados científicos de maneira rápida e eficaz. Os pesquisadores podem acessar dados genômicos hospedados gratuitamente na AWS.

Saiba mais sobre o Apache Spark e a medicina de precisão »