Amazon EMR

ใช้งานและปรับขนาด Apache Spark, Hadoop, HBase, Presto, Hive และเฟรมเวิร์ค Big Data อื่นๆ ได้อย่างง่ายดาย

Amazon EMR มีเฟรมเวิร์ค Hadoop ที่ได้รับการจัดการซึ่งช่วยให้สามารถประมวลผลข้อมูลจำนวนมหาศาลใน Amazon EC2 Instance ต่างๆ ที่ปรับขนาดได้แบบไดนามิกได้อย่างง่ายดาย รวดเร็ว และคุ้มค่า นอกจากนี้ คุณยังสามารถใช้งานเฟรมเวิร์คที่แจกจ่ายซึ่งเป็นที่นิยมอื่นๆ เช่น Apache Spark, HBase, Presto และ Flink ใน Amazon EMR และโต้ตอบกับข้อมูลในพื้นที่จัดเก็บข้อมูล AWS อื่นๆ เช่น Amazon S3 และ Amazon DynamoDB

Amazon EMR สามารถจัดการกับกรณีใช้งานชุดข้อมูล Big Data จำนวนมากได้อย่างปลอดภัยและเชื่อถือได้ รวมถึงการวิเคราะห์บันทึก, การจัดทำดัชนีเว็บ, การแปลงข้อมูล (ETL), Machine Learning, การวิเคราะห์ทางการเงิน, การจำลองทางวิทยาศาสตร์ และชีวสารสนเทศศาสตร์

บทนำสู่ Amazon EMR (3:06)

ประโยชน์

ใช้งานง่าย

คุณสามารถเปิดใช้งานคลัสเตอร์ Amazon EMR ได้ภายในไม่กี่นาที คุณไม่จำเป็นต้องกังวลเรื่องการจัดหาโหนด การตั้งค่าคลัสเตอร์ การกำหนดค่า Hadoop หรือการปรับแต่งคลัสเตอร์ Amazon EMR ทำงานเหล่านี้ให้เพื่อให้คุณสามารถมุ่งเน้นไปที่การวิเคราะห์

ต้นทุนต่ำ

การกำหนดราคาของ Amazon EMR เป็นเรื่องง่ายและคาดเดาได้ โดยคุณต้องจ่ายเป็นอัตราวินาทีสำหรับทุกวินาทีที่ใช้งาน ซึ่งคิดค่าบริการขั้นต่ำ 1 นาที คุณสามารถเปิดใช้คลัสเตอร์ Hadoop แบบ 10 โหนดได้ในราคาเพียง 0.15 USD ต่อชั่วโมง คุณสามารถประหยัดค่าใช้จ่ายในส่วนอินสแตนซ์พื้นฐานได้ถึง 50-80% เพราะ Amazon EMR รองรับ Amazon EC2 Spot และอินสแตนซ์แบบเหมาจ่ายแบบเนทีฟ

ยืดหยุ่น

คุณสามารถจัดเตรียมอินสแตนซ์การประมวลผลหนึ่ง หลายร้อย หรือหลายพันอินสแตนซ์เพื่อประมวลผลข้อมูลในทุกระดับได้ด้วย Amazon EMR คุณสามารถเพิ่มหรือลดจำนวนอินสแตนซ์ด้วยตนเองหรือด้วย Auto Scaling และคุณจะชำระค่าบริการเพียงเฉพาะสิ่งที่คุณใช้เท่านั้น

น่าเชื่อถือ

คุณสามารถใช้เวลาน้อยลงเพื่อปรับแต่งและเฝ้าติดตามคลัสเตอร์ Amazon EMR มี Hadoop ที่ปรับแต่งแล้วสำหรับระบบคลาวด์ นอกจากนี้ยังช่วยเฝ้าติดตามคลัสเตอร์ของคุณ ลองงานที่ล้มเหลวซ้ำอีกครั้ง และแทนที่อินสแตนซ์ที่มีประสิทธิภาพต่ำโดยอัตโนมัติ

ปลอดภัย

Amazon EMR กำหนดการตั้งค่าไฟร์วอลล์ของ Amazon EC2 โดยอัตโนมัติซึ่งจะควบคุมการเข้าถึงเครือข่ายไปยังอินสแตนซ์ และคุณสามารถเปิดใช้คลัสเตอร์ใน Amazon Virtual Private Cloud (VPC) ซึ่งเป็นเครือข่ายแยกตามเหตุผลที่คุณกำหนด สำหรับอ็อบเจ็กต์ที่จัดเก็บใน Amazon S3 คุณสามารถใช้ การเข้ารหัสฝั่งเซิร์ฟเวอร์ของ Amazon S3 หรือการเข้ารหัสฝั่งลูกค้าของ Amazon S3 พร้อม EMRFS ด้วย AWS Key Management Service หรือคีย์ที่ลูกค้าเป็นผู้จัดการ คุณยังสามารถเปิดใช้งานตัวเลือกการเข้ารหัสอื่นๆ และการรับรองความถูกต้องด้วย Kerberos ได้อย่างง่ายดาย

คล่องตัว

คุณสามารถควบคุมคลัสเตอร์ของคุณได้อย่างสมบูรณ์ คุณสามารถเข้าถึงสิทธิ์จัดการไฟล์ระบบได้ทุกอินสแตนซ์ สามารถติดตั้งแอปพลิเคชันเพิ่มเติมได้อย่างง่ายดาย และสามารถปรับแต่งทุกคลัสเตอร์ด้วยวิธีบูตสแตร็ป คุณยังสามารถเปิดใช้คลัสเตอร์ Amazon EMR ได้ด้วย Amazon Linux AMI แบบกำหนดเอง

กรณีใช้งาน

การวิเคราะห์คลิกสตรีม

Amazon EMR สามารถใช้เพื่อวิเคราะห์ข้อมูลคลิกสตรีมเพื่อแบ่งกลุ่มผู้ใช้ ทำความเข้าใจความชอบของผู้ใช้ และแสดงโฆษณาที่มีประสิทธิภาพมากขึ้น

เรียนรู้ว่า Razorfish ใช้ EMR วิเคราะห์สตรีมคลิกได้อย่างไร »

การวิเคราะห์แบบเรียลไทม์

ใช้และประมวลผลข้อมูลเรียลไทม์จาก Amazon Kinesis, Apache Kafka หรือสตรีมข้อมูลอื่นๆ ที่มี Spark Streaming บน Amazon EMR ดำเนินการวิเคราะห์สตรีมมิ่งด้วยวิธีที่ทนทานต่อความผิดพลาดและเขียนผลลัพธ์ไปยัง Amazon S3 หรือ HDFS

เรียนรู้ว่า Hearst ใช้ Spark Streaming ได้อย่างไร »

การวิเคราะห์บันทึก

Amazon EMR สามารถนำไปใช้ประมวลผลบันทึกที่สร้างขึ้นโดยเว็บและแอปพลิเคชันมือถือ Amazon EMR ช่วยให้ลูกค้าสามารถเปลี่ยนข้อมูลที่ไม่มีโครงสร้างหรือกึ่งมีโครงสร้างจำนวนหลายเพตะไบต์ไปเป็นข้อมูลเชิงลึกที่เป็นประโยชน์เกี่ยวกับแอปพลิเคชันหรือผู้ใช้ของตน

Extract Transform Load (ETL)

Amazon EMR สามารถใช้ดำเนินการเกี่ยวกับปริมาณงานแปลงข้อมูล (ETL) เช่น จัดเรียง รวบรวม และเชื่อมชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็วและประหยัดค่าใช้จ่าย

เรียนรู้ว่า Redfin ใช้คลัสเตอร์ EMR แบบชั่วคราวสำหรับ ETL ได้อย่างไร »

การวิเคราะห์เชิงคาดการณ์

Apache Spark บน Amazon EMR ได้รวม MLlib สำหรับอัลกอริทึม Machine Learning ที่ปรับขนาดได้เอาไว้หรือคุณสามารถใช้ไลบรารีของคุณเองได้ การจัดเก็บชุดข้อมูลในหน่วยความจำช่วยให้ Spark มีประสิทธิภาพที่ยอดเยี่ยมสำหรับปริมาณงาน Machine Learning โดยทั่วไป

เรียนรู้ว่า Intent Media ใช้ Spark MLib ได้อย่างไร »

จีโนมิกส์

สามารถนำ Amazon EMR ไปใช้ประมวลผลข้อมูลจีโนมจำนวนมหาศาลและชุดข้อมูลทางวิทยาศาสตร์ขนาดใหญ่อื่นๆ ได้อย่างรวดเร็วและมีประสิทธิภาพ นักวิจัยสามารถเข้าถึงข้อมูลจีโนมที่โฮสต์ฟรีบน AWS

เรียนรู้เกี่ยวกับ Apache Spark และการแพทย์แบบแม่นยำ »