Amazon EMR

ใช้งานและปรับขนาด Apache Spark, Hadoop, HBase, Presto, Hive และเฟรมเวิร์ค Big Data อื่นๆ ได้อย่างง่ายดาย

Amazon EMR มีกรอบงาน Hadoop ที่ได้รับการจัดการซึ่งช่วยให้สามารถประมวลผลข้อมูลจำนวนมหาศาลใน Amazon EC2 Instance ต่างๆ ที่ปรับขนาดได้แบบไดนามิกได้อย่างง่ายดาย รวดเร็ว และคุ้มค่า นอกจากนี้ คุณยังสามารถใช้งานกรอบงานที่แจกจ่ายซึ่งเป็นที่นิยมอื่นๆ เช่น Apache Spark, HBase, Presto และ Flink ใน EMR และโต้ตอบกับข้อมูลในพื้นที่จัดเก็บข้อมูล AWS อื่นๆ เช่น Amazon S3 และ Amazon DynamoDB EMR Notebooks ซึ่งมีพื้นฐานมาจาก Jupyter Notebook ที่เป็นที่นิยม จะมอบสภาพแวดล้อมการพัฒนาและการทำงานร่วมกันสำหรับการทำคิวรีเฉพาะกิจและการวิเคราะห์เชิงสำรวจ

EMR สามารถจัดการกับกรณีใช้งานชุดข้อมูล Big Data จำนวนมากได้อย่างปลอดภัยและเชื่อถือได้ รวมถึงการวิเคราะห์บันทึก, การจัดทำดัชนีเว็บ, การแปลงข้อมูล (ETL), Machine Learning, การวิเคราะห์ทางการเงิน, การจำลองทางวิทยาศาสตร์ และชีวสารสนเทศศาสตร์

บทแนะนำเบื้องต้นเกี่ยวกับ Amazon EMR (3:00)

ประโยชน์

ใช้งานง่าย

คุณสามารถเปิดใช้งานคลัสเตอร์ EMR ได้ภายในไม่กี่นาที คุณไม่จำเป็นต้องกังวลเรื่องการจัดหาโหนด การตั้งค่าคลัสเตอร์ การกำหนดค่า Hadoop หรือการปรับแต่งคลัสเตอร์ EMR ทำงานเหล่านี้ให้เพื่อให้คุณสามารถมุ่งเน้นไปที่การวิเคราะห์ นักวิทยาศาสตร์ข้อมูล นักพัฒนา และนักวิเคราะห์สามารถใช้ EMR Notebooks ซึ่งเป็นสภาพแวดล้อมที่ได้รับการจัดการที่มีพื้นฐานมาจาก Jupyter Notebook เพื่อสร้างแอปพลิเคชันและทำงานกับเพื่อนร่วมงานได้อีกด้วย

ต้นทุนต่ำ

การกำหนดราคาของ EMR เป็นเรื่องง่ายและคาดเดาได้ โดยคุณต้องจ่ายเป็นอัตราอินสแตนซ์สำหรับทุกวินาทีที่ใช้งาน ซึ่งคิดค่าบริการขั้นต่ำ 1 นาที คุณสามารถเปิดใช้คลัสเตอร์ EMR แบบ 10 โหนดกับแอปพลิเคชันเช่น Hadoop, Spark และ Hive ได้ โดยจ่ายเพียง 0.15 USD ต่อชั่วโมงเท่านั้น คุณสามารถประหยัดค่าใช้จ่ายในส่วนอินสแตนซ์พื้นฐานได้ถึง 50-80% เพราะ EMR รองรับ Amazon EC2 Spot และอินสแตนซ์แบบเหมาจ่ายแบบเนทีฟ

Elastic

คุณสามารถจัดเตรียมอินสแตนซ์การประมวลผลหนึ่ง หลายร้อย หรือหลายพันอินสแตนซ์เพื่อประมวลผลข้อมูลในทุกระดับได้ด้วย EMR คุณสามารถเพิ่มหรือลดจำนวนอินสแตนซ์ด้วยตนเองหรือด้วย Auto Scaling และคุณจะชำระค่าบริการเพียงเฉพาะสิ่งที่คุณใช้เท่านั้น EMR ยังช่วยแยกอินสแตนซ์การคำนวณและพื้นที่จัดเก็บข้อมูลที่ใช้งานอย่างต่อเนื่องได้อีกด้วย เพื่อให้วัดระดับทั้งสองได้อย่างอิสระ

น่าเชื่อถือ

คุณสามารถใช้เวลาน้อยลงเพื่อปรับแต่งและเฝ้าติดตามคลัสเตอร์ EMR มี Hadoop ที่ปรับแต่งแล้วสำหรับระบบคลาวด์ นอกจากนี้ยังช่วยเฝ้าติดตามคลัสเตอร์ของคุณ ลองงานที่ล้มเหลวซ้ำอีกครั้ง และแทนที่อินสแตนซ์ที่มีประสิทธิภาพต่ำโดยอัตโนมัติ EMR ช่วยมอบรุ่นของซอฟต์แวร์แบบโอเพนซอร์สที่มีความเสถียรรุ่นล่าสุด ดังนั้นคุณจึงไม่จำเป็นต้องจัดการอัปเดทและการแก้ไขข้อผิดพลาด โดยนำไปสู่ปัญหาที่น้อยลงและลดความพยายามในการรักษาสภาพแวดล้อมเอาไว้

ปลอดภัย

EMR กำหนดการตั้งค่าไฟร์วอลล์ของ EC2 โดยอัตโนมัติซึ่งจะควบคุมการเข้าถึงเครือข่ายไปยังอินสแตนซ์ และคุณสามารถเปิดใช้คลัสเตอร์ใน Amazon Virtual Private Cloud (VPC) ซึ่งเป็นเครือข่ายแยกตามเหตุผลที่คุณกำหนด สำหรับอ็อบเจ็กต์ที่จัดเก็บใน S3 คุณสามารถใช้ การเข้ารหัสฝั่งเซิร์ฟเวอร์ของ S3 หรือการเข้ารหัสฝั่งลูกค้าของ Amazon S3 พร้อม EMRFS ด้วย AWS Key Management Service หรือคีย์ที่ลูกค้าเป็นผู้จัดการ คุณยังสามารถเปิดใช้งานตัวเลือกการเข้ารหัสอื่นๆ และการรับรองความถูกต้องด้วย Kerberos ได้อย่างง่ายดาย

คล่องตัว

คุณสามารถควบคุมคลัสเตอร์ของคุณได้อย่างสมบูรณ์ คุณสามารถเข้าถึงสิทธิ์จัดการไฟล์ระบบได้ทุกอินสแตนซ์ สามารถติดตั้งแอปพลิเคชันเพิ่มเติมได้อย่างง่ายดาย และสามารถปรับแต่งทุกคลัสเตอร์ด้วยวิธีบูตสแตร็ป คุณยังสามารถเปิดใช้คลัสเตอร์ EMR ได้ด้วย Amazon Linux AMI แบบกำหนดเอง

กรณีใช้งาน

การวิเคราะห์คลิกสตรีม

คุณสามารถนำ EMR ไปใช้วิเคราะห์ข้อมูลคลิกสตรีมเพื่อแบ่งกลุ่มผู้ใช้ ทำความเข้าใจความชอบของผู้ใช้ และแสดงโฆษณาที่มีประสิทธิภาพมากขึ้น

เรียนรู้ว่า Razorfish ใช้ EMR วิเคราะห์สตรีมคลิกได้อย่างไร »

การวิเคราะห์แบบเรียลไทม์

ใช้และประมวลผลข้อมูลเรียลไทม์จาก Amazon Kinesis, Apache Kafka หรือสตรีมข้อมูลอื่นๆ ด้วย Spark Streaming บน EMR ดำเนินการวิเคราะห์สตรีมมิ่งด้วยวิธีที่ทนทานต่อความผิดพลาดและเขียนผลลัพธ์ไปยัง S3 หรือ HDFS

เรียนรู้ว่า Hearst ใช้ Spark Streaming ได้อย่างไร »

การวิเคราะห์บันทึก

คุณสามารถนำ EMR ไปใช้ประมวลผลบันทึกที่สร้างขึ้นโดยแอปพลิเคชันบนเว็บและมือถือได้ EMR ช่วยให้ลูกค้าสามารถเปลี่ยนข้อมูลแบบไม่มีโครงสร้างหรือกึ่งมีโครงสร้างระดับหลายเพตะไบต์ให้เป็นข้อมูลเชิงลึกที่เป็นประโยชน์เกี่ยวกับแอปพลิเคชันหรือผู้ใช้ของตนได้

Extract Transform Load (ETL)

คุณสามารถนำ EMR ไปใช้ประมวลผลข้อมูลจีโนมจำนวนมหาศาลและชุดข้อมูลทางวิทยาศาสตร์ขนาดใหญ่อื่นๆ ได้อย่างรวดเร็วและมีประสิทธิภาพ

เรียนรู้ว่า Redfin ใช้คลัสเตอร์ EMR แบบชั่วคราวสำหรับ ETL ได้อย่างไร »

การวิเคราะห์เชิงคาดการณ์

Apache Spark บน EMR ได้รวม MLlib สำหรับอัลกอริทึม Machine Learning ที่ปรับขนาดได้เอาไว้หรือคุณสามารถใช้ไลบรารีของคุณเองได้ การจัดเก็บชุดข้อมูลในหน่วยความจำช่วยให้ Spark มีประสิทธิภาพที่ยอดเยี่ยมสำหรับปริมาณงาน Machine Learning โดยทั่วไป

เรียนรู้ว่า Intent Media ใช้ Spark MLib ได้อย่างไร »

จีโนมิกส์

สามารถนำ EMR ไปใช้ประมวลผลข้อมูลจีโนมจำนวนมหาศาลและชุดข้อมูลทางวิทยาศาสตร์ขนาดใหญ่อื่นๆ ได้อย่างรวดเร็วและมีประสิทธิภาพ นักวิจัยสามารถเข้าถึงข้อมูลจีโนมที่โฮสต์ฟรีบน AWS

เรียนรู้เกี่ยวกับ Apache Spark และการแพทย์แบบแม่นยำ »