Kho dữ liệu và Phân tích trên AWS

Danh mục dịch vụ toàn diện, bảo mật, quy mô linh hoạt và có mức chi phí hợp lý nhất để xây dựng kho dữ liệu và giải pháp phân tích

 

Kích thước và mức độ phức tạp của dữ liệu cần được phân tích ngày nay đồng nghĩa rằng công nghệ và những phương pháp trước đây từng phát huy hiệu quả giờ đây lại không còn hiệu quả nữa. Để có được giá trị tối đa từ dữ liệu của bạn, AWS cung cấp danh mục dịch vụ toàn diện, bảo mật, quy mô linh hoạt và có mức chi phí hợp lý nhất để cho phép bạn xây dựng kho dữ liệu của mình trên đám mây, phân tích toàn bộ dữ liệu của mình, bao gồm dữ liệu từ thiết bị IoT với nhiều phương pháp phân tích, bao gồm cả machine learning.

Có nhiều tổ chức vận hành kho dữ liệu và phân tích của mình trên AWS nhiều hơn bất kỳ nơi đâu với các khách hàng như NASDAQ, Zillow, Yelp, iRobot và FINRA tin tưởng giao cho AWS nhiệm vụ vận hành các khối lượng công việc phân tích tối quan trọng đối với hoạt động kinh doanh của họ.

Kho dữ liệu và Phân tích trên AWS

Kho dữ liệu và Phân tích trên AWS

Để xây dựng giải pháp kho dữ liệu và phân tích, AWS cung cấp danh mục dịch vụ toàn diện nhất để bạn di chuyển, lưu trữ và phân tích dữ liệu.

aws-datalake-diagram-simplified

Di chuyển dữ liệu

Nhập dữ liệu tại chỗ và theo thời gian thực.

Kho dữ liệu

Lưu bất kỳ loại dữ liệu nào một cách bảo mật, từ hàng gigabyte đến hàng exabyte.

Phân tích

Phân tích dữ liệu của bạn bằng nhiều công cụ và máy phân tích khác nhau.

Machine Learning

Dự báo kết quả tương lai và xây dựng phương án hành động.

Di chuyển dữ liệu

Bước đầu tiên để xây dựng kho dữ liệu trên AWS là di chuyển dữ liệu lên đám mây. Giới hạn vật lý về băng thông và tốc độ truyền làm hạn chế khả năng di chuyển dữ liệu trong đó không xảy ra gián đoạn nghiêm trọng, chi phí cao và mất nhiều thời gian. Để giúp cho việc truyền dữ liệu được dễ dàng và linh hoạt, AWS cung cấp nhiều lựa chọn khác nhau để truyền dữ liệu lên đám mây.

Di chuyển dữ liệu tại chỗ

AWS cung cấp nhiều phương thức để di chuyển dữ liệu từ trung tâm dữ liệu của bạn lên AWS. Để thiết lập kết nối mạng chuyên biệt giữa mạng của bạn và AWS, bạn có thể sử dụng AWS Direct Connect. Để di chuyển hàng petabyte đến hàng exabyte dữ liệu lên AWS bằng cách sử dụng thiết bị thực tế, bạn có thể sử dụng AWS SnowballAWS Snowmobile. Để cho phép ứng dụng tại chỗ lưu trữ dữ liệu trực tiếp lên AWS, bạn có thể sử dụng AWS Storage Gateway.  

Di chuyển dữ liệu theo thời gian thực

AWS cung cấp nhiều phương thức để sử dụng dữ liệu theo thời gian thực được tạo ra từ các nguồn mới như trang web, ứng dụng trên di động và thiết bị có kết nối internet. Để đơn giản hóa việc thu thập và tải luồng dữ liệu hoặc dữ liệu thiết bị IoT, bạn có thể sử dụng Amazon Kinesis Data Firehose, Amazon Kinesis Video StreamsAWS IoT Core.  

Kho dữ liệu

Sau khi dữ liệu đã sẵn sàng cho đám mây, AWS giúp dễ dàng lưu trữ dữ liệu theo bất kỳ định dạng nào, một cách bảo mật và theo quy mô lớn bằng cách sử dụng Amazon S3 và Amazon Glacier.  Để giúp cho người dùng cuối dễ dàng tìm dữ liệu có liên quan để sử dụng cho hoạt động phân tích của mình, AWS Glue tự động tạo một danh mục mà người dùng có khả năng tìm kiếm và truy vấn được.

Lưu trữ đối tượng

Amazon S3

Amazon S3 là dịch vụ lưu trữ đối tượng bảo mật, có độ linh hoạt và độ bền cao với độ trễ tính theo mili giây dành cho truy cập dữ liệu. S3 được xây dựng để lưu trữ bất kỳ lượng dữ liệu nào từ bất cứ đâu – trang web và ứng dụng di động, ứng dụng doanh nghiệp và dữ liệu từ cảm biến hoặc thiết bị IoT. Dịch vụ này được xây dựng để lưu trữ và truy xuất bất kỳ lượng dữ liệu nào, có độ sẵn sàng không đối thủ nào sánh được và được xây dựng từ đầu để mang lại độ bền bằng 99,999999999% (11 số chín). S3 cung cấp các khả năng bảo mật và tuân thủ toàn diện đáp ứng ngay cả những yêu cầu quy định nghiêm ngặt nhất.  

Sao lưu và lưu trữ

Amazon Glacier

Amazon Glacier là dịch vụ lưu trữ bảo mật, bền và có mức chi phí cực kỳ thấp dùng cho sao lưu và lưu trữ dài hạn, có khả năng truy cập dữ liệu trong vài phút.  Dịch vụ này được thiết kế mang lại độ bền bằng 99,999999999% và tính năng bảo mật toàn diện cũng như các tính năng tuân thủ khác, giúp thỏa mãn thậm chí cả những yêu cầu luật định khắt khe nhất. Khách hàng có thể lưu trữ dữ liệu với mức phí thấp chỉ bằng 0,004 USD mỗi gigabyte mỗi tháng, tiết kiệm được khá nhiều so với các giải pháp tại cơ sở.

Danh mục dữ liệu

AWS Glue

AWS Glue là dịch vụ được quản lý toàn phần, cung cấp danh mục dữ liệu để làm cho kho dữ liệu có thể tìm kiếm được, đồng thời có khả năng trích xuất, chuyển đổi và tải (ETL) để chuẩn bị dữ liệu sẵn sàng cho hoạt động phân tích. Danh mục dữ liệu được tự động tạo ra dưới dạng kho siêu dữ liệu lâu dài cho tất cả các bộ dữ liệu, giúp có thể tìm kiếm và truy vấn được tất cả dữ liệu trên cùng một cửa sổ hiển thị.

Phân tích

AWS cung cấp một hệ thống các dịch vụ phân tích rộng rãi và có mức chi phí hợp lý nhất để chạy trên kho dữ liệu. Mỗi dịch vụ phân tích được xây dựng chuyên dụng cho nhiều trường hợp sử dụng phân tích khác nhau chẳng hạn như phân tích tương tác, xử lý dữ liệu lớn bằng cách sử dụng Hadoop và Spark, kho dữ liệu, phân tích theo thời gian thực, phân tích vận hành, bảng thông tin và hình ảnh.

Phân tích tương tác

Amazon Athena

Đối với phân tích tương tác, Amazon Athena giúp dễ dàng phân tích dữ liệu trực tiếp trên S3 và Glacier bằng các lệnh truy vấn SQL tiêu chuẩn. Athena là dịch vụ serverless, nên không cần thiết lập hay quản lý cơ sở hạ tầng. Bạn có thể bắt đầu truy vấn dữ liệu ngay lập tức, nhận kết quả trong vài giây và chỉ phải trả phí cho những truy vấn bạn chạy. Chỉ cần trỏ vào dữ liệu của bạn trong Amazon S3, xác định sơ đồ và bắt đầu truy vấn bằng cách sử dụng SQL tiêu chuẩn. Hầu hết kết quả thu được trong vài giây.  

Xử lý dữ liệu lớn

Amazon EMR

Đối với xử lý dữ liệu lớn bằng cách sử dụng framework Hadoop và Spark, Amazon EMR cung cấp dịch vụ có quản lý để giúp xử lý lượng dữ liệu lớn một cách dễ dàng và bằng mức chi phí hợp lý. Amazon EMR hỗ trợ 19 dự án nguồn mở khác nhau, bao gồm Hadoop, Spark, HBase, Presto, v.v. Mỗi dự án được cập nhật trên EMR trong vòng 30 ngày kể từ khi phát hành phiên bản, đảm bảo bạn có được phiên bản mới nhất và tốt nhất từ cộng đồng.

Kho dữ liệu

Amazon Redshift

Đối với kho dữ liệu, Amazon Redshift cung cấp khả năng chạy các truy vấn phân tích phức tạp trên hàng petabyte dữ liệu có cấu trúc và bao gồm Redshift Spectrum chạy truy vấn SQL trực tiếp trên hàng Exabyte dữ liệu có hoặc không có cấu trúc trên S3 mà không cần thực hiện việc di chuyển dữ liệu không cần thiết. Amazon Redshift có mức chi phí chưa bằng một phần mười chi phí của các giải pháp truyền thống. Bắt đầu ở quy mô nhỏ với mức phí chỉ bằng 0,25 USD mỗi giờ và thay đổi quy mô lên hàng petabyte dữ liệu với mức phí bằng 1.000 USD mỗi terabyte mỗi năm.

Phân tích theo thời gian thực

Amazon Kinesis

Đối với phân tích theo thời gian thực, Amazon Kinesis giúp dễ dàng thu thập, xử lý và phân tích luồng dữ liệu như dữ liệu IoT từ xa, nhật ký ứng dụng và phân tích vùng nhấp chuột trên trang web. Dịch vụ này cho phép bạn xử lý và phân tích dữ liệu ngay khi dữ liệu về đến kho dữ liệu và phản ứng theo thời gian thực thay vì phải chờ thu thập toàn bộ dữ liệu trước khi có thể bắt đầu xử lý.

Phân tích vận hành

Amazon Elasticsearch Service

Đối với phân tích vận hành chẳng hạn như giám sát ứng dụng, phân tích nhật ký và phân tích vùng nhấp chuột, Amazon Elasticsearch Service cho phép bạn tìm kiếm, mở, lọc, tập hợp và hình ảnh hóa dữ liệu gần theo thời gian thực. Amazon Elasticsearch Service cung cấp các API dễ sử dụng và khả năng phân tích theo thời gian thực của Elasticsearch với độ sẵn sàng, khả năng thay đổi quy mô và độ bảo mật mà khối lượng công việc sản xuất đòi hỏi.

 

Bảng thông tin và hình ảnh

Amazon QuickSight

Đối với bản thông tin và hình ảnh, Amazon QuickSight cung cấp cho bạn dịch vụ phân tích công việc tốc độ nhanh, do đám mây vận hành để giúp dễ dàng xây dựng hình ảnh và bảng thông tin giàu dữ liệu có sức hấp dẫn cao, có thể truy cập từ mọi trình duyệt hoặc thiết bị di động.

 

Machine Learning

Đối với trường hợp sử dụng phân tích dự báo, AWS cung cấp một hệ thống gồm nhiều dịch vụ machine learning và công cụ khác nhau để chạy trên kho dữ liệu của bạn trên AWS. Dịch vụ của chúng tôi dựa trên kiến thức và năng lực do chúng tôi gây dựng tại Amazon, trong đó ML đã vận hành các công cụ khuyến cáo, chuỗi cung ứng, dự báo, trung tâm hoàn thiện và hoạch định năng lực của Amazon.com.  

Framework và giao diện

Đối với những chuyên gia machine learning và nhà khoa học dữ liệu, AWS cung cấp AWS Deep Learning AMI  giúp dễ dàng xây dựng các mô hình deep learning và xây dựng các cụm bằng phiên bản GPU được tối ưu hóa cho ML và DL. AWS hỗ trợ tất cả các framework machine learning chính, bao gồm TensorFlow, Caffe2 và Apache MXNet nên bạn có thể đưa vào hoặc phát triển bất kỳ mô hình nào bạn chọn. Các tính năng này đem đến công suất, tốc độ và hiệu suất không đối thủ nào sánh được mà khối lượng công việc deep learning và machine learning đòi hỏi.

Dịch vụ nền tảng

Đối với những nhà phát triển muốn đi sâu về ML, Amazon SageMaker là dịch vụ nền tảng giúp cho toàn bộ quá trình xây dựng, huấn luyện và triển khai các mô hình ML được dễ dàng bằng cách cung cấp mọi thứ bạn cần để kết nối đến dữ liệu huấn luyện, lựa chọn và tối ưu hóa thuật toán và framework tốt nhất, đồng thời triển khai mô hình của bạn trên các cụm tự động thay đổi quy mô của Amazon EC2. Amazon SageMaker cũng gồm có các máy tính xách tay Jupyter có máy chủ lưu trữ giúp việc khám phá và hình ảnh hóa dữ liệu huấn luyện của bạn được lưu trữ trên Amazon S3 trở nên dễ dàng.

Dịch vụ ứng dụng

Đối với những nhà phát triển muốn bổ sung tính năng AI tích hợp sẵn vào ứng dụng, AWS cung cấp các API hướng giải pháp cho thị lực máy tính và xử lý ngôn ngữ tự nhiên. Các dịch vụ ứng dụng này cho phép nhà phát triển thêm trí tuệ vào ứng dụng mà không phải xây dựng và huấn luyện các mô hình của chính mình.

Nhiều kho dữ liệu và phân tích được xây dựng trên AWS hơn so với bất kỳ nơi nào khác

Tại sao lại sử dụng kho dữ liệu và phân tích trên AWS?

Linh hoạt và có nhiều lựa chọn

AWS cung cấp bộ công cụ và máy phân tích lớn nhất để phân tích dữ liệu bằng cách sử dụng định dạng mở và tiêu chuẩn mở. Bạn cần lưu trữ dữ liệu theo định dạng dữ liệu dựa theo tiêu chuẩn do bạn lựa chọn như CSV, ORC, Grok, Avro và Parquet cũng như sự linh hoạt khi phân tích ngày theo nhiều phương thức khác nhau như kho dữ liệu, truy vấn SQL tương tác, phân tích theo thời gian thực và xử lý dữ liệu lớn. Quy mô của các dịch vụ phân tích mà bạn có thể sử dụng với dữ liệu trên AWS đảm bảo sẽ đáp ứng được nhu cầu của bạn cho trường hợp sử dụng phân tích ở thời điểm hiện tại và trong tương lai.

Quy mô linh hoạt và độ sẵn sàng không đối thủ nào sánh được

Amazon S3 được xây dựng để lưu trữ và truy xuất bất kỳ lượng dữ liệu nào, có độ sẵn sàng không đối thủ nào sánh được và được xây dựng từ đầu để mang lại độ bền bằng 99,999999999% (11 số chín). Đây là dịch vụ lưu trữ duy nhất có thể lưu trữ dữ liệu ở nhiều trung tâm dữ liệu khác nhau giữa ba vùng sẵn sàng trong cùng một Khu vực AWS nhằm đảm bảo khả năng ứng phó không đối thủ nào sánh được trước các vấn đề về trung tâm dữ liệu và là dịch vụ lưu trữ duy nhất có khả năng sao chép liền mạch dữ liệu giữa bất kỳ khu vực nào.

Bảo mật cao

S3 là nền tảng lưu trữ đám mây duy nhất cho phép bạn áp dụng chính sách quyền truy cập, nhật ký và kiểm tra ở mức tài khoản và đối tượng. S3 cung cấp tính năng mã hóa tự động phía máy chủ, mã hóa bằng khóa do Dịch vụ quản lý khóa AWS (KMS) quản lý và mã hóa bằng khóa do bạn quản lý. S3 mã hóa dữ liệu đang trong quá trình truyền khi sao chép giữa các khu vực và cho phép bạn sử dụng các tài khoản độc lập cho khu vực nguồn và đích để bảo vệ chống các thao tác xóa phá hoại trong nội bộ. Để chủ động phát hiện một cuộc tấn công ở giai đoạn sớm, Amazon Macie, một dịch vụ bảo mật do ML vận hành theo dõi hoạt động truy cập dữ liệu để tìm ra các điểm bất thường đồng thời tạo ra các cảnh báo chi tiết khi phát hiện nguy cơ truy cập trái phép hoặc vô tình rò rỉ dữ liệu.

Mức chi phí hợp lý

Kho dữ liệu được xây dựng trên AWS có mức chi phí hợp lý nhất. Có thể di chuyển dữ liệu không thường xuyên sử dụng lên Amazon Glacier để sao lưu và lưu trữ dài hạn bằng mức chi phí rất thấp. Các tính năng quản lý của Amazon S3 có thể phân tích cấu trúc truy cập đối tượng để di chuyển dữ liệu không sử dụng thường xuyên lên Glacier, theo nhu cầu hoặc tự động, bằng các chính sách vòng đời. Bạn có thể bắt đầu truy vấn dữ liệu bằng Amazon Athena ở mức phí thấp tới mức 0,005 USD/GB được truy vấn. Các dịch vụ phân tích và machine learning khác được tính phí theo nhu cầu sử dụng đối với những tài nguyên bạn sử dụng.

Hiệu năng cao

Các dịch vụ phân tích AWS như Amazon Redshift và Amazon Athena được xây dựng có hiệu năng truy vấn tương tác cao để hỗ trợ nhiều truy vấn tương tác đồng thời một lúc. Khi chạy danh mục đa dạng các dịch vụ machine learning và phân tích của AWS bằng cách sử dụng Amazon S3 Select, chỉ những bộ dữ liệu con cần sử dụng trên đối tượng mới được trả về, giúp thực hiện truy vấn nhanh hơn nhiều, nhanh hơn tới 400% và ở mức chi phí thấp hơn nhiều. Glacier Select cung cấp tính năng tương tự, cho phép bạn truy xuất dữ liệu lưu trữ nhanh hơn, đồng thời cho phép bạn mở rộng tính năng phân tích lên kho dữ liệu để bao gồm cả lưu trữ cất giữ.  

 

Mạng lưới đối tác rộng lớn nhất

Mạng lưới đối tác AWS (APN) có tích hợp đối tác nhiều hơn gấp hai lần so với bất kỳ đơn vị nào khác, với hàng chục nghìn đối tác, bao gồm nhà cung cấp tư vấn và phần mềm độc lập, đến từ khắp nơi trên thế giới. Việc này giúp dễ dàng thao tác và tích hợp với nhiều công cụ giống với công cụ bạn đang sử dụng và yêu thích hiện nay. Hướng dẫn Bắt đầu nhanh kho dữ liệu, do kiến trúc sư và đối tác giải pháp AWS phát triển, giúp bạn xây dựng, thử nghiệm và triển khai giải pháp kho dữ liệu dựa trên biện pháp thực hành tốt nhất của AWS về bảo mật và độ sẵn sàng cao, bằng vài bước đơn giản. 

 

Bắt đầu với AWS

icon1

Đăng ký tài khoản AWS

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.
Tìm hiểu thêm: Kho dữ liệu là gì?
icon2

Tìm hiểu thêm về kho dữ liệu trên AWS

Đọc thêm về cách triển khai kho dữ liệu trên AWS tại đây.
Xem buổi trình bày Tạo kiến trúc cho kho dữ liệu tại đây và mẫu kiến trúc dữ liệu lớn tại đây.
Xem buổi trình bày của nhiều khách hàng về việc họ đã xây dựng kho dữ liệu của mình như thế nào, trong đó có FINRA, Amazon.com, RovioSysco Foods
 
icon3

Bắt đầu xây dựng với AWS

Tải dữ liệu của bạn lên Amazon S3, Tạo danh mục cho dữ liệu bằng AWS Glue và bắt đầu truy vấn dữ liệu đó bằng Amazon Athena. Chạy truy vấn kho lưu trữ dữ liệu với Amazon Redshift Spectrum, Hadoop và Spark với Amazon EMR và Machine Learning với Amazon Sagemaker.
 
Bạn có POC và muốn gặp ai đó? Hãy liên hệ chúng tôi hoặc thực triển khai thông qua Hướng dẫn bắt đầu nhanh AWS
 
Bạn có thêm thắc mắc?
Hãy liên hệ chúng tôi