Doanh nghiệp luôn tìm kiếm các giải pháp lưu trữ phù hợp với các yều cầu về khối lượng, độ trễ, khả năng phục hồi và quyền truy cập của big data. Đa phần các tổ chức thường sử dụng Data Warehouse hay Data Lake cho từng mục tiêu lưu trữ của mình tuy nhiên việc này khiến phần lớn doanh nghiệp có khả năng tăng thêm chi phí lưu trữ. Vì vậy Google Cloud đã cho ra mắt giải pháp Data Lakehouse nhằm giải quyết các khó khăn của doanh nghiệp. hãy cùng Cloud Ace tìm hiểu nhé.
Là một kiến trúc quản lý dữ liệu mở kết hợp với các thế mạnh giữa data lake (kho lưu trữ dữ liệu thô ban đầu ) và data warehouse ( kho lưu trữ dữ liệu lịch sử đã được cấu trúc).
Data Lakehouse cho phép các doanh nghiệp lưu trữ lượng lớn dữ liệu thô với chi phí thấp đồng thời cung cấp các chức năng quản lý và giao dịch AICD, kích hoạt business intelligence (BI) và machine learning (ML) trên tất cả dữ liệu.
Mục tiêu: Lưu trữ cho mục tiêu phân tích quyết định kinh doanh.
Nhiệm vụ: Cung cấp các quyền truy cập nhanh vào dữ liệu, thường các truy vấn dùng để tổng hợp và tóm tắt dữ liệu.
Kích cỡ: Chỉ lưu trữ dữ liệu liên quan đến phân tích.
Hạn chế: Tính linh hoạt của việc truy cập dữ liệu và có thể tăng chi phí nếu dữ liệu cần được di chuyển để sử dụng trong tương lai.
Mục tiêu: Lưu trữ tất cả dữ liệu của doanh nghiệp dưới dạng thô.
Nhiệm vụ: Lưu trữ và phân tích dữ liệu lớn, phục vụ cho các hoạt động máy học và AI như deep learning và phân tích real-time.
Kích cỡ: Lưu trữ tất cả dữ liệu có thể được sử dụng - có thể chiếm tới hàng petabyte.
Hạn chế: Số người sử dụng do yêu cầu kỹ năng chuyên môn cao, truy vấn real-time khó khăn do dữ liệu chưa được xử lý.
Mục tiêu: Tổng hợp tất cả các dạng dữ liệu và đóng vai trò như nguồn dữ liệu tối ưu cho doanh nghiệp.
Nhiệm vụ: Có thể được sử dụng cho các nhu cầu BI/Analytic hoặc ML và AI của doanh nghiệp.
Kích cỡ: Lưu trữ tất cả dữ liệu có thể được sử dụng như data lake.
Hạn chế: Dữ liệu đầu vào phải được đảm bảo lưu trữ theo 1 định dạng nhất định, và việc xây dựng khá phức tạp.
Simplified architecture
Loại bỏ các kho lưu trữ của hai nền tảng riêng biệt, doanh nghiệp chỉ phải tập trung vào việc quản lý và duy trì một kho lưu trữ dữ liệu duy nhất.
Các công cụ được kết nối trực tiếp với dữ liệu nguồn.
Better data quality
Thực thi các lược đồ cho dữ liệu có cấu trúc và đảm bảo tính toàn vẹn và nhất quán.
Ngoài ra, Lakehouse còn giảm thời gian cung cấp, cập nhật dữ liệu mới, đảm bảo dữ liệu được truy cập theo thời gian thực.
Lower costs
Lưu trữ khối lượng dữ liệu khổng lồ với chi phí thấp và loại bỏ nhu cầu duy trì cả data warehouse và data lake.
Date lakehouse cũng giúp giảm chi phí từ các quy trình ETL và loại bỏ trùng lặp.
Increased reliability
Giảm việc truyền dữ liệu ETL giữa nhiều hệ thống, giảm nguy cơ xảy ra các vấn đề về chất lượng hoặc kỹ thuật có thể xảy ra khi di chuyển dữ liệu.
Improved data governance
Dữ liệu và tài nguyên được hợp nhất ở một nơi giúp việc triển khai, kiểm tra và cung cấp các biện pháp kiểm soát quản trị và bảo mật dễ dàng hơn.
Reduced data duplication
Data lakehouse đóng vai trò như một nguồn dữ liệu duy nhất có thể được chia sẻ trong toàn doanh nghiệp, nhằm hỗ trợ khả năng quyết định, ngăn chặn sự mâu thuẫn và chi phí lưu trữ gia tăng do trùng lặp dữ liệu gây ra.
Diverse workloads
Doanh nghiệp có thể kết nối trực tiếp nhiều công cụ với Lakehouse để hỗ trợ việc phân tích, SQL, ML/AI từ cùng một kho lưu trữ.
High scalability
Doanh nghiệp có thể tách riêng các hoạt động điện toán khỏi bộ lưu trữ nhằm tăng khả năng mở rộng tức thời. Doanh nghiệp có thể mở rộng tính toán và lưu trữ riêng biệt tùy theo nhu cầu kinh doanh.
Tìm hiểu thêm về chương trình ưu đãi Google Cloud Platform tại Cloud Ace's Promotion
Cloud Ace - Managed Service Partner của Google Cloud