Google Data Cloud là nền tảng tích hợp tiên tiến, được xây dựng trên hạ tầng toàn cầu của Google, tích hợp sâu AI và nổi bật với kiến trúc open lakehouse, hỗ trợ dữ liệu đa phương thức. Nhiều doanh nghiệp hàng đầu đã chứng minh hiệu quả vượt trội của Google Data Cloud trong việc tối ưu hóa khai thác dữ liệu, nâng cao hiệu suất cho đội ngũ kỹ sư và nhà khoa học dữ liệu. Hiện nay, Google Data Cloud tiếp tục mở rộng năng lực với loạt cải tiến đột phá cho giải pháp lakehouse hỗ trợ bởi AI. Hãy cùng Cloud Ace tìm hiểu nhé.
BigLake đang được phát triển thành một môi trường runtime lưu trữ toàn diện cho Google Data Cloud, tận dụng Google Cloud Storage. Điều này cho phép doanh nghiệp xây dựng các lakehouse hiệu suất cao, được quản lý, mở rộng trên cả bộ nhớ gốc của Google và dữ liệu định dạng mở.
Các cải tiến đáng chú ý như:
BigQuery có thể đọc và ghi dữ liệu Iceberg thông qua BigLake tables for Apache Iceberg, mang lại khả năng phân tích chuyên sâu. BigQuery còn tăng cường các Iceberg tables với các tính năng cao cấp như: truyền tải dữ liệu thông lượng cao cho truy vấn không độ trễ, quản lý bảng nâng cao với tự động sắp xếp lại dữ liệu, và hỗ trợ multi-table transactions (Preview) cho các trường hợp sử dụng ETL phức tạp. Doanh nghiệp cũng có thể tận dụng các khả năng AI tích hợp của BigQuery (BQML, AI Query Engine, multimodal analysis) trực tiếp trên dataset mở. Sự tích hợp này mang lại lợi ích từ tính mở và quyền sở hữu dữ liệu của ative Iceberg storage, đồng thời khai thác khả năng mở rộng của BigQuery. Thực tế, việc sử dụng BigLake Iceberg với BigQuery của khách hàng đã tăng gần gấp 3 lần trong 18 tháng, quản lý hàng trăm petabyte
Khả năng quản lý dữ liệu hợp nhất mở rộng đến các hoạt động kinh doanh cốt lõi với AlloyDB for PostgreSQL, cơ sở dữ liệu hoạt động hiệu suất cao. AlloyDB giờ đây có thể truy vấn trực tiếp dữ liệu Iceberg được quản lý bởi BigLake. Điều này cho phép các ứng dụng nghiệp vụ khai thác dữ liệu phong phú từ BigLake mà không cần ETL phức tạp, đồng thời áp dụng các khả năng AI của AlloyDB như tìm kiếm ngữ nghĩa và truy vấn ngôn ngữ tự nhiên trên dữ liệu Iceberg.
Tăng cường hiệu suất BigQuery SQL: Công cụ SQL của BigQuery được tích hợp một loạt các cải tiến hiệu suất tự động độc đáo:
Lightning Engine (bản Preview) tăng tốc hiệu suất Apache Spark lên đến 3.6 lần nhờ kết nối tối ưu với Cloud Storage, BigQuery, cơ chế shuffle cột hiệu quả và bộ nhớ đệm thông minh. Sử dụng native C++ libraries (Velox and Gluten), và hỗ trợ vector hóa, Lightning Engine giúp xử lý dữ liệu nhanh chóng, mạnh mẽ.
Giải pháp Spark AI/ML-ready, tích hợp thư viện AI có sẵn, runtime ML mới và hỗ trợ GPU, sẵn sàng triển khai qua Serverless for Apache Spark hoặc Dataproc, phù hợp cho kiến trúc lakehouse doanh nghiệp.
Dataplex Universal Catalog (DUC) mang đến một hệ thống danh mục thông minh, tự động phát hiện, hiểu và tổ chức metadata trên toàn bộ dữ liệu phân tán: từ BigQuery, Cloud Storage (Iceberg, Delta, Hudi), cơ sở dữ liệu giao dịch như Spanner, đến mô hình ML trong Vertex AI.
DUC cho phép doanh nghiệp xây dựng và áp dụng chính sách quản trị tập trung với quyền truy cập chi tiết trên nhiều công cụ xử lý dữ liệu thông qua BigLake. Tính năng credential vending giúp mở rộng chính sách đến dữ liệu lưu trữ một cách an toàn.
Được tăng cường bởi AI và Gemini, DUC biến metadata thành nguồn tri thức động: tự động quản lý metadata, suy luận mối quan hệ ẩn, đề xuất phân tích từ các truy vấn phức tạp và hỗ trợ tìm kiếm ngữ nghĩa bằng ngôn ngữ tự nhiên.
Kết quả: Độ chính xác khi xác định dataset tăng 50%, rút ngắn thời gian tìm kiếm insight. DUC còn hỗ trợ tích hợp mở với các nền tảng như Collibra và kết nối linh hoạt thông qua API.
Mục tiêu của Google Cloud là tái định hình trải nghiệm dữ liệu bằng cách tích hợp AI và lakehouse trực tiếp vào các công cụ và quy trình làm việc quen thuộc giúp các đội ngũ gia tăng năng suất và đổi mới nhanh chóng.
Trọng tâm là BigQuery Notebooks thế hệ mới, hỗ trợ AI mạnh mẽ, cho phép phát triển thống nhất trên SQL, Python và Apache Spark. Tính năng tích hợp Gemini đóng vai trò cộng tác viên thông minh, hỗ trợ tạo code PySpark nâng cao, giải thích các code phức tạp và khắc phục sự cố Spark không máy chủ (Preview), giúp rút ngắn đáng kể thời gian từ dữ liệu đến insight.
Ngoài ra, các tiện ích mở rộng mới cho JupyterLab và Visual Studio Code hỗ trợ BigQuery, Dataproc và Serverless Spark Preview), giúp kết nối nhanh với nền tảng lakehouse mở của Google Cloud ngay trong IDE quen thuộc.
Cloud Ace - Managed Service Partner của Google Cloud