Mọi doanh nghiệp đều đặt mục tiêu hướng đến dữ liệu, nhưng việc đưa dữ liệu chính xác đến các bên liên quan một cách kịp thời khá phức tạp. Do nguồn dữ liệu, định dạng, công nghệ giữa các bên khác nhau. Chính vì lẽ đó mà sự kết hợp giữa Aiven cho Apache Kafka® và Google Cloud BigQuery trở nên vượt trội. Hãy cùng Cloud Ace tìm hiểu nhé.
Tìm hiểu về Kafka Connect
Aiven, và Apache Kafka, cung cấp khả năng tạo cluster bởi Kafka Connect. Hơn 30 trình kết nối có sẵn cho phép tích hợp Kafka với một loạt các công nghệ khác nhau ở cả nguồn và sink bằng cách sử dụng tệp cấu hình JSON.
Nếu trình kết nối cho các công nghệ không có sẵn trong danh sách, thì việc tích hợp với Kafka Connect cluster sẽ mang lại sự tự do hoàn toàn trong việc lựa chọn trình kết nối.
Nếu nguồn dữ liệu là một cơ sở dữ liệu, các trình kết nối như nguồn Debezium cho PostgreSQL có thể kích hoạt cơ chế thu thập dữ liệu thay đổi nhanh và đáng tin cậy bằng cách sử dụng các tính năng sao chép cơ sở dữ liệu gốc, do đó giảm tải tối thiểu cho hệ thống nguồn.
Dữ liệu ở Apache Kafka
Trong giai đoạn nhập, để tối ưu hóa thông lượng, trình kết nối có thể sử dụng định dạng dữ liệu Avro và lưu trữ lược đồ của dữ liệu trong Karapace - công cụ mã nguồn mở của Aiven dành cho sổ đăng ký lược đồ và các điểm cuối API REST.
Dữ liệu trong Apache Kafka được lưu trữ trong các chủ đề. Các chủ đề có thể được đọc bởi một hoặc nhiều người tiêu dùng hoặc cạnh tranh như một phần của cùng một ứng dụng.
Nếu cần định hình lại dữ liệu, trước khi dữ liệu đến kho dữ liệu đích, Aiven for Apache Flink cho phép thực hiện các chuyển đổi như vậy bằng cách sử dụng các câu lệnh SQL ở chế độ streaming.
Sau khi dữ liệu có hình dạng phù hợp để phân tích, topic Apache Kafka được đẩy lên Google Cloud BigQuery ở chế độ streaming bằng cách sử dụng sink connector. Trình kết nối có nhiều tùy chọn cấu hình bao gồm: timestamp được sử dụng để phân vùng và thread pool size xác định số lượng luồng ghi đồng thời.
Dữ liệu, ở chế độ streaming qua Apache Kafka, hiện được đưa vào một hoặc nhiều bảng BigQuery, sẵn sàng để phân tích và xử lý thêm. Google Cloud BigQuery cung cấp một tập hợp các hàm SQL cho phép parse nested datasets , áp dụng các phép biến đổi địa lý phức tạp và thậm chí đào tạo và sử dụng các mô hình máy học cùng với các mô hình khác.
Aiven for Apache Kafka cùng với Google Cloud BigQuery đang thúc đẩy những hiểu biết quan trọng về nhiều ngành và trường hợp sử dụng. Ví dụ:
Lập kế hoạch theo nhu cầu với BQML, Công cụ đề xuất, Tìm kiếm sản phẩm
Aiven được áp dụng tại một chuỗi bán lẻ ở Châu Âu cho cơ sở hạ tầng event streaming và open source database. Sau đó, dữ liệu được cung cấp cho các mô hình trong BigQuery ML để đề xuất các sản phẩm nên mua. Các mô hình này có thể được hiển thị dưới dạng API được quản lý trong Vertex AI cho các ứng dụng sản xuất.
Định giá theo thời gian thực
Player Analytics
Tìm hiểu thêm các chương trình ưu đãi Google Cloud Platform tại Cloud Ace's Promotion.
Cloud Ace - Managed Service Partner của Google Cloud