Tối Ưu Luồng Dữ Liệu Với Aiven Kafka và Google Cloud Bigquery

Tối Ưu Luồng Dữ Liệu Với Aiven Kafka và Google Cloud Bigquery

Mọi doanh nghiệp đều đặt mục tiêu hướng đến dữ liệu, nhưng việc đưa dữ liệu chính xác đến các bên liên quan một cách kịp thời khá phức tạp. Do nguồn dữ liệu, định dạng, công nghệ giữa các bên khác nhau. Chính vì lẽ đó mà sự kết hợp giữa Aiven cho Apache Kafka® và Google Cloud BigQuery trở nên vượt trội. Hãy cùng Cloud Ace tìm hiểu nhé.

Aiven, và Apache Kafka, cung cấp khả năng tạo cluster bởi Kafka Connect. Hơn 30 trình kết nối có sẵn cho phép tích hợp Kafka với một loạt các công nghệ khác nhau ở cả nguồn và sink bằng cách sử dụng tệp cấu hình JSON.

Nếu trình kết nối cho các công nghệ không có sẵn trong danh sách, thì việc tích hợp với Kafka Connect cluster sẽ mang lại sự tự do hoàn toàn trong việc lựa chọn trình kết nối.

Nếu nguồn dữ liệu là một cơ sở dữ liệu, các trình kết nối như nguồn Debezium cho PostgreSQL có thể kích hoạt cơ chế thu thập dữ liệu thay đổi nhanh và đáng tin cậy bằng cách sử dụng các tính năng sao chép cơ sở dữ liệu gốc, do đó giảm tải tối thiểu cho hệ thống nguồn.

Trong giai đoạn nhập, để tối ưu hóa thông lượng, trình kết nối có thể sử dụng định dạng dữ liệu Avro và lưu trữ lược đồ của dữ liệu trong Karapace - công cụ mã nguồn mở của Aiven dành cho sổ đăng ký lược đồ và các điểm cuối API REST.

Dữ liệu trong Apache Kafka được lưu trữ trong các chủ đề. Các chủ đề có thể được đọc bởi một hoặc nhiều người tiêu dùng hoặc cạnh tranh như một phần của cùng một ứng dụng.

Nếu cần định hình lại dữ liệu, trước khi dữ liệu đến kho dữ liệu đích, Aiven for Apache Flink cho phép thực hiện các chuyển đổi như vậy bằng cách sử dụng các câu lệnh SQL ở chế độ streaming.

Sau khi dữ liệu có hình dạng phù hợp để phân tích, topic Apache Kafka được đẩy lên Google Cloud BigQuery ở chế độ streaming bằng cách sử dụng sink connector. Trình kết nối có nhiều tùy chọn cấu hình bao gồm: timestamp được sử dụng để phân vùng và thread pool size xác định số lượng luồng ghi đồng thời.

Dữ liệu, ở chế độ streaming qua Apache Kafka, hiện được đưa vào một hoặc nhiều bảng BigQuery, sẵn sàng để phân tích và xử lý thêm. Google Cloud BigQuery cung cấp một tập hợp các hàm SQL cho phép parse nested datasets , áp dụng các phép biến đổi địa lý phức tạp và thậm chí đào tạo và sử dụng các mô hình máy học cùng với các mô hình khác.