Data là điều cần thiết cho bất kỳ ứng dụng nào và được thiết kế trong một hệ thống pipeline để quản lý toàn bộ thông tin của tổ chức, doanh nghiệp. Vì vậy, việc xác định đường dẫn dữ liệu (data pipeline) là điều quan trọng trong việc phân tích và ứng dụng data để mở rộng kinh doanh. Bài viết dưới đây Cloud Ace sẽ giúp người dùng hiểu rõ họ nên sử dụng kiến trúc data pipeline nào trong Google Cloud Platform.
Data Pipeline (đường dẫn dữ liệu) có thể bắt đầu ở nơi dữ liệu được tạo và lưu trữ bởi bất kỳ định dạng nào, và kết thúc bằng việc dữ liệu được phân tích, lưu trữ, xử lý qua mô hình máy học và được sử dụng để mở rộng kinh doanh.
Dữ liệu được trích xuất, xử lý và chuyển đổi theo nhiều bước tùy thuộc vào yêu cầu hệ thống. Mọi bước xử lý và chuyển đổi đều được xác định trong data pipeline.
Khi chọn một mẫu thiết kế đường dẫn dữ liệu, có các yếu tố khác nhau phải được xem xét. Các yếu tố này bao gồm:
Các bước xử lý và trình tự của luồng dữ liệu là những yếu tố chính ảnh hưởng đến thiết kế data pipeline. Mỗi bước có thể bao gồm một hoặc nhiều đầu vào dữ liệu, và đầu ra có thể bao gồm một hoặc nhiều giai đoạn.
Quá trình xử lý giữa đầu vào và đầu ra có thể bao gồm các bước biến đổi đơn giản hoặc phức tạp. Vì vậy, việc giữ cho thiết kế data pipeline đơn giản và theo mô-đun giúp nhóm developers thực hiện các chu kỳ phát triển và triển khai dễ dàng hơn. Nó cũng giúp gỡ lỗi và khắc phục sự cố dễ dàng hơn.
Source Data: có thể là ứng dụng giao dịch, tệp được thu thập từ người dùng và dữ liệu được trích xuất từ API bên ngoài.
Processing: xử lý dữ liệu nguồn có thể đơn giản như sao chép một bước hoặc phức tạp như nhiều phép biến đổi và kết hợp với các nguồn dữ liệu khác.
Target Data: Hệ thống kho dữ liệu đích có thể yêu cầu dữ liệu được xử lý là kết quả của quá trình chuyển đổi (chẳng hạn như thay đổi kiểu dữ liệu hoặc trích xuất dữ liệu) cũng như tra cứu và cập nhật từ các hệ thống khác.
Source Data có thể được trình bày ở nhiều định dạng. Có thể có nhiều loại dữ liệu được yêu cầu trong một data pipeline như:
Target Data (dữ liệu mục tiêu) được xác định dựa trên các yêu cầu và nhu cầu xử lý downstream. Việc xây dựng target data để đáp ứng nhu cầu cho nhiều hệ thống là điều phổ biến.
Kiến trúc đường ống dữ liệu có thể được chia thành các level Logical và Platform.
Logical design for a Data Lake pipeline
Logical design of a Data Warehousing pipeline
Tùy thuộc vào các yêu cầu downstream, các thiết kế kiến trúc chung có thể được triển khai với nhiều chi tiết hơn để giải quyết một số trường hợp sử dụng. Việc triển khai theo Platform có thể khác nhau tùy thuộc vào kỹ năng phát triển và lựa chọn bộ công cụ. Sau đây là một số ví dụ về triển khai Google Cloud cho các kiến trúc data pipeline phổ biến.
Source data có thể là các tệp cần được nhập vào công cụ phân tích Business Intelligence (BI). Cloud Storage là phương tiện truyền dữ liệu bên trong Google Cloud. Dataflow được sử dụng để tải dữ liệu vào bộ lưu trữ BigQuery đích.
Sự đơn giản của phương pháp này làm cho mẫu này có thể tái sử dụng và hiệu quả trong các quy trình chuyển đổi đơn giản. Mặt khác, nếu doanh nghiệp cần xây dựng một pipeline phức tạp, thì cách tiếp cận này sẽ không hiệu quả và hiệu quả.
Là một quy trình phức tạp gồm cả quy trình nhập dữ liệu theo đợt và theo luồng. Quá trình xử lý rất phức tạp và gồm nhiều công cụ cũng như dịch vụ được sử dụng để chuyển đổi dữ liệu thành kho lưu trữ và điểm truy cập AL/ML để xử lý thêm.
Sự phức tạp của thiết kế có thể làm tăng thêm thời gian và chi phí của dự án nhưng để đạt được các mục tiêu kinh doanh, hãy xem xét và xây dựng cẩn thận từng thành phần.
Là một thiết kế toàn diện cho phép doanh nghiệp sử dụng tất cả các dịch vụ gốc của Google Cloud để xây dựng và xử lý quy trình máy học.
Cloud Ace - Managed Service Partner của Google Cloud