Với sự phát triển của công nghệ AI và Machine Learning, Google đã có những bước đột phá mới trong vấn đề dịch thuật, hỗ trợ người dùng và doanh nghiệp làm việc hiệu quả hơn. Speech-to-text là một trong những giải pháp của Google Cloud về vấn đề này, ứng dụng API chuyển đổi chính xác lời nói thành văn bản. Cùng Cloud Ace tìm hiểu về công nghệ này nhé.
Google vừa tung ra sản phẩm dùng để chuyển đổi văn bản sang giọng nói “Cloud Text-to-Speech” trên nền tảng Google Cloud Platform. Speech to Text là công nghệ nhận dạng tiếng nói để tạo ra chuỗi văn bản tương ứng. Tiếng nói sẽ được ghi nhận qua microphone và lưu trữ trong máy tính dưới dạng các tín hiệu số.
Cloud Text-to-Speech sử dụng “WaveNet” – công nghệ giọng nói được phát triển bởi DeepMind, giúp các nhà phát triển có thể xây dựng các sản phẩm như:
Cloud Text-to-Speech có thể triển khai với 12 ngôn ngữ (không có tiếng Việt), bao gồm 32 kiểu giọng nói khác nhau. Ngoài ra, nhà phát triển có thể tuỳ chỉnh âm lượng, tốc độ nói, định dạng âm thanh (MP3, WAV) theo nhu cầu sử dụng.
Tốc độ xử lý của AI chính là ưu điểm nổi bật nhất của công nghệ phiên mã âm thanh thành văn bản. Tùy vào từng yêu cầu và tùy chỉnh, AI có thể tự động nhận dạng các âm thanh, xác định đối tượng nào là giọng nói, xác nhận loại ngôn ngữ và chuyển chúng thành các văn bản tương ứng. Điều này giúp người sử dụng tiết kiệm thời gian truy xuất hoặc tìm kiếm các thông tin.
Các giải pháp chuyển giọng nói thành văn bản giúp người dùng giảm thời gian trích xuất dữ liệu, đối với các công ty, điều này có thể dẫn đến tiết kiệm một khoản chi phí đáng kể. Các chi phí đó có thể là chi phí dịch vụ (phiên mã/dịch thuật), chi phí lưu trữ, etc.
Speech-to-text có thể tích hợp vào trang web hoặc phần mềm tùy chỉnh. Bằng cách này, công nghệ luôn trong trạng thái hoạt động và với khả năng đặc trưng của AI và Machine Learning, rất nhiều tính năng có thể được cập nhật và cải tiến liên tục, đáp ứng mọi yêu cầu của người dùng. Đây cũng chính là ưu điểm tiềm năng nhất của giải pháp nhận diện giọng nói tự động với AI.
KPI lớn nhất cho thấy sức mạnh của Speech-to-text API chính là khả năng giữ chân người dùng. Tỷ lệ của chúng tôi là 96%. Chúng tôi sẽ không đạt được điều này nếu không có Speech API. Khi bắt đầu, chúng tôi đã đưa Speech API vào trọng tâm cốt lõi của mình. Mọi cuộc thảo luận đều phải được phiên âm bằng API và việc tạo ra dữ liệu gần như trong thời gian thực đã đặt nền tảng cho các dịch vụ phong phú hơn. Bên cạnh đó, chúng tôi không cần bảo trì API nhiều. Nó đã mở rộng quy mô để theo kịp tốc độ của công ty và không bao giờ bị tắc nghẽn.
Gary Graves, Đồng Sáng Lập InteractiveTel
Google Cloud Speech-to-text API có tỷ lệ lỗi từ thấp nhất và cho phép chúng tôi tự do định ra cấu hình thích hợp nhất cho các phân khúc khách hàng khác nhau. Điều đó giúp chúng tôi hỗ trợ khách hàng thành công, rút ngắn thời gian phát triển và hỗ trợ nhiều ngôn ngữ hơn.
Ian Leaman, Quản lý sản phẩm cấp cao tại HubSpot
Khi giọng nói đang có khả năng trở thành sự gián đoạn lớn tiếp theo trong việc tương tác giữa người và máy, các công nghệ như Speech API của Google đang ngày càng trở nên quan trọng đối với các doanh nghiệp muốn bắt kịp sự thay đổi trong hành vi và kỳ vọng của người dùng. Hợp tác với DeepMind và Google Brain, Google đang tiếp tục đầu tư vào lĩnh vực này và đưa ra những cải tiến mới, cho phép các tổ chức nhanh chóng và dễ dàng bổ sung các thành phần giọng nói vào ứng dụng dành cho người dùng của họ.
Trên đây là một số thông tin về Google Cloud Speech-To-Text trên Google Cloud Platform. Hy vọng có thể đem lại những thông tin hữu ích về công nghệ điện toán đám mây của Google đến mọi người.
Tìm hiểu thêm tính năng Google Cloud Platform tại Cloud Ace's Technical Blog.
Cloud Ace - Managed Service Partner của Google Cloud