[TTS] Kiến thức cơ bản về xử lý tiếng nói trong học máy / học sâu – P3

Tháng mười một 13, 2024

Trong những năm gần đây, khả năng của AI ngày càng được chứng minh là cực kì tốt trong rất nhiều lĩnh vực. Một trong số chúng là việc giao tiếp với con người. Chuỗi bài viết này sẽ tóm tắt một số kiến thức cực kì cơ bản (thường bị bỏ qua) trong việc xử lý tiếng nói. Các kiến thức này sẽ là nền tảng cho các bạn mới tiếp cận với xử lý giọng nói nói riêng và xử lý âm thanh nói chung trong thế giới của Deep Learning. Các kiến thức này được viết và đúc kết từ năm 2022. Song, vì là các kiến thức cơ bản nên hầu như ít phải cập nhật. Tuy vậy, hãy comment hoặc contact với tôi để góp ý và sửa đổi khi bạn thấy bất cứ một lỗi sai nhỏ nào.

*Disclaimer: Tôi không thể đảm bảo chỉn chu hết các lỗi dịch, lỗi chính tả.
*Disclaimer: Spiderum không hỗ trợ các toán, nên tôi sẽ phải dùng cách khác.
*Disclaimer: Trong này không có kiến thức thú vị, chỉ có kiến thức bình thường.

Bài này rất ngắn vì nó vượt ra ngoài phạm trù chuỗi bài viết muốn nhắm đến và đồng thời tác giả cũng không đủ chuyên môn trong lĩnh vực âm học hay giải phẫu học.

Tiếng nói mà con người tạo ra là kết quả của một quá trình vô cùng phức tạp. Việc tạo ra tiếng nói bằng thông qua cơ khí đòi hỏi sự phối hợp nhịp nhàng, thậm chí là vô cùng tinh vi để đạt được tiếng nói mà chúng ta nghe được hàng ngày. Vì mục tiêu và đối tượng của chuỗi bài viết, phần này sẽ không đi sâu chi tiết mà chỉ là một phần giới thiệu sơ lược về âm học trong xử lý tiếng nói. Ngoài ra, ở các phần tiếp theo, chúng tôi sẽ cố gắng giữ những khái niệm, kiến thức liên quan đến âm học ở mức cơ bản nhất có thể để người đọc có thể dễ dàng theo dõi.

References

[1] P. Taylor, Text-to-Speech Synthesis. Cambridge University Press, 2009.