[TTS] Kiến thức cơ bản về xử lý tiếng nói trong học máy / học sâu – P2
Tháng mười một 13, 2024
Trong những năm gần đây, khả năng của AI ngày càng được chứng minh là cực kì tốt trong rất nhiều lĩnh vực. Một trong số chúng là việc giao tiếp với con người. Chuỗi bài viết này sẽ tóm tắt một số kiến thức cực kì cơ bản (thường bị bỏ qua) trong việc xử lý tiếng nói. Các kiến thức này sẽ là nền tảng cho các bạn mới tiếp cận với xử lý giọng nói nói riêng và xử lý âm thanh nói chung trong thế giới của Deep Learning. Các kiến thức này được viết và đúc kết từ năm 2022. Song, vì là các kiến thức cơ bản nên hầu như ít phải cập nhật. Tuy vậy, hãy comment hoặc contact với tôi để góp ý và sửa đổi khi bạn thấy bất cứ một lỗi sai nhỏ nào.*Disclaimer: Tôi không thể đảm bảo chỉn chu hết các lỗi dịch, lỗi chính tả.
*Disclaimer: Spiderum không hỗ trợ các toán, nên tôi sẽ phải dùng cách khác.
*Disclaimer: Trong này không có kiến thức thú vị, chỉ có kiến thức cơ bình thường.Bài này rất dài nhưng thứ quan trọng nhất các bạn cần nhớ: mel-spectrogram
Xử lý dữ liệu tiếng nói trên máy tính
Phần này sẽ giới thiệu về cách xử lý tín hiệu rời rạc hay tín hiệu số trên miền tần số. Tín hiệu số (Digital signal) là tín hiệu mà biểu diễn của nó là một chuỗi các giá trị nguyên. Loại biểu diễn tín hiệu này phổ biến trên máy tính phù hợp với các tính toán trên máy tính.
Tại mỗi điểm n ∈ Z, giá trị nguyên tại đó được gọi là mẫu ghi lại biên độ của tín hiệu tại thời điểm đó. Việc ghi nhận tín hiệu rời rạc này vẫn đảm bảo thông tin tín hiệu được đầy đủ nhờ vàođịnh lý [1]. Theo đó, một tín hiệu rời rạc muốn biểu diễn được đầy đủ thông tin của tín hiệu liên tục trên miền thời gian thì tần số lấy mẫu Fs phải ít nhất gấp đôi tần số của tín hiệu F. Tần số âm trong ngưỡng nghe của con người trên thực nghiệm ghi nhận được là vào khoảng 20000 Hz, tức là tần số lấy mẫu phải lớn hơn ngưỡng 40000 Hz. Trên thực tế, tần số lấy mẫu phổ biến là 44100 Hz, tuy nhiên trong một số trường hợp ví dụ như viễn thông chỉ sử dụng tần số lấy mẫu 8000 Hz đến 16000 Hz. Một khái niệm nữa cũng liên quan đến lưu trữ dữ liệu âm thanh trên máy tính đó là khoảng bit (bit range). Con số này dùng để biểu thị số bit lưu một giá trị tín hiệu, thường là 8 hoặc 16, nghĩa là khoảng giá trị khả dĩ của mỗi mẫu trong tệp dữ liệu âm thanh là là [−128, 127] hoặc [−32768, 32767] tương ứng.
Các datasets tiếng nói hiện đại nói riêng và âm thanh nói chung có tần số lấy mẫu rất đa dạng. Theo hiểu biết hiện tại của tác giả, chúng ta có thể có các giá trị F là phổ biến: 8000, 16000, 22010, 48000, 44000.
Các datasets âm thanh nổi tiếng: VGGSound, AudioSets, VoxCeleb1/2, LJSpeech-1.1, CommonVoice, LibriTTS, LibriSpeech, LibriLight, LibriHeavy.
Theo hiểu biết của tác giả, Fast Fourier Transform là một công trình đã đóng góp vào sự kìm hãm lẫn nhau trong việc phát triển (cụ thể là thử nghiệm) vũ khí hạt nhân của 2 cực trong chiến tranh lạnh.