[TTS] Kiến thức cơ bản về xử lý tiếng nói trong học máy / học sâu – P4

Tháng mười một 13, 2024

Trong những năm gần đây, khả năng của AI ngày càng được chứng minh là cực kì tốt trong rất nhiều lĩnh vực. Một trong số chúng là việc giao tiếp với con người. Chuỗi bài viết này sẽ tóm tắt một số kiến thức cực kì cơ bản (thường bị bỏ qua) trong việc xử lý tiếng nói. Các kiến thức này sẽ là nền tảng cho các bạn mới tiếp cận với xử lý giọng nói nói riêng và xử lý âm thanh nói chung trong thế giới của Deep Learning. Các kiến thức này được viết và đúc kết từ năm 2022. Song, vì là các kiến thức cơ bản nên hầu như ít phải cập nhật. Tuy vậy, hãy comment hoặc contact với tôi để góp ý và sửa đổi khi bạn thấy bất cứ một lỗi sai nhỏ nào.

*Disclaimer: Tôi không thể đảm bảo chỉn chu hết các lỗi dịch, lỗi chính tả.
*Disclaimer: Spiderum không hỗ trợ các toán, nên tôi sẽ phải dùng cách khác.
*Disclaimer: Trong này không có kiến thức thú vị, chỉ có kiến thức bình thường.

Ngữ điệu bao gồm một số thành phần chính như sau:

Biểu đồ sinh bởi phần mềm Praat với đoạn âm thanh của giọng nữ ghi lại câu “Giúp anh đứng trong top”. Với chiều từ trái sang phải là chiều thời gian, từ trên xuống dưới là 3 biểu đồ Waveform, Spectrogram, và biểu đồ từ, âm vị theo thời gian của đoạn âm thanh.

Cao độ

Cao độ (Pitch hay F0) là thành phần ngữ điệu dễ nhận thấy nhất trong tiếng nói. Chúng là sự thay đổi cao thấp, nhấn nhá của tiếng nói. Chú ý, khi nhắc Pitch ta thường nhắc đến sự cảm nhận cao độ mang tính trực giác, nhưng F0 như đã trình bày ở phần trước, là thành phần có thể đo đạc thực nghiệm được. Cao độ trong câu trước tiên là một đặc trưng của mỗi giọng nói, sự thay đổi cao độ trong câu cũng là một tính chất mang tính thói quen. Tuy vậy, vẫn có một số trường hợp mà sự thay đổi cao độ tạo ra sự thay đổi về nghĩa của câu được sử dụng rộng rãi trong nhiều ngôn ngữ. Ví dụ: cùng một câu nói “Ngày mai, chúng ta sẽ đọc báo.”, nhưng nếu nhấn ở đầu câu sẽ mang nghĩa trần thuật với ý muốn nhấn mạng “Ngày mai”, nhưng nếu nhấn mạnh ở cuối câu thì lại trở thành một câu mang hàm ý hỏi để xác nhận thông tin trong câu là đúng hay sai.

Trường độ

Trường độ (Duration) là thành phần ngữ điệu biểu thị độ dài của âm. Thành phần này của ngữ điệu mang tính phụ thuộc lẫn nhau giữa các âm, phụ thuộc vào người nói, phụ thuộc vào bản chất ngữ âm của ngôn ngữ. Chính vì thế, trong bài toán tổng hợp giọng nói cho một ngôn ngữ, bài toán đồng thời cũng đòi hỏi một cách đọc trường độ đúng nhằm không bị biến dạng âm dẫn đến sai nghĩa. Cụ thể như trường hợp đọc các âm có tiếng (voiced) và các âm không tiếng (non-voiced) hay như giữa nguyên âm và phụ âm.

Âm sắc

Âm sắc (Timbre) có thể hiểu là các sắc thái của âm thanh. Nó được định nghĩa một cách chính thức là chất lượng của một kích thích âm thanh trong đó người nghe có thể phân biệt hai âm thanh mà không liên quan tới với âm lượng và cao độ [2]. Chúng là thứ phân biệt nốt son được phát ra từ một cân đàn ghitar và một cây sáo. Cho dù chúng có cùng cường độ, trường độ, cao độ nhưng tai người vẫn có thể phân biệt được chúng. Trong ngôn ngữ nói, âm sắc không mang nhiều ý nghĩa trong quá trình nhận dạng tiếng nói, phát ra tiếng nói, song chúng là thành phần quan trọng phục vụ cho quá trình định danh người nói, phân biệt người nói. Âm sắc trong góc nhìn tín hiệu được cho là sự kết hợp giữa các tần số harmonic. Khác so với tần số cơ bản phục vụ cho việc định hình âm thanh, các tần số harmonic có nhiệm vụ biến đổi, thay đổi các đặc tính mang tính đặc trưng riêng của vật, người phát ra âm thanh. Quan sát hình sau có thể thấy được rõ ràng các nhận định trên. Đối với hệ thống TTS, để học được cách nói của nhiều người khác nhau, chúng buộc phải học được tính chất về âm sắc này.

So sánh timbre giữa các vật, người tạo âm khác nhau.]{So sánh timbre giữa các vật, người tạo âm khác nhau. Trên đây là 6 cặp hình biểu diễn waveform (trên) và spectogram (dưới) của âm thanh (A) một người phụ nữ được âm "a" (trong "hard"), (B) nguyên âm của "a" trong tiếng anh, (C) tiếng người phụ nữ đọc từ "dook" liên tục. Hình (D), (E), (F) là âm thanh được phát ra lần lượt bởi đàn piano, đàn accordion, và oboe với cùng một nốt nhạc. Trong hình hày có thể dễ dàng nhận thấy được sự khác nhau từ cả waveform và spectrogram của các âm. Tuy nhiên, các spectrogram cho ta nhiều thông tin hơn so với waveform. Hình từ [3].

So sánh timbre giữa các vật, người tạo âm khác nhau.]{So sánh timbre giữa các vật, người tạo âm khác nhau. Trên đây là 6 cặp hình biểu diễn waveform (trên) và spectogram (dưới) của âm thanh (A) một người phụ nữ được âm “a” (trong “hard”), (B) nguyên âm của “a” trong tiếng anh, (C) tiếng người phụ nữ đọc từ “dook” liên tục. Hình (D), (E), (F) là âm thanh được phát ra lần lượt bởi đàn piano, đàn accordion, và oboe với cùng một nốt nhạc. Trong hình hày có thể dễ dàng nhận thấy được sự khác nhau từ cả waveform và spectrogram của các âm. Tuy nhiên, các spectrogram cho ta nhiều thông tin hơn so với waveform. Hình từ [3].

Phần riêng cho Tiếng Việt

Biểu diễn F0 của các âm có thanh điệu khác nhau]{Đường biểu diễn độ lớn của F0 (Hz) trên miền thời gian của 5 âm có thanh điệu khác nhau: T1 - ``ma'' có thanh điệu ngang (mid-level), T2 - ``mà'' với thanh huyền (low falling), T3 - ``má'' thanh sắc (high rising), T4 - ``mả'' có thanh hỏi (mid dipping-rising), T5 - ``mã'' có thanh ngã (high breaking-rising), T6 - ``mạ'' có thanh nặng (low falling constricted). Hình từ [4].

Biểu diễn F0 của các âm có thanh điệu khác nhau]{Đường biểu diễn độ lớn của F0 (Hz) trên miền thời gian của 5 âm có thanh điệu khác nhau: T1 – “ma” có thanh điệu ngang (mid-level), T2 – “mà” với thanh huyền (low falling), T3 – “má” thanh sắc (high rising), T4 – “mả” có thanh hỏi (mid dipping-rising), T5 – “mã” có thanh ngã (high breaking-rising), T6 – “mạ” có thanh nặng (low falling constricted). Hình từ [4].

Phần riêng, tiếng Việt (Vietnamese) là một ngôn ngữ nói khá đặc trưng trong cấu trúc ngữ âm và đặc sắc trong các biến thế. Khác với các ngôn ngữ có cấu trúc từ đa âm tiết như tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, . . . , tiếng Việt thuộc dạng từ đơn âm tiết nhưng có hệ thống thanh điệu (tone) thay vì âm nhấn (stress). Đặc trưng ở đây là sự thay đổi trong thanh điệu có thể thay đổi hoàn toàn nghĩa của từ, ví dụ: nhà, nha, nhá, nhả, nhã, nhạ. Sự thay đổi nghĩa do thanh điệu gây ra có phần giống như sự thay đổi nghĩa của từ khi đổi âm nhấn trong tiếng anh, ví dụ: từ present được nhấn ở âm đầu và âm thứ 2 có gây ra sự khác nhau trong nghĩa của từ. Điểm đặc sắc trong tiếng nói tiếng Việt có thể kể đến ngoài hệ thống thanh điệu là âm phát ra của từng người theo vùng miền khác nhau, theo độ tuổi khác nhau có thể cho ra các âm khác nhau của cùng một chữ ở dạng văn bản, ví dụ: từ “đạp” trong tiếng phổ thông bị nói trại sang từ “độp” trong tiếng nói của những người bản địa vùng Quảng Nam. Để giải quyết các vấn đề này trong xây dựng hệ thống TTS cần có nghiên cứu kỹ lưỡng và đưa ra giải pháp phù hợp thay vì sử dụng tuỳ ý một hệ thống có sẵn trong tiếng nói của ngôn ngữ khác.

[1] A. de Dominicis, “Intonation systems: A survey of twenty languages,” Language, vol. 76, no. 2, pp. 460–463, 2000,

[3] S. Town and J. Bizley, “Neural and behavioral investigations into timbre perception,” Frontiers in systems neuroscience, vol. 7, p. 88, Nov. 2013.