Thang Điểm Đánh Giá Chất Lượng Tiếng Nói Theo Mos .

1.10 Kết luận chương

Chương này đã trình bày được mục đích chính của speech enhancement là triệt nhiễu hoặc là nén nhiễu trong tín hiệu tiếng nói đã bị nhiễu. Ngoài ra, nội dung của chương cũng đã nêu rõ được các loại nhiễu xuất hiện trong từng môi trường cụ thể để từ đó chúng ta có tìm ra được thuật toán xử lý thích hợp ứng với mỗi trường hợp cụ thể.

CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI

2.1 Giới thiệu chương

Cho đến nay đã có rất nhiều thuật toán nâng cao chất lượng tiếng nói, nhưng làm thế nào để đánh giá đúng hiệu quả của chúng. Phần này cung cấp các phương pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của thuật toán nâng cao tiếng nói

Đánh giá chất lượng có thể thực hiện bằng cách sử dụng phương pháp đánh giá theo cảm nhận của người nghe theo một thang đo đã được xác định trước hoặc dựa trên phép đo các thuộc tính của tín hiệu.

Phần này sẽ cung cấp một cái nhìn tổng quan về các phương pháp đánh giá chất lượng của tiếng nói đã được xử lý.

2.2 Phương pháp đánh giá chủ quan

Đánh giá chất lượng chủ quan là đánh giá chất lượng dựa trên cảm nhận nghe của con người đối với tiếng nói

Chất lượng là một trong các thuộc tính của tín hiệu tiếng nói. Về bản chất thì chất lượng có tính chủ quan cao và khó có thể đánh giá một cách đáng tin cậy. Nó chỉ đóng vai trò phần nào trong kỹ thuật đánh giá vì mỗi cá nhân người nghe có những tiêu chuẩn riêng về chất lượng “tốt” hay “xấu”, chất lượng là kết quả của sự cảm nhận và phán đoán chủ quan của người nghe, dẫn đến sự chênh lệch lớn trong kết quả đánh giá. Chất lượng có rất nhiều chỉ tiêu không thể đếm hết được. Tùy vào các mục đích thực tế và tùy vào mỗi ứng dụng mà chỉ tập trung vào một số chỉ tiêu chất lượng tiếng nói.

Đánh giá chất lượng tiếng nói là một công việc đầy khó khăn do tính đa chỉ tiêu và tính chủ quan cao. Có một số lượng lớn các đặc trưng để đánh giá khi thực hiện phương pháp nghe chủ quan này. Để kết quả đánh giá là đáng tin cậy thì sự lựa chọn đúng đắn các tham số cho việc đánh giá là điều cần thiết. Dựa trên thực tế đó ITU-T đã đưa ra các khuyến nghị ban hành trong các chuẩn từ ITU-T Rec P.800 đến ITU-T Rec P.899. Có hai loại đánh giá chính là Tuyệt đối và Tương đối. Sự đánh giá dựa trên các thang điểm chuẩn đã được đề ra trong chuẩn ITU-T Rec.P.800.

2.2.1 Các phương pháp đánh giá tuyệt đối

Phương pháp đánh giá tuyệt đối ACR được sử dụng rộng rãi. ITU-T đã khuyến nghị dùng phương pháp này trong hầu hết các ứng dụng. Thang đo được khuyến nghị là

Mean Opinion Scores (MOS)

Được mô tả trong khuyến nghị P.800 của ITU-T, MOS là một phép đo chất lượng thoại nổi tiếng. Đây là một phương pháp đo chất lượng mang tính chất chủ quan. Có hai phương pháp kiểm tra là đánh giá đàm thoại và đánh giá độ nghe.

Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS .


Score

Quality of the Speech

Level of Distortion

5

Excellent

Imperceptible

4

Good

Just perceptible, but not annoying

3

Fair

Perceptible and slight annoying

2

Poor

Annoying but not Objectinable

1

Bad

Very annoying and Objectionable

Có thể bạn quan tâm!

Xem toàn bộ 58 trang tài liệu này.

Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói - 4


2.2.2 Các phương pháp đánh giá tương đối

Nhìn chung phương pháp đánh giá này có độ nhạy cao hơn đối với sự suy giảm chất lượng của tín hiệu đã qua xử lý

2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu

Dạng đơn giản nhất của phương pháp này là thích nghe mẫu nào hơn Preference test hay còn gọi là so sánh đánh giá theo từng cặp tín hiệu Paired Comparison Test. Đối với phương pháp này thì người nghe sẽ được nghe hai mẫu thoại và sẽ đánh giá thích mẫu tín hiệu nào hơn

Đánh giá bằng cách so sánh Comparison Category Rating (CCR) được khuyến nghị bởi ITU-T để đánh giá các hệ thống dùng nâng cao chất lượng tiếng nói.

Bảng 2.2. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR


Rating

Quality of Speech

3

Much better

2

Better

1

Slightly Better

0

About the Same

-1

Slightly Worse

-2

Worse

-3

Much Worse

Theshold Test hay còn gọi là Isopreference Test là một biến thể của Preference Test. Phương pháp này là so sánh tín hiệu đã qua xử lý với tín hiệu gốc chuẩn mà độ suy giảm chất lượng của nó có thể được kiểm soát. Được đề ra trong chuẩn ITU-T Rec.P.810

2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng

Đánh giá sự suy giảm chất lượng Degradation Category Rating (DCR) Sự giảm sút về chất lượng của tín hiệu đã qua xử lý so với tín hiệu chất lượng cao chưa qua xử lý được xác định qua năm thang điểm

Bảng 2.3. Thang đánh giá DCR


Rating

Degradation

1

Very annoying

2

Annoying

3

Sightly annoying

4

Audible but not annoying

5

Inaudible


2.3 Phương pháp đánh giá khách quan

Đánh giá chất lượng khách quan là phương pháp đánh giá chất lượng dựa trên các phép đo thuộc tính của tín hiệu, thường được dùng trong việc đánh giá các phương pháp nâng cao chất lượng tiếng nói được phân chia trong ba miền: miền thời gian như phép đo tỉ số tín hiệu trên nhiễu tiếng vang; miền phổ gồm các phép đo dựa trên các hệ số tuyến tính như khoảng cách Log Likehook Ratio (LLR) Itakura Saito (IS), và khoảng cách phổ (CEP) và miền tri giác gồm phép đo khoảng cách độ dốc phổ (WSS) và các phép đo đánh giá theo cảm nhận chủ quan (PESQ) bao gồm:

Weighted Spectral Slope (WSS) distance: Là phương pháp đo theo trọng số của phổ phép đo này được tính bằng cách tìm độ dốc phổ Spectral Slope đầu tiên của mỗi band. Sau đó tính toán sự khác nhau giữa hai Spectral Slope của hai tín hiệu. Phương pháp đánh giá WSS là bước đầu làm mẫu cho việc làm thế nào để con người nhận biết được tiếng nói, đặc biệt là nguyên âm. Các phương pháp đánh giá sau này càng dựa vào sự xử lý âm thanh của tai người, cách mà thính giác con người xử lý âm thanh và nhiễu. Những phương pháp đánh giá mới này đã dựa trên những lập luận sau:

Sự phân tích tần số của tai người là không thay đổi, tức là sự phân tích tần số của tín hiệu âm thanh không dựa trên phạm vi tần số tuyến tính.

Độ nhạy của tai người phụ thuộc vào tần số âm thanh.

Âm thanh to tương ứng với độ mạnh của tín hiệu trong miền phi tuyến tính.

Thính giác con người mô phỏng theo một loạt biến đổi của tín hiệu âm thanh. Cả tín hiệu gốc và tín hiệu đã qua xử lý phải trải qua hàng loạt các biến đổi này, dẫn đến cái gọi là phổ âm lượng.

Perceptual Evaluation of Speech Quality (PESQ): Trong các phương pháp đánh giá OE thì PESQ là phương pháp đánh giá phức tạp nhất và được khuyến nghị bởi ITU_T cho đánh giá chất lượng thoại băng hẹp (3,2KHz) và là một phương pháp đánh giá khách quan có tính tương quan cao với đánh giá theo cảm nhận của người nghe.

2.4 Kết luận chương

Chương này đã trình bày một số phương pháp đánh giá chất lượng tiếng nói sau khi xử lý giảm nhiễu bằng các thuật toán tăng cường tiếng nói. Các đánh giá được giới thiệu gồm có các phương pháp đánh giá tuyệt đối và đánh giá tương đối, đánh giá chủ quan và đánh giá khách quan.

CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION

3.1 Giới thiệu chương

Nội dung của chương này trình bày nguyên lý của thuật toán Spectral subtraction, các bước thực hiện cần thiết để phân tích liên kết tín hiệu, đề cập đến vấn đề ước luợng nhiễu, vấn đề này ảnh hưởng rất lớn đến quá trình xử lý.

3.2 Thuật toán Spectral Subtraction

3.2.1 Giới thiệu chung

Spectral – subtraction là thuật toán được đề xuất sớm nhất trong các thuật toán được sử dụng để giảm nhiễu trong tín hiệu. Đã có rất nhiều bài luận mô tả các biến thể của thuật toán này so với các thuật toán khác. Nó dựa trên một nguyên tắc cơ bản, thừa nhận sự có mặt của nhiễu, nó có thể đạt được mục đích ước lượng phổ của tiếng nói sạch bằng cách trừ đi phổ của nhiễu với phổ của tiếng nói đã bị nhiễu. Phổ của nhiễu có thể được ước lượng, cập nhật trong nhiều chu kỳ khi không có mặt của tín hiệu. Sự thừa nhận đó chỉ được thực hiện đối với nhiễu không đổi hoặc có tốc độ xử lý biến đổi chậm, và khi đó phổ của nhiễu sẽ không thay đổi đáng kể giữa các khoảng thời gian cập nhật. Việc tăng cường tín hiệu đạt được bằng cách tính IDFT(biến đổi Fourier rời rạc ngược) của phổ tín hiệu đã được ước lượng có sử dụng pha của tín hiệu có nhiễu. Thuật toán này là một phép tính ước lượng đơn giản vì nó chỉ gồm biến đổi DFT thuận và DFT ngược.

Quá trình xử lý hiệu đơn giản như vậy phải trả một cái giá, nếu quá trình xử lý không được thực hiện một cách cẩn thận thì tiếng nói của chúng ta sẽ bị méo. Nếu như việc lấy hiệu quá lớn thì có thể loại bỏ đi một phần thông tin của tiếng nói, còn nếu việc thực hiện lấy hiệu đó nhỏ thì nhiễu sẽ vẫn còn được giữ lại trong tín hiệu. Có rất nhiều phương pháp được đề xuất để giảm đi hầu hết méo trong quá trình xử lý tiếng nói bằng spectral subtraction, và trong số đó cũng có một vài trường hợp bị loại bỏ.

3.2.2 Nguyên tắc cơ bản của thuật toán

Thuật toán dựa trên nguyên tắc thừa nhận sự có mặt của nhiễu và có thể đạt được mục đích ước lượng phổ của tiếng nói bằng cách trừ đi phổ của nhiễu với phổ của tiếng nói đã bị nhiễu. Phổ của nhiễu có thể được ước lượng, cập nhật trong nhiều chu kỳ khi không có mặt của tín hiệu. Sự thừa nhận đó chỉ được thực hiện đối với nhiễu không đổi hoặc có tốc độ xử lý biến đổi chậm, và khi đó phổ của nhiễu sẽ không thay đổi đáng kể giữa các khoảng thời gian cập nhật.

3.2.3 Spectral subtraction đối với phổ biên độ

Giả thiết rằng y[n] là tín hiệu vào đã bị nhiễu, nó tổng của tín hiệu sạch x[n] và tín hiệu nhiễu d[n]:

y[n] = x[n] + d[n] (3.1)

Thực hiện biến đổi Fourier rời rạc cả 2 vế,ta được

Y () X () D()

Chúng ta có thể biểu diễn Y( ) dưới dạng phức như sau:

Y () | Y () | e jy ()

Khi đó |Y( )| là biên độ phổ, và y () là pha của tín hiệu đã bị nhiễu. Phổ của tín hiệu nhiễu D() có thể được biểu diễn dạng biên độ và pha:

D() | D() | e jd ()

(3.2)


(3.3)


(3.4)

Biên độ phổ của nhiễu |D( )| không xác định được, nhưng có thể thay thế bằng giá trị trung bình của nó được tính trong khi không có tiếng nói(tiếng nói bị dừng), và pha của tín hiệu nhiễu có thể thay thế bằng pha của tín hiệu bị nhiễu y () , việc làm này không ảnh hưởng đến tính dễ nghe của tiếng nói, có thể ảnh hưởng đến chất lượng của tiếng nói là làm thay đổi pha của tiếng nói nhưng cũng chỉ vài độ.

Khi đó chúng ta có thể ước lượng được phổ của tín hiệu sạch:


X (

| D(

) [| Y () |

) |]e jy ()


(3.5)


ở đây | D() | là biên độ phổ ước lượng của nhiễu được tính trong khi không có


tiếng nói hoạt động. Ký hiệu

""

để chỉ rằng giá trị đó là giá trị ước tính gần đúng. Tín

hiệu tiếng nói được tăng cường có thể đạt được bằng cách rất đơn giản là biến đổi


IDFT của


X () .

Cần chú ý rằng biên độ phổ của tín hiệu đã được tăng cường là

| X () | (| Y () | | D() |) , có thể bị âm do sự sai sót trong việc ước lượng phổ của nhiễu. Tuy nhiên, biên độ của phổ thì không thể âm, nên chúng cần phải đảm bảo rằng khi thực trừ hai phổ thì phổ của tín hiệu tăng cường |X( )| luôn luôn không âm. Giải pháp được đưa ra để khắc phục điều này là chỉnh lưu bán sóng hiệu của phổ, nếu thành phần

phổ nào mà âm thì chúng ta sẽ gán nó bằng 0:


Y ()

^

) |

, | Y () |

^

) |

X ()

0 ,

| D(

| D(

(3.6)

Phương pháp xử lý bằng chỉnh lưu bán sóng là một trong những cách để đảm bảo cho |X( )| không bị âm.

3.2.4 Spectral subtraction đối với phổ công suất

Thuật toán Spectral subtraction đối với phổ biên độ có thể được mở rộng sang miền phổ công suất. Vì trong một vài trường hợp, nó có thể làm việc tốt với phổ công suất hơn là với phổ biên độ. Lấy phổ công suất của tín hiệu bị nhiễu trong một khoảng ngắn, chúng ta bình phương |Y( )|, ta được:

Y () 2

X () 2 D() 2 X (). D* () X * ()D()

X () 2 D() 2 2.ReX ()D* ()


(3.7)

| D() |2, X(). D()

X ().D()

không thể tính được một cách trực tiếp và

xấp xỉ bằng E{| D() |2}, E{ X(). D() } và E{ X ().D() }, khi đó E là toán tử kỳ vọng. Bình thường thì E{| D() |2} được ước lượng khi không có tiếng nói hoạt động

và được biểu thị là |

) |2. Nếu chúng ta thừa nhận d[n] = 0 và không có một sự

D(

tương quan nào với tín hiệu sạch x[n], thì E{ X(). D() } và E{ X ().D() } xem là

0. Khi đó phổ công suất của tín hiệu sạch có thể tính được như sau


^ ^

| X () |2 | Y () |2 | D() |2

(3.8)

Công thức trên biểu diễn thuật toán trừ phổ công suất. Như công thức trên, thì

phổ công suất được ước lượng | X () |2 không được đảm bảo luôn là một số dương,

nhưng có thể sử dụng phương pháp chỉnh lưu bán sóng như đã trình bày ở trên. Tín

hiệu được tăng cường sẽ thu được bằng cách tính IDFT của | X () | (bằng cách lấy căn


bậc hai của

) | 2 ), có sử dụng pha của tín hiệu tiếng nói bị nhiễu. Chú ý rằng, nếu

| X (

chúng ta lấy IDFT cả hai vế của công thức (4.8) trên thì ta có một phương trình tương tự trong miền tự tương quan:

r^ ^ (m) ryy(m) r^^ (m)

(3.9)


Khi đó


r^^ (m) ,

xx


ryy (m)

xx


, r^^ (m)

dd

dd


là các hệ số tự tương quan của tín hiệu sạch, tín

hiệu tiếng nói bị nhiễu, và tín hiệu nhiễu đã được ước lượng.

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 23/05/2023