Thang Điểm Đánh Giá Chất Lượng Tiếng Nói Theo Mos

CHƯƠNG 2: ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI

2.1 GIỚI THIỆU CHƯƠNG

Cho đến nay đã có rất nhiều thuật toán nâng cao chất lượng tiếng nói, nhưng làm thế nào để đánh giá đúng hiệu quả của chúng. Phần này cung cấp các phương pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của thuật toán nâng cao tiếng nói.

Đánh giá chất lượng có thể thực hiện bằng cách sử dụng phương pháp đánh giá theo cảm nhận của người nghe theo một thang đo đã được xác định trước (Subjective Evaluation_ SE) hoặc dựa trên phép đo các thuộc tính của tín hiệu (Objective Evaluation_ OE). Dù OE có giá trị thì nó vẫn phải tương quan với cảm nhận của người nghe.

Phần này sẽ cung cấp một cái nhìn tổng quan về các phương pháp đánh giá chất lượng của tiếng nói đã được xử lý.

2.2 PHƯƠNG PHÁP ĐÁNH GIÁ CHỦ QUAN

Đánh giá chất lượng chủ quan là đánh giá chất lượng dựa trên cảm nhận nghe của con người đối với tiếng nói.

Chất lượng là một trong các thuộc tính của tín hiệu tiếng nói. Về bản chất thì chất lượng có tính chủ quan cao và khó có thể đánh giá một cách đáng tin cậy.Nó chỉ đóng vai trò phần nào trong kỹ thuật đánh giá vì mỗi cá nhân người nghe có những tiêu chuẩn riêng về chất lượng “tốt” hay “xấu”, chất lượng là kết quả của sự cảm nhận và phán đoán chủ quan của người nghe, dẫn đến sự chênh lệch lớn trong kết quả đánh giá. Chất lượng có rất nhiều chỉ tiêu không thể đếm hết được. Tùy vào các mục đích thực tế và tùy vào mỗi ứng dụng mà chỉ tập trung vào một số chỉ tiêu chất lượng tiếng nói.

Đánh giá chất lượng tiếng nói là một công việc đầy khó khăn do tính đa chỉ tiêu và tính chủ quan cao. Có một số lượng lớn các đặc trưng để đánh giá khi thực hiện phương pháp nghe chủ quan này. Để kết quả đánh giá là đáng tin cậy thì sự lựa chọn đúng đắn các tham số cho việc đánh giá là điều cần thiết. Dựa trên thực tế đó ITU-T đã đưa ra các khuyến nghị ban hành trong các chuẩn từ ITU-T Rec P.800 đến ITU-T Rec P.899. Có hai loại đánh giá chính là Tuyệt đối và Tương đối. Sự đánh giá dựa trên các thang điểm chuẩn đã được đề ra trong chuẩn ITU-T Rec.P.800.

2.2.1 Các phương pháp đánh giá tuyệt đối

Phương pháp đánh giá tuyệt đối ACR

ACR được sử dụng rộng rãi. ITU-T đã khuyến nghị dùng phương pháp này trong hầu hết các ứng dụng. Thang đo được khuyến là:

Mean Opinion Scores (MOS)

Được mô tả trong khuyến nghị P.800 của ITU-T, MOS là một phép đo chất lượng thoại nổi tiếng. Đây là một phương pháp đo chất lượng mang tính chất chủ quan. Có hai phương pháp kiểm tra là đánh giá đàm thoại và đánh giá độ nghe.

Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS

Score

Quality of the Speech	Level of Distortion
5	Excellent	Imperceptible
4	Good	Just perceptible, but not annoying
3	Fair	Perceptible and slight annoying
2	Poor	Annoying but not Objectinable
1	Bad	Very annoying and Objectionable

Có thể bạn quan tâm!

Xem toàn bộ 69 trang tài liệu này.

2.2.2 Các phương pháp đánh giá tương đối

Nhìn chung phương pháp đánh giá này có độ nhạy cao hơn đối với sự suy giảm chất lượng của tín hiệu đã qua xử lý.

2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu

Dạng đơn giản nhất của phương pháp này là thích nghe mẫu nào hơn Preference test hay còn gọi là so sánh đánh giá theo từng cặp tín hiệu Paired Comparison Test. Đối với phương pháp này thì người nghe sẽ được nghe hai mẫu thoại và sẽ đánh giá thích mẫu tín hiệu nào hơn.

Đánh giá bằng cách so sánh Comparison Category Rating (CCR) được khuyến nghị bởi ITU-T để đánh giá các hệ thống dùng nâng cao chất lượng tiếng nói.

Bảng 2.2. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR

Rating

Quality of Speech
3	Much better
2	Better
1	Slightly Better
0	About the Same
-1	Slightly Worse
-2	Worse
-3	Much Worse

Theshold Test hay còn gọi là Isopreference Test là một biến thể của Preference Test. Phương pháp này là so sánh tín hiệu đã qua xử lý với tín hiệu gốc chuẩn mà độ suy giảm chất lượng của nó có thể được kiểm soát. Được đề ra trong chuẩn ITU-T Rec.P.810.

2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng

Đánh giá sự suy giảm chất lượng Degradation Category Rating (DCR) Sự giảm sút về chất lượng của tín hiệu đã qua xử lý so với tín hiệu chất lượng cao chưa qua xử lý được xác định qua năm thang điểm.

Bảng 2.3. Thang đánh giá DCR

Rating

Degradation
1	Very annoying
2	Annoying
3	Sightly annoying
4	Audible but not annoying
5	Inaudible

2.3 PHƯƠNG PHÁP ĐÁNH GIÁ KHÁCH QUAN

Đánh giá chất lượng khách quan là phương pháp đánh giá chất lượng dựa trên các phép đo thuộc tính của tín hiệu.

2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung

Đo SNR trên từng khung trong miền thời gian là một trong những phương pháp đánh giá về mặt toán đơn giản nhất. Để phương pháp này có hiệu quả thì điều quan trọng là tín hiệu gốc và tín hiệu đã qua xử lý phải trong cùng miền thời gian và độ lệch pha hiện tại phải được hiệu chỉnh chính xác. SNRseg được xác định như sau.

10 M 1

NmN 1 x2(n)

NmN 1[x(n) x]

SNRseg M

m0

log 10nNm

nNm

(2.1)

Trong đó N: chiều dài khung (thường được chọn từ 15-20ms) M: số khung của tín hiệu

Một vấn đề tiềm ẩn với phương pháp đánh giá SNRseg là năng lượng của tín hiệu trong suốt khoảng lặng của tín hiệu thoại (xuất hiện nhiều trong các đoạn hội thoại) sẽ rất bé, dẫn đến kết quả là giá trị của ai số SNRseg lớn làm sai lệch toàn bộ đánh giá. Phương án giải quyết duy nhất là loại trừ những khung lặng trong biểu thức

trên bằng cách đo mức năng lượng trong thời gian ngắn nén giá trị SNRseg ngưỡng đến một giá trị bé. Nếu giá trị SNRseg được giới hạn trong khoảng [-10dB, 35dB] sẽ tránh được việc cần phải dùng bộ tách tín hiệu thoại và khoảng lặng.

Sự xác định trước của SNRseg dựa trên tín hiệu vào gốc và tín hiệu đã được xử lý. Ta có thể dùng tín hiệu được xử lý qua bộ lọc dự đoán thường được sử dụng trong thuật toán CELP. Sau khi đưa tín hiệu gốc và tín hiệu đã qua xử lý qua các bộ lọc này, ta có thể tính toán SNRseg dựa trên tín hiệu ra của các bộ lọc. Sự ước tính SNR này mang lại hệ số tương quan cao đối với các phương pháp đánh giá chủ quan.

Một cách xác định SNRseg khác được đề xuất bởi Richards trong đó hàm log có thay đổi so với công thức 3.1:

10 M 1

NmN 1 x2(n)

NmN 1[x(n) x]

SNRseg M

m0

log 10 (1nNm ) nNm

(2.2)

Như vậy có thể tránh được các giá trị sai lệch lớn trong suốt các khoảng lặng của tín hiệu tiếng nói. Chú ý rằng giá trị nhỏ nhất có thể đạt được của SNRsegR bây giờ là 0 thì đã tốt hơn nhiều so với những giá trị âm vô cùng. Ưu điểm chính của việc xác định trước phân đoạn SNR là tránh được việc cần thiết phải làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng.

Đo SNR cho từng khung có thể được mở rộng trong miền tần số theo

KB log [F 2(mj )(F (mj ) 

fwSNRseg 10 M1

j 1 j 10

F (mj )]

(2.3)

M m0



j1 j

Trong đó Bj : Trọng lượng tại dải tần số thứ j

K : Số dải tần

M : Tổng số khung tín hiệu

F(m,j) : Dãy tín hiệu gốc qua bọ lọc đã được khuếch đại tại dải lần thứ j và khung thứ m

Fm. jDãy tín hiệu đã được tăng cường qua lọc khuếch đại ở cùng một dải tần với F(m,j)

Ưu điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miền thời gian tăng thêm tính linh động của việc phân bố trọng số của phổ khác nhau cho những dải tần khác nhau.

Một cách khác, trọng số của mỗi dải có thể thu được bằng cách dùng phương pháp phân tích hồi quy, còn gọi là phương pháp đánh giá chủ quan biến đổi tần số. Bằng cách này , trọng số có thể được chọn để có hệ số tương quan lớn nhất giữa đánh giá khách quan và đánh giá chủ quan. Với phương pháp này, tổng của K (cho mỗi dải) của các phương pháp đánh giá khách quan khác nhau và Dj được ước tính cho mỗi dãy, tại Dj được cho như sau:

1 M F 2 (m. j) 

DjM m1 log 10 (F (m. j) F 2(m. j))2

(2.4)

f =1,2,

Trọng lượng tối ưu cho mỗi Dj của mỗi dải đạt được khi dùng phương pháp phân tích hồi quy tuyến tính bậc K, cho ra đánh giá chủ quan biến đổi tần số:

fwVar a0



j1

(2.5)

Các hệ số hồi quy, Dj : được cho bởi

D() | D() | e jd ()

K là số dải .Phân tích

hồi quy không tuyến tính cũng có thể được sử dụng như một cách để chuyển hóa đánh giá khách quan biến đổi tần số.

2.3.2 Đánh giá mô phỏng theo cảm nhận nghe của con người

Những phương pháp đánh giá đã được đề cập trên được ưa dùng vì tính đơn giản để thực hiện và dễ dàng đánh giá. Tuy nhiên, khả năng dự đoán chất lượng chủ quan của chúng thì hạn chế khi mà các phương pháp xử lý tín hiệu đó không tính đến phạm vi nghe của con người.

2.3.2.1 Phương pháp đo Weighted Spectral Slope

Phương pháp đánh giá này được tính bởi dốc phổ đầu tiên được tìm thấy của mỗi

dải phổ. Xét Cx(k) là phổ dải tới hạn của tín hiệu sạch và Cx (k 1) là của tín hiệu tăng

cường, xét trong đơn vị dB. Phương trình sai phân bậc nhất được dùng để tính độc dốc phổ được cho như sau:

Sx (k) Cx (k 1) Cx (k)

(2.12)

Với và lần lượt biểu diễn cho độ dốc dải tần thứ k của tín hiệu sạch và tín hiệu tăng cường. Sự khác nhau giữa các độ dốc phổ phụ thuộc vào trọng số một là dải tần gần với đỉnh hoặc rãnh, hai là đỉnh là đỉnh lớn nhất của phổ. Trọng số của dải thứ k, ký hiệu W(k) được tính như sau:

W (k) 

Kmax



Klacmax

(2.13)

Kmax Cmax Cx (k)

Klacmax Clacmax Cx (k)

Độ rộng loga lớn nhất của phổ trong tất cả các băng,

Clocmax

là giá trị của đỉnh

gần với băng k nhất, và

Kmax

,Klocmax

là hằng số có được bằng phép phân tích hồi quy

để cực đại hóa sự tương quan giữa đánh giá chủ quan và giá trị của đánh giá khách quan. Với những thí nghiệm đã được thực hiện thì người ta tìm được sự tương quan

lớn nhất sẽ có được với

Kmax =20 và

Klocmax =1

Phép đo WSS tính cho mỗi khung của tín hiệu thoại:



dk



WSS (cx , c x ) 

Với L là số lượng dải tới hạn

k 1

(k)Sx(k) S x (k)

(2.14)

Giá trị WSS được tính bằng cách lấy trung bình các giá trị WSS thu được từ các khung trong câu.

WSS là phương pháp đánh giá khá hấp dẫn bởi vì nó không đòi hỏi phải có formant rõ ràng. Nó chú ý tới vị trí đỉnh phổ và ít nhạy cảm với các đỉnh xung quanh cũng như các chi tiết của phổ ở các vùng thấp. Đánh giá LPC cơ bản (ví dụ như đánh giá LLR) nhạy với các tần số formant khác, nhưng cũng nhạy với sự thay đổi biên độ và sự thay đổi độ nghiêng phổ. Không có gì là bất ngờ khi đánh giá WSS mang lại một sự tương quan lớn (ρ=0.74) hơn đánh giá LPC, với sự đánh giá chất lượng chủ quan của tiếng nói bị giảm chất lượng bởi sự mã hóa.

2.3.2.2 Phương pháp đo Bark Distortion

Phương pháp đánh giá WSS là bước đầu làm mẫu cho việc làm thế nào để con người nhận biết được tiếng nói, đặc biệt là nguyên âm. Các phương pháp đánh giá sau này càng dựa vào sự xử lý âm thanh của tai người, cách mà thính giác con người xử lý âm thanh và nhiễu. Những phương pháp đánh giá mới này đã dựa trên những lập luận sau:

1. Sự phân tích tần số của tai người là không thay đổi, tức là sự phân tích tần số của tín hiệu âm thanh không dựa trên phạm vi tần số tuyến tính.

2. Độ nhạy của tai người phụ thuộc vào tần số âm thanh.

3. Âm thanh to tương ứng với độ mạnh của tín hiệu trong miền phi tuyến tính.

Thính giác con người phỏng theo một loạt biến đổi của tín hiệu âm thanh. Cả tín hiệu gốc và tín hiệu đã qua xử lý phải trải qua hàng loạt các biến đổi này, dẫn đến cái

gọi là phổ âm lượng. Đánh giá BSD sử dụng khoảng cách giữa các phổ này như là đánh giá chất lượng chủ quan.

2.3.2.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ

Trong các phương pháp đánh giá OE thì PESQ là phương pháp đánh giá phức tạp nhất và được khuyến nghị bởi ITU_T cho đánh giá chất lượng thoại băng hẹp (3,2KHz) và là một phương pháp đánh giá khách quan có tính tương quan cao với đánh giá theo cảm nhận của người nghe.

2.4 KẾT LUẬN CHƯƠNG

Chương này đã trình bày một số phương pháp đánh giá chất lượng tiếng nói sau khi xử lý giảm nhiễu bằng các thuật toán tăng cường tiếng nói. Các đánh giá SE được giới thiệu gồm có các phương pháp đánh giá tuyệt đối và đánh giá tương đối. Các phương pháp đánh giá OE được trình bày chính trong chương này gồm : Đo SNRseg, đánh giá LLR, IS và WSS, trong phần này cũng đã giới thiệu sơ bộ về BSD và PESQ.

CHƯƠNG 3: THUẬT TOÁN WIENER FILTERING

3.1 GIỚI THIỆU CHƯƠNG

Nội dung của chương này trình bày nguyên lý chung của thuật toán Wiener filtering, nguyên lý cơ bản của từng thuật toán, các bước thực hiện cần thiết để phân tích liên kết tín hiệu, đề cập đến vấn đề ước luợng nhiễu, vấn đề này ảnh hưởng rất lớn đến quá trình xử lý.

3.2 SƠ ĐỒ KHỐI CỦA WIENER FILTERING

Trong đồ án này, tôi đã dựa trên các cở sở lý thuyết của các thuật toán đã có trong speech enhancement, và đã lựa chọn thuật toán Wiener filter để sử dụng làm thuật toán xử lý triệt nhiễu.

Sơ đồ khối của thuật toán :

Phân tích tín hiệu thành các frame

Overlap và

adding

IDFT

Tín hiệu bị nhiễu

Tín hiệu sạch

Hàm xử lý giảm nhiễu

Ước lượng nhiễu

FFT

Hình 3.1 Sơ đồ khối cho thuật toán WF

3.3 THUẬT TOÁN WIENER FILTERING

3.3.1 Giới thiệu chung

Thuật toán Spectral Subtraction dựa chủ yếu vào trực giác và kinh nghiệm.Chính xác hơn thuật toán này được phát triển dựa trên một nhiễu có thật được cộng vào và tín hiệu sạch được ước lượng một cách đơn giản bằng cách trừ đi phổ của nhiễu từ phổ của tính hiệu tiếng nói có nhiễu. Với cách làm này tín hiệu tiếng nói sạch không thể có được bằng cách tối ưu nhất. Để khắc phục nhược điểm này ta sử dụng thuật toán Wiener Filtering (WF).

WF là thuật toán được sử dụng rộng rãi trong nâng cao chất lượng tiếng nói. Nguồn gốc cơ bản của thuật toán WF là tạo ra tín hiệu tiếng nói sạch bằng cách nén nhiễu. Ước lượng được thực hiện bằng cách hạ thấp sai số bình phương trung bình (Mean Square Error) giữa tín hiệu mong muốn và tín hiệu ước lương.

3.3.2 Nguyên lý cơ bản của Wiener Filtering

Giả thiết rằng y[n] là tín hiệu vào đã bị nhiễu, nó là tổng của tín hiệu sạch và tín hiệu nhiễu d[n]:

y[n]=x[n]+d[n] (3.1)

Thực hiện biến đổi Fourier rời rạc cả 2 vế,ta được

Gửi bình luận