Hệ số xác định bội và ‘hệ số tương quan bội
Trong mô hình hồi quy hai biến, r2 đo độ thích hợp của hàm hồi quy. Nó chính là tỷ lệ của toàn bộ sự biến đổi của biến phụ thuộc Y do biến giải thích X gây ra.
Trong mô hình hồi quy bội nói chung, tỷ lệ của toàn bộ sự biến đổi của biến phụ thuộc Y do các biến giải thích X1, X2...,Xk gây ra được gọi là hệ số xác định bội, ký hiệu là R2
R 2
SSR SS (Y )
1
SSE SS (Y )
(1.2.4.10)
0 R2 1
Có thể bạn quan tâm!
- Nhóm Chỉ Tiêu Tiền Lương Bình Quân Và Thu Nhập Bình Quân Của Lao Động Sản Xuất [23]
- Phương Pháp Phân Tích Dãy Số Thời Gian [39]
- Phương Pháp Hồi Quy Và Tương Quan [30]
- Các Phương Pháp Đo Sự Bất Bình Đẳng Trong Phân Phối Thu Nhập [57]
- Vận dụng một số phương pháp thống kê nghiên cứu tình hình phân phối thu nhập trong các doanh nghiệp ngành Công nghiệp Việt Nam - 11
- Vận dụng một số phương pháp thống kê nghiên cứu tình hình phân phối thu nhập trong các doanh nghiệp ngành Công nghiệp Việt Nam - 12
Xem toàn bộ 235 trang tài liệu này.
Nếu R2 = 1: mô hình hồi quy giải thích 100% sự biến đổi của Y
Nếu R2 = 0: Mô hình hồi quy không giải thích sự biến đổi nào của Y
Một tính chất quan trọng của R2 là hàm không giảm theo số biến giải thích có trong mô hình. Do đó, nếu tăng số biến giải thích trong mô hình R2 cũng tăng. Nhưng không thể dùng R2 làm tiêu chuẩn để xem xét việc đưa thêm hay không đưa thêm một biến giải thích mới vào mô hình vì trong việc tính R2 không tính đến bậc tự do. Do đó, người ta tính “hệ số xác định bội
hiệu chỉnh” và được ký hiệu là
R 2 1 SSE /(n k 1)
SS (Y ) /(n 1)
R 2
hay (1.2.4.11)
R 2 1
(n 1) (n k 1)
(1 R 2 )
(1.2.4.12)
trong đó k là số biến độc lập, và là bậc tự do của SS(R) n-k-1 là bậc tự do của SSE
n-1 là bậc tự do của SS(Y)
* Nếu k > 1,
R 2 R 2 1
điều này có nghĩa là nếu số biến giải thích tăng
lên thì R 2
cũng tăng, nhưng nó tăng chậm hơn R2
* Nếu R 2
có thể nhận giá trị âm, mặc dù R2 luôn là một số không âm.
Điều này có thể xảy ra khi R2 nhỏ.
Trong thực tế, R 2 được xem như là tiêu chuẩn để lựa chọn số biến đưa vào
mô hình hồi quy. Khi R 2 còn tăng, còn phải đưa thêm biến mới vào mô hình.
Để đánh giá mức độ chặt chẽ của mối liên hệ tuyến tính giữa biến phụ
thuộc Y với các biến độc lập ký hiệu R
X i (i 1, k)
người ta dùng hệ số tương quan bội,
SSR
SS (Y )
R 2
R (1.2.4.13)
Nếu R = 0 thì không tồn tại liên hệ tuyến tính giữa Y và các Xi
R = 1 tồn tại liên hệ hàm số giữa Y và các Xi
R càng tiến gần đến 1 mối liên hệ giữa Y và các Xi càng chặt chẽ.
Hệ số xác định riêng phần và hệ số tương quan riêng phần
Trong mô hình hồi quy đơn - tức là hồi quy giữa biến phụ thuộc Y và chỉ có một biến độc lập X1, ta có
SS(Y) = SSR(X1) + SSE (X1) (1.2.4.14)
Mối quan hệ giữa các đại lượng trên có thể được biểu diễn bằng hình:
SSR(X1)
SSE(X1)
SS(Y)
Khi đưa thêm một biến độc lập mới vào mô hình hồi quy thì R2 sẽ tăng lên. Do SS (Y) là một đại lượng không đổi, nên tổng bình phương của các dư thừa sẽ giảm xuống và tổng bình phương do hồi quy sẽ tăng lên một lượng đúng bằng phần giảm xuống của các dư thừa. Giả sử đưa thêm một biến độc lập mới X2 vào mô hình hồi quy, thì tổng bình phương của các số dư là SSE (X1, X2) và khi đó lượng giảm tổng bình phương của
các số dư sẽ là:
SSE (X1) - SSE (X1, X2)
Đây cũng chính là phần tăng thêm của tổng bình phương do hồi quy khi ta đưa thêm X2 vào mô hình hồi quy với điều kiện X1 đã ở trong mô hình, và ta ký hiệu nó là SSR (X2 X1). Như vậy:
SSR (X2X1) = SSE (X1) - SSE (X1, X2) Khi đó SSR (X1,X2) = SSR (X1) + SSR (X2X1) Và SS (Y) = SSR (X1, X2) + SSE (X1, X2)
= SSR (X1) + SSR (X2X1) +SSE (X1, X2)
SSR (X1)
SSR (X2X1)
Biểu diễn bằng sơ đồ, ta có :
SSR (X1, X2)
SS(Y)
SSE (X1, X2)
SSE (X1, X2)
Nếu đưa tiếp thêm vào mô hình hồi quy biến độc lập thứ ba, tức X3 thì phần tăng thêm của tổng bình phương do hồi quy sẽ là:
SSR (X3X1 X2) = SSE (X1, X2) - SSE (X1, X2, X3)
Khi đó: SSR (X3X1, X2) = SSR (X1) +SSR (X2X1) + SSR (X3X1X2) Và SS(Y) = SSR (X1, X2, X3) + SSE (X1, X2, X3)
= SSR (X1) +SSR (X2X1) + SSR (X3X1X2) + SSR (X1, X2, X3)
Bằng sơ đồ ta có:
SSR (X1, X2, X3)
SS(Y)
SSE (X1, X2, X3)
SSE (X1, X2, X3)
SSR (X1)
SSR (X2X1)
SSR (X3X1X2)
Theo nguyên tắc này, ta có thể tiếp tục phân tích SS(Y) khi đưa thêm một biến độc lập mới vào mô hình hồi quy.
Hệ số xác định riêng phần giữa Y và X1 khi X2 đã có trong mô hình hồi
quy:
r 2
SSR (X1 | X 2 )
(1.2.4.15)
Y 1.2
SSE (X 2 )
Hệ số xác định riêng phần giữa Y và X3 khi X1, X2 đã có trong mô hình hồi quy:
r 2 SSR (X3 | X1 , X 2 )
(1.2.4.16)
Y 3.1.2
SSE (X1 , X 2 )
Hệ số xác định riêng phần giữa Y và X2 khi X1, X3 đã có trong mô hình hồi quy:
r 2 SSR (X 2 | X1 , X3 )
(1.2.4.17)
Y 2.1..3
SSE (X1
, X 3 )
Hệ số xác định riêng phần giữa Y và X1 khi X2 , X3 đã có trong mô hình hồi quy:
r 2 SSR (X1 | X 2 , X 3 )
(1.2.4.18)
Y .1.2..3
SSE (X 2
, X 3 )
Hệ số tương quan riêng phần được sử dụng để đánh giá mức độ chặt chẽ của mỗi liên hệ tuyến tính giữa biến phụ thuộc Y và một biến độc lập Xi,
có tính đến ảnh hưởng của một hoặc nhiều biến độc lập khác và tính được bằng cách khai căn bậc hai của hệ số xác định riêng phần.
Tuỳ thuộc vào số lượng các biến độc lập đứng sau dấu chấm mà ta có các hệ số tương quan riêng phần bậc tương ứng.
Hệ số tương quan riêng phần bậc một
r2
Y 2.1
rY 2.1 và có dấu của b2
r2
Y 1.2
rY 1.2 và có dấu của b1
Ta cũng có thể tính các hệ số tương quan riêng phần bậc một ở trên dựa vào các hệ số tương quan đơn:
rY 2.1
rY 2.1
rY 2 rY 1r12
(1 r 2)(1 r 2)
Y 1
12
(1 r 2 )(1 r 2 )
Y 2
12
rY 1 rY 2 r12
(1.2.4.19)
(1.2.4.20)
Trong đó rY1, rY2 , rY12 là các hệ số tương quan đơn (còn gọi là hệ số tương quan cặp) giữa Y với X1, Y với X2, X1 với X2
Hệ số tương quan riêng phần bậc hai:
r 2
Y 3.2.1
rY 3.2.1 (1.2.4.21)
r 2
Y .2.1.3
rY 2.1.3 (1.2.4.22)
r 2
Y 1.2.3
rY 1.2.3 (1.2.4.23)
Việc tính các hệ số tương quan riêng phần cho thấy khá rắc rối, nhất là tương quan riêng phần bậc cao. Hơn nữa sự giải thích của nó kém rõ ràng hơn là hệ số xác định riêng phần.
(6) Đa cộng tuyến và hậu quả của nó
Thuật ngữ đa cộng tuyến do Ragnar Frisch đề xuất năm 1934. Ý nghĩa khởi thuỷ của nó là có sự tồn tại mối liên hệ tuyến tính hoàn hảo giữa các biến giải thích của mô hình hồi quy. Ví dụ cho mô hình hồi quy k biếń:
Yi = 1 + 2
X2i+…+ k
Xki+ Ui
Mối liên hệ tuyến tính chính xác giữa các biến giải thích được hiểu theo
nghĩa là giữa các biến giải thích này có sự phụ thuộc tuyến tính, nghĩa là tồn tại các số λi không đồng thời bằng không sao cho:
λ1X1i + λ2X2i + λ3X3i +…+ λkXki = 0
Trong đó Xi = 1 cho tất cả các quan sát.
Ngày nay quan niệm đa cộng tuyến được sử dụng theo nghĩa rộng hơn, nó bao gồm cả trường họp đa cộng tuyến hoàn hảo cũng như đa cộng tuyến không hoàn hảo theo nghĩa là giữa các biến giải thích có liên hệ sau:
λ1X1i + λ2X2i + λ3X3i +…+ λkXki + vi = 0 trong đó vi là số hạng sai số ngẫu nhiên.
Trong mô hình hồi quy bội, phải giả thiết là các biến giải thích X i (i 1, k)
không tương quan với nhau. Nếu giữa các biến đó lại có quan hệ tuyến tính với nhau thì ta nói rằng đó là hiện tượng đa cộng tuyến.
Nếu có hiện tượng đa cộng tuyến xảy ra, thì trong mỗi biến Xi đó không chỉ chứa đựng thông tin về Y mà còn chứa đựng cả những thông tin về các Xi khác. Do đó ta không thể tách riêng được phần ảnh hưởng của nó lên biến phụ thuộc Y.
Để phát hiện sự tồn tại đa cộng tuyến, người ta có thể sử dụng nhiều phương pháp khác nhau. Một số phương pháp thường hay được sử dụng là:
- Xét hệ số tương quan cặp giữa các biến giải thích, tức là xét rXi,Xj (ij). Nếu rXi,Xj tương đối cao (rXi,Xj > 0,8) thì có khả năng tồn tại đa cộng tuyến.
- Xét tương quan riêng phần: Giả sử trong mô hình hồi quy của Y đối với X1, X2, X3 có R2 cao. Trong khi đó các hệ số tương quan riêng phần
r
2
Y 1.2.3
2
r
Y 2 .1 .3
2
r
Y 3 .1 .2
tương đối thấp thì điều đó có thể gợi ý rằng các biến X1 ,
X2, X3 có tương quan cao và ít nhất một trong các biến này là thừa.
- Sử dụng hồi quy phụ
Hồi quy phụ là hồi quy giữa một biến giải thích với các biến giải thích còn lại. Ký hiệu hệ số xác định bội của hồi quy này là R2i thì đại lượng Fi có phân phối F với (k-1) và (n-k) bậc tự do được tính theo công thức:
i
R 2 /( k 1)
i
Fi (1 R 2 ) /( n k )
(1.2.4.24)
Trong đó n là cỡ mẫu và k là số biến giải thích.
Với mức ý nghĩa , nếu Fi < F; (k-1);(n-k) thì có nghĩa là Xi không có liên hệ tuyến tính với các biến độc lập khác.
- Đô chấp nhận và nhân tố phóng đại phương sai
Độ chấp nhận (tolerance) của biến giải thích Xi được định nghĩa là 1- R2 nhân tó phóng đại phương sai gắn với Xi, ký hiệu là VIF(Xi) được xác định bởi công thức:
VIF ( X
i )
1
1 R 2
(1.2.4.25)
Nếu độ chấp nhận càng bé và VIF càng lớn thì Xi càng liên hệ chặt chẽ với các biến giải thích khác.
Hậu quả của đa cộng tuyến là làm cho việc ước lượng các tham số của mô hình hồi quy sẽ không chính xác, trong trường hợp đa cộng tuyến hoàn hảo thì các tham số là không xác định. Ngoài ra, đa cộng tuyến còn ảnh hưởng đến việc suy rộng và các kiểm định thống kê.
Biện pháp khắc phục - các phương pháp chọn biến
Để khắc phục hiện tượng đa cộng tuyến - hay nói đúng hơn là để hạn chế phần nào ảnh hưởng của hiện tượng đa cộng tuyến đến kết quả nghiên cứu, có thể sử dụng những biện pháp khác nhau. Ở đây, xin đề cập hai biện pháp có nhiều khả năng hiện thực là tăng cỡ mẫu và bỏ bớt biến giải thích.
Thứ nhất là tăng cỡ mẫu: Vì nguyên nhân chủ yếu gây ra hiện tượng đa cộng tuyến là do mẫu quá nhỏ, không đảm bảo tính đại diện của nó cho tổng thể chung. Khi cỡ mẫu được tăng lên, có thể làm giảm bớt tính chất nghiêm trọng của đa cộng tuyến. Tuy nhiên, khi tăng cỡ mẫu sẽ làm cho chi phí tăng lên.
Biện pháp thứ hai là bỏ bớt biến giải thích: Như trên đã nói đa cộng
tuyến chính là mối liên hệ giữa các biến giải thích. Do đó nếu ta bỏ bớt biến giải thích thì có thể làm giảm nguy cơ của đa cộng tuyến. Để bỏ bớt biến giải thích ta có thể so sánh các hệ số xác định bội R2 của các mô hình hồi quy với các biến giải thích khác nhau hoặc chọn các phương pháp khác nhau để xây dựng mô hình hồi quy.
So sánh các hệ số xác định bội
Giả sử ta có biến phụ thuộc Y và các biến giải thích X1, X2, X3, các mô hình hồi quy bội với các hệ số xác định như sau:
Yˆ b0
b1 X 1
b2 X 2
b3 X 3
Có R2 = 0,95
Yˆ b0
b1 X 1
b3 X 3
Có R2 = 0,82
Yˆ b0
b1 X 1
b2 X 2
Có R2 = 0,92
Trong ví dụ trên, khi ta bỏ X2 thì R2 giảm từ 0,95 xuống còn 0,82. Còn khi đưa vào X3 thì R2 giảm từ 0,95 xuống còn 0,92. Như vậy trong trường hợp này ta có thể loại X3 vì khi đưa thêm X3 vào mô hình hồi quy đã có X1 và X2 thì phần bổ sung cho tổng bình phương do hồi quy tăng lên không đáng kể.
b. Liên hệ tương quan phi tuyến tính giữa hai tiêu thức số lượng
Ở phần trên đã nói về liên hệ tương quan tuyến tính giữa hai hay nhiều tiêu thức số lượng - tức là phương trình hồi quy là một phương trình đường thẳng hay siêu phẳng. Trong thực tế, ta thường gặp mối liên hệ tương quan giữa hai tiêu thức số lượng là mối liên hệ tương quan phi tuyến tính, tức là có phương trình hồi quy là một đường cong. Sau đây là một số phương trình hồi quy phi tuyến tính thường được sử dụng:
(1) Phương trình parabol bậc 2:
y x
a bx
cx 2
Phương trình parabol bậc 2 thường được sử dụng khi các trị số của tiêu thức nguyên nhân tăng lên thì trị số của tiêu thức kết quả tăng (hoặc giảm), việc tăng (hoặc giảm) đạt đến trị số cực đại (hoặc cực tiểu) rồi sau đó lại giảm (hoặc tăng).