Kiểm Định Sự Tương Quan Các Biến Trong Mô Hình Và Đa Cộng Tuyến

- Hệ số tương quan giữa các cặp biến độc lập cao. Nếu giá trị tuyệt đối của hệ số tương quan giữa 2 biến lớn hơn 0.8 cho thấy có tồn tại hiện tượng đa cộng tuyến giữa 2 biến này.

- Sử dụng hệ số khuếch đại phương sai (VIF), nếu VIF của một biến lớn hơn 10 thì tồn tại hiện tượng đa cộng tuyến giữa biến đó với các biến giải thích còn lại. Trong luận văn này, tác giả sẽ thực hiện tính toán hệ số tương quan giữa các cặp biến độc lập và sử dụng hệ số khuếch đại phương sai (VIF).

Trong luận văn tác giả sử dụng hệ số tương quan giữa các cặp biến độc lập kết hợp với sử dụng hệ số khuếch đại phương sai (VIF). Tuy nhiên, cũng theo Baltagi (2008), việc sử dụng dữ liệu bảng cũng đã hạn chế được hiện tượng đa cộng tuyến này nhưng nếu có hiện tượng đa cộng tuyến xảy ra thì tác giả sẽ khắc phục bằng cách bỏ các biến có đa cộng tuyến hoặc tăng thêm số quan sát bằng cách thu thập thêm số liệu.

4.3.3 Phương pháp ước lượng hồi quy

Luận văn này được thực hiện nhằm nghiên cứu tác động của tỷ lệ sở hữu lên chi phí đại diện các doanh nghiệp. Sau khi đã khảo lược các lý thuyết liên quan để xây dựng giả thuyết và mô hình nghiên cứu, bước tiếp theo sẽ sử dụng phương pháp phân tích và thực hiện hồi quy mô hình để kiểm định các giả thuyết đã đặt ra. Trước khi tiến hành chạy hồi quy, các khuyết tật mô hình như: hiện tượng đa cộng tuyến, phương sai thay đổi và tự tượng quan của nhiễu sẽ được kiểm định. Trong luận văn này phương pháp chính được sử dụng là phương pháp GMM (General Method of Moments). trên dữ liệu bảng và phương pháp khác được sử dụng để so sánh đối chiếu là phương pháp bình phương bé nhất tổng quát khả thi (FGLS - Feasible Generalized Least Squares).

Thứ nhất là về phương pháp FM, với tiếp cận hồi quy riêng từng công ty trước khi tính trung bình hệ số hồi quy tất cả hệ số hồi quy riêng từng công ty.

Thứ hai, phương pháp GMM là phương pháp dữ liệu bảng được Lars Peter Hansen trình bày lần đầu tiên vào năm 1982 trong bài viết “Large Sample Properties of Generalized Methods of Moments Estimators” được đăng trong

Econometrica, số 50, trang 1029-1054. GMM là phương pháp tổng quát của rất nhiều phương pháp ước lược phổ biến; ngay cả trong điều kiện giả thiết nội sinh bị vi phạm, phương pháp GMM cho ra các hệ số ước lượng vững, không chệch, phân phối chuẩn và hiệu quả. Theo kết quả nghiên cứu của Arellano và Bover (1995), phương pháp hồi quy tuyến tính dữ liệu bảng động (Arellano-Bond linear dynamic panel-data estimation) là một giải pháp hữu hiệu để ước lượng hồi quy trong mô hình trong trường hợp mô hình vừa có hiện tượng phương sai thay đổi, tự tương quan và nội sinh. Mô hình Arellano và Bover (1995) kiểm soát được hiện tượng tự tương quan giữa phần dư, hiện tượng phương sai thay đổi và nội sinh.

Ưu điểm của ước lượng bằng phương pháp GMM so với OLS là lý do tác giả lựa chọn phương pháp này trong đóng góp bằng chứng thực nghiệm. Thông thường ước lượng theo phương pháp OLS (Pooled Regress Model) sẽ không chệch, vững và hiệu quả khi không tồn tại các vi phạm về phương sai thay đổi, tự tương quan và biến nội sinh. Phương pháp ước lượng bình phương bé nhất (OLS) là phương pháp được dùng rất phổ biến trong lĩnh vực kinh tế lượng. Ưu điểm của phương pháp này không quá phức tạp nhưng hiệu quả. Với một số giả thiết ban đầu, phương pháp này sẽ dễ dàng xác định các giá trị ước lượng hiệu quả, không chệch và vững.

Tuy nhiên, khi nghiên cứu về chuỗi dữ liệu thời gian, có nhiều chuỗi vi phạm một hoặc một số giả định của OLS. Khi đó, các ước lượng thu được sẽ bị bóp méo, mất tính vững và sẽ là sai lầm nếu sử dụng chúng để phân tích. Một trong những dạng vi phạm giả định phổ biến là hiện tượng nội sinh, một trường hợp khi hệ số ước lượng (hoặc biến) tương quan với phần dư.

Với những vi phạm trên làm cho kết quả ước lượng theo phương pháp OLS không còn đáng tin cậy và hiệu quả nhất. Để khắc phục phương pháp ước lượng phương pháp GMM hệ thống do Arellano and Bover (1995) and Blundell and Bond (1998) được sử dụng vì cỡ mẫu đủ lớn. Việc sử dụng mô hình GMM sẽ cho phép khắc phục cả vi phạm tự tương quan, phương sai thay đổi và biến nội sinh nên kết quả ước lượng lúc này sẽ không chệch, vững và hiệu quả nhất. Thêm vào đó, phương pháp Arellano - Bond cũng được thiết kế để khắc phục hiệu ứng tác động

cố định hàm chứa trong sai số của mô hình (do đặc điểm của các biến quốc gia nghiên cứu không thay đổi theo thời gian như vị trí địa lý và nhân khẩu học có thể tương quan với các biến giải thích trong mô hình), được phản ánh vào trong phần sai số, sẽ giảm dần theo thời gian (Roodman, 2006).

Phương pháp cơ bản trong trường hợp các biến độc lập tương quan với phần dư là ước lượng một phương trình có dùng các biến công cụ (Instrumental Variables

– hồi quy IV). Ý tưởng của phương pháp hồi quy này là tìm một bộ biến, được gọi là biến công cụ, thõa mãn cả hai điều kiện: (1) tương quan với các biến giải thích trong phương trình và (2) không tương quan với phần dư. Những biến công cụ như vậy được dùng để loại vỏ sự tương quan giữa các biến giải thích và phần dư.

Có nhiều phương pháp hồi quy dựa trên nền tảng của hồi quy IV như phương pháp Bình phương bé nhất hai giai đoạn (2SLS), phương pháp Maximum Likelihood trong điều kiện giới hạn thông tin (LIML), phương pháp ước lượng Moment tổng quát (GMM)

Làm thế nào để một hồi quy IV ước lượng ra hệ số với sự tham gia của biến công cụ?

Xem xét mô hình đơn giản sau:

Trong đó: i là quan sát thứ i, yi là biến phụ thuộc, xi là biến độc lập, là

phần

dư của mô hình. Khi đó hệ số ước lượng sẽ được xác định như sau:

Với x, y, là các ma trận cột × 1. Nếu x và không tương quan với nhau thì ước lượng được là vững và không chệch. Tuy nhiên nếu điều ngược lại xảy ra, hệ số ước lượng sẽ bị chệch và không vững, mô hình không còn hiệu quả, tác động của biến x lên biến y không đáng tin cậy.

Một biến công cụ z, tương quan với biến giải thích x nhưng không tương quan với phần dư sẽ được đưa vào mô hình, phương pháp hồi quy IV sử dụng

biến giả đó để xác định hệ số ước lượng như sau:

Vì biến z không tương quan với nên hệ số ước lượng là vững và không chệch. Phương pháp này có thể tổng quát lên với một mô hình nhiều biến. Ta gọi X là ma trận 𝑛×K các biến giải thích, Z là ma trận 𝑛×L các biến công cụ với K là số

lượng biến giải thích, L là số lượng biến công cụ và n là số quan sát của mỗi biến. Khi đó phương pháp IV có thể được dùng để ước lượng mô hình và hệ số ước lượng sẽ được xác định như sau:

Điều kiện để xác định được giá trị ước lượng là L ≥ K

Khi số lượng mẫu phù hợp giá trị β ước lượng được sẽ vững, khi đó giá trị ước lượng được sẽ càng gần với giá trị thực của nó. Ước lượng GMM sẽ cho ra các giá trị ước lượng tuân theo phân phối chuẩn, đây là thuộc tính rất quan trọng vì đó là cơ sở để chúng ta xây dựng giá trị dự đoán ở các độ tin cậy (confidence bands) và thực hiện các kiểm định khác. Phương pháp GMM cũng cho ra kết quả là các giá trị ước lượng hiệu quả, nghĩa là giá trị phương sai trong mô hình ước lượng là nhỏ nhất. Ngoài ra, với cỡ mẫu nhiều công ty trong giai đoạn năm ngắn (2006-2016) phù hợp với tiêu chuẩn sử dụng mô hình GMM.

4.4 PHÂN TÍCH THỐNG KÊ MÔ TẢ GIỮA CÁC BIẾN TRONG MÔ HÌNH

Mô tả thống kê liên quan đến việc kiểm tra những đặc tính của các biến. Giống như so sánh để suy diễn thống kê về mối quan hệ giữa các biến trong mô hình đang xem xét. Thống kê mô tả cho tác giả có cách nhìn tổng quan về dữ liệu, cung cấp đơn giản về mẫu dữ liệu nghiên cứu và các thước đo phản ánh tổng quát đối tượng nghiên cứu. Việc xem xét các giá trị tính được từ việc mô tả thống kê giúp cho ta xem xét nhanh mức độ thay đổi cũng như sự đồng đều của dữ liệu ở các biến thu thập trong nghiên cứu thực nghiệm. Thông qua đó có thể phát hiện những giá trị dao động sai lệch trong cỡ mẫu. Kết quả thực hiện thống kê bằng phần mềm

Stata chỉ ra phạm vi khoảng giá trị, giá trị trung bình và độ lệch chuẩn của các biến sử dụng trong nghiên cứu của các biến độc lập và phụ thuộc.

Bảng 4.1: Thống kê mô tả giữa các biến trong mô hình

Variable

Obs	Mean	Std. Dev.	Min	Max
GDP	77	6.126778	0.622314	5.24737	7.12949
INF	77	8.781572	6.352026	0.63	23.0878
ROA	77	1.069418	0.478099	0.026688	2.16484
SIZE	77	19.06761	0.91417	16.4204	20.7297
L	77	0.918547	0.035286	0.73379	0.972545
MTB	55	104.2586	151.4512	3.87143	944.4318
DIV	77	0.260913	1.376546	0	12
RISK	63	0.165157	0.136523	0.011118	0.529243
TANG	77	35.25315	37.0424	0	95.47026

Có thể bạn quan tâm!

Xem toàn bộ 108 trang tài liệu này.

Nguồn: Kết quả tổng hợp từ Phần mềm Stata 12 trên số liệu tác giả thu thập và tính toán (Phụ lục 1).

Qua phân tích thống kê mô tả chung cho các biến trong mô hình theo bảng 4.1, Các biến quan sát thu thập được có dao động ổn định, phần lớn các giá trị độ lệch chuẩn của mẫu nghiên cứu đều nhỏ hơn so với giá trị trung bình.

Cỡ mẫu nghiên cứu gồm 77 quan sát cho mỗi biến, lớn hơn cỡ mẫu lớn trong các tài liệu thống kê là 30, là số quan sát được chấp nhận để thực hiện hồi quy và các kiểm định trong thống kê.

4.5 KIỂM ĐỊNH SỰ TƯƠNG QUAN CÁC BIẾN TRONG MÔ HÌNH VÀ ĐA CỘNG TUYẾN

4.5.1 Ma trận tương quan đơn tuyến tính giữa các cặp biến Pearson

Hệ số tương quan dùng để chỉ mối quan hệ giữa các biến trong mô hình. Dựa vào kết quả ma trận tương quan, tác giả sẽ phân tích mối tương quan giữa các biến phụ thuộc với các biến độc lập trong mô hình và mối tương quan giữa các biến độc lập với nhau.

Bảng 4.2: Ma trận tương quan tuyến tính đơn giữa các cặp biến

L	LROA	LSIZE	LRISK	LGDP	LINF	LTANG	LMTB	LDIV
L	1.000
LROA	-0.073	1.000
LSIZE	0.443	-0.285	1.000
LRISK	-0.124	-0.099	-0.416	1.000
LGDP	0.178	-0.216	0.261	-0.321	1.000
LINF	-0.148	0.599	-0.338	0.136	-0.170	1.000
LTANG	0.217	-0.029	0.304	-0.109	0.229	0.077	1.000
LMTB	-0.284	-0.020	-0.190	0.135	-0.109	0.123	-0.173	1.000
LDIV	-0.208	0.144	-0.241	0.104	0.048	0.331	-0.127	-0.096	1.000

Nguồn: Kết quả tổng hợp từ Phần mềm Stata 12 trên số liệu tác giả tính toán (Phụ lục 2)

Hệ số tương quan Pearson được tính toán để chỉ ra mức độ tương quan đơn tuyến tính giữa các biến độc lập nhằm phát hiện hiện tượng đa cộng tuyến ở các biến giải thích. Ở đây tác giả chỉ tập trung nhấn mạnh những hệ số tương quan có trị tuyệt đối lớn hơn 0.8. để thấy được mức độ đa cộng tuyến của các biến trong mô hình.

Kết quả phân tích ma trận tự tương quan giữa các biến trong mô hình theo bảng 4.2 cho thấy, không tồn tại duy nhất hệ số tự tương quan cặp biến lớn hơn 0.8, do đó không tồn tại hiện tượng đa cộng tuyến. Không tồn tại hiện tượng đa cộng tuyến với tiêu chuẩn tương quan cặp tuyến tính theo dữ liệu mẫu.

4.5.2 Kiểm định đa cộng tuyến trong mô hình bằng nhân tử phóng đại phương sai VIF

Bảng 4.3: Kết quả kiểm tra đa cộng tuyến với nhân tử phóng đại phương sai

Variable

VIF	1/VIF
LINF	2.01	0.497953
LROA	1.87	0.53556
LSIZE	1.61	0.622224
LRISK	1.46	0.683946
LGDP	1.29	0.777833
LDIV	1.26	0.7916
LTANG	1.26	0.792708
LMTB	1.14	0.880032
Mean VIF	1.49

Nguồn: Kết quả tổng hợp từ Phần mềm Stata 12 trên số liệu tác giả thu thập và tính toán (Phụ lục 3)

Dựa vào bảng 4.3 kết quả kiểm tra đa cộng tuyến với nhân tử phóng đại phương sai cho thấy không tồn tại biến nào có VIF lớn hơn 10, nên không xảy ra hiện tượng đa cộng tuyến mạnh trong mô hình dữ liệu nghiên cứu.

Kết luận: Với tiêu chuẩn nhân tử phóng đại phương sai VIF, mô hình không tồn tại hiện tượng đa cộng tuyến trong mẫu dữ liệu nghiên cứu.

4.6 KIỂM ĐỊNH LỰA CHỌN MÔ HÌNH

4.6.1 Kiểm định lựa chọn mô hình Pooled và mô hình dữ liệu bảng FEM

Giả định của kiểm đinh là các quan sát giữa các Ngân hàng qua các năm không tìm thấy sự khác biệt, mô hình Pooled phù hợp với dữ liệu. Khi dữ liệu mẫu tồn tại sự khác biệt các Ngân hàng qua các năm thì dữ liệu bảng FEM phù hợp với mẫu nghiên cứu hơn.

Bài nghiên cứu sử dụng kiểm định lựa chọn mô hình Pooled và mô hình dữ liệu bảng FE Giải thuyết H0: Mô hình Pooled phù hợp với mẫu nghiên cứu

Giả thuyết H1: Mô hình FEM phù hợp với mẫu nghiên cứu.

Bảng 4.4: Kết quả kiểm định lựa chọn Pooled và FEM

Giá trị thống kê F

P-value
4.96	0.0013

Nguồn: Kết quả tổng hợp từ Phần mềm Stata 12 trên số liệu tác giả thu thập và tính toán (Phụ lục 4)

Kiểm định cho p-value của mô hình (1) nhỏ hơn 0.05 đủ cơ sở bác bỏ giả thuyết H0. Vậy mô hình (1) hồi quy theo FEM sẽ phù hợp so với mô hình Pooled OLS hơn.

4.6.2 Kiểm định lựa chọn mô hình Pooled và mô hình dữ liệu bảng REM

Tác giả tiếp tục kiểm định Breusch, T. S. và A. R. Pagan. (1980) lựa chọn mô hình Pooled và REM với giả thuyết như sau:

Giả thuyết H0: Mô hình Pooled phù hợp dữ liệu mẫu hơn REM Giả thuyết H1: Mô hình REM phù hợp dữ liệu mẫu hơn Pooled

Bảng 4.5: Kết quả kiểm định lựa chọn Pooled và REM

Chi bình phương (χ2)

P-value
0.00	1.0000

Nguồn: Kết quả tổng hợp từ Phần mềm Stata 12 trên số liệu tác giả thu thập và tính toán (Phụ lục 4)

Kiểm định cho giá trị p-value của 2 mô hình đều lớn hơn 0.05, nên chúng ta chưa đủ cơ sở để bác bỏ giả thuyết H0. Vậy mô hình Pooled OLS phù hợp hơn mô hình REM.

4.6.3 Kiểm định lựa chọn mô hình FEM và mô hình dữ liệu bảng REM

Tác giả tiếp tục thực hiện kiểm định Hausman nhằm lựa chọn giữa hai mô hình REM và FEM với giả thuyết dữ kiện như sau:

Giả thuyết H0: Mô hình REM phù hợp dữ liệu mẫu hơn FEM Giả thuyết H1: Mô hình FEM phù hợp dữ liệu mẫu hơn REM

Gửi bình luận