Trong đó, 𝑖, 𝑡 lần lượt là các chỉ số theo đơn vị chéo (các cá thể) và theo thời gian; 𝑌𝑖𝑡 là biến phụ thuộc; 𝑋1𝑡, 𝑋2𝑡, … , 𝑋𝑘𝑡 là các biến độc lập; 𝑐𝑖 đại diện cho các yếu tố không thay đổi theo thời gian mà không quan sát được; cuối cùng, 𝑢𝑖𝑡 là sai số ngẫu nhiên, thay đổi theo cả cá thể và thời gian, được giả định là thỏa mãn các giả thiết của phương pháp OLS.
Việc lựa chọn phương pháp ước lượng mô hình (2.16) được dựa trên giả định về bản chất của 𝑐𝑖 . Cụ thể như sau:
Nếu 𝑐𝑖 là không đáng kể, thì việc ước lượng (2.16) có thể được áp dụng bởi phương pháp OLS thông thường.
Nếu 𝑐𝑖 là không tương quan với biến 𝑋, thì sự tồn tại của 𝑐𝑖 sẽ làm cho sai số ngẫu nhiên tổng hợp 𝑣𝑖𝑡 là tự tương quan. Khi đó ước lượng OLS sẽ không còn hiệu quả, và ước lượng các sai số chuẩn sẽ bị chệch – không đáng tin cậy.
Nếu 𝑐𝑖 là có tương quan với biến 𝑋 thì sai số ngẫu nhiên tổng hợp (𝑣𝑖𝑡 = 𝑐𝑖 +
𝑢𝑖𝑡) cũng sẽ tương quan với 𝑋. Khi đó 𝑋 sẽ là biến nội sinh, và các ước lượng OLS là không đáng tin cậy.
Vì vậy, có ba mô hình cơ bản được đề xuất như sau:
(i). Mô hình gộp (POLS) được sử dụng khi có căn cứ để cho rằng không có sự khác biệt, hoặc sự khác biệt là không đáng kể về đặc điểm riêng 𝑐𝑖 giữa các cá thể trong bộ dữ liệu.
(ii). Mô hình tác động ngẫu nhiên (RE) được sử dụng trong trường hợp 𝑐𝑖 là tồn tại và không tương quan với các biến giải thích, tức là 𝑐𝑜𝑣(𝑐𝑖 , 𝑋𝑖𝑡) = 0. Tư tưởng chính của phương pháp ước lượng RE là giải quyết vấn đề tự tương quan trong sai số ngẫu nhiên tổng hợp (Baltagi, 2008). Từ mô hình (2.16), đặt 𝑣𝑖𝑡 = 𝑐𝑖 + 𝑢𝑖𝑡, ta có
Có thể bạn quan tâm!
- Kênh Tác Động Từ Quyền Sử Dụng Đất Nông Nghiệp Lên Hiệu Quả Sản Xuất
- Tổng Quan Các Công Trình Nghiên Cứu Tại Việt Nam
- Phương Pháp Ước Lượng Hiệu Quả Kỹ Thuật, Hiệu Quả Phân Bổ Và Hiệu Quả Kinh Tế
- Một Số Chính Sách Về Quyền Sử Dụng Đất Nông Nghiệp
- Các Mốc Thay Đổi Về Luật Đất Đai Và Tình Trạng Nông Nghiệp Ở Việt Nam Từ Cải Cách Ruộng Đất 1954 Đến Nay
- Tương Quan Giữa Lợi Nhuận Bình Quân Và Quyền Sử Dụng Đất
Xem toàn bộ 155 trang tài liệu này.
𝑐𝑜𝑣(𝑣𝑖𝑡, 𝑋𝑖𝑡) = 0, tức là 𝑣𝑖𝑡 không tương quan với các biến giải thích 𝑋𝑖𝑡.
Vì thành phần sai số 𝑐𝑖 nằm trong 𝑣𝑖𝑡 cho mỗi cá thể ở mỗi thời điểm nên 𝑣𝑖𝑡 có hiện tượng tự tương quan. Hệ số tương quan của 𝑣𝑖𝑡 cho mỗi cá thể ở hai thời điểm khác nhau t và s là:
𝑐𝑜𝑟𝑟(𝑣𝑖𝑡
, 𝑣𝑖𝑠) =
2
𝜎
𝑐
𝜎2 + 𝜎2
𝑐 𝑢
Trong đó 𝜎2 là phương sai của 𝑐 , 𝜎2 là phương sai của 𝑢 . Vì hệ số tương
𝑐 𝑖 𝑢 𝑖𝑡
quan này luôn dương nên sự tương quan của sai số của mỗi cá thể ở hai thời điểm khác nhau luôn dương.
Do có hiện tượng tự tương quan nên các ước lượng OLS cho tham số của mô
hình không chệch nhưng không hiệu quả. Để khắc phục vấn đề này, phương pháp RE dựa vào biến đổi sau:
𝑦𝑖𝑡 = 𝑌𝑖𝑡 − 𝑤𝑌̅𝑖
𝑥𝑘𝑖𝑡 = 𝑋𝑘𝑖𝑡 − 𝑤𝑋̅𝑖𝑘
𝜇𝑖𝑡 = 𝑣𝑖𝑡 − 𝑤𝑣̅𝑖
trong đó, 𝑌̅𝑖là giá trị trung bình của cá thể thứ i; 𝑋̅𝑘𝑖 là giá trị trung bình của biến độc lập thứ k cho cá thể thứ i trong thời gian T năm; 𝑣̅𝑖là giá trị trung bình của 𝑣 cho cá thể thứ i được quan sát trong T năm; 𝑤 là hệ số được xác định bởi công thức:
𝑤 = 1 − √
2
𝜎
𝑢
𝜎2 + 𝑇𝜎2
𝑢 𝑐
Khi đó, mô hình hiệu ứng ngẫu nhiên được đưa về dạng:
𝑦𝑖𝑡 = 𝛽0(1 − 𝑤) + 𝛽1𝑥1𝑖𝑡 + 𝛽2𝑥2𝑖𝑡 + ⋯ + 𝛽𝑘 𝑥𝑘𝑖𝑡 + 𝜇𝑖𝑡 (2.17)
Sự chuyển đổi này sẽ loại trừ được hiện tương tự tương quan chéo trong sai số hồi quy.
Trong trường hợp kiểm soát các thay đổi ngẫu nhiên theo thời gian thì sai số theo thời gian sẽ được đưa vào mô hình. Như vậy ta có mô hình hiệu ứng ngẫu nhiên theo cả hai chiều với hệ số chặn thay đổi theo đơn vị chéo và theo thời gian.
(iii). Mô hình tác động cố định (FE) thích hợp khi 𝑐𝑖 tồn tại và có tương quan với ít nhất một biến giải thích 𝑋𝑖𝑡 trong mô hình, nghĩa là 𝑐𝑜𝑣(𝑐𝑖 , 𝑋𝑖𝑡) ≠ 0. Khi đó, ta có: 𝑐𝑜𝑣(𝑣𝑖𝑡, 𝑋𝑖𝑡) ≠ 0, nghĩa là biến X là biến nội sinh.
Phương pháp FE nhằm giải quyết vấn đề nội sinh gây ra do vấn đề thiếu biến không quan sát được dạng 𝑐𝑖 như sau:
Đặt: 𝑦𝑖𝑡 = 𝑌𝑖𝑡 − 𝑌̅𝑖
𝑥𝑘𝑖𝑡 = 𝑋𝑘𝑖𝑡 − 𝑋̅𝑘𝑖
𝜇𝑖𝑡 = 𝑣𝑖𝑡 − 𝑣̅𝑖
trong đó, 𝑌̅𝑖là giá trị trung bình của cá thể thứ 𝑖 dọc theo thời gian; 𝑋̅𝑘𝑖 là giá trị trung bình của biến độc lập thứ 𝑘 cho cá thể thứ 𝑖 trong thời gian T năm; 𝑣̅𝑖là giá trị trung bình của 𝑣 cho cá thể thứ 𝑖 được quan sát trong 𝑇 năm.
Khi đó, mô hình hiệu ứng cố định được đưa về dạng:
𝑦𝑖𝑡 = 𝛽1𝑥1𝑖𝑡 + 𝛽2𝑥2𝑖𝑡 + ⋯ + 𝛽𝑘𝑥𝑘𝑖𝑡 + 𝜇𝑖𝑡 (2.18)
Lúc này biến phụ thuộc không còn chịu tác động của 𝑐𝑖 và do đó (2.18) không còn vấn đề về biến nội sinh do thiếu 𝑐𝑖 .
Lựa chọn mô hình và các kiểm định
𝑐
Trước hết, kiểm định nhân tử Lagrange được sử dụng để kiểm tra có hay không sự tồn tại của 𝑐𝑖 trong mô hình. Nếu giả thuyết H0: mô hình hồi quy tuyến tính cổ điển là phù hợp (tức là 𝜎2 = 0) bị bác bỏ thì ta có đủ cơ sở để lựa chọn một trong hai mô
hình RE hoặc FE.
Tiếp theo, kiểm định Hausman được dùng làm căn cứ để lựa chọn một trong hai mô hình này. Tư tưởng của kiểm định Hausman là như sau: nếu c và X là tương quan với nhau thì ước lượng FE sẽ là ước lượng vững, còn ước lượng RE là ước lượng không vững. Còn nếu c và X là không tương quan thì cả hai ước lượng đều là ước lượng vững, và khi đó sai lệch giữa hai phương pháp ước lượng này chỉ mang tính ngẫu nhiên chứ không có tính hệ thống. Vì vậy, kiểm định Hausman dựa trên thống kê sau:
𝜒2 = (𝑏 − 𝐵)′[𝑉(𝑏) − 𝑉(𝐵)]−1(𝑏 − 𝐵) (2.19)
trong đó:
𝑏 là ma trận hệ số ước lượng của mô hình FE,
𝐵 là ma trận hệ số ước lượng của mô hình RE,
𝑉(𝑏) là ma trận hiệp phương sai của các hệ số từ mô hình FE,
𝑉(𝐵) là ma trận hiệp phương sai của các hệ số từ mô hình RE.
Nếu giả thuyết H0: sự khác biệt giữa hai ước lượng chỉ mang tính ngẫu nhiên được chấp nhận thì thống kê (2.19) tuân theo quy luật Khi-bình phương với bậc tự do là hạng của ma trận [𝑉(𝑏) − 𝑉(𝐵)]−1. Trong trường hợp thông thường, bậc tự do bằng số hệ số góc chung của 2 mô hình.
Nếu giá trị xác suất P của kiểm định là lớn thì có thể xem rằng mô hình RE là phù hợp, và ngược lại, nếu P bé thì có thể xem rằng mô hình FE là phù hợp.
Ngoài ra, cũng giống như các mô hình sử dụng với số liệu chéo hay chuỗi thời gian, trước khi sử dụng mô hình với số liệu mảng trong phân tích ta cần kiểm tra và khắc phục những khuyết tật thông thường như: hiện tượng phương sai sai số không đồng nhất hay hiện tượng tự tương quan...
2.3. Phương pháp ước lượng tổng quát GEE
Khi xem xét tác động của quyền sử dụng đất đến hiệu quả sản xuất nông nghiệp, các biến phụ thuộc của mô hình lần lượt là hiệu quả kĩ thuật, hiệu quả phân bổ và hiệu quả kinh tế, đều nhận nhận giá trị trong khoảng (0; 1). Do giá trị 0 -1 này vẫn thể hiện đúng bản chất của biến số, chứ không phải là trường hợp số liệu bị kiểm duyệt (censored data), hay số liệu bị cắt cụt (truncated data), nên trong trường này, mô hình Tobit truyền thống là không phù hợp. Mặt khác, vì các giá trị của biến phụ thuộc là số liệu mảng nên có sự tương quan ở mỗi cá thể, do đó luận án sử dụng phương pháp ước lượng tổng quát do Liang và Zeger (1986) đề xuất như sau:
Phương pháp ước lượng tổng quát (Generalized Estimating Equations – GEE) do Liang và Zeger (1986) đề xuất, là mở rộng của mô hình tuyến tính tổng quát (Generalized Linear Models – GLM) cho dữ liệu mảng, trong đó cho phép các giá trị của biến phụ thuộc cho mỗi cá thể là có tương quan với nhau. Cụ thể hơn, giả sử ta có một mẫu quan sát ngẫu nhiên từ n phần tử. Với i = 1, 2, ... K đại diện cho các cụm độc lập nhau, trong đó cụm thứ i bao gồm các quan sát của biến phụ thuộc vào n phần tử trên, kí hiệu là 𝑛𝑖 . Ta có vecto các biến phụ thuộc 𝑌𝑖 = (𝑦𝑖1, 𝑦𝑖2, … , 𝑦𝑖𝑛𝑖 ) và các hiệp biến tương ứng 𝑋𝑖 = (𝑋𝑖1, 𝑋𝑖2, … , 𝑋𝑖𝑛𝑖 ) trong đó mỗi 𝑌𝑖𝑗 là một đại lượng vô hướng còn 𝑋𝑖𝑗 là một vecto p chiều. Nói chung, các thành phần của 𝑌𝑖 có tương quan với nhau nhưng 𝑌𝑖 và 𝑌𝑘 là độc lập đối với bất kỳ 𝑖 ≠ 𝑘 nào (có điều kiện về hiệp biến). Như vậy, phương pháp GEE cho phép 𝑦𝑖1, 𝑦𝑖2, … , 𝑦𝑖𝑛𝑖 là có tương quan với nhau thay vì cần phải độc lập như với GLM.
Mô hình GLM tổng quát có dạng:
𝑖
𝑔{𝐸(𝑦𝑖 )} = 𝑥′𝛽 (2.20)
Trong đó 𝑔(. ) là một hàm số nào đó, còn gọi là hàm link, giúp biểu diễn mối quan hệ giữa giá trị kỳ vọng 𝐸(𝑦𝑖 ) với các biến độc lập X.
Khi 𝑔(. ) là hàm đồng nhất, mô hình (2.20) trở về mô hình hồi quy tuyến tính thông thường. Do đó có thể nói mô hình GLM là sự tổng quát hóa của mô hình hồi quy tuyến tính. Trong đó, tùy thuộc vào phân phối của biến Y mà người ta xây dựng các hàm link tương ứng. Khi sử dụng GLM, các quan sát được giả định là độc lập nhau. Tuy nhiên giả thiết này thường là không thỏa mãn với số liệu mảng, trong đó các quan sát của cùng một đối tượng thường là có quan hệ tự tương quan. Phương pháp GEE có thể khắc phục được vấn đề này bằng cách nó có tính đến cấu trúc tương quan trong quá trình ước lượng các tham số. Cụ thể như sau:
Trong cách tiếp cận GLM (McCullagh và Nelder, 1989), ta có:
𝑖𝑗
𝑔(𝜇𝑖𝑗 ) = 𝑥𝑇 𝛽
𝑉𝑎𝑟(𝑦𝑖𝑗) = 𝑤(𝜇𝑖𝑗)𝜙
𝜇 = 𝐸(𝑦 ) = {𝑔−1(𝑥𝑇 𝛽), … , 𝑔−1(𝑥𝑇 𝛽)}𝑇
𝑖 𝑖
𝐴𝑖 = [
𝑖1
𝑤(𝜇𝑖1) … 0
… … …
0 … 𝑤(𝜇𝑖𝑛𝑖 )
𝑖𝑛𝑖
]
là ma trận đường chéo với các phần từ chéo là các phương sai của 𝑦𝑖 .
𝐶𝑜𝑣(𝑦𝑖 ) = 𝜙𝐴𝑖 cho các quan sát độc lập.
𝜙 là tham số phân tán được sử dụng để mô hình hóa các phân tán quá mức.
Nếu không có sẵn một hàm ước lượng hợp lý, ta có thể dựa vào một hàm tương đương đa biến theo giới thiệu của Wedderburn (1974) có dạng:
𝑚
𝜕𝜇 𝑇
𝑆 (𝛽, 𝛼) = ∑ (
𝑖 )
𝑉𝑎𝑟(𝑦 )−1(𝑦 − 𝜇 ) = 0 (2.21)
𝛽
𝑖=1
𝜕𝛽
𝑖 𝑖 𝑖
Với tham số tương quan 𝛼 được xác định bởi phương trình:
𝑚
𝑆 (𝛽, 𝛼) = ∑ (
𝜕𝜂
𝑇
𝑖 )
𝐻−1(𝑊
− 𝜂 ) = 0
𝛼
𝑖=1
𝜕𝛼 𝑖
𝑖 𝑖
Trong cách tiếp cận GEE, ma trận hệ số tương quan 𝑅𝑖 (𝛼) của 𝑦𝑖 phụ thuộc vào tham số ước lượng 𝛼 được xây dựng theo tham số 𝛼 và từ đó ước lượng các hệ số 𝛽 theo công thức:
𝑛
𝜕𝜇 𝑇
𝑈(𝛽) = ∑ (
𝑖 )
𝑉−1(𝛼)[𝑌 − 𝜇 ] = 0 (2.22)
𝑖=1
𝜕𝛽 𝑖
𝑖 𝑖
trong đó𝜕𝜇𝑖
𝑥𝑖11
𝑔′(𝜇𝑖1)
𝑥𝑖𝑛𝑖1
⋯
𝑔′(𝜇𝑖𝑛𝑖)
= ⋮ ⋱ ⋮
𝜕𝛽
𝑥𝑖1𝑝
𝑥𝑖𝑛 𝑝
𝑖
⋯
[𝑔′(𝜇𝑖1)
𝑔′(𝜇𝑖𝑛𝑖)]
𝑉𝑖 = 𝜙𝐴𝑖1/2𝑅𝑖 (𝛼)𝐴𝑖1/2
Tham số phân tán 𝜙 được xác định bởi:
𝑚 𝑛𝑖
𝜙̂ = 1
𝑁 − 𝑝
2
∑ ∑ 𝑒
𝑖𝑗
𝑖=1 𝑗=1
𝑖=1
trong đó 𝑁 = ∑𝑚
𝑛𝑖
là tổng số phép đo, 𝑝 là số tham số hồi quy và 𝑒𝑖𝑗 là phần dư
Pearson.
Ma trận hệ số tương quan 𝑅𝑖 (𝛼) thường không xác định mà được ước lượng trong quá trình điều chỉnh lặp đi lặp lại các giá trị của vectơ tham số 𝛽.
Phương pháp GEE được thực hiện như sau:
Bước 1: Ước tính ma trận hệ số 𝛽 với một mô hình tuyến tính tổng quát thông thường với giả định các quan sát của biến phụ thuộc là độc lập. Từ đó xác định phần dư 𝑒𝑖𝑗,
𝑦𝑖𝑗 − 𝜇𝑖𝑗
𝑖𝑗
𝑒𝑖𝑗 = 𝑣𝑎𝑟(𝑦 )
Bước 2: Ước tính ma trận hệ số tương quan 𝑅𝑖 (𝛼) dựa trên phần dư trong mô hình ước lượng 𝛽 vừa xác định ở trên.
Tùy thuộc vào cấu trúc tương quan của các các quan sát của biến phụ thuộc, ta xác định cấu trúc của ma trận hệ số tương quan 𝑅𝑖 (𝛼). Chẳng hạn, nếu các quan sát của biến phụ thuộc có k cặp tương quan
1 𝑡 = 0
𝑐𝑜𝑟𝑟(𝑦𝑖𝑗; 𝑦𝑖𝑗+𝑡) = {𝛼𝑡 𝑡 = 1 … 𝑘
0 𝑡 > 𝑘
thì tham số 𝛼 được xác định bởi:
𝑚
1
𝑡
𝛼̂𝑡= (𝑚
∑ ∑𝑒𝑖𝑗𝑒𝑖𝑗+𝑡
− 𝑝)𝜙
𝑖=1 𝑗≤𝑛𝑖−𝑡
𝑚
𝑚𝑡 = ∑(𝑛𝑖 − 𝑡)
𝑖=1
Bước 3: Ước lượng ma trận hiệp phương sai 𝑉𝑖 = 𝜙𝐴𝑖1/2𝑅𝑖 (𝛼)𝐴𝑖1/2
Bước 4: Tính lại ma trận hệ số 𝛽
𝑛
𝜕𝜇 𝑇
−1 𝑛
𝜕𝜇
𝜕𝜇 𝑇
𝛽 = 𝛽
+ [∑ (
𝑖 )
𝑉−1 𝑖 ]
[∑ (
𝑖 )
𝑉−1(𝑌 − 𝜇 )]
𝑟+1
𝑟
𝑖=1
𝜕𝛽
𝑖 𝜕𝛽
𝑖=1
𝜕𝛽
𝑖 𝑖 𝑖
Lặp lại từ bước 2 đến bước 4 cho đến khi các giá trị của ma trận hệ số 𝛽 hội tụ.
Ưu điểm của phương pháp GEE là quá trình tính toán đơn giản hơn MLE đối với các dữ liệu phân nhóm và không yêu cầu phân phối đa biến. Theo Liang và Zeger (1986) đã chỉ ra, cho dù ma trận 𝑉𝑖 được chỉ định chính xác hay không, các ước lượng của β thu được từ (2.22) vẫn nhất quán.
2.4. Phương pháp hồi quy phân vị với số liệu mảng
Mô hình hồi quy dữ liệu mảng đã giúp phân tích tác động của quyền sử dụng đất đến hiệu quả sản xuất nông nghiệp theo các chiều không gian và thời gian, nhưng hồi quy này lại chưa xem xét đến một thực tế là, vai trò của các biến X đối với biến Y có thể khác nhau với những phân vị khác nhau của Y. Chẳng hạn để trả lời câu hỏi “Tác động của các yếu tố đầu vào đến hiệu quả sản xuất có khác nhau giữa các nông hộ có năng suất thấp và nông hộ có năng suất cao không?” Hồi quy phân vị sẽ giúp trả lời các câu hỏi này.
Để phân tích ảnh hưởng của quyền sử dụng đất lên năng suất nông nghiệp của các hộ nông dân, luận án sử dụng phương pháp hồi quy phân vị được giới thiệu bởi Koenker và Bassett (1978). Trong đó, thay vì ước lượng tác động biên của biến độc lập đến giá trị trung bình của biến phụ thuộc, hồi quy phân vị ước lượng tác động biên của biến độc lập đến biến phụ thuộc tại các phân vị của biến phụ thuộc đó.
Mô hình hồi quy phân vị với số liệu mảng
Cho hàm số 𝑦𝑖𝑡 = 𝑋𝑖𝑡𝛽 + 𝑢𝑖𝑡, 𝑖 = ̅1̅̅,̅𝑛̅, 𝑋𝑖𝑡 ∈ 𝑅𝑘, trong đó 𝑦𝑖𝑡 là biến phụ
thuộc; 𝑋𝑖𝑡 một véc tơ gồm k biến độc lập; β là ma trận hệ số tương ứng của các biến độc lập và sai số ngẫu nhiên 𝑢𝑖𝑡 ở thời điểm t. Mô hình hồi quy phân vị tuyến tính theo đề xuất của Koenker và Bassett (1978) mở rộng cho dữ liệu mảng có dạng:
𝑄𝑢𝑎𝑛𝑡𝜏(𝑦𝑖𝑡|𝑋𝑖𝑡) = 𝛽𝜏𝑋𝑖𝑡 + 𝑢𝜏𝑖𝑡 (2.29)
Trong đó 𝑄𝑢𝑎𝑛𝑡𝜏(𝑦𝑖𝑡 |𝑋𝑖𝑡) là ước lượng có điều kiện của biến phụ thuộc y theo X tại phân vị 𝜏 theo thời gian t, với: 0 < 𝜏 < 1 thỏa mãn:
(𝑦|𝑋)
𝑄𝑢𝑎𝑛𝑡𝜏(𝑦𝑖𝑡|𝑋𝑖𝑡) = 𝐹−1 (𝜏) (2.30)
(𝑦|𝑋)
𝐹−1 là hàm mật độ xác suất có điều kiện của Y theo X. Thay đổi các phân vị 𝜏 sẽ
phản ánh toàn bộ phân phối của biến 𝑦𝑖𝑡 theo thời gian. Các sai số 𝑢𝜏𝑖𝑡 được giả định là độc lập, nhưng không nhất thiết phải phân bố giống nhau.
Phương pháp ước lượng
Giả sử ta muốn ước lượng (𝑦𝑖𝑡|𝑋𝑖𝑡) tại mức phân vị τ của quan sát i và thời gian t với phần dư 𝑒𝑖𝑡, ta có:
𝛽
𝜏
𝑒𝑖𝑡 = 𝑦𝑖𝑡 − 𝑋𝑖𝑡 ̂
Hàm mục tiêu được tối thiểu hóa là:
𝑐𝜏(𝑒𝑖𝑡) = (𝜏𝑓{𝑒𝑖𝑡 ≥ 0} + (1 − 𝜏)𝑓{𝑒𝑖𝑡 < 0})|𝑒𝑖𝑡|
= (𝜏𝑓{𝑒𝑖𝑡 ≥ 0} − (1 − 𝜏)𝑓{𝑒𝑖𝑡 < 0})𝑒𝑖𝑡
= (𝜏𝑓{𝑒𝑖𝑡 < 0})𝑒𝑖𝑡
trong đó f (.) là hàm chỉ thị. Chức năng này đôi khi được gọi là chức năng kiểm tra vì nó giống với một dấu kiểm soát (Wooldridge, 2010); hệ số góc của 𝑐𝜏(𝑒𝑖𝑡) là τ khi
𝜏
𝛽
𝑒𝑖𝑡 ≥ 0 và là (τ – 1) khi 𝑒𝑖𝑡 < 0, nhưng không xác định với 𝑒𝑖𝑡 = 0. Việc chọn 𝛽̂ tối
𝜏
thiểu hóa 𝑐𝜏(𝑒𝑖𝑡) tương đương với việc tìm 𝛽̂
làm cho 𝑋𝑖𝑡 ̂
tốt nhất phù hợp với các
𝜏
phân vị của phân phối y với điều kiện X.
Bài toán cực tiểu này được thiết lập như một bài toán lập trình tuyến tính và được giải quyết bằng các kỹ thuật lập trình tuyến tính, như đề xuất của Armstrong và cộng sự (1979) và được mô tả chi tiết bởi Koenker (2005).
Tìm 𝛽𝜏 thỏa mãn: argmin ∑𝑖,𝑡 𝜌𝜏 (𝑦𝑖𝑡 − 𝑋𝑖𝑡𝛽𝜏).
𝛽𝜏
Hệ số hồi quy 𝛽𝜏 ở phân vị 𝜏 được ước tính bởi công thức:
𝑘
min[∑𝑖,𝑡:𝑦𝑖𝑡≥𝑋𝑖𝑡𝛽𝜏 𝜏|𝑦𝑖𝑡 − 𝑋𝑖𝑡𝛽𝜏| + ∑𝑖,𝑡:𝑦𝑖𝑡<𝑋𝑖𝑡𝛽𝜏(1 − 𝜏)|𝑦𝑖𝑡 − 𝑋𝑖𝑡𝛽𝜏|] (2.31)
𝛽∈𝑅
Như vậy, hồi quy phân vị cho phép nghiên cứu đồng thời những thay đổi trong các phần cụ thể của biến phụ thuộc với các biến độc lập so với sự thay đổi ở phần còn lại của phân phối. Việc sử dụng hồi quy phân vị để ước tính sự thay đổi trung bình của biến phụ thuộc ở phân vị bất kì cho thấy nó phù hợp để nghiên cứu nhiều sắc thái hơn về tác động của các biến độc lập lên biến phụ thuộc.
Các kiểm định trong hồi quy phân vị
Theo Koenker (2005), các suy diễn thống kê liên quan đến kiểm định hệ số hồi quy trong hồi quy phân vị được chứng minh và áp dụng giống như trong phương pháp OLS, bao gồm kiểm định Wald và kiểm định Likelihood ratio.