f1 x
2 1x2 ,
fx, y dy
x 1
0,
x 1
f2 y
1 4 y2 ,
fx, y dx
y 2
0, y 2
Do f x, yf1 xf2 y
nên X, Y phụ thuộc. Vì
f1 x, f2 ylà các hàm chẵn
nên EX EY 0 do đó
1 1 2 1x2
2
cov(X, Y) xyf (x, y)dxdy EX.EY xdx
1
ydy 0
2 1x2
5.2.3. Hệ số tương quan mẫu
Lập mẫu ngẫu nhiên
WXY (X1, Y1), (X2, Y2),..., (Xn, Yn).
Để ước lượng hệ số tương quan
rXY
E(XY) EX.EY , ta dùng thống kê
SX .SY
R XY X.Y
SX .SY
Với mẫu cụ thể ta tính được giá trị của R là
trong đó
rXY
XY X.Y SX .SY
n
n
X 1x ; Y 1y ;
n i ni
i1 i1
1
n
XY
n
xi yi ;
i1
1 n 2
S
X
n
i
2 x
i1
X;
1 n 2
S
Y
n
i
2 y
XY
i1
Y
Ta có:
Tính chất:
i) | rXY | 1 ;
n xy x yr n x2 x 2. n y2 y2
ii) Nếu | rXY | 1 thì X và Y có quan hệ tuyến tính Y = aX + b;
iii) Nếu | rXY | 0
thì X và Y không tương quan.
iv) Nếu | rXY | càng lớn thì X và Y tương quan càng chặt hơn.
v) Nếu
rXY 0
thì X và Y có tương quan thuận (X tăng thì Y tăng), nếu
rXY 0
thì X và Y có tương quan nghịch (X tăng thì Y giảm).
Ví dụ 5.7. Từ số liệu được cho bởi bảng sau, hay xác định hệ số tương quan của Y và X.
1 | 3 | 4 | 6 | 8 | 9 | 11 | 14 | |
Y | 1 | 2 | 4 | 4 | 5 | 7 | 8 | 9 |
Có thể bạn quan tâm!
- Kiểm Định Về Sự Bằng Nhau Của Hai Kỳ Vọng
- Kiểm Định Sự Bằng Nhau Của 2 Tỷ Lệ
- Không Thể Kết Luận Học Sinh Nội Thàn Có Thể Lực Tốt Hơn
- Lý thuyết xác suất và thống kê toán - 19
- Lý thuyết xác suất và thống kê toán - 20
- Lý thuyết xác suất và thống kê toán - 21
Xem toàn bộ 168 trang tài liệu này.
Giải
Ta lập bảng sau:
yi | x2 i | xi yi | y2 i | |
1 | 1 | 1 | 1 | 1 |
3 | 2 | 9 | 6 | 4 |
4 | 4 | 16 | 16 | 16 |
6 | 4 | 36 | 24 | 16 |
8 | 5 | 64 | 40 | 25 |
9 | 7 | 81 | 63 | 49 |
11 | 8 | 121 | 88 | 64 |
14 | 9 | 196 | 126 | 81 |
x=56 | y=40 | x2=524 | xy=364 | y2=256 |
n xy x y
n x2 x 2. n y2 y2
rXY
8.364 56.40
8.524 562. 8.256 402
672
687,81
0, 977
5.2.4. Tiêu chuẩn độc lập của hai biến ngẫu nhiên
Nếu cov(X, Y) 0 thì ta nói hai biến ngẫu nhiên X và Y không tương quan hay
độc lập. Như vậy, ta thiết lập giả thuyết gốc và đối thuyết là :
H0: cov X,Y 0
Tiêu chuẩn kiểm định
H
1
: cov X ,Y 0
r n 2
1r2
K
Trong đó r là hệ số tương quan tính trên tập mẫu ngẫu nhiên xi,yi,i 1, n .
Miền bác bỏ
H0 là
W K t
1
n2 2
Ví dụ 5.8. Cho cặp biến ngẫu nhiên (X,Y) tuân theo luật phân phối chuẩn và bộ số liệu quan sát được như sau:
12,0 | 16,5 | 15,2 | 11,7 | 18,3 | 10,9 | 14,4 | 16,0 | |
yi | 2,75 | 3,37 | 2,86 | 2,62 | 2,76 | 3,49 | 3,12 | 3,05 |
Với 0, 05
Giải
hãy kiểm định tính độc lập của hai biến ngẫu nhiên X, Y.
Bài toán kiểm định
1
H0: cov X,Y 0
n 8
xi 115; yi 24, 02
H
: cov X ,Y 0
i i i i
x2 1701, 25; y2 72, 798; x y
xiX yiY 0, 2975
345, 008
Suy ra r
0, 2975
48,125.0, 678
0, 0489
0, 0489. 6
1 0, 04892
Giá trị của hàm kiểm định K 0,1199
0, 05
nên t6 0,975 2, 447 .
Do đó K 2, 447 , vậy 2 biến X,Y độc lập.
5.2.5. Kiểm định giả thuyết về hệ số tương quan
a. Kiểm định hệ số tương quan
H0: cov X,Y 0
Chọn thống kê
H
Z 1 ln 1r
2 1r
1 : cov X ,Y 0
Theo Phi – sơ, nếu
H0 đúng thì thống kê K sẽ tiệm cận tới phân phối chuẩn khi
n với các số đặc trưng xấp xỉ là
EZ 1 ln 10
2 10
0
2 n 1
VZ
1
VZ
n 3
n 3
Trong thực hành với
n 50
thì
K Z EZ Z VZ
: N 0;1
Khi đó miền bác bỏ
H0 là
W K
z ,z
1
b b 2
Ví dụ 5.9. Từ bộ số liệu gồm 150 cặp, người ta tính được hệ số tương quan mẫu là
r 0,5273 . Với 0, 05
Giải
có thể cho rằng hệ số tương quan thật là 0,5 được không?
Bài toán kiểm định
H0: cov X,Y 0, 5
1
H
: cov X ,Y 0, 5
Ta có
Z 1 ln 1 0,5273 0,5862
2 1 0,5273
EZ 0,551;
1
VZ
147
0, 082
K 0,5862 0,551 0, 43
0, 082
Với 0, 05
ta có 1,961 0, 05 0, 475
2
Do đó
K 1,96
. Vậy không đủ cơ sở để bác bỏ
H0 .
b. Kiểm định sự bằng nhau của 2 hệ số tương quan
H0 : 1 2
H :
Tiêu chuẩn kiểm định
1 1 2
K Z1 Z2
VZ1 VZ2
Hàm này có phân phối tiệm cận phân phối chuẩn
N 0;1
nên miền bác bỏ H0
là: W; u U u ;
2 2
5.3. Hồi quy
5.3.1. Mô hình tuyến tính
Khi hai biến X và Y phụ thuộc, ta quan tâm đầu tiên tới quan hệ hàm Y f (X) . Nếu hàm f tùy ý, đây là quan hệ rất phức tạp. Trong phần này ta giới hạn vào trường hợp f có dạng tuyến tính Y aX b , trong đó a, b là hằng số thực cần xác định. Tuy nhiên do X và Y đều là các biến ngẫu nhiên, quan hệ đó không giống như quan hệ hàm theo nghĩa thông thường của giải tích. Về mặt lý thuyết người ta đưa vào khái niệm hồi quy tuyến tính thông qua kỳ vọng có điều kiện.
a. Kỳ vọng có điều kiện
- Kỳ vọng có điều kiện của biến ngẫu nhiên rời rạc
m
E Y / xyjP X x, Y yj ;
j1
n
EX / yxiPY y, X xi
i1
- Kỳ vọng có điều kiện của biến ngẫu nhiên liên tục
EY / xyf (y / x)dy ; E X / yxf (x / y)dx
trong đó f (x / y) f (x, y)
với y không đổi và f (y / x) f (x, y)
với x không đổi.
b. Hàm hồi quy (đường hồi quy)
Hàm hồi quy của Y đối với X là
f (x) E Y / x, của X đối với Y là
f (y) E X / y.
Trong thực tế ta thường gặp hai đại lượng ngẫu nhiên X, Y có một mối liên hệ với nhau, trong đó việc khảo sát X thì dễ còn khảo sát Y thì khó, thậm chí không thể
khảo sát được. Người ta muốn tìm mối liên hệ Y f (X)
được Y.
để biết X ta có thể dự đoán
Giả sử biết X, nếu dự đoán Y bằng f(X) thì sai số mắc phải là E[Y f (X)]2 . Vấn
đề đặt ra là tìm hàm Y f (X) như thế nào để sai số đó là nhỏ nhất.
Ta sẽ chứng minh khi chọn
f (X) E Y / X
(với
f (x) E Y / x) thì
E[Y f (X)]2 sẽ nhỏ nhất.
Thật vậy, ta có
E[Y f (X)]2 EY E(Y / X)E(Y / X) f (X)2
= EY E(Y / X)2 EE(Y / X) f (X)2 2EY E(Y / X)E(Y / X) f (X)
Ta thấy E(Y / X) chỉ phụ thuộc vào X nên có thể đặt T(X) E(Y / X) f (X)
Khi đó
Vậy
EY E(Y / X)E(Y / X) f (X) EY E(Y / X)T(X)
EYT(X) EE(Y / X)T(X) EYT(X) EYT(X) 0
E[Y f (X)]2 EY E(Y / X)2 EE(Y / X) f (X)2nhỏ nhất khi
EE(Y / X) f (X)2 0 .
Ta chỉ cần chọn: f (X) E(Y / X) .
5.3.2. Công thức ước lượng hệ số của đường hồi quy tuyến tính
Giả sử giữa hai biến ngẫu nhiên X, Y có quan hệ tuyến tính, tức là
E Y / X aX b .
Dựa vào n cặp giá trị x1, y1,x2, y2,..., xn, yncủaX, Yta tìm hồi quy tuyến tính mẫu
để ước lượng hàm Y aX b .
y ax b
(*)
Vì các cặp giá trị trên là xấp xỉ của x và y nên thỏa (*) một cách xấp xỉ. Do đó
yi axi b i hay i yi axi b .
Ta tìm a, b sao cho các sai số i
i 1, n
có giá trị tuyệt đối nhỏ nhất hay hàm
đạt cực tiểu.
n
S(a, b) (y
i1
i axi
b)2
Phương pháp tìm này được gọi là phương pháp bình phương cực tiểu. Ta thấy S sẽ đạt giá trị nhỏ nhất tại điểm dừng thỏa mãn
0S2nxy ax b; 0 S2ny ax
b
a i i i b i i
Hay
i1 i1
n 2 n n
xi a xi b xi yi
i1
i1
i1
n n
xi a nb yi
Hệ trên có nghiệm duy nhất
i1
i1
;
n xi yi xi yi
a
i i
n x2 x 2
x2 y x x y
i i i i i
b
i i
n x2 x 2
2
Nghiệm của hệ có thể viết dưới dạng
a xy x.y xy x.y ;
x2 .y x.xy x2 .y x.xy
2
x
x
b
x2x 2s x2x2s
trong đó:
n
n
n
n
x 1x , y 1y ,xy 1x y , x21x2
n i n i n i i ni
i1 i1 i1 i1
Tóm lại có thể tìm hàm y ax b theo công thức:
a xy x.y ; b y a.x
s
2
s
x
Chú ý:
XY
- Ta biết hệ số tương quan r
xy x.y
nên a r
sy .
sx .sy
XY
x
- Đường gấp khúc nối các điểm x1, y1,x2, y2,..., xn, y n
quy thực nghiệm.
được gọi là đường hồi
- Đường thẳng y ax b nhận được bởi công thức bình phương bé nhất không đi
qua được tất cả các điểm nhưng là đường thẳng “gần“ các điểm đó nhất được gọi là đường thẳng hồi quy và thủ tục làm thích hợp đường thẳng thông qua các điểm dữ liệu cho trước được gọi là hồi quy tuyến tính.
- Điểm x, yluôn nằm trên đường thẳng hồi quy.
Ví dụ 5.10. Ước lượng hàm hồi quy tuyến tính mẫu của Y theo X trên cơ sở bảng tương quan sau:
15 | 38 | 23 | 16 | 16 | 13 | 20 | 24 | |
Y | 145 | 228 | 150 | 130 | 160 | 114 | 142 | 265 |
Giải
Ta lập bảng sau
yi | x2 i | xi yi | |
15 | 145 | 225 | 3175 |
38 | 228 | 1444 | 8664 |
23 | 150 | 529 | 3450 |
16 | 130 | 256 | 2080 |
16 | 160 | 256 | 2560 |
13 | 114 | 169 | 1482 |
20 | 142 | 400 | 2840 |
24 | 265 | 576 | 6360 |
165 | 1334 | 3855 | 29611 |
Ta có
a n xy x y8.19611 165.133416778 4, 64 ;
n x2 x 2
8.3855 (165)2
3615
b y a.x 1334 16778 165 71.
8 3615 8
Vậy hàm hồi quy tuyến tính mẫu là y 4, 64x 71.
Ví dụ 5.11. Độ ẩm của không khí ảnh hưởng đến sự bay hơi của nước trong sơn khi phun ra. Người ta tiến hành nghiên cứu mối liên hệ giữa độ ẩm của không khí X và độ bay hơi Y giúp ta tiết kiệm được lượng sơn hợp lý. Tiến hành 24 quan sát ta được các số liệu sau:
X(%) | Y(%) | TT | X(%) | Y(%) | TT | X(%) | Y(%) | |
1 | 35,3 | 11,0 | 9 | 70,7 | 7,8 | 17 | 59,3 | 10,1 |
2 | 29,7 | 11,1 | 10 | 57,5 | 9,1 | 18 | 70,0 | 8,1 |
3 | 30,8 | 12,5 | 11 | 46,4 | 8,2 | 19 | 70,0 | 6,8 |
4 | 58,8 | 8,4 | 12 | 28,9 | 12,2 | 20 | 74,4 | 8,9 |
5 | 61,4 | 9,3 | 13 | 28,1 | 11,9 | 21 | 72,1 | 7,7 |
6 | 71,3 | 8,7 | 14 | 39,1 | 9,6 | 22 | 58,1 | 8,5 |
7 | 74,4 | 6,4 | 15 | 46,8 | 10,9 | 23 | 44,6 | 8,9 |
8 | 76,7 | 8,5 | 16 | 48,5 | 9,6 | 24 | 33,4 | 10,4 |
TT
Hãy tìm hàm hồi quy tuyến tính mẫu y ax b . Giải
n = 25;
x 1314,9 ;
y 235, 7 ;
x2 76308,53;
Do đó:
y2 2286, 07 ;
xy 11824, 44 .
n xy x y25 11824, 44 1314, 9 235, 7
a 0, 08.
n x2 x 2
25 76308, 53 (1314, 9)2
b y a.x 9, 43 0, 08 52, 6 13, 64 .
Vậy hàm hồi quy tuyến tính mẫu là y 0, 08x 13, 64 .