ii. Sai số do chọn mẫu:
Sai số do chọn mẫu là chênh lệch giữa giá trị tham số thu được trên mẫu và giá trị tham số đó trên
tổng thể chung
iii. Khoảng tin cậy:
Khoảng tin cậy là khoảng giá trị mà dựa vào giá trị tham số trên mẫu, ta ước lượng giá trị tham số của tổng thể sẽ rơi vào đó
iv. Độ tin cậy:
Là khả năng đúng khi ta ước lượng giá trị tham số của tổng thể nằm trong khoảng tin cậy.
Chú ý: Chỉ có mẫu được chọn theo phương pháp chọn mẫu xác suất, ta mới có thể xác định được khoảng tin cậy và độ tin cậy.
Phân tổ
Phân tổ thống kê là căn cứ vào một (hay một số) tiêu thức nào đó để tiến hành phân chia các đơn vị
của hiện tượng nghiên cứu thành các tổ có tính chất khác nhau.
Các hiện tượng và quá trình kinh tế xã hội là những tổng thể vô cùng phong phú, phức tạp vì chúng tồn tại và phát triển dưới các loại hình thức khác nhau. Mỗi loại hình có qui mô và đặc điểm khác nhau. Do vậy, muốn phản ánh dược đúng bản chất và quy luật phát triển của hiện tượng nghiên cứu, mà chỉ dựa vào những con số đặc trưng chung thì chưa đủ mà ta phải tìm cách nêu lên cho được đặc điểm riêng của từng bộ phận cấu thành nên tổng thể, phải đánh giá cho tầm quan trọng và mối liên hệ tác động qua lại giữa chúng với nhau, để qua đó thấy được đầy đủ đặc điểm chung của toàn bộ tổng thể nghiên cứu. Do vậy, cần thiết phải phân tổ thống kê. Phân tổ thống kê được xem là phương pháp cơ bản để tổng hợp thống kê. Đồng thời cũng là một phương pháp quan trọng của phân tích thống kê.
i. Phân tổ theo tiêu thức thuộc tính
Xác định số tổ theo tiêu thức thuộc tính là do bản chất của hiện tượng nghiên cứu quyết định.
Trường hợp thuộc tính có ít biểu hiện thì mỗi biểu hiện là một tổ.
Ví dụ 3.25 Giới tính, trình độ chuyên môn, trình độ văn hóa, loại hình doanh nghiệp...
Trường hợp thuộc tính có nhiều biễu hiện thì ta ghép một số biểu hiện tương tự nhau thành một tổ
Ví dụ 3.26 Phân tổ dân số theo ngôn ngữ, phân tổ sản phẩm xuất khẩu theo các ngành công nghiệp
ii. Phân tổ theo tiêu thức số lượng
Theo tiêu thức này sự khác nhau giữa các tổ thể hiện về trị số lượng biến, có 2 trường hợp
Tiêu thức số lượng có ít trị số.
Ví dụ 3.27 phân tổ các hộ gia đình theo nhân khẩu, số con, điểm thi môn học ....
Tiêu thức số lượng có nhiều trị số
Ví dụ 3.28 Phân tổ theo độ tuổi, phân tổ công nhân trong xí nghiệp theo năng suất lao động, trọng
lượng của một loại gia súc.
Trong trường hợp này ta phân tổ có khoảng cách tổ, mỗi tổ có giới hạn trên và giới hạn dưới
Trị số chênh lệch giữa giới hạn trên và giới hạn dưới của mỗi tổ gọi là khoảng
Tùy theo mục đích cụ thể của phân tổ và đặc điểm biến thiên của lượng biến tiêu thức để quyết
định xem phân tổ có khoảng cách đều hay không đều.
Khi phân tổ có khoảng cách đều nhau, trị số khoảng cách tổ được xác định (trong trường hợp chỉ số liên tục)
h xmax xmin
k
Trong đó ℎ : Trị số khoảng cách tổ
݇ : sổ tổ
ݔ௫ : Trị số quan sát lớn nhất.
ݔ : Trị số quan sát bé nhất.
Ví dụ 3.29 Bảng số liệu về năng suất lúa (tạ/ha)
36-38 | 6 |
38-40 | 13 |
49-42 42-44 | 25 40 |
44-46 | 11 |
46-48 | 5 |
Có thể bạn quan tâm!
- N I N N
- Biểuđồ Mứcchênhlệchgiữaphânphốichuẩnvà Student
- Tiêu Thức Bất Biến Và Tiêu Thức Biến Động.
- So Sánh Trung Bình (Mean), Trung Vị (Median), Yếu Vị (Mod)
- Các Khuynh Hướng Đo Vị Trí Tương Đối.
- Khoảng Tin Cậy Cho Độ Lệch Hai Giá Trị Trung Bình 81
Xem toàn bộ 142 trang tài liệu này.
Tổng cộng 100
h xmax xmin k 1
k
Khi phân tổ có khoảng cách đều nhau, trị số khoảng cách tổ được xác định (trong trường hợp chỉ số rời rạc)
Ví dụ 3.30 Bảng số liệu về tuổi nghề của công nhân một xí nghiệp
5-7 | 80 |
8-10 | 210 |
11-13 | 360 |
14-16 | 225 |
17-19 | 125 |
Tổng cộng 1000 |
Phân tổ mở là phân tổ mà tổ đầu tiên không có giới hạn dưới, tô cuối cùng không có giới hạn trên, các tổ còn lại có thể có khoảng cách tổ đều hoặc không đều. Mục đích của việc phân tổ mở là để tổ đầu tiên và tổ cuối cùng chứa các đơn vị có trị số lượng biến đột biến và tránh việc hình thành quá nhiều tổ.
Ví dụ 3.31 Bảng số liệu về năng suất lúa (tạ/ha)
<35 | 5 |
35-40 | 10 |
40-45 | 20 |
45-50 | 12 |
50 | 3 |
Tổng cộng 100
iii. Phân tổ liên hệ.
Giữa các tiêu thức mà thống kê nghiên cứu thường có mối quan hệ với nhau. Mối liên hệ này thể hiên sự thay đổi trị số tiêu thức này sẽ dẫn đến sự thay đổi của tiêu thức kia theo một qui luật nhất định.
Số cơ sở | Mức bình quân tổ (kg/con/ngày) | Tăng trọng bình quân (g/con/ngày) | |
<1,4 | 3 | 1,31 | 292 |
1,4-1,6 | 5 | 1,52 | 318 |
1,6-1,8 | 4 | 1,69 | 334 |
5 | 1,90 | 356 | |
2,0-2,2 | 6 | 2,13 | 369 |
2,2-2,4 | 5 | 2,25 | 381 |
2,4 | 7 | 2,43 | 397 |
Tổng cộng | 35 | 1,97 | 356 |
Trình bày dữ liệu thống kê
Số liệu thu thập được được trình bày trên bảng thống kê. Bảng thống kê là một hình thức biểu hiện các tài liệu thống kê một cách có hệ thống, hợp lý và rõ ràng, nhằm nêu lên các đặc trưng về mặt lượng của hiện tượng nghiên cứu.
Những yêu cầu đối với việc xây dựng bảng thống kê:
Quy mô của bảng không nên quá lớn
Các tiêu đề, tiêu mục cần được ghi chính xác, ngắn gọn và dễ hiểu
Các hàng, cột thường được ký hiệu bằng chữ hoặc bằng số
Các chỉ tiêu giải thích trong bảng cần được sắp xếp theo thứ tự hợp lý, phù hợp mục đích
nghiên cứu
Cách ghi các số liệu vào trong bảng thống kê
Nếu hiện tượng không có số liệu thì ghi dấu gạch ngang ( - )
Nếu số liệu còn thiếu, sau này bổ sung thì ghi ký hiệu 3 chấm (…)
Ký hiệu gạch chéo (x): ô cấm
Các số liệu trong cùng một cột, có đơn vị tính toán giống nhau phải ghi theo trình độ chính xác
như nhau
Các số cộng và tổng cộng có thể ghi ở đầu hoặc cuối hàng và cột
Cấu thành bảng thống kê
Về hình thức
Các hàng ngang, cột dọc: phản ánh quy mô của bảng thống kê
Tiêu đề của bảng: phản ánh nội dung của bảng và của từng chi tiết trong bảng
Tiêu đề chung là tên gọi của bảng, ở phía trên đầu bảng
Tiêu đề nhỏ (tiêu mục) là tên riêng của mỗi hàng và cột
Các tài liệu con số: được ghi vào các ô của bảng, phản ánh đặc trưng về mặt lượng của hiện tượng nghiên cứu
Về nội dung
Phần chủ đề (phần chủ từ): nêu lên tổng thể của hiện tượng nghiên cứu
Cách lập bảng dữ liệu cho dữ liệu định tính.
Trong trường hợp đặc điểm thống kê ta đang nghiên cứu có dữ liệu dạng định tính. Bảng tần số được lập với các thông tin như sau
Cột thứ nhất: Liệt kê tất cả các biểu hiện có thể có của đối tượng nghiên cứu.
Cột thứ hai : là cột tần số, được điền số liệu bằng cách đếm xem có bao nhiêu quan sát có cùng 1 biểu hiện, kí hiệu tương ứng với biểu hiện thứ k là nk . Tổng của tất cả các tần số bằng số lượng cỡ mẫu quan sát n .
Cột thứ ba : là cột tần suất. Tần suất tương ứng với từng biểu hiện được tính bằng cách lấy giá trị tần số tương ứng chia cho số lượng cỡ mẫu, kí hiệu tương ứng với biểu hiện thứ k
là fk
nk .100% . Tổng của cột tần suất tương ứng bằng 100% dữ liệu quan sát.
n
Tần số | Tần suất |
n1 | f n1 1 n | |
… | … | … |
Biểu hiện định tính k | nk | f nk k n |
Tổng | n | 100% |
Cách lập bảng dữ liệu cho dữ liệu định lượng.
Trong trường hợp đặc điểm thống kê ta đang nghiên cứu có ít biểu hiện giá trị, thì cấu trúc của bảng tần số giống cấu trúc của bảng dữ liệu định tính. Cấu trúc gồm dòng là các biểu hiện của lượng biến và các cột trong bảng gồm : tần số của biểu hiện lượng biến, tần suất tương ứng và tần suất tích lũy.
Tần số | Tần suất | Tần suất tích lũy | |
Biểu hiện lượng biến 1 | n1 | f n1 1 N | 1 fi i1 |
… | … | … | … |
Biểu hiện lượng biến k | nk | f nk k N | k fi 100% i1 |
Tổng | N | 100% |
Trong trường hợp đặc điểm thống kê ta đang nghiên cứu có nhiều biểu hiện giá trị. Thì trước khi tiến hành lập bảng tần số cho dữ liệu ta tiến hành phân tổ cho lượng biến, thì khi đó bảng tần số thu được tương ứng với các tổ dữ liệu sẽ hoàn toàn giống với hai trường hợp trên.
Bảng tần số kết hợp hai biến.
Trong trường hợp bảng tần số mô tả đặc điểm của mẫu nghiên cứu theo một biến dưới sự phân tách của một biến khác. Cấu trúc bảng có dạng như sau :
Biến thứ nhất | ||||||
Tổ (1) | .. | Tổ (m) | ||||
Tần số | Tần suất | … | Tần số | Tần suất | ||
Biến thứ hai | Tổ (1) | n11 | f n11 11 N 1 | … | n1m | f n1m 1m N m |
… | … | … | … | … | … | |
Tổ (n) | nn1 | f nn1 n1 N 1 | … | nnm | f nnm nm N m | |
Tổng cột | N1 | 100% | … | Nm | 100% |
2001 | 2002 | 2003 | ||||
Số lượng (Người) | Cơ cấu (%) | Số lượng (Người) | Cơ cấu (%) | Số lượng (Người) | Cơ cấu (%) | |
Tổng số | 1000 | 100,0 | 1140 | 100,0 | 1310s | 100,0 |
Tiểu học | 500 | 50,0 | 600 | 53,0 | 700 | 53,5 |
Trung học cơ sở | 300 | 30,0 | 320 | 28,0 | 360 | 27,5 |
Trung học phổ thông | 200 | 20,0 | 220 | 19,0 | 250 | 19,0 |
Trong trường hợp có nhiều hơn hai biến thì ta nhóm dòng theo từng nhóm biến,[…]
Đồ thị, biểu đồ thống kê
Đồ thị thống kê là các hình vẽ hoặc đường nét hình học dùng để miêu tả có tính chất quy ước các tài liệu thống kê:
Đặc điểm
Sử dụng con số kết hợp với hình vẽ, đường nét và màu sắc
Trình bày một cách khái quát đặc điểm về bản chất và xu hướng phát triển
Có tính quần chúng, có sức hấp dẫn và sinh động.
Một số dạng biểu đồ khoa học dùng trong thống kê và dùng trong môn học Và một số dạng của đồ thị dùng trong báo cáo khoa học.
CHƯƠNG 4
4
TÓM TẮT DỮ LIỆU BẰNG
ĐẠI LƯỢNG SỐ
Mục lục chương 4
4.1 Các đại lượng đo lường mức độ tập trung của dữ liệu 55
4.2 Các hệ số đo lường mức độ phân tán 63
4.3 Các hệ số đo vị trí tương đối của dữ liệu 67
4.4 Các hệ số tương quan của các bộ dữ liệu 70
4.5 Các hệ số đo hình dạng của quy luật phân phối 74
Tóm tắt dữ liệu bằng đại lượng số là một trong ba kỹ thuật trong thống kê mô tả, các tham số đặc trưng của bộ dữ liệu thực nghiệm là những tham số dùng để phản ánh trực tiếp quy mô và cấu trúc của số liệu. Cùng với các phân tích đồ họa, các đại lượng số đặc trưng của bộ dữ liệu tạo nền tảng của mọi phân tích định lượng về số liệu, giúp hiểu rõ hiện tượng và ra các quyết định đúng đắn liên quan đến dữ liệu.
4.1. Các đại lượng đo lường mức độ tập trung của dữ liệu.
Các đại lượng đo lường mức độ tập trung là các tham số tính toán mức độ bình quân và phổ biến của số liệu. Các đặc trưng này được sử dụng phổ biến trong thống kê để nêu lên đặc điểm chung nhất, phổ biến nhất của hiện tượng kinh tế - xã hội trong các điều kiện cụ thể. Ngoài ra còn dùng để so sánh đặc điểm của các hiện tượng không có cùng quy mô hay dùng làm căn cứ để đánh giá trình độ đồng đều của các đơn vị tổng thể.
4.1.1 Số trung bình số học.
i. Trung bình số học
Số trung bình số học hay là trung bình cộng được xác định bằng cách lấy tổng tất cả các lượng biến và chia cho số lượng biến của đơn vị khảo sát. Về mặt ý nghĩa thì trung bình số học là số mà có tổng bình phương độ lệch với tất cả các lượng biến đạt giá trị nhỏ nhất.
Trung bình tổng thể (kỳ vọng):
i 1
xi
N
N
Trong đó : trung bình tổng thể.
xi : lượng biến thứ i.
N : tổng số liệu của tổng thể.
Trung bình mẫu :
xi
n
X i 1
n
Trong đó X : trung bình mẫu.
xi : lượng biến thứ i.
n : tổng số liệu của tổng mẫu.
ii. Trung bình số học có trọng số
Trường hợp lượng biến có trọng số (tần số) thì giá trị trung bình thu gọn theo công thức có trọng số như sau:
x1 | x2 | …. | xk 1 | xk | |
ni | n1 | n2 | …. | nk 1 | nk |
X i 1
xi ni
k
ni
i 1
k
Trong đó X : trung bình mẫu.
xi : lượng biến thứ i.
ni : trọng số của lượng biến thứ i
Ý nghĩa của giá trị trung bình : Trên một thanh đòn có quy định vị trí, tại các vị trí xitrên thanh
đòn đặt các quả cân có trọng lượng ni. Giá trị trung bình X là vị trí trên thanh đòn mà tại đó thanh đòn sẽ đạt trạng thái cân bằng như hình vẽ.
nk 1
n1
n3
X
n2 nk
Hình 4.1 : Ý nghĩa hình học giá trị trung bình.
Trường hợp dữ liệu có giá trị lượng biến liên tục, biểu diễn thông qua bảng dữ liệu dạng khoảng .
x1;x2 | x2;x3 | …. | xk 1 ;xk | xk ;xk1 | |
ni | n1 | n2 | …. | nk 1 | nk |
X i 1
i ni
k
ni
i 1
k
Trong đó X : trung bình mẫu.
: trung bình khoảng ݅.
x x
i
i
i i1
2
ni : trọng số của khoảng thứ i
iii. Quy luật phân phối của trung bình mẫu.
Giả sử tổng thể X có quy luật phân phối chuẩn với
X ~ N ;2, trên tổng thể này ta thu thập
một mẫu dữ liệu cỡ mẫu n gồm X1; X 2;,...; X n , thì ta có đại lượng trung bình mẫu X cũng tuân
theo quy luật phân phối chuẩn với
X~ N ;
2
n
Lưu ý. Khi cỡ mẫu lớn n 30 trung bình mẫu của tổng thể bất kỳ có khuynh hướng xấp xỉ bởi một phân phối chuẩn.
Ví dụ 4.1 Giám đốc nhân sự của công ty xây dựng hồ sơ của 2500 của nhân viên để báo cáo ban giám đốc. Trong mục báo cáo về tiền lương hằng năm của nhân viên cho thông tin Trung bình tổng thể tiền lương hằng năm của nhân viên là 51800 USD.
Độ lệch chuẩn tổng thể tiền lương hằng năm của nhân viên là 4000 USD.
Giả sử bây giờ cơ sở dữ liệu chi tiết của 2500 nhân viên chưa được cập nhật, nên thay vào đó giám đốc nhân sự dùng dữ liệu của 30 nhân viên để báo cáo thay tổng thể. Câu hỏi là nếu sai số trung bình mẫu tiền lương hằng năm nhân viên so với tổng thể không quá 500USD có xác suất là bao nhiêu?
Giải. Theo quy luật phân phối của trung bình mẫu, với n 30 ta có
X ~ N;
4000
n
N 51800 ;
30
Ta có
500 500
P X 500P 500 X 500
n
n
500
500
4000 40002 0,6820,2517 50,34%
30
30
Như vậy với một mẫu n 30 , cho xác suất về mức chênh lệch giữa trung bình mẫu tiền
lương hằng năm so với tổng thể không quá 500USD là 50,34%. Nên nếu muốn xác suất này tăng cao hơn, giám đốc nhân sự nên suy nghĩ về việc sử dụng một mẫu dữ liệu với cỡ mẫu lơn hơn.
4.1.2 Số trung bình điều hòa.
Trung bình điều hòa được dùng khi lượng biến quan quan sát có trọng số nhưng ta lại không biết trọng số của từng loại lượng biến mà chỉ biết tổng của từng nhóm lượng biến cùng giá trị.
X i 1
Mi
k
k
Mi
i 1 xi
Trong đó xi : lượng biến thứ i.