Các Đại Lượng Đo Lường Mức Độ Tập Trung Của Dữ Liệu 55


ii. Sai số do chọn mẫu:

Sai số do chọn mẫu là chênh lệch giữa giá trị tham số thu được trên mẫu và giá trị tham số đó trên

tổng thể chung

iii. Khoảng tin cậy:

Khoảng tin cậy là khoảng giá trị mà dựa vào giá trị tham số trên mẫu, ta ước lượng giá trị tham số của tổng thể sẽ rơi vào đó

iv. Độ tin cậy:

Là khả năng đúng khi ta ước lượng giá trị tham số của tổng thể nằm trong khoảng tin cậy.

Chú ý: Chỉ có mẫu được chọn theo phương pháp chọn mẫu xác suất, ta mới có thể xác định được khoảng tin cậy và độ tin cậy.

Phân tổ

Phân tổ thống kê là căn cứ vào một (hay một số) tiêu thức nào đó để tiến hành phân chia các đơn vị

của hiện tượng nghiên cứu thành các tổ có tính chất khác nhau.

Các hiện tượng và quá trình kinh tế xã hội là những tổng thể vô cùng phong phú, phức tạp vì chúng tồn tại và phát triển dưới các loại hình thức khác nhau. Mỗi loại hình có qui mô và đặc điểm khác nhau. Do vậy, muốn phản ánh dược đúng bản chất và quy luật phát triển của hiện tượng nghiên cứu, mà chỉ dựa vào những con số đặc trưng chung thì chưa đủ mà ta phải tìm cách nêu lên cho được đặc điểm riêng của từng bộ phận cấu thành nên tổng thể, phải đánh giá cho tầm quan trọng và mối liên hệ tác động qua lại giữa chúng với nhau, để qua đó thấy được đầy đủ đặc điểm chung của toàn bộ tổng thể nghiên cứu. Do vậy, cần thiết phải phân tổ thống kê. Phân tổ thống kê được xem là phương pháp cơ bản để tổng hợp thống kê. Đồng thời cũng là một phương pháp quan trọng của phân tích thống kê.

i. Phân tổ theo tiêu thức thuộc tính

Xác định số tổ theo tiêu thức thuộc tính là do bản chất của hiện tượng nghiên cứu quyết định.

Trường hợp thuộc tính có ít biểu hiện thì mỗi biểu hiện là một tổ.

Ví dụ 3.25 Giới tính, trình độ chuyên môn, trình độ văn hóa, loại hình doanh nghiệp...

Trường hợp thuộc tính có nhiều biễu hiện thì ta ghép một số biểu hiện tương tự nhau thành một tổ

Ví dụ 3.26 Phân tổ dân số theo ngôn ngữ, phân tổ sản phẩm xuất khẩu theo các ngành công nghiệp

ii. Phân tổ theo tiêu thức số lượng

Theo tiêu thức này sự khác nhau giữa các tổ thể hiện về trị số lượng biến, có 2 trường hợp

Tiêu thức số lượng có ít trị số.

Ví dụ 3.27 phân tổ các hộ gia đình theo nhân khẩu, số con, điểm thi môn học ....

Tiêu thức số lượng có nhiều trị số

Ví dụ 3.28 Phân tổ theo độ tuổi, phân tổ công nhân trong xí nghiệp theo năng suất lao động, trọng

lượng của một loại gia súc.

Trong trường hợp này ta phân tổ có khoảng cách tổ, mỗi tổ có giới hạn trên và giới hạn dưới

Trị số chênh lệch giữa giới hạn trên và giới hạn dưới của mỗi tổ gọi là khoảng

Tùy theo mục đích cụ thể của phân tổ và đặc điểm biến thiên của lượng biến tiêu thức để quyết

định xem phân tổ có khoảng cách đều hay không đều.

Khi phân tổ có khoảng cách đều nhau, trị số khoảng cách tổ được xác định (trong trường hợp chỉ số liên tục)

h xmax xmin

k

Trong đó ℎ : Trị số khoảng cách tổ


݇ : sổ tổ

ݔ௔௫ : Trị số quan sát lớn nhất.

ݔ௜௡ : Trị số quan sát bé nhất.

Ví dụ 3.29 Bảng số liệu về năng suất lúa (tạ/ha)

Mức năng suất lúa (tạ/ha) Số hộ

36-38

6

38-40

13

49-42

42-44

25

40

44-46

11

46-48

5

Có thể bạn quan tâm!

Xem toàn bộ 142 trang tài liệu này.

Thống kê ứng dụng trong kinh tế và kinh doanh - Trường ĐH Văn Lang - 8

Tổng cộng 100

h xmax xmin k 1

k

Khi phân tổ có khoảng cách đều nhau, trị số khoảng cách tổ được xác định (trong trường hợp chỉ số rời rạc)


Ví dụ 3.30 Bảng số liệu về tuổi nghề của công nhân một xí nghiệp

Tuổi nghề Số công nhân

5-7

80

8-10

210

11-13

360

14-16

225

17-19

125

Tổng cộng 1000

Phân tổ mở là phân tổ mà tổ đầu tiên không có giới hạn dưới, tô cuối cùng không có giới hạn trên, các tổ còn lại có thể có khoảng cách tổ đều hoặc không đều. Mục đích của việc phân tổ mở là để tổ đầu tiên và tổ cuối cùng chứa các đơn vị có trị số lượng biến đột biến và tránh việc hình thành quá nhiều tổ.

Ví dụ 3.31 Bảng số liệu về năng suất lúa (tạ/ha)

Mức năng suất lúa (tạ/ha) Số hộ

<35

5

35-40

10

40-45

20

45-50

12

50

3

Tổng cộng 100

iii. Phân tổ liên hệ.

Giữa các tiêu thức mà thống kê nghiên cứu thường có mối quan hệ với nhau. Mối liên hệ này thể hiên sự thay đổi trị số tiêu thức này sẽ dẫn đến sự thay đổi của tiêu thức kia theo một qui luật nhất định.

Mức đầu tư thức ăn

(kg/con/ngày)

Số cơ

sở

Mức bình quân tổ

(kg/con/ngày)

Tăng trọng bình quân

(g/con/ngày)

<1,4

3

1,31

292

1,4-1,6

5

1,52

318

1,6-1,8

4

1,69

334


1,8-2,0

5

1,90

356

2,0-2,2

6

2,13

369

2,2-2,4

5

2,25

381

2,4

7

2,43

397

Tổng cộng

35

1,97

356

Trình bày dữ liệu thống kê

Số liệu thu thập được được trình bày trên bảng thống kê. Bảng thống kê là một hình thức biểu hiện các tài liệu thống kê một cách có hệ thống, hợp lý và rõ ràng, nhằm nêu lên các đặc trưng về mặt lượng của hiện tượng nghiên cứu.

Những yêu cầu đối với việc xây dựng bảng thống kê:

Quy mô của bảng không nên quá lớn

Các tiêu đề, tiêu mục cần được ghi chính xác, ngắn gọn và dễ hiểu

Các hàng, cột thường được ký hiệu bằng chữ hoặc bằng số

Các chỉ tiêu giải thích trong bảng cần được sắp xếp theo thứ tự hợp lý, phù hợp mục đích

nghiên cứu

Cách ghi các số liệu vào trong bảng thống kê

Nếu hiện tượng không có số liệu thì ghi dấu gạch ngang ( - )

Nếu số liệu còn thiếu, sau này bổ sung thì ghi ký hiệu 3 chấm (…)

Ký hiệu gạch chéo (x): ô cấm

Các số liệu trong cùng một cột, có đơn vị tính toán giống nhau phải ghi theo trình độ chính xác

như nhau

Các số cộng và tổng cộng có thể ghi ở đầu hoặc cuối hàng và cột


Cấu thành bảng thống kê

Về hình thức

Các hàng ngang, cột dọc: phản ánh quy mô của bảng thống kê

Tiêu đề của bảng: phản ánh nội dung của bảng và của từng chi tiết trong bảng

Tiêu đề chung là tên gọi của bảng, ở phía trên đầu bảng

Tiêu đề nhỏ (tiêu mục) là tên riêng của mỗi hàng và cột

Các tài liệu con số: được ghi vào các ô của bảng, phản ánh đặc trưng về mặt lượng của hiện tượng nghiên cứu

Về nội dung

Phần chủ đề (phần chủ từ): nêu lên tổng thể của hiện tượng nghiên cứu

Cách lập bảng dữ liệu cho dữ liệu định tính.

Trong trường hợp đặc điểm thống kê ta đang nghiên cứu có dữ liệu dạng định tính. Bảng tần số được lập với các thông tin như sau

Cột thứ nhất: Liệt kê tất cả các biểu hiện có thể có của đối tượng nghiên cứu.

Cột thứ hai : là cột tần số, được điền số liệu bằng cách đếm xem có bao nhiêu quan sát có cùng 1 biểu hiện, kí hiệu tương ứng với biểu hiện thứ k nk . Tổng của tất cả các tần số bằng số lượng cỡ mẫu quan sát n.

Cột thứ ba : là cột tần suất. Tần suất tương ứng với từng biểu hiện được tính bằng cách lấy giá trị tần số tương ứng chia cho số lượng cỡ mẫu, kí hiệu tương ứng với biểu hiện thứ k

fk

nk .100% . Tổng của cột tần suất tương ứng bằng 100% dữ liệu quan sát.

n


Đại lượng thống kê

Tần số

Tần suất



Biểu hiện định tính 1

n1

f n1

1 n

Biểu hiện định tính k

nk

f nk

k n

Tổng

n

100%

Cách lập bảng dữ liệu cho dữ liệu định lượng.

Trong trường hợp đặc điểm thống kê ta đang nghiên cứu có ít biểu hiện giá trị, thì cấu trúc của bảng tần số giống cấu trúc của bảng dữ liệu định tính. Cấu trúc gồm dòng là các biểu hiện của lượng biến và các cột trong bảng gồm : tần số của biểu hiện lượng biến, tần suất tương ứng và tần suất tích lũy.


Đại lượng thống kê

Tần số

Tần suất

Tần suất tích lũy


Biểu hiện lượng biến 1

n1

f n1

1 N

1

fi

i1


Biểu hiện lượng biến k

nk

f nk

k N

k

fi 100%

i1

Tổng

N

100%


Trong trường hợp đặc điểm thống kê ta đang nghiên cứu có nhiều biểu hiện giá trị. Thì trước khi tiến hành lập bảng tần số cho dữ liệu ta tiến hành phân tổ cho lượng biến, thì khi đó bảng tần số thu được tương ứng với các tổ dữ liệu sẽ hoàn toàn giống với hai trường hợp trên.

Bảng tần số kết hợp hai biến.

Trong trường hợp bảng tần số mô tả đặc điểm của mẫu nghiên cứu theo một biến dưới sự phân tách của một biến khác. Cấu trúc bảng có dạng như sau :

Thông tin mẫu điều tra

Biến thứ nhất

Tổ (1)

..

Tổ (m)

Tần số

Tần suất

Tần số

Tần suất


Biến thứ hai

Tổ (1)

n11

f n11

11 N

1

n1m

f n1m

1m N

m


Tổ (n)

nn1

f nn1

n1 N

1


nnm

f nnm

nm N

m

Tổng cột

N1

100%

Nm

100%



Ví dụ:

2001

2002

2003

Số lượng (Người)

Cơ cấu

(%)

Số lượng (Người)

Cơ cấu

(%)

Số lượng (Người)

Cơ cấu

(%)

Tổng số

1000

100,0

1140

100,0

1310s

100,0

Tiểu học

500

50,0

600

53,0

700

53,5

Trung học cơ sở

300

30,0

320

28,0

360

27,5

Trung học phổ thông

200

20,0

220

19,0

250

19,0

Trong trường hợp có nhiều hơn hai biến thì ta nhóm dòng theo từng nhóm biến,[…]


Đồ thị, biểu đồ thống kê

Đồ thị thống kê là các hình vẽ hoặc đường nét hình học dùng để miêu tả có tính chất quy ước các tài liệu thống kê:

Đặc điểm

Sử dụng con số kết hợp với hình vẽ, đường nét và màu sắc

Trình bày một cách khái quát đặc điểm về bản chất và xu hướng phát triển

Có tính quần chúng, có sức hấp dẫn và sinh động.

Một số dạng biểu đồ khoa học dùng trong thống kê và dùng trong môn học Và một số dạng của đồ thị dùng trong báo cáo khoa học.



CHƯƠNG 4


4

TÓM TẮT DỮ LIỆU BẰNG

ĐẠI LƯỢNG SỐ

Mục lục chương 4

4.1 Các đại lượng đo lường mức độ tập trung của dữ liệu 55

4.2 Các hệ số đo lường mức độ phân tán 63

4.3 Các hệ số đo vị trí tương đối của dữ liệu 67

4.4 Các hệ số tương quan của các bộ dữ liệu 70

4.5 Các hệ số đo hình dạng của quy luật phân phối 74


Tóm tắt dữ liệu bằng đại lượng số là một trong ba kỹ thuật trong thống kê mô tả, các tham số đặc trưng của bộ dữ liệu thực nghiệm là những tham số dùng để phản ánh trực tiếp quy mô và cấu trúc của số liệu. Cùng với các phân tích đồ họa, các đại lượng số đặc trưng của bộ dữ liệu tạo nền tảng của mọi phân tích định lượng về số liệu, giúp hiểu rõ hiện tượng và ra các quyết định đúng đắn liên quan đến dữ liệu.

4.1. Các đại lượng đo lường mức độ tập trung của dữ liệu.

Các đại lượng đo lường mức độ tập trung là các tham số tính toán mức độ bình quân và phổ biến của số liệu. Các đặc trưng này được sử dụng phổ biến trong thống kê để nêu lên đặc điểm chung nhất, phổ biến nhất của hiện tượng kinh tế - xã hội trong các điều kiện cụ thể. Ngoài ra còn dùng để so sánh đặc điểm của các hiện tượng không có cùng quy mô hay dùng làm căn cứ để đánh giá trình độ đồng đều của các đơn vị tổng thể.

4.1.1 Số trung bình số học.

i. Trung bình số học

Số trung bình số học hay là trung bình cộng được xác định bằng cách lấy tổng tất cả các lượng biến và chia cho số lượng biến của đơn vị khảo sát. Về mặt ý nghĩa thì trung bình số học là số mà có tổng bình phương độ lệch với tất cả các lượng biến đạt giá trị nhỏ nhất.

Trung bình tổng thể (kỳ vọng):

i 1

xi

N


N

Trong đó : trung bình tổng thể.

xi : lượng biến thứ i.

N : tổng số liệu của tổng thể.

Trung bình mẫu :


xi

n

X i 1

n

Trong đó X : trung bình mẫu.

xi : lượng biến thứ i.

n : tổng số liệu của tổng mẫu.

ii. Trung bình số học có trọng số

Trường hợp lượng biến có trọng số (tần số) thì giá trị trung bình thu gọn theo công thức có trọng số như sau:

Xi

x1

x2

….

xk 1

xk

ni

n1

n2

….

nk 1

nk


X i 1

xi ni

k

ni

i 1

k

Trong đó X : trung bình mẫu.

xi : lượng biến thứ i.

ni : trọng số của lượng biến thứ i

Ý nghĩa của giá trị trung bình : Trên một thanh đòn có quy định vị trí, tại các vị trí xitrên thanh


đòn đặt các quả cân có trọng lượng ni. Giá trị trung bình X là vị trí trên thanh đòn mà tại đó thanh đòn sẽ đạt trạng thái cân bằng như hình vẽ.

nk 1

n1

n3

X

n2 nk



Hình 4.1 : Ý nghĩa hình học giá trị trung bình.

Trường hợp dữ liệu có giá trị lượng biến liên tục, biểu diễn thông qua bảng dữ liệu dạng khoảng .


Xi

x1;x2

x2;x3

….

xk 1 ;xk

xk ;xk1

ni

n1

n2

….

nk 1

nk


X i 1

i ni

k

ni

i 1

k

Trong đó X : trung bình mẫu.

: trung bình khoảng ݅.

x x

i

i

i i1

2



ni : trọng số của khoảng thứ i

iii. Quy luật phân phối của trung bình mẫu.

Giả sử tổng thể X có quy luật phân phối chuẩn với

X ~ N ;2, trên tổng thể này ta thu thập

một mẫu dữ liệu cỡ mẫu n gồm X1; X 2;,...; X n, thì ta có đại lượng trung bình mẫu X cũng tuân

theo quy luật phân phối chuẩn với

X~ N ;

2

n

Lưu ý. Khi cỡ mẫu lớn n 30trung bình mẫu của tổng thể bất kỳ có khuynh hướng xấp xỉ bởi một phân phối chuẩn.

Ví dụ 4.1 Giám đốc nhân sự của công ty xây dựng hồ sơ của 2500 của nhân viên để báo cáo ban giám đốc. Trong mục báo cáo về tiền lương hằng năm của nhân viên cho thông tin Trung bình tổng thể tiền lương hằng năm của nhân viên là 51800 USD.

Độ lệch chuẩn tổng thể tiền lương hằng năm của nhân viên là 4000 USD.

Giả sử bây giờ cơ sở dữ liệu chi tiết của 2500 nhân viên chưa được cập nhật, nên thay vào đó giám đốc nhân sự dùng dữ liệu của 30 nhân viên để báo cáo thay tổng thể. Câu hỏi là nếu sai số trung bình mẫu tiền lương hằng năm nhân viên so với tổng thể không quá 500USD có xác suất là bao nhiêu?

Giải. Theo quy luật phân phối của trung bình mẫu, với n 30 ta có

X ~ N;

4000

n

N 51800 ;

30

Ta có

500 500

P X 500P 500 X 500


n

n

500

500

4000400020,6820,2517 50,34%

30

30

Như vậy với một mẫu n 30 , cho xác suất về mức chênh lệch giữa trung bình mẫu tiền

lương hằng năm so với tổng thể không quá 500USD là 50,34%. Nên nếu muốn xác suất này tăng cao hơn, giám đốc nhân sự nên suy nghĩ về việc sử dụng một mẫu dữ liệu với cỡ mẫu lơn hơn.

4.1.2 Số trung bình điều hòa.

Trung bình điều hòa được dùng khi lượng biến quan quan sát có trọng số nhưng ta lại không biết trọng số của từng loại lượng biến mà chỉ biết tổng của từng nhóm lượng biến cùng giá trị.

X i 1

Mi

k


k

Mi

i 1 xi

Trong đó xi : lượng biến thứ i.

Xem toàn bộ nội dung bài viết ᛨ

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 06/11/2023