C. Lập bảng phân phối tần suất và vẽ biểu đồ so sánh tần suất hội tụ lùi
6.3.2. Tính các giá trị đặc trưng của mẫu
6.3.2.1. Một số giá trị đặc trưng của mẫu
Trung bình cộng (Mean)
Trị số trung bình cộng (X) là tham số đặc trưng cho sự tập trung của dãy số. Trung bình cộng (arithmetic mean) của một dãy số là số tổng cộng các đo lường chia cho N (tổng số) các quan sát.
Trị số trung bình cho biết chất lượng của dãy số thống kê. Trung bình cộng là số đo khuynh hướng định tâm một cách vững chãi nhất từ một mẫu này đến mẫu khác. Vì vậy, trong khoa học giáo dục, thường so sánh trung bình cộng của các dãy số để biết giá trị của mỗi dãy số đó và để so sánh giá trị của các mẫu quan sát. Đối với những dãy số với nhiều giá trị, người nghiên cứu nên dùng hàm “Descriptive Statistics” của excel để xác định đặc trưng trung bình cộng một cách khoa học và chính xác.
Sai số mẫu (Standard Error)
Sai số mẫu là sự chênh lệch về trị số các chỉ tiêu tính được trong điều tra chọn mẫu và các chỉ tiêu tương ứng của tổng thể chung. Sai số mẫu tồn tại ngay trong bản thân cuộc điều tra chọn mẫu, vì chỉ tiến hành điều tra thực tế trên một số đơn vị tổng thể mà lại suy rộng ra cho toàn bộ tổng thể. Chỉ cần một chút khác nhau về đặc điểm, kết cấu giữa tổng thể mẫu và tổng thể chung là sai số mẫu đã có thể phát sinh. Sai số mẫu càng lớn thì tính chất đại biểu của tổng thể mẫu càng thấp. Sai số mẫu phụ thuộc vào các nhân tố như số mẫu được chọn, trình độ đồng đều của tổng thể, phương pháp chọn mẫu.
Sai số mẫu là số đo sự biến thiên giữa tất cả các mẫu có thể có. Sai số mẫu thường được đo bằng sai số chuẩn đối với một chỉ tiêu thống kê cụ thể (giá trị trung bình, phần trăm, …), sai số chuẩn chính là căn bậc hai của phương sai. Sai số chuẩn có thể sử dụng để tính khoảng tin cậy mà trong đó chứa giá trị đúng của tổng thể. Ví dụ, đối với một chỉ tiêu thống kê bất kỳ được tính từ điều tra mẫu, thì giá trị thống kê thực sẽ rơi vào trong khoảng cộng hoặc trừ hai lần sai số chuẩn của chỉ tiêu đó với độ tin cậy 95 % của tất cả các mẫu.
Trung vị (Median)
Trung vị của một tập hợp đo lường là trị số rơi vào chính giữa khi các số đo lường ấy được xếp đặt theo thứ tự độ lớn của chúng.
Ví dụ, khi chấm bài kiểm tra của một lớp chúng ta sắp xếp các bài kiểm tra theo thứ tự điểm từ nhỏ đến lớn (từ 1 đến 10), rồi xác định trung vị, tức là xác định vị trí của các bài kiểm tra theo thứ hạng với công thức tổng quát là 1/2 (N+1) rồi đếm từ trên xuống hay từ dưới lên để tìm ra số trung vị. Tuy nhiên, đối với những dãy số với nhiều giá trị, người nghiên cứu nên dùng hàm
“Descriptive Statistics” của excel để xác định trung vị một cách khoa học và chính xác.
Yếu vị (Mode)
Yếu vị là giá trị có tần số lớn nhất trong một dãy số thống kê (giá trị hay gặp nhất trong vùng thống kê). Ví dụ, trong hình 1.6. giá trị mode điểm số của lớp ĐC là điểm 7, còn ở các lớp TN là điểm 9, vì đây là những điểm số có tần số lớn nhất.
So sánh yếu vị có thể biết được một phần giá trị của dãy số thống kê.
Những biến định tính chỉ có thể so sánh bằng yếu vị.
Các biến định tính chỉ có thể so sánh bằng yếu vị. Ví dụ, so sánh tỷ lệ nam/nữ trong số trẻ sinh ra ở một bệnh viện, hoặc so sánh tỷ lệ các dân tộc trong các lớp của một trường đại học…
Mode có thể xác định bằng quan sát trực tiếp trong bảng tần số. Tuy nhiên, đối với những dãy số với nhiều giá trị, người nghiên cứu nên dùng hàm
“Descriptive Statistics” của excel để xác định mode một cách khoa học và chính xác.
Độ lệch tiêu chuẩn (Standard deviation)
Phương sai là một số đo lường biến thiên. Về nguyên tắc, phương sai càng lớn thì thì sự biến thiên hay mức độ phân tán của các trị số xung quanh giá trị trung bình càng lớn.
Nhưng phương sai có giá trị là bao nhiêu mới được coi là lớn? Chúng ta có thể so sánh các phương sai của nhiều tập hợp đo lường với nhau về tính biến thiên, nhưng sẽ rất khó để giải thích phương sai khi chỉ có một tập hợp đo lường. Do đó cần phải tiến hành đo lường biến thiên có ích lợi không những để so sánh mà còn để mô tả một tập hợp đo lường duy nhất, đó là độ lệch tiêu chuẩn.
Độ lệch tiêu chuẩn của một tập hợp đo lường là căn bậc hai của phương sai, được xác định theo công thức sau:
2
1
) (
n x x S
n
i
i
Trong việc xử lí đối với những dãy số với nhiều giá trị, người nghiên cứu nên dùng hàm “Descriptive Statistics” của excel để xác định độ lệch chuẩn một cách khoa học và chính xác.
Phương sai (Variance)
Trong một dãy số thống kê, khi xác định được giá trị trung bình (X) chúng ta sẽ xác định được khoảng cách giữa một điểm bất kỳ với trung bình của dãy số (X - X) đó là độ lệch (deviation).
Độ lệch cũng chứa đựng thông tin về sự biến thiên của các điểm số, do đó nếu tính trung bình của các độ lệch này ta sẽ có một tham số khá tốt về sự biến thiên.
Nhưng độ lệch có thể là số dương và cũng có thể là số âm hơn nữa tổng độ lệch sẽ bằng không. Để tránh sự bất tiện này, người ta bình phương các độ lệch ấy rồi cộng lại để có tổng các độ lệch bình phương, từ đó tính ra phương sai.
Độ lệch của một số đo lường X từ trung bình của mẫu X được biểu thị là X - X . Bình phương độ lệch này là (X-X)2. Có thể định nghĩa phương sai như sau:
Phương sai của một tập hợp thống kê là tỷ số giữa tổng bình phương biến sai của các trị số cá thể quanh trung bình cộng với tổng bậc tự do của tập hợp. Phương sai được tính theo công thức sau:
2
2 1
) (
n x x S
n
i
i
Nếu n< 30 thì dùng công thức:
2
2 1
1 ) (
n x x S
n
i i
Sở dĩ chia cho (n – 1) vì nó cho ta một phỏng định phương sai của một dãy số chính xác hơn.
Ý nghĩa của phương sai Số bậc tự do:
- Đánh giá một dãy thống kê, dựa vào những số liệu thực tế quan trắc được độc lập nhau thực sự có giá trị làm cơ sở cho các kết luận. Khi tính trị số trung bình cộng, ta dùng n số liệu quan sát thực tế, chúng đều độc lập với nhau và gọi là n bậc tự do. Khi tính phương sai theo định nghĩa trên, là giá trị của xi xung quanh giá trị của x. Như vậy, nói tới phương sai là nói tới sự liên hệ giữa n trị số xi độc lập với trung bình cộng, có sự ràng buộc n giá trị xi với số trung bình cộng. Tức là, chỉ cần biết n – 1 giá trị xi trong số n giá trị xi ta sẽ tính được giá trị cuối cùng từ x.
- Người ta đã chứng minh rằng: nếu n > 30 (mẫu lớn) thì:
1000 3 1 1
1
n
n
Đây là một sai số rất bé, do đó khi n đủ lớn, bậc tự do tính phương sai sẽ là n, còn khi n 30, bậc tự do của bài toán sẽ là n-1.
Phương sai là tham số đặc trưng tiêu biểu nhất cho tính chất phân tán của số liệu. Nó cho phép xác định tổng biến sai và lượng biến sai trung bình của các cá thể quanh trung bình cộng.
Phương sai là tham số đặc trưng tiêu biểu nhất cho những số liệu định lượng về tập hợp thống kê.
Như vậy, tính được phương sai là biết được tổng thể của nó và những mâu thuẫn nội tại của nó cân bằng giữa xu hướng tập trung và xu hướng phân tán của những số liệu.
Trong việc xử lí đối với những dãy số với nhiều giá trị, người nghiên cứu nên dùng hàm “Descriptive Statistics” của excel để xác định phương sai một cách khoa học và chính xác.
Khoảng biến thiên (Range)
Khoảng biến thiên là một tham số đơn giản nhất, khoảng biến thiên của một dãy số là hiệu số giữa số đo lường cao nhất và thấp nhất của chuỗi thống kê.
Khoảng biến thiên được tính theo công thức: R = Xmax - X min, Ví dụ:
khoảng biến thiên của mẫu A là 10, còn khoảng biến thiên của mẫu B là 26.
Như vậy mẫu B có các số đo lường biến thiên nhiều hơn. Tuy nhiên, cũng có trường hợp hai mẫu có khoảng biến thiên bằng nhau, nhưng sự biến thiên lại khác nhau rõ rệt, Ví dụ hình 1.14. Như vậy, khoảng biến thiên không phải là tham số thoả đáng tính biến thiên của các tập hợp dữ liệu.
0 20 40 60 80 100
1 2 3 4 5
A B