1. Trang chủ
  2. » Giáo án - Bài giảng

Cac do luong mo ta

39 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 525,65 KB

Nội dung

Thống kê xã hội học Khoa CTXH & PTCð Chương CÁC ðO LƯỜNG MƠ TẢ Các đo lường mơ tả Các đo lường khuynh hướng tập trung ñối với liệu chưa ñược nhóm lại Các ño lường ñộ phân tán ñối với liệu chưa nhóm lại Trung bình, phương sai độ lệch chuẩn liệu nhóm lại Sử dụng ñộ lệch chuẩn Các ño lường vị trí Biểu đồ hộp râu 1 Các ño lường khuynh hướng tập trung ñối với liệu chưa nhóm lại • Dữ liệu cho ta thông tin phần tử tổng thể mẫu gọi liệu chưa nhóm lại • Dữ liệu nhóm lại biểu diễn dạng bảng phân phối tần suất • Các đo lường khuynh hướng tập trung đo lường mơ tả nhằm cho biết ñiểm trung tâm tập liệu nằm ñâu phân phối tần suất tập liệu • Ba trị số (đặc trưng) thường dùng ñể ño lường khuynh hướng tập trung tập liệu trung bình (mean), trung vị (median) yếu vị (mode) Trung bình • Trung bình liệu chưa nhóm lại tính cách chia tổng giá trị cho số giá trị tập liệu Trung bình tổng thể (N số phần tử tổng thể) Trung bình mẫu (n số phần tử mẫu) µ = x = ∑x N ∑ x n • Ví dụ Bảng sau cho thấy tổng số tiền lương phải trả năm 2002 cho đội bịng chày quốc gia Mỹ MLB Team Anaheim Angels Atlanta Braves New York Yankees St Louis Cardinals Tampa Bay Devil Rays x= 2002 Total Payroll (millions of dollars) 62 93 126 75 34 ∑ x = 390 = $78 million n 5 • Ví dụ Bảng sau trình bày tuổi tất tám công nhân công ty nhỏ 53 32 µ=∑ = x N 61 27 39 44 49 57 362 = 45.25 years Tuổi trung bình 45 tuổi tháng • Các giá trị mà chúng nhỏ lớn so với phần lớn giá trị tập liệu ñược gọi giá trị bất thường (outliers) • Ví dụ Bảng sau trình bày dân số năm 2000 năm tiểu bang thuộc vùng Pacific Mỹ Population (thousands) State Washington Oregon Alaska Hawaii California 5894 3421 627 1212 33,872 Giá trị bất thường • Các giá trị bất thường ảnh hưởng ñến giá trị trung bình Tính trung bình khơng kể đến giá trị bất thường Trung bình = (5894+3421+627+1212) / = 2788,5 Tính trung bình có kể đến giá trị bất thường Trung bình = (5894+3421+627+1212+33872) / = 9005,2 Trung vị • Trung vị giá trị số hạng vị trí tập liệu xếp theo thứ tự tăng dần • Tính trung vị Trung vị = Giá trị số hạng thứ (n+1)/2 tập liệu ñã ñược theo thứ tự tăng dần Nếu n lẻ trung vị giá trị số hạng nằm tập liệu tăng dần Nếu n chẳn trung vị trung bình cộng hai giá trị hai số hạng nằm tập liệu tăng dần • Ví dụ Sau liệu số cân giảm ñi mẫu gồm năm thành viên CLB thể hình sau tháng gia nhập CLB 10 19 Sắp xếp lại ta ñược tập liệu 10 19 Vị trí = (5 + 1) / = Trung vị = Giá trị số hạng thứ = 10 • Ví dụ Sau liệu số cân giảm ñi mẫu gồm sáu thành viên CLB thể hình sau tháng gia nhập CLB 10 19 11 Sắp xếp lại ta ñược tập liệu 10 11 19 Vị trí = (6 + 1) / = 3,5 Trung vị = Trung bình cộng hai giá trị số hạng thứ thứ = (8 + 10) / = 11 • Trung vị cho ta ñiểm trung tâm biểu ñồ tần suất, với nửa giá trị liệu nằm bên trái trung vị nửa nằm bên phải trung vị • Khi dùng trung vị làm ñặc trưng ño lường khuynh hướng tập trung, giá trị khơng bị ảnh hưởng giá trị bất thường Yếu vị • Yếu vị giá trị xảy với tần suất cao tập liệu 12 • Ví dụ Giá ti vi hiệu, loại tám cửa hàng ñược tìm thấy sau 495, 486, 503, 495, 470, 505, 470 499 (theo USD) Yếu vị 495 (tần suất 2) 470 (tần suất 2) • Một tập liệu khơng có có nhiều yếu vị, có trung bình trung vị • Trung bình trung vị tính tốn với liệu định lượng Cịn yếu vị áp dụng với liệu định tính lẫn định lượng 13 Quan hệ trung bình, trung vị, yếu vị • ðối với biểu ñồ tần suất ñường cong tần suất ñối xứng có đỉnh 14 • ðối với biểu đồ tần suất ñường cong tần suất xiên phải 15 • ðối với biểu ñồ tần suất ñường cong tần suất xiên trái 16 Các đo lường mơ tả Các ño lường khuynh hướng tập trung ñối với liệu chưa nhóm lại Các đo lường ñộ phân tán ñối với liệu chưa ñược nhóm lại Trung bình, phương sai độ lệch chuẩn liệu nhóm lại Sử dụng độ lệch chuẩn Các đo lường vị trí Biểu ñồ hộp râu 17 Các ño lường ñộ phân tán ñối với liệu chưa ñược nhóm lại • Các đo lường độ phân tán đo lường mơ tả nhằm cho biết phân tán liệu tính biến thiên chúng tập liệu • Ba trị số (đăc trưng) thường dùng ñể ño lường ñộ phân tán tập liệu khoảng biến thiên (range), phương sai (variance) ñộ lệch chuẩn (standard deviation) Khoảng biến thiên Khoảng biến thiên = GT lớn – GT nhỏ 18 • Ví dụ Bảng sau cho biết tổng diện tích (tính theo miles) bốn tiểu bang vùng Western South-Central Mỹ State Total Area (square miles) Arkansas Louisiana Oklahoma Texas 53,182 49,651 69,903 267,277 Khoảng biến thiên tập liệu 267,277 – 49,651 = 217,626 square miles 19 • Khoảng biến thiên, giống trung bình, bị ảnh hưởng giá trị bất thường • Khoảng biến thiên tính dựa hai giá trị giá trị nhỏ giá trị lớn Phương sai ñộ lệch chuẩn • ðộ lệch chuẩn ñặc trưng ñược dùng nhiều ñể ño lường ñộ phân tán tập liệu • Giá trị độ lệch chuẩn cho ta biết giá trị tập liệu gần với trung bình đến cỡ 20 10 Với k = có 75% giá trị tập liệu nằm khoảng ñộ lệch chuẩn so với trung bình, tức nằm khoảng (µ - 2σ , µ + 2σ) Ít 75% giá trị nằm vùng tơ mầu µ – 2σ µ µ + 2σ 49 Với k = có 89% giá trị tập liệu nằm khoảng ñộ lệch chuẩn so với trung bình, tức nằm khoảng (µ - 3σ , µ + 3σ) Ít 75% giá trị nằm Ít 89% giá trị vùng tơ mầu nằm vùng tơ mầu µ – 3σ µ µ + 3σ 50 25 • Trong hình vẽ ta dùng ký hiệu trung bình độ lệch chuẩn tổng thể Tuy nhiên, định lý Chebyshev áp dụng cho tập liệu mẫu lẫn tập liệu tổng thể • Chú ý định lý Chebyshev áp dụng cho phân phối tần suất có hình dáng • Ví dụ Huyết áp trung bình tổng thể gồm 4000 phụ nữ ñược khảo sát tình trạng cao huyết áp 187 độ lệch chuẩn 22 Hỏi có phần trăm phụ nữ số có huyết áp khoảng 143 231? 51 Gọi µ σ trung bình độ lệch chuẩn huyết áp phụ nữ Ta có µ = 187 σ = 22 Khoảng cách 143 241 so với trung bình µ = 187 187 – 143 = 44 = x 22 231 – 187 = 44 = x 22 143 µ = 187 231 kK== 2, – 1/k2 = – ¼ = – 0.25 = 0.75 75% 52 26 Theo định lý Chebyshev, ta có 75% phụ nữ tổng thể khảo sát có huyết áp nằm khoảng 143 231 Ít 75% phụ nữ có huyết áp nằm khoảng 143 321 143 µ – 2σ 187 µ Huyết áp 321 µ + 2σ 53 Quy tắc thực nghiệm • Ta áp dụng định lý Chebyshev cho phân phối loại bất kỳ, quy tắc thực nghiệm áp dụng cho phân phối chuẩn mà thơi • Quy tắc thực nghiệm phát biểu phân phối chuẩn ta có xấp xỉ: - 68% quan sát nằm khoảng ñộ lệch chuẩn so với trung bình - 95% quan sát nằm khoảng hai ñộ lệch chuẩn so với trung bình - 99,7% quan sát nằm khoảng ba ñộ lệch chuẩn so với trung bình 54 27 99,7% 95% 68% µ – 3σ µ – 2σ µ – σ µ µ+σ µ + 2σ µ + 3σ 55 • Ví dụ Biết phân phối tuổi mẫu gồm 5000 người phân phối chuẩn, có trung bình độ lệch chuẩn 40 12 Tính xem có xấp xỉ phần trăm người mẫu có độ tuổi khoảng từ 16 đến 64? Ta có trung bình = 40, độ lệch chuẩn = 12 Khoảng cách từ 16 64 ñến trung bình 40 40 – 16 = 24 = x 12 64 – 40 = 24 = x 12 Vậy k = 2, theo quy tắc thực nghiệm ta có xấp xỉ 95% số người có ñộ tuổi khoảng từ 16 ñến 64 56 28 16 – 40 = -24 64 – 40 = 24 = -2s = 2s 16 x – 2s x = 40 64 Tuổi x + 2s Ta có xấp xỉ 95% quan sát nằm khoảng hai ñộ lệch chuẩn so với trung bình 57 Các đo lường mơ tả Các ño lường khuynh hướng tập trung ñối với liệu chưa nhóm lại Các đo lường ñộ phân tán ñối với liệu chưa ñược nhóm lại Trung bình, phương sai độ lệch chuẩn liệu nhóm lại Sử dụng độ lệch chuẩn Các đo lường vị trí Biểu ñồ hộp râu 58 29 Các đo lường vị trí • ðo lường vị trí xác định giá trị ứng với vị trí mối tương quan với giá trị khác tập liệu mẫu tổng thể • Ta quan tâm đến đo lường vị trí sau: - Các ñiểm tứ phân (quartiles) - Các ñiểm bách phân (percentiles) - Và cách tính điểm bách phân 59 ðiểm tứ phân • Các điểm tứ phân (quartiles) ba đo lường tóm lược nhằm chia tập liệu ñã ñược thứ tự thành bốn phần Mỗi phần chứa 25% quan sát tập liệu ñược xếp theo thứ tự tăng dần 25% 25% Q1 25% 25% Q2 Q3 60 30 • ðiểm tứ phân thứ hai (Q2) trung vị tập liệu • ðiểm tứ phân thứ (Q1) giá trị ñứng số quan sát nhỏ trung vị • ðiểm tứ phân thứ ba (Q3) giá trị ñứng số quan sát lớn trung vị • Khoảng cách ñiểm tứ phân thứ ba ñiểm tứ phân thứ ñược gọi ñộ trải IR (interquartile range) Ta có IR = Q3 – Q1 61 • Ví dụ Sau tuổi nhân viên cơng ty bảo hiểm Hãy xác định giá trị ñiểm tứ phân Cho biết tuổi 28 nằm đâu so với tuổi khác Tính độ trải 47 28 39 51 33 37 59 24 33 Sắp xếp liệu ñã cho theo thứ tự tăng dần 24 28 • 33 33 37 39 47 • 51 59 Trung vị = 37 Vậy Q2 = 37 Q1 = (28 + 33) / = 30,5 Q3 = (47 + 51) / = 49 Tuổi 28 nằm 25% thấp tuổi ðộ trải IR = 49 – 30,5 = 18,5 62 31 ðiểm bách phân • ðiểm bách phân ño lường tóm lược nhằm chia tập liệu ñã ñược thứ tự thành 100 phần • ðiểm bách phân thứ k ký hiệu Pk Trong ñó k số nguyên nằm khoảng từ ñến 99 Mỗi phần chứa 1% quan sát tập liệu ñược xếp theo thứ tự tăng dần 1% 1% 1% P1 P2 P3 1% 1% 1% P97 P98 P99 63 • Pk hiểu giá trị cho có khoảng k% quan sát nhỏ Pk, khoảng (100 - k)% quan sát lớn Pk • Tính Pk sau: Pk = Giá trị số hạng thứ (k x n / 100) tập liệu thứ tự Trong k ký hiệu số bách phân n kích thước mẫu 64 32 • Ví dụ Sau liệu tổng lợi tức 12 ban nhạc hàng ñầu vùng Bắc Mỹ suốt thời gian qua (tính theo triệu USD) 98,0 74,1 121,2 103,5 79,4 89,3 79,9 80,2 76,4 109,7 86,8 82,1 Dữ liệu sau xếp thứ tự ta ñược 74,1 76,4 79,4 79,9 80,2 82,1 86,8 89,3 98,0 103,5 109,7 121,2 Tìm giá trị điểm bách phân thứ 42 Ý nghĩa giá trị gì? 65 Vị trí ñiểm bách phân thứ 42 là: k x n / 100 = 42 x 12 / 100 = 5,04 Giá trị số hạng thứ 5,04 xấp xỉ giá trị số hạng thứ tập liệu ñã ñược thứ tự Vậy P42 = 80,2 triệu USD Ta có xấp xỉ 42% tổng lợi tức tập liệu ñã cho nhỏ 80,2 triệu USD, 58% tổng lợi tức lớn 80,2 triệu USD (Tức 42% 12 giá trị tổng lợi tức nhỏ 80,2, 58% 12 giá trị tổng lợi tức lớn 80,2) 66 33 • ðộ trải bách phân giá trị Số giá trị nhỏ xi x 100 ðT bách phân xi = -Tổng số giá trị tập DL • Ví dụ Tìm độ trải bách phân (percentile rank) tổng lợi tức 89,3 triệu USD 74,1 76,4 79,4 79,9 80,2 82,1 86,8 89,3 98,0 103,5 109,7 121,2 ðT bách phân 89,3 = x 100 / 12 = 58,33% Khoảng 58% tổng lợi tức có giá trị nhỏ 89,3 triệu USD 67 Các đo lường mơ tả Các đo lường khuynh hướng tập trung ñối với liệu chưa ñược nhóm lại Các ño lường ñộ phân tán ñối với liệu chưa ñược nhóm lại Trung bình, phương sai độ lệch chuẩn liệu nhóm lại Sử dụng độ lệch chuẩn Các đo lường vị trí Biểu đồ hộp râu 68 34 Biểu ñồ hộp râu • Biểu ñồ hộp râu biểu diễn liệu thơng qua năm đo lường tóm lược bao gồm: - Trung vị - ðiểm tứ phân ñầu tiên (Q1) - ðiểm tứ phân thứ ba (Q3) - GTNN tập liệu nằm khoảng I - GTLN tập liệu nằm khoảng I 69 • Khoảng I (Inner Fence) ñược xác ñịnh biên biên sau: - Biên khoảng I = Q1 – 1,5 x ðộ trải - Biên khoảng I = Q3 + 1,5 x ðộ trải • Ví dụ Sau thu nhập năm mẫu gồm 12 gia đình (tính theo triệu đồng) 35 29 44 72 43 64 41 50 54 104 39 58 Sắp xếp lại theo thứ tự tăng dần ta ñược 29 34 35 39 41 44 50 54 58 64 72 104 70 35 Trung vị = (44 + 50) / = 47 Q1 = (35 + 39) / = 37 Q3 = (58 + 64) / = 61 ðộ trải = Q3 - Q1 = 61 - 37 = 24 Biên khoảng I = 37 – 1,5 x 24 = 37 - 36 = Biên khoảng I = 61 + 1,5 x 24 = 97 Khoảng I = (1, 97) GTNN tập liệu nằm khoảng I 29 GTLN tập liệu nằm khoảng I 72 (1 gọi lower inner fence, 97 gọi upper inner fence, khoảng I gọi inner fence) 71 ðiểm tứ phân thứ ba ðiểm tứ phân thứ Trung vị 105 Thu nhập 72 36 ðiểm tứ phân thứ ðiểm tứ phân thứ ba Giá trị bất thường Trung vị GTNN nằm khoảng I GTLN nằm khoảng I 105 Thu nhập 73 • Ý nghĩa biểu ñồ hộp râu - Khoảng 50% giá trị liệu rơi vào bên hộp - Khoảng 25% giá trị rơi vào phía bên phải hộp - Khoảng 25% giá trị rơi vào phía bên trái hộp - Khoảng 50% giá trị rơi vào phía bên phải trung vị - Khoảng 50% giá trị rơi vào phía bên trái trung vị - Với tập liệu ñã cho, phân phối tần suất lệch bên phải 50% giá trị nhỏ ñược phân tán khoảng nhỏ 50% giá trị lớn 74 37 • Biểu đồ hộp râu cho ta thấy ñược trung tâm, ñộ phân tán, tình trạng lệch phân phối tần suất tập liệu • Các giá trị bất thường - Liên quan ñến khoảng O (outer fence) - Biên khoảng O = Q1 – x KL tứ phân - Biên khoảng O = Q3 + x KL tứ phân - Một quan sát nằm khoảng I nằm khoảng O ñược gọi phần tử bất thường yếu (mild outlier), cịn nằm ngồi khoảng O gọi phần tử bất thường mạnh (extreme outlier) 75 • Ví dụ Với tập liệu cho ta có: Q1 = (35 + 39) / = 37 Q3 = (58 + 64) / = 61 Khoảng lệch tứ phân = Q3 - Q1 = 61 - 37 = 24 Biên khoảng I = 37 – 1,5 x 24 = 37 - 36 = Biên khoảng I = 61 + 1,5 x 24 = 97 Biên khoảng O = 37 – x 24 = -35 Biên khoảng O = 61 + x 24 = 133 Vậy 104 phần tử bất thường yếu 76 38 Tóm lại, tìm hiểu … Các đo lường khuynh hướng tập trung liệu chưa nhóm lại Các ño lường ñộ phân tán ñối với liệu chưa nhóm lại Trung bình, phương sai độ lệch chuẩn liệu nhóm lại Sử dụng ñộ lệch chuẩn Các ño lường vị trí Biểu đồ hộp râu 77 Cám ơn ! 78 39 ... chày quốc gia Mỹ MLB Team Anaheim Angels Atlanta Braves New York Yankees St Louis Cardinals Tampa Bay Devil Rays x= 2002 Total Payroll (millions of dollars) 62 93 126 75 34 ∑ x = 390 = $78 million... cho đội bịng chày quốc gia Mỹ MLB Team 2002 Total Payroll (millions of dollars) Anaheim Angels Atlanta Braves New York Yankees St Louis Cardinals Tampa Bay Devil Rays 62 93 126 75 34 Tính độ lệch... cho ta biết giá trị tập liệu phân tán quanh trung bình phạm vi tương đối lớn (phân tán nhiều) 21 • Ví dụ Giả sử ta có hai mẫu A B với quan sát sau: Mẫu A: 10 12 15 18 20 Mẫu B: 15 22 28 Nếu ta

Ngày đăng: 06/04/2021, 22:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w