Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 96% (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không.
Dạng bài: thống kê mô tả.
Dữ liệu A từ khảo sát cho thấy thời gian hoàn thành sản phẩm mạch điện của 36 sinh viên trong quá trình thực tập Điện điện tử được ghi lại bằng bảng số liệu cụ thể Thời gian hoàn thành được đo bằng phút, phản ánh hiệu suất và khả năng thực hành của sinh viên trong lĩnh vực này.
Dữ liệu định tính: Kết quả khảo sát ngẫu nhiên 60 sinh viên có thành thạo một ngôn ngữ lập trình nào đó hay không (1: thành thạo, 0: không thành thạo)
Bài làm: Sử dụng dữ liệu A.
+ Xác định số tổ cần chia: k = (2 x n) 1 3
Chọn ô A6 nhập vào biểu thức =(2*COUNT(A2:I5))^(1/3).
+ Xác định trị số khoảng cách h theo công thức: h = ( Xmax− Xmin ) k
Chọn ô A7 nhập vào biểu thức =(MAX(A2:I5)-MIN(A2:I5))/4.
+ Ta xác định được các cận trên và cận dưới các tổ lần lượt là:
Nhập vào các ô từ A8 đến A11 lần lượt các giá trị:
Chọn chức năng Data/ Data Analysis/Histogram.
+ Input Range: địa chỉ tuyệt đối chứa dư liệu.
+ Bin Range: địa chỉ chứa bảng phân nhóm.
+ Output options: vị trí xuất kết quả.
+ Confidence Level for Mean: độ tin cậy cho trung bình.
Ta được kết quả: ( đã chỉnh sửa khung Khoảng thời gian ( Bin)).
2 Vẽ đồ thị phân phối tần số và đa giác tần số (A):
_ Vẽ đồ thị phân phối tần số:
+ Quét chọn bảng tần số
+ Dùng chức năng Insert Column Chart trên menu Insert.
_ Vẽ đa giác tần số:
+ Sử dụng bảng phân phối tần số của dữ liệu (A):
+ Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:
+ Quét chọn B12:B18, dùng chức năng Insert Line Chart trên menu Insert
+ Quét chọn B12:B18, dùng chức năng Insert 2D – column trên menu Insert
3.Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 96% (A).
_ Nhập dữ liệu vào bảng tính:
Chọn chức năng Data/Data Analysis/Descriptive Statistics.
+ Input Range: địa chỉ tuyệt đối chứa dư liệu.
+ Output options: vị trí xuất kết quả.
+ Confidence Level for Mean: độ tin cậy cho trung bình.
Dữ liệu định tính từ cuộc khảo sát ngẫu nhiên 60 sinh viên cho thấy khả năng thành thạo ngôn ngữ lập trình, với kết quả được phân loại thành hai nhóm: thành thạo (1) và không thành thạo (0) Để trình bày dữ liệu này một cách trực quan, có thể sử dụng các đồ thị như biểu đồ cột hoặc biểu đồ tròn, giúp dễ dàng nhận diện tỷ lệ sinh viên thành thạo và không thành thạo ngôn ngữ lập trình.
Bảng phân phối tần số, tần suất: Đặc trưng mẫu: x n f
Biểu đồ phân phối tần số:
5 Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không.
Kiểm định A: Với mức ý nghĩa 4%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không? (độ tin cậy 96%)
Giả thuyết kiểm định H0: Mẫu phù hợp với phân phối chuẩn.
Giả thuyết đối kiểm định H1: Mẫu không phù hợp với phân phối chuẩn.
Tính các đặc trưng mẫu: n = 36 x = 19.4167 s ^= 4.2582=(STDEVP(A1:A36))
+ x là ước lượng hợp lý cực đại cho a => a.4167
+ s ^2 là ước lượng hợp lý cực đại cho 2 => σ = 4.2582
(16;20) 11 =NORM.S.DIST((20-D5)/D6,TRUE)- NORM.S.DIST((16-
(20;24) 10 =NORM.S.DIST((24-D5)/D6,TRUE) - NORM.S.DIST((20-
= 1.0980112 W => Chấp nhận H0Vậy dữ liệu A phù hợp với phân phối chuẩn.
Hai máy được sử dụng để gia công một loại chi tiết, và để đánh giá độ chính xác của chúng, người ta đã lấy ngẫu nhiên 7 chi tiết từ mỗi máy để đo lường Kết quả đo được thể hiện bằng đơn vị mm.
Có thể cho rằng 2 máy có độ chính xác như nhau hay không, với mức ý nghĩa 2%? Giả thiết rằng kích thước chi tiết có phân phối chuẩn.
Dạng bài: Kiểm định giảthuyết cho phương sai hai tổng thể.
Công cụ: F-Test Two-Sample for Variances.
Khi cần kiểm định sự đồng đều giữa hai tổng thể, chúng ta sử dụng phương pháp kiểm định phương sai của hai tổng thể độc lập dựa trên đại lượng F.
Trong đó: S1 là phương sai của mẫu thứ nhất, mẫu này có cỡ n1
S2 là phương sai của mẫu thứ hai, mẫu này có cỡ n 2
Để xác định mẫu thứ nhất và mẫu thứ hai, ta so sánh giá trị phương sai Giá trị phương sai lớn hơn sẽ được đặt ở tử số trong công thức tính đại lượng F, từ đó xác định mẫu tương ứng với phương sai đó là mẫu thứ nhất.
- Giả thiết đặt ra là kiểm định hai bên:
Nếu tỉ số F rất lớn hoặc rất nhỏ, điều này cho thấy hai phương sai tổng thể khó có thể bằng nhau Ngược lại, nếu tỉ số này gần bằng 1, chúng ta có bằng chứng ủng hộ giả thuyết Ho Khi tổng thể được giả định có phân phối bình thường, tỉ số F sẽ tuân theo phân phối xác suất gọi là phân phối Fisher Các giá trị tới hạn của phân phối F phụ thuộc vào hai giá trị bậc tự do, trong đó bậc tự do tử số (d𝑓1=n1-1) liên quan đến mẫu thứ nhất.
Quy tắc bác bỏ giả thuyết 𝐻0 trong kiểm định hai bên với bậc tự do d𝑓1=n1-1 và d𝑓2=n2-1 ở mức ý nghĩa α là: bác bỏ 𝐻0 nếu giá trị kiểm định F lớn hơn giá trị tới hạn FU=Fdf1;df2;α/2 của phân phối F hoặc nhỏ hơn giá trị tới hạn dưới FL=Fdf1;df2;α/2.
FttFdf1;df2;α/2
Nếu chúng ta kiểm định bên phải:
Quy tắc bác bỏ 𝐻o là khi:
Nếu F Chấp nhận giả thuyết Ho với xác suất (1-α)100%.
Vào Data/ Data Analysis/ F-Test Two-Sample for Variances.
Chọn các mục như hình:
+ Input: địa chỉ tuyệt đối chứa dư liệu tương ứng của mẫu 1 và 2.
+ Output options: vị trí xuất kết quả.
+ Apha: mức ý nghĩa α (chọn tại ô alpha).
Ho: σ1 2 = σ2 2 “Độ chính xác chi tiết của 2 máy là giống nhau”.
H1: σ1 2≠ σ2 2 “Độ chính xác chi tiết của 2 máy là khác nhau”.
Chấp nhận Ho , bác bỏ H1
Kết luận : Độ chính xác chi tiết của máy là giống nhau.
Theo thông tin từ nhà phân phối, mức tiêu thụ nhiên liệu trung bình của bốn loại xe ô tô là tương đương Tuy nhiên, sau một thời gian sử dụng, khi tiến hành đo lại trên các quãng đường giống nhau, kết quả cho thấy sự khác biệt rõ rệt.
Loại xe Mức tiêu thụ nhiên liệu
Mức tiêu thụ nhiên liệu của bốn loại xe này có thể được so sánh với mức ý nghĩa 4% hay không? Để làm rõ điều này, cần tìm hệ số xác định R² của bài toán và giải thích ý nghĩa của nó.
Dạng bài: Kiểm định giá trị trung bình một nhân tố
Phương pháp giải: Phân tích phương sai một nhân tố
Công cụ giải: Anova single factor
Giả sử nhân tố A có k mức X1, X2, …, Xk với Xj có phân phối chuẩn N(a,σ 2 ) có mẫu điều tra:
Với mức ý nghĩa α ta kiểm định giả thiết:
H1: “Tồn tại j1≠j2 sao cho aj1≠aj2 Đặt:
Tổng bình phương độ lệch do nhân tố Sum of Squares for Factor:
Tổng bình phương độ lệch do sai số Sum of Squares for Error
hay SST=SSF+SSE Trung bình bình phương của nhân tố Mean Square for Error:
Trong đó, k-1 là bậc tự do của nhân tố
Trung bình bình phương của sai số Mean Square for Error:
Bậc tự do Trung bình
Tỷ số F phương bình phương
Nhân tố SSF k-1 MSF MSF/MSE
So sánh F ở trên với F lý thuyết tra từ bảng phân phối F với k-1 bậc tự do ở tử số và n-k bậc tự do ở mẫu số với mức ý nghĩa α, ta kết luận:
- Nếu F > F lý thuyết, ta bác bỏ Ho
- Nếu F < F lý thuyết, Ho đúng
SST chính là tỷ lệ hay số phần trăm chiếm trong tổng số 100% của toàn bộ sự sai lệch của Xij so với giá trị trung bình của chúng.
To perform the analysis, navigate to Data, then Data Analysis, and select Anova: Single Factor Choose the appropriate folders as shown in the image For the Input Range, specify the absolute address containing the data Determine the Output options for the location of the results, and set the Alpha level to define the significance level (α).
H0: Mức tiêu thụ nhiện liệu 4 loại xe là giống nhau
H1: Mức tiêu thụ nhiên liệu 4 loại xe là khác nhau.
Vì F = 1.284075 < F critical = 3.234466 nên ta giả thiết H0 đúng.
Vậy mức tiêu thụ nhiên liệu của 4 loại xe là giống nhau.
Tính hệ số xác định R 2 :
Từ bảng “Anova: Single Factor” ta tính được hệ số tương quan R 2 theo công thức:
Thực hiện trên Excel: o Chọn ô đưa ra kết quả của R 2 o Nhập công thức: 0/B23.
Ta thu được kết quả sau:
Hệ số xác định R² = 0.138 cho thấy yếu tố nơi lấy mẫu chỉ ảnh hưởng 13.8% đến mức tiêu thụ nhiên liệu của các loại xe.
Một cuộc điều tra xã hội học đã được thực hiện tại năm thành phố A, B, C, D và E, nhằm đánh giá mức độ thỏa mãn của cư dân đối với nơi họ sinh sống Kết quả cho thấy sự khác biệt rõ rệt trong cảm nhận của người dân về chất lượng cuộc sống tại từng thành phố.
Thành phố Mức độ thỏa mãn
63 75 24 43 73 Với mức ý nghĩa = 3% Hãy kiểm định xem mức độ thỏa mãn có phân bố giống nhau ở 5 thành phố trên hay không?
Dạng bài: kiểm định giả thiết về tỷ lệ.
Phương pháp giải: Áp dụng kiểm định chi bình phương χ 2
Công cụ giải: hàm CHITEST trên EXCEL.
Kiểm định chi bình phương (χ²) là một nhóm phương pháp kiểm định giả thuyết thống kê, trong đó thống kê kiểm định tuân theo phân bố χ² khi giả thuyết không đúng.
Kiểm định chi bình phương Pearsom.
Kiểm định chi bình phương Yates.
Kiểm định chi bình phương Mantel-Haenszel.
-Dạng thống kê kiểm định thông dụng nhất là:
-Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác.
-Gọi pi (i=1, 2, …r) là tỉ lệ cá thể tính trạng 𝐴Itrong tập hợp chính H Khi đó vecto π= (𝑞1, 𝑞2, …𝑞r) được gọi là phân bố của A trong tập hợp chính H.
-Giả sử (p1, p2, … pr) là phân bố của (𝐴1, 𝐴2, 𝐴r) trong tập hợp chính H và (q1, q2,
…qr) là phân bố của A= (𝐴1, 𝐴2, 𝐴r) trong tập hợp chính Y Ta nói (𝐴1, 𝐴2, 𝐴r) có phân bố như nhau trong X và Y nếu (p1, p2 ,…pr)= (q1 ,q2,…qr)p1 =q1,…pr =qr
-Chúng ta muốn kiểm định xem A= (𝐴1, 𝐴2, , 𝐴r) có cùng phân số trong X và
Y hay không dựa trên các mẫu ngẫu nhiên rút từ X và Y.
-Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2, Hk gọi π i = p1 i , p2 i
,…pr i là phân bố của A =(𝐴1, 𝐴2, 𝐴r) trong tập hợp chính 𝐻i
-Ta muốn kiểm định giả thuyết sau:
(Các phân bố này là như nhau trên các tập hợp chính 𝐻i)
-Chú ý rằng tương đương với hệ đẳng thức sau:
-Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên Mẫu ngẫu nhiên chọn từ tập hợp chính 𝐻i được gọi là ngẫu nhiên thứ i (i = 1, 2, , k)
-Giả sử trong mẫu ngẫu nhiên thứ i:
-Có 𝑛1i cá thể có tính trạng 𝐴1.
𝑛2i cá thể có tính trạng 𝐴2.
𝑛ri cá thể có tính trạng 𝐴r.
-Như vậy 𝑛0j là kích thước của mẫu thứ j, còn 𝑛j0 là tổng số cá thể có tính trạng
𝐴I trong toàn bộ k mẫu đang xét:
1 0 1 0 r k i i j j n n n là tổng số tất cả các cá thế của k mẫu đang xét
- Nếu giả thuyết 𝐻o là đúng nghĩa là:
-Thì các tỷ lệ chung p1 ,p2,…pr được ước lượng bởi
-Đo ước lượng cho xác suất để một cá thể có mang tính trang 𝐴j.Khi đó số cá thể có tính trạng 𝐴j trong mẫu thứ j sẽ xấp xỉ bằng:
-Các số n i ij ^ ( 1, 2, , ; r j 1,2, k) được gọi là các tần số lý thuyết(TSLT), cácsố
𝑛ijđược gọi là các tần số quan sát (TSQS).
-Ta quyết định bác bỏ 𝐻o khi các TSLT cách xa TSQS một cách bất thường Khoảng cách giữa TSLT và TSQS được đo bằng test thống kê sau đây:
( ij ij ) ( ) k r f i ij n n TSQS TSLT
Nếu giả thuyết 𝐻o đúng và các TSLT không nhỏ hơn 5, thì thống kê T sẽ có phân bố xấp xỉ với (k-1).(r-1) bậc tự do Do đó, miền bác bỏ có dạng {T>c}, trong đó c được xác định từ điều kiện P{T>c} = 𝛼, tức là c là phân vị mức 𝛼 của phân bố χ² với (k-1).(r-1) bậc tự do Để so sánh các tỉ số của các kết quả trong thí nghiệm, ta sử dụng kiểm định 𝛾² (chi-quared).
Tonghang Tong np n nij: tần số thực nghiệm: 𝑛𝑞ij: tần số lý thuyết của ô (i, j): r: số hàng; c: số cột
Dùng hầm CHITEST (actual_range, expected_range).
Nếu: P(X >𝛾 2 ) >𝛼 thì chấp nhân 𝐻ovà ngược lại.
Nhận xét: Đây là bài toán kiểm định giả thuyết về tỷ lệ.
Giải thuyết Ho: Tỷ lệ mức độ thỏa mãn của 5 thành phố là giống nhau.
Nhập giá trị vào bảng tính.
Tổng cột: Chọn A8, nhập =SUM(B2:B7), rồi Enter, dùng con trỏ kéo sang các dòng khác.
Tổng hàng: Chọn E3, nhập =SUM(B3:D3), rồi Enter, dùng con trỏ kéo.
Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng.
Để thực hiện các bước tính toán, đầu tiên, chọn ô B13 và nhập công thức $B$8/$E$8, sau đó nhấn Enter và kéo xuống đến dòng 17 Tiếp theo, chọn ô C13, nhập $C$8/$E$8, nhấn Enter và kéo xuống dòng 17 Tương tự, chọn ô D13, nhập $D$8/$E$8, nhấn Enter và kéo xuống dòng 17 Sau đó, áp dụng hàm CHITEST để tính giá trị 𝑃(𝑋>𝜒 2 ) Cuối cùng, chọn ô A20, nhập công thức =CHITEST(B3:D7,B13:D17) và nhấn Enter để hoàn tất.
Bác bỏ giả thuyết Ho.
Kết luận: mức độ thỏa mãn ở 5 thành phố trên là không giống nhau
Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô hình hồi quy tuyến tính đơn Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X, Y.
2) Quan hệ giữa X, Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X.
3) Tìm sai số chuẩn của ước lượng.
Khảo sát lượng dầu tiêu thụ trung bình của một động cơ làm việc trong 14 lần khác nhau ( mặc định độ tin cậy 95%).
Lượng dầu tiêu thụ (ml)
Bài làm: o Cơ sở lí thuyết :
Nếu R > 0 thì X, Y tương quan thuận.
Nếu R < 0 thì X, Y tương quan nghịch.
Nếu R = 0 thì X, Y không tương quan.
Nếu | R |= 1 thì X, Y có quan hệ hàm bậc nhất.
Nếu | R |→ 1 thì X, Y có tương quan chặt (tương quan mạnh).
Nếu | R |→ 0 thì X, Y có tương quan không chặt (tương quan yếu).
Nhập dữ liệu và tính toán:
Chọn chức năng Data/Data Analysis/Correlation.
Ta có hệ số tương quan là R = 0,991711 chứng tỏ giữa thời gian và lượng dầu tiêu thụ có quan hệ khá chặc chẽ và có tương quan thuận.
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không?
Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X
Giả thiết H0: X và Y không có tương quan tuyến tính:
Tính T: chọn ô F4 và nhập biểu thức SQRT(14-2)/SQRT(1-F3^2).
Tính c: chọn ô F5 và nhập biểu thức =TINV(0.05,12) (c là phân vị mức α/2=0.025 của phân bố Student với n-2 bậc tự do).
Vì |T| > c nên bác bỏ giả thiết H 0
Vậy: X và Y có tương quan tuyến tính.
Ước lượng đường hồi quy tuyến tính Y theo X.
Phương trình hồi quy tuyến tính: y´ s =a+bx , a=rS´ y
+ Giả thiết H0: Hệ số hồi quy không có ý nghĩa (=0).
+ H1: Hệ số hồi quy có ý nghĩa (≠0).
H1: “Phương trình hồi quy tuyến tính thích hợp”.
Nhập số liệu vào bảng tính:
Hệ số hồi quy: 1,49E-05=1,49.10 -5 < 0.05 Hệ số tự do không có ý nghĩa.
4,6E-12 = 4,6.10 -12 < 0.05 Hệ số của x không có ý nghĩa.
Phương trình hồi quy tuyến tính này không thích hợp vì 4,6E-
3) Tìm sai số chuẩn của ước lượng:
Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được sai số. chuẩn của ước lượng:
- Đối với biến tự do: SE = 19,1892.