5
• Đề bài: Một nông trường nuôi 3 giống bò sữa A, B, C Lượng sữa của các con bò này được thể hiện trong bảng theo dõi sau:
Với mức ý nghĩa α = 5%, hãy nhận định xem có phải 3 giống bò này thuần như nhau về phương diện sản lượng sữa hay không?
Trong đó: ̅̅̅̅̅̅ x i (i = 1, k) – các dấu hiệu mà X nhận ̅̅̅̅̅̅ y i (j = 1, h) – các dấu hiệu mà Y nhận
( ̅̅̅̅̅ ) – số lần X nhận ni i = 1, k xi
– số lần Y nhận y j ̅̅̅̅̅̅ ̅̅̅̅̅ ni, j(i = 1, k, j = 1, h) – số lần đồng t hời X nhận xi và Y nhậ n yj
- Tìm 2 α = 2 α [(k − 1)(h − 1)] từ bảng phân vị 2
• Bài giải: o Dạng bài: Kiểm định về phân bố (kiểm định tính độc lập)
- Giả thiết H0: Mức độ sản lượng sữa giữa 3 giống bò thuần như nhau.
- Giả thiết H1: Có ít nhất 2 loại bò có sản lượng sữa khác nhau.
Với mức ý nghĩa α = 5% = 0,05 Sử dụng hàm Chiinv (0.05,4) ta có được: χ 2 0,05 [(3 − 1) (3 − 1)] = 9,49
Theo đề bài, ta có: n = 368
Tổng cột 1,2,3 có giá trị lần lượt là m 1 = 220, m 2 = 71 , m 3 = 77
Tổng hàng 1,2,3 có giá trị lần lượt là n 1 = 175 , n 2 87 , n 3 = 106
Vì χ 2 > χ 2 0,05 => bác bỏ H0, chấp nhận H1 o Kết luận: 3 giống bò này khác nhau về phương diện sản lượng sữa.
Pearson's Chi-squared test data: data2 X-squared = 11.39, df = 4, p-value = 0.02252 Ít
> colnames(data2)=c("Ít","Trung bình","Nhiều")
> data2=as.data.frame(data2)
Kết luận: 3 giống bò này khác nhau về phương diện sản lượng sữa.
8
Với mức ý nghĩa 5%, việc phân tích tình hình kinh doanh của một số ngành nghề tại bốn quận nội thành dựa trên số liệu doanh thu từ các cửa hàng cho thấy những xu hướng và biến động rõ rệt Các ngành nghề khác nhau có sự tăng trưởng và phát triển không đồng đều, phản ánh nhu cầu thị trường và thói quen tiêu dùng của người dân trong khu vực Số liệu doanh thu cung cấp cái nhìn sâu sắc về hiệu quả kinh doanh và khả năng cạnh tranh của từng ngành, từ đó giúp các doanh nghiệp điều chỉnh chiến lược phù hợp nhằm tối ưu hóa lợi nhuận.
Ngành nghề kinh doanh Điện lạnh Vật liệu xây dựng Dịch vụ tin học
Giả sử chúng ta quan tâm tới nhân tố A và B Nhân tố A được xem xét ở các mức A 1 ,
A 2 , A r , và nhân tố B được xem xét ở các nước B 1 , B 2 , B c
Gọi X jk là ĐLNN đo lường hiệu quả việc tác động của mức A j và B k lên cá thể.
Giả sử x 1jk , x 2jk , , x njk là mẫu kích thước n jk rút ra từ tập hợp chính các giá trị của
Mẫu (j, k) được ký hiệu là x jk, với các ký hiệu liên quan như sau: x jk là trung bình của mẫu (j, k), n j o là tổng số mẫu ở mức A j, n ok là tổng số mẫu ở mức B k, và n là tổng số mẫu Trung bình của mức A j được ký hiệu là x j o, trong khi trung bình của mức B k là x ok Cuối cùng, x đại diện cho trung bình chung, được tính từ x j k và n x ok.
Ta có bảng sau đây ghi các kết quả tính toán trên:
Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau: c r
Tổng bình phương cho nhân tố A, ký hiệu là SSF A được tính theo công thức sau:
Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức c
Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là SSI, được tính theo công thức.
Trung bình bình phương của nhân tố A, ký hiệu là MSF A’ được tính bởi công thức:
A r −1(r – 1 gọi là bậc tự do của A bằng số mức của A trừ 1)
Trung bình bình phương của nhân tố B, ký hiệu là MSF B’ được tính bởi công thức.
(c – 1 gọi là bậc tự do của B bằng số mức của B trừ 1) Trung bình bình phương của sai số, ký hiệu là MSE, được tính bởi
MSE = SSE n − cr n – cr gọi là bậc tự do của sai số.
Trung bình bình phương của tương tác, ký hiệu là MSI, được tính bởi
(c – 1) (r – 1) gọi là bậc tự do của tương tác.
(r – 1) + (c – 1) + (c – 1) (r – 1) + n – rc = n – 1 = bậc tự do tổng cộng.
+ Tỷ số F cho nhân tố A, ký hiệu bởi F A được tính như sau.
Tương tự tỷ số F cho nhân tố B, F B được tính bởi
B và tỷ số F cho tương tác giữa A và B, ký hiệu là F AB được tính bởi:
Với mức ý nghĩa đã cho ta ký hiệu f (u, v) là phân vị mức của phân bố Fisher với bậc tự do (u, v).
Ta có quy tắc quyết định như sau:
+ Nếu F A > f (r – 1, n – cr) thì ta bác bỏ giả thiết.
: “Các mức A 1 , Ar có hiệu quả trung bình như nhau”
+ Nếu F B > f (c – 1, n – cr) thì ta bác bỏ giả thiết:
: “Các mức B 1 , B 2 , B c có hiệu quả trung bình như nhau”
Ta bác bỏ giả thiết:
AB : “Có sự tương tác giữa A và B”.
Trên thực hành tính toán chúng ta thực hiện như sau:
Giả sử T jk là tổng các giá trị trong mẫu (j, k) Ký hiệu j k j k r
Ta có các đẳng thức sau:
A Đặc biệt nếu tất cả các mẫu bằng nhau n jk = m với mọi j, k thì: do đó n jo = cm , n ok = r m
• Bài giải: o Dạng bài: Kiểm định giá trị trung bình o Phương pháp: Phân tích phương sai 2 yếu tố có lặp o Giả thiết H0:
- Giả thiết H A : Doanh thu không phụ thuộc vào ngành nghề.
- Giả thiết H B : Doanh thu không phụ thuộc vào quận.
- Giả thiết H AB : Doanh thu giữa các ngành nghề và các quận không có liên quan tới nhau.
Sử dụng Excel để giải:
Nhập dữ liệu vào bảng:
Sử dụng ANOVA: Two-Factor with Replication ta được:
Yếu tố hàng (mẫu): F = 2.8929 < F–crit = 5.2479 → chấp nhận giả thiết H A
Doanh thu của các cửa hàng không phụ thuộc vào ngành nghề
Yếu tốc cột: F = 0.8189 < F–crit = 4.3771 → chấp nhận giả thiết H B
Doanh thu của các cửa hàng không phụ thuộc vào khu vực kinh doanh.
Kết quả phân tích cho thấy F = 0.6498 nhỏ hơn F–crit = 3.3507, do đó chúng ta chấp nhận giả thiết H AB Từ đó, có thể kết luận rằng tình hình kinh doanh giữa các ngành nghề và các quận là tương đương, không có sự tương tác hay ảnh hưởng giữa khu vực kinh doanh và ngành nghề.
Call: lm(formula = score ~ Industries +
Estimate Std Error t value Pr(>|t|)
Signif codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.448 on 26 degrees of freedom Multiple R-squared: 0.6445, Adjusted R-squared: 0.5761 F-statistic: 9.428 on 5 and 26 DF, p-value: 3.213e-05
0.6,10.4, 15.0, 9.5,9.3,9.1, 19.5,19.7, 1.2,1.0,9.8,1.8, 2.0,2.2,1.8, 1.2,1.3,1.2, 5.0,4.8,5.2) data F n−1;nm(r−1);1−α thì bác bỏ yếu tố A (hàng)
Nếu F B > F m−1;nm(r−1);1−α thì bác bỏ yếu tố B (cột)
Nếu F AB > F (n−1)(m−1);nm(r−1);1−α thì có sự tương tác giữa A và B
• Bài giải: o Dạng bài: Phân tích phương sai 2 yếu tố không lặp.
Thứ 2 Thứ 3 Thứ 4 Thứ 5 Thứ 6 Thứ 7
Từ đẳng thức cơ bản Anova SST = SSA + SSB + SSE suy ra:
Từ đó suy ra bảng Anova:
Với mức ý nghĩa α = 2%, tra bảng Fisher ta được miền bác bỏ:
* Đối với yếu tố (ngày khảo sát):
Giả thiết H0: Lượng báo trung bình bán ra ở các ngày khảo sát bằng nhau.
Giả thiết H1: Có ít nhất 2 ngày khảo sát có lượng báo trung bình bán ra khác nhau.
Vì F A ≥ F 0.02;5;20 (3.5672 > 3.4817) nên ta bác bỏ giả thiết H 0 , chấp nhận giả thiết H 1
Kết luận: Lượng báo trung bình bán ra có chịu tác động của các yếu tố ngày.
* Đối với yếu tố (Quận):
Giả thiết H0: Lượng báo trung bình bán ra ở các quận khảo sát bằng nhau.
Giả thiết H1: Có ít nhất 2 quận khảo sát có lượng báo trung bình bán ra khác nhau.
Vì F B ≤ F 0.02;4;20 = 3,73125017 nên ta chấp nhận giả thiết H 0
Kết luận: Lượng báo trung bình bán ra ở các quận nội thành không thực sự khác nhau. o Xử lý dữ liệu bằng R
Dữ liệu được tạo ra trong R bao gồm ba biến: ngày khảo sát, quan, và số báo Ngày khảo sát được xác định từ các ngày trong tuần, trong khi biến quan phân loại thành 5 nhóm khác nhau Số báo được ghi nhận cho từng nhóm và ngày khảo sát cụ thể Phân tích hồi quy tuyến tính được thực hiện để xác định mối quan hệ giữa số báo và các biến độc lập là quan và ngày khảo sát, với kết quả được kiểm tra thông qua phân tích phương sai (ANOVA).
Lệnh dùng để phân tích sự phụ thuộc của số báo vào 2 đại lượng là quận và ngày: phan_tich = lm(so_bao ~ quan + ngay_khao_sat)
Response: so_bao quan ngay_khao_sat 5
* Đối với nhân tố (ngày khảo sát):
Giả thiết H 0 : Lượng báo trung bình bán ra ở các ngày khảo sát bằng nhau
Giả thiết H 1 : Có ít nhất 2 ngày khảo sát có lượng báo trung bình bán ra khác nhau
Vì Pr(>F) = 0.0181 F) = 0.0773>0,02 nên chấp nhận H 0
Kết luận: Lượng báo trung bình bán ra ở các quận nội thành không thực sự khác nhau.