HOẠT ĐỘNG 1
Thực hiện
2.1 Đọc dữ liệu: Đọc tập tin “Diet.csv”
Hình 1: code R và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin
2.2 Làm sạch dữ liệu (Data cleaning)
Kiểm tra dữ liệu khuyết trong tập tin
Hình 2: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin
Trong bài viết này, chúng tôi nhận thấy biến giới tính có hai dữ liệu khuyết tại dòng 1 và dòng 2 của người tham gia thứ 25 và 26 Do chỉ có 2 trong tổng số 78 người không xác định được giới tính, chiếm tỷ lệ rất nhỏ là 2.56%, chúng tôi quyết định loại bỏ hai quan sát này khỏi phân tích.
Hình 3 : code R và kết quả khi xoá các quan sát chứa dữ liệu khuyết
2.3 Làm rõ dữ liệu: (Data visualization)
Tạo biến weight.loss = pre.weight - weight6weeks thể hiện lượng cân nặng đã giảm đi khi tham gia thực hiện các chế độ ăn kiêng
Hình 4 : code R và kết quả khi tạo thêm biến weight.loss
Thực hiện tính các giá trị thống kê mô tả cho các biến pre.weight, weight6weeks, weight.loss theo từng nhóm chế độ ăn kiêng (Diet)
Hình 5: code R và kết quả khi thực hiện thống kê mô tả cho các biến pre.weight, weight6weeks, weight.loss theo từng nhóm chế độ ăn kiêng (Diet)
Thống kê số lượng nam và nữ tham gia
Hình 6 : code R và kết quả khi thống kê số lượng nam và nữ tham gia
Thống kê số lượng người tham gia ở các chế độ ăn kiêng
Hình 7 : code R và kết quả khi thống kê người tham gia ở các chế độ ăn kiêng
Vẽ đồ thị Histogram cho biến weight.loss
Hình 8 : code R và kết quả khi vẽ đồ thị Histogram cho biến weight.loss
Vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss theo giới tính (gender)
Hình 9 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss theo giới tính (gender)
Vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss theo các chế độ ăn kiêng (Diet)
Hình 10 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss theo các chế độ ăn kiêng (Diet)
2.4 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks
Thực hiện kiểm định theo cặp để đánh giá xem liệu chế độ ăn kiêng (nói chung) có làm giảm cân nặng hay không? Đặt giả thuyết:
⇔ Cân nặng trung bình trước ăn kiêng và sau 6 tuần thực hiện chế độ ăn kiêng bằng nhau + Đối thuyết H1: à1 6= à2
⇔ Cân nặng trung bình trước ăn kiêng lớn hơn sau 6 tuần thực hiện chế độ ăn kiêng
Hình 11 : code R và kết quả khi thực hiện kiểm định theo cặp Nhận xét: Từ kết quả phân tích, ta thu được:
Với p-value < 2.2e-16, thấp hơn mức ý nghĩa α = 5%, chúng ta bác bỏ giả thuyết H0 và chấp nhận H1 Điều này cho thấy rằng, với mức ý nghĩa 5%, cân nặng trung bình trước khi ăn kiêng cao hơn sau 6 tuần thực hiện chế độ ăn kiêng, chứng tỏ rằng việc ăn kiêng đã giúp giảm cân nặng trung bình.
+ mean of the differences = 3.946053, cho thấy cân nặng trung bình giảm đi sau 6 tuần thực hiện ăn kiêng dựa trên mẫu thu được là 3.946053 kg
+ Khoảng tin cậy tối thiểu cho lượng cân nặng trung bình giảm đi sau 6 tuần thực hiện ăn kiêng là [3.46725]; + ∞), xét với độ tin cậy 95%
2.5 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân Để lựa chọn một chế độ ăn kiêng hiệu quả nhất trong việc giảm cân, ta thực hiện phân tích phương sai một nhân tố Trong đó:
+ Biến nhân tố (định tính): biến Diet
+ Biến độc lập (định lượng): biến weight.loss Đặt giả thuyết:
+ Giả thuyết H0: à1 = à2 = à3 ⇔ Cõn nặng trung bỡnh giảm đi ở cỏc chế độ ăn kiờng bằng nhau
+ Đối thuyết H1: 𝑢 𝑖 𝑢 𝑗 với (i j) ⇔ Có ít nhất 2 chế độ ăn kiêng có cân nặng trung bình giảm đi khác nhau
Nguồn của sự biến thiên SS df MS F
Giữa các nhóm SSB k - 1 MSB
Trong từng nhóm SSW N - k MSW 𝑀𝑆𝑊
+ Thống kê F là tỷ số giữa phương sai ước lượng giữa các nhóm với phương sai ước lượng trong từng nhóm
- df2 = N - k (N: tổng số phần tử khảo sát ở tất cả các nhóm)
Các giả định cần kiểm tra trong ANOVA một nhân tố:
+ Giả định phân phối chuẩn: Cân nặng giảm đi ở các chế độ ăn kiêng tuân theo phân phối chuẩn
+ Tính đồng nhất của các phương sai: Phương sai cân nặng giảm đi ở các chế độ ăn kiêng bằng nhau
Kiểm tra giả định phân phối chuẩn: Đối với chế độ ăn kiêng 1:
Hình 12 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng giảm đi ở chế độ ăn kiêng 1 bằng đồ thị
Biểu đồ QQ-plot cho thấy hầu hết các giá trị quan sát nằm trên đường thẳng kỳ vọng của phân phối chuẩn, cho thấy biến weight.loss trong chế độ ăn kiêng 1 tuân theo phân phối chuẩn.
Trong nghiên cứu này, chúng tôi đã sử dụng mã R để kiểm tra giả thuyết phân phối chuẩn cho sự giảm cân ở chế độ ăn kiêng 1 Giả thuyết H0 cho rằng cân nặng giảm đi ở chế độ ăn kiêng 1 tuân theo phân phối chuẩn, trong khi giả thuyết đối thuyết H1 khẳng định rằng cân nặng không tuân theo phân phối chuẩn Kết quả kiểm định sẽ giúp xác định tính chính xác của giả thuyết này.
Vì giá trị Pr(> F) = 0.07749 lớn hơn mức ý nghĩa α = 0.05, chúng ta không có đủ căn cứ để bác bỏ giả thuyết H0 Do đó, biến weight.loss trong chế độ ăn kiêng 1 được xác định là tuân theo phân phối chuẩn Đối với chế độ ăn kiêng 2, tình hình cần được xem xét thêm.
Hình 14 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng giảm đi ở chế độ ăn kiêng 2 bằng đồ thị
Biểu đồ QQ-plot cho thấy rằng hầu hết các giá trị quan sát nằm trên đường thẳng kỳ vọng của phân phối chuẩn, cho thấy biến weight.loss trong chế độ ăn kiêng 2 tuân theo phân phối chuẩn.
Trong nghiên cứu này, chúng tôi sử dụng code R để thực hiện kiểm định giả định phân phối chuẩn cho sự giảm cân khi áp dụng chế độ ăn kiêng 2 Giả thuyết H0 được đặt ra là "Cân nặng giảm đi ở chế độ ăn kiêng 2 tuân theo phân phối chuẩn", trong khi đó giả thuyết đối thuyết H1 cho rằng "Cân nặng giảm đi ở chế độ ăn kiêng 2 không tuân theo phân phối chuẩn" Kết quả kiểm định sẽ giúp xác định tính hợp lệ của giả thuyết này.
Vì giá trị Pr(> F) = 0.8722 lớn hơn mức ý nghĩa α = 0.05, chúng ta không có đủ cơ sở để bác bỏ giả thuyết H0 Do đó, biến weight.loss trong chế độ ăn kiêng 2 tuân theo phân phối chuẩn Đối với chế độ ăn kiêng 3, tình hình cần được phân tích thêm.
Hình 16 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng giảm đi ở chế độ ăn kiêng 3 bằng đồ thị
Biểu đồ QQ-plot cho thấy hầu hết các giá trị quan sát nằm trên đường thẳng kỳ vọng của phân phối chuẩn, điều này chứng tỏ rằng biến weight.loss trong chế độ ăn kiêng 3 tuân theo phân phối chuẩn.
Trong nghiên cứu này, chúng tôi đã sử dụng mã R để kiểm tra giả định phân phối chuẩn cho sự giảm cân khi áp dụng chế độ ăn kiêng 3 Giả thuyết H0 cho rằng cân nặng giảm đi tuân theo phân phối chuẩn, trong khi giả thuyết đối thuyết H1 khẳng định rằng cân nặng giảm không tuân theo phân phối chuẩn Kết quả từ kiểm định cho thấy sự cần thiết phải xem xét lại giả thuyết về phân phối chuẩn trong trường hợp này.
Vì Pr(> F) = 0.372 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0 Vậy biến weight.loss ở chế độ ăn kiêng 3 tuân theo phân phối chuẩn
Kiểm tra giả định tính đồng nhất của phương sai:
Hình 18 : code R và kết quả khi thực hiện kiểm giả định tính đồng nhất của phương sai
Giả thuyết H0 cho rằng phương sai cân nặng giảm đi ở các chế độ ăn kiêng giống nhau, trong khi đối thuyết H1 khẳng định rằng ít nhất có hai chế độ ăn kiêng khác nhau có phương sai cân nặng giảm đi không giống nhau.
Với giá trị Pr(>F) = 0.6313 lớn hơn mức ý nghĩa α = 0.05, chúng ta không có đủ bằng chứng để bác bỏ giả thuyết H0 Điều này cho thấy phương sai cân nặng giảm đi ở các chế độ ăn kiêng là tương đương nhau.
Thực hiện phân tích phương sai một nhân tố:
Hình 19 : code R và kết quả khi thực hiện ANOVA một nhân tố
Nhận xét: Dựa trên kết quả ANOVA cho thấy:
+ SSW = 410.4, bậc tự do N − k = 76 − 3 = 73 (N là tổng số phần tử khảo sát ở tất cả các nhóm)
+ Giá trị thống kê kiểm định: f = MSB/MSW = 5.383
+ Mức ý nghĩa quan sát: p − value = 0.0066
Dựa vào p-value là 0,429, lớn hơn mức ý nghĩa α = 5%, chúng ta bác bỏ giả thuyết H0 Thêm vào đó, với f = 5,383 nhỏ hơn ngưỡng fα;k−1;N−k = f0.05;2;73 = 3,1221, kết luận của chúng ta cũng là bác bỏ giả thuyết H0.
Có ít nhất hai chế độ ăn kiêng khác nhau có thể giúp giảm cân, cho thấy mức độ hiệu quả của từng chế độ là không giống nhau.
Ta thực hiện so sánh bội sau ANOVA một nhân tố để chọn ra chế độ ăn kiêng hiệu quả nhất trong việc giảm cân
Hình 20 : code R và kết quả khi thực hiện so sánh bội sau ANOVA một nhân tố
HOẠT ĐỘNG 2
Đoc dữ liệu (Import data)
Ta dùng lệnh read_excel để đoc tệp tin: library(readxl) #Yêu cầu đọc gói lệnh 'readxl' để sử dụng hàm 'read_excel'
Forest_fires |t|)
## Residual standard error: 4.923 on 117 degrees of freedom
## F-statistic: 20.97 on 4 and 117 DF, p-value: 4.716e-13
5.2 Dựa vào kết quả của mô hình hồi quy tuyến tính trên, để lựa chọn những biến sẽ loại khỏi mô hình tương ứng với mức tin cậy 5%, ta đặt:
Giả thuyết H0: Hệ số hồi quy không có ý nghĩa thống kê Đối thuyết H1: Hệ số hồi quy có ý nghĩa thống kê
Dựa vào kết quả của mô hình tuyến tính, các giá trị Pr(>|t|) cho các biến WS và Temperature nhỏ hơn 0,05, cho phép bác bỏ giả thuyết H0 và chấp nhận H1, điều này cho thấy các hệ số của những biến này có ý nghĩa thống kê Ngược lại, các giá trị Pr(>|t|) cho các biến Rain và RH lớn hơn 0,05, dẫn đến việc chấp nhận H0, nghĩa là các hệ số của Rain và RH không có ý nghĩa thống kê Do đó, hai biến Rain và RH sẽ được loại bỏ khỏi mô hình.
5.3 Xét 2 mô hinh tuyến tính cùng bao gồm biến FWI là biến phụ thuộc nhưng:
Mô hình M1 chứa tất cả các biến còn lai là biến độc lập
Mô hình M2 là loại bỏ biến Rain từ mô hình M1
Ta dùng lệnh lm để thực thi mô hinh hồi quy tuyến tính bội M2:
M2 = lm(FWI~ RH + Ws + Temperature, data = Forest_fires) summary(M2) #Tóm tắt kết quả mô hình M2
## lm(formula = FWI ~ RH + Ws + Temperature, data = Forest_fires)
## Estimate Std Error t value Pr(>|t|)
## Residual standard error: 4.913 on 118 degrees of freedom
## F-statistic: 27.91 on 3 and 118 DF, p-value: 1.033e-13
Sử dụng lệnh anova để chon mô hinh hợp lý nhất anova(M1,M2)
## Model 1: FWI ~ RH + Ws + Rain + Temperature
## Model 2: FWI ~ RH + Ws + Temperature
## Res.Df RSS Df Sum of Sq F Pr(>F)
Giả thuyết H0: Hai mô hình M1 và M2 hiệu quả giống nhau Đối thuyết H1: Hai mô hình M1 và M2 hiệu quả khác nhau
Dựa vào kết quả phân tích ANOVA hai mô hình M1 và M2 với giá trị Pr(>F) = 0,4825, ta thấy rằng Pr(>F) > 0,05 khi chọn mức ý nghĩa 0,05, cho thấy hai mô hình có hiệu quả tương đương Tuy nhiên, khi xem xét hệ số R2 hiệu chỉnh, mô hình M2 có giá trị R2 điều chỉnh là 0,4002, cao hơn so với mô hình M1 với giá trị 0,3976 Do đó, mặc dù ANOVA chỉ ra rằng hai mô hình là như nhau, ta có thể kết luận rằng mô hình M2 tốt hơn mô hình M1.
5.4 Mô hinh hồi quy tuyến tính ta chọn hợp lý ở câu c là mô hình M2 Ta suy luận sự tác động của các biến lên chỉ số FWI:
Các biến Temperature, RH và Ws đều có giá trị Pr(>|t|) rất nhỏ, cho thấy chúng có ý nghĩa thống kê cao đối với chỉ số FWI Điều này có nghĩa là sự thay đổi của các biến này ảnh hưởng đáng kể đến biến động của chỉ số thời tiết báo cháy FWI.
Hệ số hồi quy cho thấy sự ảnh hưởng của các biến Temperature, RH, và Ws đến biến FWI Cụ thể, hệ số tương ứng với biến Temperature là 1,03901, cho thấy rằng khi nhiệt độ tăng thêm 1 đơn vị, FWI cũng sẽ tăng lên, chứng tỏ mối liên hệ chặt chẽ giữa nhiệt độ và chỉ số này.
32 biến Temperature) thì ta có thể kỳ vong biến FWI tăng thêm 1,03901 đơn vị (tinh theo biến FWI) (giả sử các biến còn lai không thay đổi)
Hệ số tương tư cho thấy rằng khi biến RH/Ws tăng thêm 1 đơn vị, biến FWI có thể giảm 0,09368 đơn vị hoặc tăng 0,43229 đơn vị, với giả định rằng các biến khác không thay đổi.
5.5 Từ mô hình M2, ta dùng lệnh plot để vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values): plot(M2, which=1)