Nhập làm liệu, thực thống kê mô tả 20 Phân tích phương sai nhân tố (one way ANOVA) 21 XỬ LÝ SỐ LIỆU BÀI TẬP 21 Nhập làm liệu, thực thống kê mô tả 21 Phân tích phương sai nhân tố (oneway ANOVA) 37 B PHẦN RIÊNG ĐỀ BÀI: 49 CÂU HỎI: 49 Đọc liệu 49 Làm liệu (Data cleaning) 49 Làm rõ liệu (Data visualization) 49 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) 51 Dự báo (Predictions) 51 LÝ DO CHỌN ĐỀ TÀI Error! Bookmark not defined XỬ LÝ SỐ LIỆU 52 Đọc liệu 52 Làm liệu (Data cleaning) 52 Làm rõ liệu (Data visualization): 53 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) 61 Dự báo (Predictions) 66 Kết luận: 69 A PHẦN CHUNG YÊU CẦU ‑ Trình bày lý thuyết ANOVA ‑ Xử lý số liệu tập LÝ THUYẾT VỀ ANOVA (PHÂN TÍCH PHƯƠNG SAI) Mục tiêu phân tích phương sai (Analysis of Variance - ANOVA) so sánh trung bình nhiều nhóm (tổng thể) dựa trị trung bình mẫu quan sát từ nhóm thông qua kiểm định giả thuyết kết luận trung bình tổng thể Trong nghiên cứu, phân tích phương sai dùng công cụ để xem xét ảnh hưởng yếu tố nguyên nhân (định tính) đến yếu tố kết (định lượng) Ví dụ nghiên cứu ảnh hưởng thời gian tự học đến kết học tập sinh viên Nếu thời gian tự học sinh viên thu thập dạng liệu định tính (dưới giờ/ tuần, - 18 giờ/ tuần, 18 giờ/ tuần); kết học tập sinh viên liệu định lượng (điểm trung bình học tập), phân tích phương sai phương pháp phù hợp có nhóm cần so sánh trị trung bình Nếu chứng minh nhóm sinh viên có mức độ thời gian tự học khác có kết điểm trung bình học tập nhau, kết luận ảnh hưởng yếu tố thời gian tự học đến yếu tố kết học tập nhóm sinh viên có thời gian tự học khác Nếu qua phân tích phương sai thấy nhóm sinh viên có kết điểm trung bình khác nhau, nhóm có thời gian tự học nhiều
PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
Trường hợp k tổng thể có phân phối bình thường và phương sai bằng
Khi so sánh trung bình của k tổng thể (ví dụ k = 3), chúng ta sử dụng các mẫu ngẫu nhiên độc lập với kích thước n1, n2, n3,…, nk từ k tổng thể Để thực hiện phân tích ANOVA, cần lưu ý ba giả định quan trọng về các nhóm tổng thể.
- Các tổng thể này có phân phối bình thường
- Các phương sai tổng thể bằng nhau
- Các quan sát được lấy mẫu là độc lập nhau
Khi các giả định được đáp ứng, mô hình phân tích phương sai một yếu tố cho phép kiểm định giả thuyết về sự khác biệt giữa các trung bình của các tổng thể được ký hiệu là 𝜇 1, 𝜇 2, , 𝜇 𝑘.
Giả thuyết H0 khẳng định rằng trung bình của k tổng thể là bằng nhau, điều này ngụ ý rằng yếu tố nguyên nhân không ảnh hưởng đến vấn đề nghiên cứu Ngược lại, giả thuyết đối cho thấy có sự khác biệt giữa các tổng thể.
H1: Tồn tại ít nhất một cặp trung bình tổng thể khác nhau
Để tiến hành phân tích phương sai, giả định đầu tiên yêu cầu ba tổng thể có phân phối bình thường với mức độ phân tán tương đối giống nhau Tuy nhiên, ba vị trí chênh lệch của chúng cho thấy ba trị trung bình khác nhau Nếu bạn có giá trị của ba tổng thể và biểu diễn được phân phối của chúng, bạn có thể kết luận ngay rằng H0 bị bác bỏ, tức là ba tổng thể này có trị trung bình khác nhau.
Nhưng bạn chỉ có mẫu đại diện được quan sát, nên để kiểm định giả thuyết này, ta thực hiện các bước sau:
Bước 1: Tính các trung bình mẫu của các nhóm (xem như đại diện của các tổng thể)
Để tính toán các trung bình mẫu từ những quan sát của k mẫu ngẫu nhiên độc lập, chúng ta sử dụng ký hiệu 𝑥̅, 𝑥 1 ̅̅̅, , 𝑥 2 ̅̅̅ Đồng thời, trung bình chung của k mẫu quan sát được ký hiệu là 𝑘 𝑥̅, từ đó ta có thể áp dụng các phương pháp thống kê để phân tích dữ liệu một cách hiệu quả.
Bảng số liệu tổng quát thực hiện phân tích phương sai
𝑋 𝑘𝑛 𝑘 Tính trung bình mẫu của từng nhóm 𝑥̅ , 𝑥 1 ̅̅̅, , 𝑥 2 ̅̅̅ theo công thức: 𝑘
Và trung bình chung của k mẫu (trung bình chung của toàn bộ mẫu khảo sát):
Dĩ nhiên bạn có thể tính trung bình chung của k mẫu theo cách khác là: cộngt tất cả các
𝑥 𝑖𝑗 trên bảng 9.1 lại rồi đem chia cho ∑ 𝑛 𝑖 , với (i = 1, 2,…,k) Kết quả là như nhau:
Bước 2: Tính các tổng các chênh lệch bình phương (hay gọi tắt là tổng bình phương)
Tính tổng các chênh lệch bình phương trong nội bộ nhóm 𝑆𝑆𝑊 1 và tổng các chênh lệch bình phương giữa các nhóm 𝑆𝑆𝐺 2
Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách cộng các chênh lệch bình phương giữa các giá trị quan sát và trung bình mẫu của từng nhóm, sau đó tổng hợp kết quả của tất cả các nhóm SSW phản ánh biến thiên của yếu tố kết quả do ảnh hưởng của các yếu tố khác, không phải do yếu tố nguyên nhân đang nghiên cứu, mà là yếu tố dùng để phân biệt các tổng thể hoặc nhóm đang so sánh.
Tổng các chênh lệch bình phương của từng nhóm được tính theo công thức:
Tương tự như vậy ta tính cho đến nhóm thứ k được 𝑆𝑆 𝑘 Vậy tổng các chênh lệch bình phương trong nội bộ các nhóm được tính như sau:
Hay viết tổng quát theo công thức ta có:
Tổng các chênh lệch bình phương giữa các nhóm (SSG) được xác định bằng cách cộng các chênh lệch bình phương giữa trung bình mẫu của từng nhóm và trung bình chung của k nhóm, với các chênh lệch này được nhân với số quan sát của từng nhóm SSG thể hiện mức độ biến thiên của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân đang được nghiên cứu.
Tổng các chênh lệch bình phương toàn bộ (SST) được xác định bằng cách cộng tổng các chênh lệch bình phương giữa từng giá trị quan sát (xij) và giá trị trung bình toàn bộ (𝑥) SST thể hiện sự biến thiên của yếu tố kết quả, phản ánh ảnh hưởng từ tất cả các nguyên nhân.
Tổng các chênh lệch bình phương toàn bộ có thể được chứng minh là bằng tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch bình phương giữa các nhóm.
Công thức SST cho thấy toàn bộ biến thiên của yếu tố kết quả được chia thành hai phần: biến thiên do yếu tố nghiên cứu (SSG) và biến thiên do các yếu tố khác (SSW) Nếu biến thiên do yếu tố nguyên nhân nghiên cứu có sự khác biệt đáng kể so với biến thiên do các yếu tố khác, chúng ta có cơ sở để bác bỏ giả thuyết H0 và kết luận rằng yếu tố nguyên nhân có ảnh hưởng ý nghĩa đến yếu tố kết quả.
Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương)
Các phương sai được tính bằng cách lấy các tổng chênh lệch bình phương chia cho bậc tự do tương ứng
Phương sai trong nội bộ nhóm (MSW) được tính bằng cách chia tổng các chênh lệch bình phương trong nội bộ các nhóm (SSW) cho bậc tự do tương ứng là n – k, trong đó n là số quan sát và k là số nhóm so sánh MSW đại diện cho ước lượng phần biến thiên của yếu tố kết quả do các yếu tố khác gây ra.
Phương sai giữa các nhóm (MSG) được tính bằng cách tổng hợp các chênh lệch bình phương giữa các nhóm và chia cho bậc tự do k-1 MSG là một ước lượng cho phần biến thiên của yếu tố kết quả, phản ánh ảnh hưởng của yếu tố nguyên nhân đang được nghiên cứu.
𝑘 − 1 Bước 4: Kiểm định giả thuyết
Giả thuyết về sự bằng nhau của k trung bình tổng thể được xác định thông qua tỉ số giữa phương sai giữa các nhóm (MSG) và phương sai trong nội bộ nhóm (MSW) Tỉ số này được gọi là tỉ số F, tuân theo định luật Fisher – Snedecor với bậc tự do k-1 ở tử số và n-k ở mẫu số.
Ta bác bỏ giả thuyết H0 cho rằng trị trung bình của k tổng thể bằng nhau khi:
Giá trị giới hạn F(k-1;n-k);α được tra từ bảng số 4, với bậc tự do k-1 theo hàng đầu tiên và n-k theo cột đầu tiên Cần lưu ý chọn bảng tương ứng với mức ý nghĩa phù hợp.
Sau đây là dạng bảng kết quả ttongr quát của ANOVA khi phân tích bằng chương tình Excell hay SPSS
Tổng chênh lệch bình phương Bậc tự do Phương sai Tỉ số F
Trong nội bộ các nhóm SSW n-k 𝑀𝑆𝑊 = 𝑆𝑆𝑊
Kiểm tra các giả định của phân tích phương sai
Để kiểm tra giả định về phân phối bình thường của dữ liệu, histogram là phương pháp hiệu quả nhất, nhưng cần một số lượng quan sát lớn Trong trường hợp có ít quan sát, biểu đồ thân lá hoặc biểu đồ hộp và râu là những lựa chọn thay thế tốt Nếu các công cụ đồ thị cho thấy mẫu dữ liệu phù hợp với phân phối bình thường, ta có thể kết luận rằng giả định này đã được thỏa mãn.
Phương pháp kiểm định Levene là một công cụ mạnh mẽ để kiểm tra giả định về phương sai bằng nhau giữa các tổng thể Kiểm định này dựa trên giả thuyết cụ thể nhằm xác định sự đồng nhất của phương sai.
H1: Không phải tất cả các phương sai bằng nhau Để quyết định chấp nhận hay bác bỏ H0 ta tính toán giá trị kiểm định F theo công thức
Trong đó S max 2 là phương sai lớn nhất trong các nhóm nghiên cứu và S min 2 là phương sai nhỏ nhất trong các nhóm nghiên cứu
Giá trị F được tính toán sẽ được so sánh với giá trị F(k; df) và mức ý nghĩa α được tra cứu từ bảng phân phối Hartley Fmax Trong đó, k đại diện cho số nhóm cần so sánh, và bậc tự do df được tính theo công thức df = (𝑛 –.
1) Trong tình huống, các nhóm có ni khác nhau thì 𝑛 = ∑ k i=1 n i k (chú ý là nếu kết quả tính 𝑛 là một số thập phân thì ta lấy phần nguyên)
Fmax > F(k; df); thì bác bỏ giả thuyết H0 cho rằng phương sai bằng nhau và ngược lại
Nếu các giả định không được xác định rõ ràng hoặc kết quả kiểm định cho thấy các giả định không thỏa mãn, phương pháp kiểm định phi tham số Kruskal-Wallis sẽ là lựa chọn thay thế cho ANOVA.
Phân tích sâu ANOVA
Phân tích phương sai (ANOVA) nhằm kiểm định giả thuyết H0 về sự bình đẳng của trung bình các tổng thể Sau khi thực hiện phân tích, có hai khả năng xảy ra: chấp nhận hoặc bác bỏ giả thuyết H0 Nếu H0 được chấp nhận, quá trình phân tích kết thúc Ngược lại, nếu H0 bị bác bỏ, điều này chỉ ra rằng trung bình của các tổng thể không bằng nhau, dẫn đến việc cần phải thực hiện phân tích sâu hơn để xác định nhóm nào khác biệt và nhóm nào có trung bình lớn hơn hoặc nhỏ hơn.
Khi bác bỏ giả thuyết H0 trong phân tích ANOVA, một phương pháp phổ biến để tiếp tục phân tích là phương pháp Tukey, hay còn gọi là kiểm định HSD (Honestly Significant Differences) Phương pháp này tập trung vào việc so sánh từng cặp trung bình nhóm tại mức ý nghĩa nhất định, nhằm phát hiện sự khác biệt giữa các nhóm Đối với k nhóm nghiên cứu, số lượng cặp cần so sánh sẽ là tổ hợp chập 2 của k nhóm.
Giá trị giới hạn Tukey được tính theo công thức:
• q,k,n-k là giá trị tra bảng phân phối kiểm định Tukey ở mức ý nghĩa , với bậc tự do k và n – k, với n là tổng số quan sát mẫu (n = ∑ 𝑛 𝑖 )
• MSW là phương sai trong nội bộ nhóm
• ni là số quan sát trong một nhóm (tổng thể), trong trường hợp mỗi nhóm có số quan sát ni khác nhau, sử dụng giá trị ni nhỏ nhất
Tiêu chuẩn quyết định là bác bỏ giả thuyết H0 khi độ lệch tuyệt đối giữa các cặp trung bình mẫu lớn hơn hay bằng T giới hạn
Ngoài việc kiểm định để xác định các nhóm khác biệt, chúng ta cũng có thể ước lượng khoảng chênh lệch giữa các nhóm này với ý nghĩa thống kê Để tính toán khoảng ước lượng cho chênh lệch giữa hai trung bình nhóm khác biệt, chúng ta sử dụng một công thức cụ thể.
Giá trị t được tra từ bảng phân phối Student t với (n – k) bậc tự do Excel không hỗ trợ các lệnh phân tích ANOVA sâu, nhưng chúng ta có thể sử dụng SPSS để thực hiện phân tích này Kết quả từ SPSS cũng cung cấp kiểm định Levene, cho phép kiểm tra chính thức sự bằng nhau của các phương sai tổng thể.
Phân tích phương sai với kiểm định F chỉ áp dụng khi các nhóm so sánh có phân phối bình thường và phương sai bằng nhau Nếu không đáp ứng các điều kiện này, chúng ta có thể chuyển đổi dữ liệu yếu tố kết quả từ định lượng sang định tính (dữ liệu thứ bậc) và sử dụng kiểm định phi tham số Kruskal-Wallis.
PHÂN TÍCH PHƯƠNG SAI HAI YẾU TỐ
Trường hợp có một quan sát mẫu trong một ô
Trong nghiên cứu ảnh hưởng của hai yếu tố nguyên nhân định tính đến một yếu tố kết quả định lượng, chúng ta có thể phân loại các đơn vị mẫu thành K nhóm theo yếu tố nguyên nhân thứ nhất và H khối theo yếu tố nguyên nhân thứ hai Khi kết hợp sắp xếp các đơn vị mẫu theo cả hai yếu tố này, chúng ta sẽ tạo ra một bảng kết hợp với K cột và H hàng.
Trong ô dữ liệu K x H, nếu chỉ có một mẫu quan sát, tổng số đơn vị mẫu quan sát sẽ là n = K x H Bảng này có dạng tổng quát như sau:
H x1H x2H … xKH Để thực hiện (1) kiểm định giả thuyết cho rằng trung bình của K tổng thể tương ứng với
Để kiểm tra giả thuyết rằng trung bình của các nhóm mẫu là bằng nhau, chúng ta cần thực hiện hai bước chính: (1) xác định rằng các nhóm mẫu có trung bình bằng nhau và (2) tiến hành kiểm định giả thuyết nhằm so sánh trung bình tổng thể với trung bình của các nhóm mẫu.
Bước 1: Tính các trung bình
Trung bình riêng của từng nhóm:
𝐻 Trung bình riêng cho từng khối:
𝐾Trung bình chung của toàn bộ mẫu quan sát:
𝐾 Bước 2: Tính tổng các chênh lệch bình phương
1 Tổng các chênh lệch bình phương chung: SST = SSG + SSB + SSE
SST phản ảnh biến thiên của yếu tố định lượng kết quả đang nghiên cứu do ảnh hưởng của tất cả các nguyên nhân
2 Tổng bình phương chênh lệch giữa các nhóm:
SSG thể hiện sự biến đổi của các yếu tố định lượng trong nghiên cứu, chịu ảnh hưởng từ các yếu tố nguyên nhân chính, đồng thời sử dụng các yếu tố này để phân nhóm trong cột.
3 Tổng các chênh lệch bình phương giữa các khối:
SSB thể hiện sự biến động của các yếu tố định lượng trong nghiên cứu, chịu ảnh hưởng từ các yếu tố nguyên nhân thứ hai Những yếu tố này được sử dụng để phân nhóm trong quá trình phân tích.
4 Tổng các chênh lệch bình phương phần dư:
SSE thể hiện sự biến đổi của các yếu tố định lượng trong kết quả nghiên cứu, chịu tác động từ những yếu tố khác không được đưa vào phân tích.
Bước 3: Tính các phương sai:
1 Phương sai giữa các nhóm: 𝑀𝑆𝐺 = 𝑆𝑆𝐺
2 Phương sai giữa các khối: 𝑀𝑆𝐵 = 𝑆𝑆𝐵
Bước 4 trong quy trình nghiên cứu là kiểm định giả thuyết về ảnh hưởng của các yếu tố thứ nhất (cột) và yếu tố thứ hai (dòng) đến yếu tố kết quả thông qua các tỉ số F.
𝑀𝑆𝐸 Bước 5: Có 2 trường hợp trong quyết định bác bỏ giả thiết H0 của ANOVA hai yếu tố:
1 Đối với F1 có mức ý nghĩa α, giả thiết H0 cho thấy rằng trung bình của K tổng thể theo yếu tố thứ nhất (cột) bằng nhau khi bị bác bỏ:
2 Đối với F2 có mức ý nghĩa α, giả thiết H0 cho thấy rằng trung bình của H tổng thể theo yếu tố thứ hai (dòng) bằng nhau khi bị bác bỏ:
• FK-1,(K-1)(H-1),α Là giá trị tra trong bảng phân phối F với K-1 bậc tự do ở tử số và (K- 1)(H-1) bậc tự do ở mẫu số
• FH-1,(K-1)(H-1),α Là giá trị tra trong bảng phân phối F với H-1 bậc tự do ở tử số và (K- 1)(H-1) bậc tự do ở mẫu số
Thường phân tích phương sai hai yếu tố được thực hiện trên chương tình máy tính (EXCEL hoặc SPSS) Kết quả có dạng tổng quát như sau:
Bảng kết quả tổng quát ANOVA hai yếu tố:
Bậc tự do Phương sai Tỉ số F
Trường hợp có nhiều quan sát trong một ô
Để nâng cao độ chính xác trong việc đánh giá tác động của hai yếu tố nguyên nhân đến yếu tố kết quả trong một mẫu đại diện cho tổng thể, việc tăng cường kích thước mẫu quan sát là cần thiết trong các điều kiện cho phép.
L là số quan sát trong một ô, ta có dạng tổng quát của L quan sát trong một ô như sau:
H x1H1x1H2…x1HL x2H1x2H2…x2HL … xKH1xKH2…xKHL
Bước 1: Tính các trung bình
Trung bình mẫu của từng nhóm:
𝐻 × 𝐿Trung bình mẫu của từng khối:
𝐾 × 𝐿 Trung bình mẫu của từng ô:
𝐿 Trung bình mẫu của toàn bộ quan sát:
𝐾 × 𝐻 × 𝐿 Bước 2: Tính tổng các chênh lệch bình phương
1 Tổng các chênh lệch bình phương toàn bộ
SST = SSG + SSB + SSI + SSE
2 Tổng các chênh lệch bình phương giữa các nhóm
SSG thể hiện sự biến đổi của các yếu tố định lượng trong nghiên cứu, chịu ảnh hưởng từ các yếu tố chính, đồng thời cũng là cơ sở để phân nhóm trong cột.
3 Tổng các chênh lệch bình phương giữa các khối
SSB thể hiện sự biến đổi của yếu tố định lượng trong nghiên cứu, chịu ảnh hưởng từ các yếu tố thứ hai, đồng thời cũng là cơ sở để phân nhóm trong dòng dữ liệu.
4 Tổng các chênh lệch bình phương giữa các ô
SSI phản ánh phần biến thiên do tác động qua lại giữa hia yếu tố đang nghiên cứu
5 Tổng bình phương chênh lệch bình phương phần dư
SSE = ∑ K i=1 ∑ H j=1 ∑ L s=1 (x ijs -x̅ ) ij 2 = SST – SSG – SSB – SSI
Bước 3: Tính các phương sai:
1 Phương sai giữa các nhóm: 𝑀𝑆𝐺 = 𝑆𝑆𝐺
2 Phương sai giữa các khối: 𝑀𝑆𝐵 = 𝑆𝑆𝐵
Bước 4: Kiểm định giả thuyết để đánh giá ảnh hưởng của các yếu tố thứ nhất (cột) và thứ hai (dòng) cũng như sự tương tác giữa hai yếu tố đối với yếu tố kết quả thông qua các chỉ số F.
𝑀𝑆𝐸 Bước 5: Nguyên tắc quyết định trong ANOVA hai yếu tố
1 Đối với F1 có mức ý nghĩa α, giả thiết H0 cho rằng trung bình của K tổng thể theo yếu tố nguyên nhân thứ nhất (cột) bằng nhau bị bác bỏ khi:
2 Đối với F2 có mức ý nghĩa α, giả thiết H0 cho rằng trung bình của H tổng thể theo yếu tố nguyên nhân thứ hai (dòng) bằng nhau bị bác bỏ khi:
3 Đối với F3 có mức ý nghĩa α, giả thiết H0 cho rằng không có tác động qua lại giữa yếu tố thứ nhất (cột) và yếu tố thứ hai (dòng) bị bác bỏ khi:
• FK-1,(K-1)(H-1),α Là giá trị tra trong bảng phân phối F với K-1 bậc tự do ở tử số và KH(L-1) bậc tự do ở mẫu số
• FH-1,(K-1)(H-1),α Là giá trị tra trong bảng phân phối F với H-1 bậc tự do ở tử số và KH(L-1) bậc tự do ở mẫu số
• F(H-1)(K-1),KH(L-1),α Là giá trị tra trong bảng phân phối F với (K-1)(H-1) bậc tự do ở tử số và KH(L-1) bậc tự do ở mẫu số.
Phân tích sâu trong ANOVA hai yếu tố
Trong phân tích phương sai hai yếu tố, sau khi xác định sự khác biệt giữa các nhóm, kiểm định Tukey có thể được sử dụng để xác định các cặp trung bình tổng thể khác nhau theo yếu tố thứ nhất (so sánh giữa K nhóm) hoặc yếu tố thứ hai (so sánh giữa H khối) Kiểm định Tukey được thực hiện theo nguyên tắc tương tự như trước, với giá trị giới hạn Tukey được tính toán cụ thể.
So sánh theo yếu tố thứ nhất (K nhóm): T = q, K, KH(L – 1) √ MSE
So sánh theo yếu tố thứ hai (H khối): T = q, H, KH(L – 1) √ MSE
Tập tin flights.rda chứa thông tin về 162.049 chuyến bay khởi hành từ hai sân bay lớn ở Tây Bắc Thái Bình Dương, SEA tại Seattle và PDX tại Portland trong năm 2014 Dữ liệu được cung cấp bởi Văn phòng Thống kê Vận tải Mỹ và được sử dụng để phân tích nguyên nhân dẫn đến sự trễ hoặc hoãn chuyến bay.
‑ Tổng chuyến bay được thống kê: 162049
Mô tả các biến chính:
1 year, month, day: ngày khởi hành của mỗi chuyến bay
2 carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa Ví dụ: UA United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v
3 origin và dest: tên sân bay đi và đến Đối với sân bay đi, ta chỉ có hai giá trị SEA (Seattle) và PDX (Portland)
4 dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)
5 dep_delay và arr_delay chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in trong vé
6 distance: khoảng cách giữa hai sân bay (dặm)
Nhập và làm sạch dữ liệu, thực hiện các thống kê mô tả
Để đọc dữ liệu từ tập tin flights.rda trong R, bạn hãy sử dụng lệnh read.table Lưu ý rằng hàng đầu tiên sẽ được sử dụng để đặt tên biến và dấu ngăn cách giữa các cột là dấu phẩy "," thay vì khoảng trắng như mặc định.
Create a new data frame named newFlights that includes only the relevant variables: carrier, origin, dep_time, arr_time, dep_delay, and arr_delay From this point onward, all processing requests will be performed on the newFlights data frame.
Trong quá trình phân tích dữ liệu, một số biến có chứa nhiều giá trị khuyết (NA - Not Available) Để đánh giá tình hình, cần in bảng thống kê tỷ lệ giá trị khuyết cho từng biến Để xử lý các giá trị khuyết này, có thể áp dụng phương pháp loại bỏ các dòng dữ liệu không đầy đủ hoặc sử dụng các kỹ thuật như thay thế giá trị khuyết bằng trung bình, trung vị hoặc các giá trị dự đoán từ mô hình.
Để phân tích thời gian khởi hành trễ (biến dep_delay) của từng hãng hàng không (carrier), cần tính toán các giá trị thống kê mô tả như cỡ mẫu, trung bình, độ lệch chuẩn, giá trị tối thiểu (min), tối đa (max) và các điểm tứ phân vị Kết quả sẽ được trình bày dưới dạng bảng để dễ dàng so sánh và đánh giá.
(e) Vẽ đồ thị boxplot cho thời gian khởi hành trễ dep_delay tương ứng với từng hãng hàng không carrier
Trong quá trình phân tích dữ liệu, chúng ta nhận thấy có nhiều điểm outliers trên đồ thị boxplot của biến dep_delay Để loại bỏ những điểm này, ta sẽ sử dụng khoảng tứ phân vị (interquartile range) và vẽ lại các đồ thị boxplot cho dep_delay Dựa trên các đồ thị boxplot đã điều chỉnh, chúng ta sẽ đưa ra nhận xét về thời gian khởi hành trễ của từng hãng hàng không.
Phân tích phương sai một nhân tố (one way ANOVA)
Chúng tôi tiến hành kiểm định để xác định xem có sự khác biệt về thời gian khởi hành trễ trung bình giữa các hãng hàng không đối với các chuyến bay khởi hành từ Portland trong năm.
Phân tích phương sai (ANOVA) là công cụ quan trọng giúp xác định sự khác biệt giữa các nhóm dữ liệu và trả lời các câu hỏi nghiên cứu Việc sử dụng phân tích phương sai cho phép chúng ta đánh giá ảnh hưởng của các yếu tố độc lập lên biến phụ thuộc một cách chính xác Trong quá trình này, biến phụ thuộc là yếu tố mà chúng ta muốn kiểm tra sự thay đổi, trong khi các nhân tố hay biến độc lập là các yếu tố mà chúng ta nghi ngờ có thể tác động đến biến phụ thuộc Sử dụng ANOVA giúp chúng ta hiểu rõ hơn về mối quan hệ giữa các biến và đưa ra những kết luận có cơ sở khoa học.
(b) Phát biểu các giả thuyết và đối thuyết bằng lời và công thức toán Nêu các giả định cần kiểm tra của mô hình
Để kiểm tra các giả định của mô hình, bao gồm giả định về phân phối chuẩn và tính đồng nhất của các phương sai, chúng ta có thể áp dụng một số phương pháp phân tích Cụ thể, phân tích thặng dư kết hợp với đồ thị QQ-plot và kiểm định Shapiro-Wilk sẽ giúp kiểm tra giả định phân phối chuẩn, trong khi kiểm định Levene hoặc Bartlett sẽ xác định tính đồng nhất của các phương sai.
(d) Thực hiện phân tích ANOVA một nhân tố Trình bày bảng phân tích phương sai trong báo cáo Cho kết luận
XỬ LÝ SỐ LIỆU BÀI TẬP 4
1 Nhập và làm sạch dữ liệu, thực hiện các thống kê mô tả
Trong R, bạn có thể sử dụng lệnh read.table để đọc dữ liệu từ tập tin flights.rda Lưu ý rằng hàng đầu tiên sẽ được sử dụng để đặt tên biến, và dấu ngăn cách giữa các cột là dấu "," thay vì khoảng trắng như mặc định.
+Giải thích: Cài đặt gói chứa chức năng lọc dữ liệu require(sqldf)
+Giải thích: Gọi packages “sqldf” để sử dụng install.packages("tidyverse")e
+Giải thích: Cài đặt gói chứa chức năng lọc dữ liệu, trực quan hoá dữ liệu, tạo đồ thị library(tidyverse)
+Giải thích: Nhập gói tidyverse vào môi trường vận hành của R install.packages("questionr")
Cài đặt gói thư viện questionr giúp đơn giản hóa quá trình xử lý khảo sát, bao gồm việc thống kê tỷ lệ giá trị khuyết đối cho từng biến.
+Giải thích: Nhập gói questionr vào môi trường vận hành của R install.packages("car") library(car)
+Giải thích: Cài đặt gói chức năng “car” để sử dụng lệnh “leveneTest” install.packages("nortest")
+ Giải thích: Cài đặt gói chức năng “nortest” để sử dụng lệnh “ad.test” để kiểm định phân phối chuẩn library(nortest)
+ Giải thích: Nhập gói nortest vào môi trường vận hành của R load("D:/XSTK/BTL2/flights.rda")
+ Giải thích: Đọc tệp flights.rda vào R
To create a new data frame named newFlights, focus on the essential variables: carrier, origin, dep_time, arr_time, dep_delay, and arr_delay Subsequent data processing tasks will be performed on this new data frame The newFlights data frame is constructed using the specified variables from the existing flights data frame.
+ Giải thích: Trích ra dữ liệu con đặt tên là newFlights bao gồm các biến chính theo yêu cầu
Trong quá trình phân tích dữ liệu, một số biến có chứa nhiều giá trị khuyết (NA - Not Available) Để hiểu rõ hơn về vấn đề này, cần in bảng thống kê tỷ lệ giá trị khuyết cho từng biến Một phương pháp hiệu quả để xử lý các giá trị khuyết này là sử dụng các kỹ thuật như loại bỏ, thay thế bằng giá trị trung bình hoặc mô hình hóa để dự đoán giá trị thiếu.
+ Giải thích: Tạo bảng thống kê tỷ lệ giá trị khuyết đối với từng biến trong file dữ liệu con newFlights
Dựa vào bảng thống kê tỷ lệ giá trị khuyết, chúng ta nhận thấy rằng biến arr_delay, arr_time, dep_time và dep_delay có nhiều giá trị khuyết Do đó, cần áp dụng các phương pháp xử lý để giải quyết vấn đề này Các phương pháp xử lý giá trị khuyết sẽ được đề xuất để cải thiện chất lượng dữ liệu.
Phương pháp 01: Xoá (Deletion) được áp dụng khi xác suất thiếu biến là đồng nhất cho tất cả các quan sát Có hai cách thực hiện phương pháp này: Xoá theo danh sách (List Wise Deletion) và Xoá theo cặp (Pair Wise Deletion).
Xóa theo danh sách (list wise deletion) là phương pháp loại bỏ các quan sát khi có bất kỳ biến nào bị thiếu Tuy nhiên, phương pháp này có nhược điểm là việc xóa toàn bộ hàng quan sát có dữ liệu thiếu sẽ làm giảm sức mạnh của mô hình.
Phương pháp Pair Wise Deletion cho phép phân tích tất cả các trường hợp có các biến quan tâm, giúp giữ lại nhiều dữ liệu để phân tích Tuy nhiên, nhược điểm của phương pháp này là nó sử dụng cỡ mẫu khác nhau cho từng biến, điều này có thể ảnh hưởng đến tính nhất quán của kết quả phân tích.
Phương pháp 02: Điền giá trị thiếu bằng Trung bình/Mode/Trung vị là một kỹ thuật dùng để ước lượng các giá trị còn thiếu trong tập dữ liệu Mục tiêu của phương pháp này là khai thác các mối quan hệ đã biết từ các giá trị hợp lệ để hỗ trợ việc ước tính Mean/Mode/Median Imputation là một trong những phương pháp phổ biến nhất, với hai cách sử dụng chính.
Generalized Imputation là phương pháp thay thế giá trị bị thiếu bằng giá trị trung bình hoặc trung vị của các giá trị không bị thiếu trong biến đó Cách tiếp cận này giúp duy trì tính nhất quán của dữ liệu và cải thiện độ chính xác trong phân tích.
Trong phương pháp Imputation theo trường hợp tương tự, chúng ta tính toán các giá trị trung bình một cách riêng biệt cho từng đối tượng có dữ liệu không bị thiếu Sau đó, các giá trị trung bình này sẽ được sử dụng để thay thế cho các giá trị bị thiếu tương ứng với từng đối tượng.
Phương pháp 03: Mô hình dự đoán là cách tạo ra một mô hình để ước lượng các giá trị thay thế cho dữ liệu bị thiếu Đầu tiên, chia tập dữ liệu thành hai phần: một phần không có giá trị bị thiếu để huấn luyện mô hình và một phần có giá trị bị thiếu để thử nghiệm Tập dữ liệu huấn luyện sẽ được sử dụng để xây dựng mô hình dự đoán biến mục tiêu, trong khi tập dữ liệu thử nghiệm sẽ được áp dụng mô hình này để điền các giá trị còn thiếu.
Phân tích phương sai một nhân tố (oneway ANOVA)
Chúng tôi tiến hành kiểm định sự khác biệt về thời gian khởi hành trễ trung bình giữa các hãng hàng không cho các chuyến bay xuất phát từ Portland trong năm.
Phân tích phương sai (ANOVA) là công cụ quan trọng giúp xác định sự khác biệt giữa các nhóm dữ liệu, từ đó trả lời câu hỏi nghiên cứu một cách chính xác Để thực hiện phân tích này, trước tiên cần xác định biến phụ thuộc, thường là yếu tố mà chúng ta muốn kiểm tra sự ảnh hưởng, và các nhân tố hay biến độc lập, là các yếu tố có thể tác động đến biến phụ thuộc Việc phân tích này không chỉ giúp làm rõ mối quan hệ giữa các biến mà còn cung cấp cái nhìn sâu sắc về các yếu tố ảnh hưởng đến kết quả nghiên cứu.
Trong bài toán so sánh trung bình của 11 hãng hàng không, phương pháp phân tích phương sai (ANOVA) là tối ưu nhất vì nó cho phép xác định xem các tổng thể có bằng nhau hay khác nhau Việc sử dụng ANOVA không chỉ hiệu quả mà còn tiết kiệm thời gian, so với các phương pháp t-test hoặc z-test, vì những phương pháp này yêu cầu thực hiện nhiều lần so sánh (C 11 2 lần) Với ANOVA, chỉ cần thực hiện một lần để đưa ra kết luận về sự khác biệt hoặc tương đồng giữa các hãng hàng không.
Chúng ta có thể thực hiện đánh giá trung bình và so sánh sự khác biệt giữa các tổng thể thông qua việc so sánh tỷ lệ phương sai, từ đó rút ra những kết luận chính xác.
- Theo yêu cầu đề bài, biến phụ thuộc là dep_delay, biến độc lập (các nhân tố) là Carrier
(b) Phát biểu các giả thuyết và đối thuyết bằng lời và công thức toán Nêu các giả định cần kiểm tra của mô hình
Phân tích phương sai một yếu tố nhằm đánh giá tác động của một yếu tố, có thể là nhân tạo hoặc tự nhiên, đến các giá trị quan sát Yi (i=0, 1, 2, , k).
Nguồn sai số Bậc sai số Tổng số bình phương Bình phương trung bình Giá trị thống kê
H0: μ1 = μ2 = = μ11 (i, j = 1,2,3 ,11) “Thời gian trung bình khởi hành trễ trong các hãng hàng không bằng nhau”
H1: ∃μi ≠ μj “Có ít nhất hai hãng hàng không có thời gian trung bình khởi hành trễ khác nhau”
Biện luận: Nếu F < Fα (k – 1; N – k) → chấp nhận giả thiết H0
Các giả định của mô hình cần kiểm tra:
- Số liệu khảo sát ngẫu nhiên và độc lập
- Thời gian khởi hành trễ ở các hãng hàng không phải tuân theo phân phối chuẩn
- Phương sai của thời gian khởi hành trễ ở các hãng hàng không phải bằng nhau
Để kiểm tra các giả định của mô hình, cần xác minh giả định về phân phối chuẩn và tính đồng nhất của các phương sai Phân tích thặng dư có thể kết hợp với đồ thị QQ-plot và kiểm định Shapiro-Wilk để kiểm tra phân phối chuẩn Đối với tính đồng nhất của các phương sai, có thể sử dụng kiểm định Levene hoặc Bartlett.
* Giả định về phân phối chuẩn:
PDX= subset(new_Data,new_Data$origin =="PDX")
+ Giải thích: Lọc số liệu chuyến bay theo biến origin là PDX trong new_Data và lưu vào
Sử dụng đồ thị QQ-plot và Kiểm tra giả định về phân phối chuẩn bằng Anderson- Darling:
AA1= subset (PDX,PDX$carrier =="AA")
+ Giải thích: Lọc số liệu theo biến carrier là AA trong PDX và lưu vào AA1 qqnorm(AA1$dep_delay) qqline(AA1$dep_delay,col=2)
+ Giải thích: Vẽ đồ thị QQ-plot để kiểm tra giả định về phân phối chuẩn
Việc không sử dụng hàm shapiro.test để kiểm định phân phối chuẩn là do hàm này chỉ áp dụng cho mẫu tối đa là 5000 Khi số lượng mẫu vượt quá 5000, shapiro.test không thể thực hiện kiểm định.
AA2