1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài tập lớn Xác suất – Thống Kê

47 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài tập lớn Xác suất – Thống Kê
Tác giả Lê Thị Bảo Hân, Huỳnh Nguyễn Đức Huy, Nguyễn Phúc Minh Kỳ, Nguyễn Thị Thu Quế, Nguyễn Khả Trâm
Người hướng dẫn Nguyễn Thị Mộng Ngọc
Trường học Trường Đại học Bách khoa TP. Hồ Chí Minh
Chuyên ngành Toán Ứng Dụng
Thể loại Bài tập lớn
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 47
Dung lượng 1,41 MB

Cấu trúc

  • CHƯƠNG 1: CƠ SỞ LÝ THUYẾT (9)
    • I. Phân tích hồi quy (9)
      • 1.1. Định nghĩa (9)
      • 1.2. Bản chất (9)
      • 1.3. Ý nghĩa của hồi quy tuyến tính (10)
    • II. Mô hình hồi quy bội (10)
      • 2.1. Định nghĩa (10)
      • 2.2. Các giả thiết của mô hình hồi quy bội (11)
      • 2.3. Phương pháp ước lượng mô hình hồi quy bội – Phương pháp bình phương nhỏ nhất (OLS) (11)
      • 2.4. Đánh giá mức độ phù hợp của mô hình hồi quy bội (13)
  • CHƯƠNG 2: XỬ LÍ SỐ LIỆU (16)
    • I. Đọc dữ liệu (Import data): gia_nha.csv (16)
    • II. Làm sạch dữ liệu (Data cleaning): NA dữ liệu khuyết (16)
    • III. Làm rõ dữ liệu: (Data visualization) (17)
      • 3.1. Chuyển đổi biến (17)
      • 3.2. Thống kê mô tả: dùng thống kê mẫu và đồ thị (18)
    • IV. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến giá nhà ở quận King (24)
    • V. Thực hiện dự báo cho giá nhà quận King (29)
  • CHƯƠNG 3: PHÂN TÍCH SỐ LIỆU (31)
    • I. Mô tả dữ liệu (31)
    • II. Phương pháp phân tích dữ liệu (31)
      • 2.1. Đọc dữ liệu và làm rõ dữ liệu (31)
      • 2.2. Xây dựng mô hình hồi quy tuyến tính (31)
    • III. Phân tích dữ liệu (32)
      • 3.1. Đọc dữ liệu và làm rõ dữ liệu (32)
      • 3.2. Xây dựng các mô hình hồi quy tuyến tính (36)
      • 3.3 Dự báo (38)
  • TÀI LIỆU THAM KHẢO (40)

Nội dung

❖ Bản chất của sai số ngẫu nhiên nhiễu ? Sai số ngẫu nhiên đại diện cho tất cả các biến không được đưa vào mô hình vì những lý do như không có sẵn dữ liệu, các lỗi đo lường trong dữ liệ

CƠ SỞ LÝ THUYẾT

Phân tích hồi quy

Hồi quy (regression) là phương pháp thống kê toán học để ước lượng và kiểm định các quan hệ giữa các biến ngẫu nhiên, và có thể từ đó đưa ra các dự báo Các quan hệ ở đây được viết dưới dạng các hàm số hay phương trình Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y , mà ta muốn ước lượng xấp xỉ dưới dạng một hàm số F(X 1 , , X S ) của các biến ngẫu nhiên X 1 , , X S khác (control variables), hay còn gọi là biến tự do, trong khi Y được gọi là biến phụ thuộc, tức là khi ta có các giá trị của X 1 , , X S , thì ta muốn từ đó ước lượng được giá trị của Y Hàm số F này có thể phụ thuộc vào một số tham số β = (β 1 , , β S ) nào đó Ta có thể viết Y như sau:

Y = F(X 1 , , X S ) + ϵ trong đó ϵ là phần sai số (cũng là một biến ngẫu nhiên) Ta muốn chọn hàm F một cách thích hợp nhất có thể, và các tham số β, sao cho sai số ϵ là nhỏ nhất có thể Đại lượng √𝔼(|𝜖| 2 được gọi là sai số chuẩn (standard error) của mô hình hồi quy Mô hình nào mà có sai số chuẩn càng thấp thì được coi là càng chính xác

❖ Bản chất của biến phụ thuộc Y

Y nói chung được giả định là một biến ngẫu nhiên, và có thể được đo lường bằng một trong bốn thước đo sau đây: thang đo tỷ lệ, thang đo khoảng, thang đo thứ bậc, và thang đo danh nghĩa

Thang đo tỷ lệ (ratio scale): Một thang đo tỷ lệ có 3 tính chất: (1) tỷ số của hai biến, (2) khoảng cách giữa hai biến, và (3) xếp hạng các biến Với thang đo tỷ lệ, ví dụ Y có hai giá trị, 𝑌 1 và 𝑌 2 thì tỷ số 𝑌 1 /𝑌 2 và khoảng cách (𝑌 2 - 𝑌 1 ) là các đại lượng có ý nghĩa; và có thể so sánh hoặc xếp thứ tự

Thang đo khoảng (interval scale): Thang đo khoảng không thỏa mãn tính chất đầu tiên của các biến có thang đo tỷ lệ

Thang đo thứ bậc (ordinal scale): Các biến chỉ thỏa mãn tính chất xếp hạng của thang đo tỷ lệ, chứ việc lập tỷ số hay tính khoảng cách giữa hai giá trị không có ý nghĩa

Thang đo danh nghĩa (nominal scale): Các biến thuộc nhóm này không thỏa mãn bất kỳ tính chất nào của các biến theo thang đo tỷ lệ (như giới tính, tôn giáo, )

❖ Bản chất của biến ngẫu nhiên X

Các biến ngẫu nhiên có thể được đo theo bất kỳ một trong bốn thang đo vừa nêu trên, mặc dù trong nhiều ứng dụng thực tế thì các biến giải thích được đo theo thang đo tỷ số và thang đo khoảng

❖ Bản chất của sai số ngẫu nhiên (nhiễu) 𝜖

Sai số ngẫu nhiên đại diện cho tất cả các biến không được đưa vào mô hình vì những lý do như không có sẵn dữ liệu, các lỗi đo lường trong dữ liệu Và cho dù nguồn tạo nhiễu 𝜖 là gì đi nữa, thì người ta giả định rằng ảnh hưởng trung bình của sai số ngẫu nhiên lên Y là không đáng kể

Ta cũng giả định là hạng nhiễu có phân phối chuẩn với trung bình bằng 0 và phương sai không đổi là 𝜎 2 : 𝜖~N(0; 𝜎 2 )

❖ Bản chất của tham số hồi quy 𝛽 𝑆

Tham số hồi quy (tổng thể), β S , là những con số cố định (fixed numbers) và không ngẫu nhiên (not random), mặc dù mình không thể biết giá trị thực của các Bs là bao nhiêu

1.3 Ý nghĩa của hồi quy tuyến tính

Thuật ngữ tuyến tính (linear) trong mô hình hồi quy tuyến tính nghĩa là tuyến tính ở các hệ số hồi quy (linearity in the regression coefficients), β S , và không phải tuyến tính ở các biến Y và X.

Mô hình hồi quy bội

Mô hình hồi quy bội là mô hình hồi quy trong đó: biến phụ thuộc Y phụ thuộc vào (k – 1) biến độc lập X2,X3, Xkk có dạng như sau:

Hàm hồi quy tổng thể: E(Y| X2,X3, Xk) = 1 + 2 X2 + 3 X3 + … + kXk

Mô hình hồi quy tổng thể: Y = 1 + 2 X2 + 3 X3 + … + kXk + 𝜖

• 𝜖 là sai số ngẫu nhiên

•  1 là hệ số tự do (hệ số chặn), bằng giá trị trung bình của Y khi Xj=0

•  j là hệ số hồi quy riêng (hay hệ số góc), thể hiện ảnh hưởng của riêng từng biến độc lập Xj lên trung bình của Y khi các biến khác được giữ không đổi Cụ thể, khi Xj tăng hoặc giảm 1 đơn vị, trong điều kiện các biến độc lập khác không đổi, thì Y trung bình sẽ thay đổi  j đơn vị Có thể nhận thấy ba khả năng có thể xảy ra đối với các hệ số góc:

* Hệ số  j > 0: khi đó mối quan hệ giữa Y và Xj là thuận chiều, nghĩa là khi Xj tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y cũng sẽ tăng (hoặc giảm)

* Hệ số  j < 0: khi đó mối quan hệ giữa Y và Xj là ngược chiều, nghĩa là khi Xj tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y sẽ giảm (hoặc tăng)

* Hệ số  j = 0: có thể cho rằng giữa Y và Xj không có tương quan với nhau, cụ thể là Y có thể không phụ thuộc vào Xj hay là Xj không thực sự ảnh hưởng tới Y

Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá được mối quan hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cách tương đối

Dù mô hình có nhiều biến độc lập nhưng vẫn tồn tại những yếu tố tác động đến biến phụ thuộc nhưng không đưa vào mô hình vì nhiều lý do (không có số liệu hoặc không muốn đưa vào) Do đó trong mô hình vẫn tồn tại sai số ngẫu nhiên 𝜖 đại diện cho các yếu tố khác ngoài các biến Xj (j = 2,3, ,k) có tác động đến Y nhưng không đưa vào mô hình như là biến số

2.2 Các giả thiết của mô hình hồi quy bội

Giả thiết 1: Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên

Giả thiết 2: Kỳ vọng của sai số ngẫu nhiên tại mỗi giá trị (X2i, X3i, Xki) bằng 0:

Giả thiết 3: Phương sai của sai số ngẫu nhiên tại các giá trị (X2i, X3i, …, Xki) đều bằng nhau

➢ Từ giả thiết 2 và 3 ta có thể nói sai số ngẫu nhiên (u) tuân theo phân phối chuẩn

Giả thiết 4: Giữa các biến độc lập Xj không có quan hệ cộng tuyến hoàn hảo, nghĩa là không tồn tại hằng số λ2, λ3,, λk không đồng thời bằng 0 sao cho: λ2X2 + λ3X3 +… + λkXk = 0

➢ Có thể nhận thấy nếu giữa các biến Xj (j = 2,3,,k) có quan hệ cộng tuyến hoàn hảo thì sẽ có ít nhất một trong các biến này sẽ suy ra được từ các biến còn lại Do đó, giả thiết 4 được đưa ra để loại trừ tình huống này

2.3 Phương pháp ước lượng mô hình hồi quy bội – Phương pháp bình phương nhỏ nhất (OLS)

Sau khi xây dựng và tìm hiểu ý nghĩa của các hệ số hồi quy trong mô hình, vấn đề tiếp theo ta quan tâm là làm sao để có được các ước lượng đáng tin cậy cho các hệ số j này

Cũng như với mô hình hồi quy hai biến, ta sẽ sử dụng phương pháp bình phương nhỏ nhất (OLS) để ước lượng các hệ số trong mô hình hồi quy k biến

Xét mô hình k biến: Y = 1 + 2X2 + 3X3 + … + kXk + 𝜖

Giả sử có một mẫu quan sát với giá trị thực tế là (Yi, X2i, …, Xki) với (i = 1, 2, …, n) Ta sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các hệ số j (j = 1, 2, …, k), ký hiệu là ̂ j (j = 1, 2, …, k) Từ các giá trị ước lượng này có thể viết thành hàm hồi quy mẫu như sau:

Tại mỗi quan sát i, hàm hồi quy mẫu được viết thành:

Trong đó Ŷ i là giá trị ước lượng cho Ŷ và sai lệch giữa hai giá trị này được gọi là phần dư với cách tính: ei = Ŷ i - Ŷ

Tương tự như mô hình hồi quy hai biến, phương pháp OLS nhằm xác định các giá trị ̂ j (j = 1, 2, …, k) sao cho tổng bình phương các phần dư là bé nhất:

𝑀𝑖𝑛 Khi đó, các giá trị = ̂ 1 + ̂ 2 + ̂ 3 +…+ ̂ k sẽ là nghiệm của hệ gồm k phương trình sau:

Với điều kiện số quan sát trong mẫu lớn hơn số hệ số hồi quy cần ước lượng và giả thiết

4 được thỏa mãn thì hệ phương trình trên sẽ có nghiệm duy nhất Việc giải hệ phương trình khá dễ dàng qua các phầm mềm thống kê nếu số biến không quá lớn Các giá trị ước

9 lượng bằng phương pháp OLS dựa trên số liệu mẫu cụ thể được xem như là các ước lượng điểm của các hệ số trong tổng thể

Với mô hình hồi quy bội (hồi quy k biến với k > 2), việc giải hệ phương trình để tìm các ước lượng hệ số ̂ j (j = 1, 2, 3…k) sẽ trở nên khó khăn hơn so với mô hình hồi quy 2 biến do đó ta sẽ có được các kết quả này với sự giúp của các phần mềm thống kê

Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin để đánh giá tác động của biến độc lập đối với sự thay đổi của biến phụ thuộc thông qua ý nghĩa các hệ số hồi quy

Khi các giả thiết từ 1 đến 4 thỏa mãn thì các ước lượng thu được từ phương pháp OLS là ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch Hay nói một cách khác, nếu giả thiết từ 1 đến 4 được thỏa mãn thì ước lượng OLS là ước lượng tốt nhất trong lớp các ước lượng tuyến tính không chệch

2.4 Đánh giá mức độ phù hợp của mô hình hồi quy bội

XỬ LÍ SỐ LIỆU

Đọc dữ liệu (Import data): gia_nha.csv

Đọc dữ liệu trong tệp tin và gán vào R với tên gia_nha

Kết quả khi đọc dữ liệu và xem 6 dòng đầu tiên của dữ liệu

Làm sạch dữ liệu (Data cleaning): NA dữ liệu khuyết

Tạo một dữ liệu mới chỉ bao gồm các biến chính cần quan tâm, lưu với tên new_DF

Kết quả tạo dữ liệu mới chỉ bao gồm các biến chính Kiểm tra dữ liệu khuyết trong new_DF

Dựa vào kết quả kiểm tra dữ liệu khuyết trong new_DF, nhận thấy có 20 dữ liệu khuyết của biến price tại các hàng 26, 54, 151, Vì số lượng dữ liệu khuyết là rất ít so với tổng

13 số hàng dữ liệu (20 hàng trong tổng 21613 hàng) nên có thể bỏ qua dữ liệu này Sử dụng lệnh lưới đây để xóa các hàng chứa dữ liệu khuyết:

Kiểm tra dữ liệu khuyết còn hay không

Dựa vào kết quả trên, nhận thấy dữ liệu đã bị xóa.

Làm rõ dữ liệu: (Data visualization)

Tạo một data mới là new_DF2 (gồm các biến new_DF đã được làm sạch), thay các giá trị trong biến sqft_basement là 0 thành 0.0000001 và chuyển đổi các biến price, sqft_above, sqft_living, sqft_basement lần lượt thành log(price), log(sqft_above), log(sqft_living), log(sqft_basement)

Giải thích thay các giá trị biến sqft_basement

- Dựa vào bảng số liệu, có 2 loại biến cần phân tích: biến phân loại (floors, condition, view) và biến liên tục (price, sqft_above, sqft_living, sqft_basement)

- Khi chuyển đổi các biến liên tục thành dạng log, dữ liệu biến sqft_basement có giá trị

0, khi lấy log sẽ trở thành -INF Vì vậy cần chuyển các giá trị biến sqft_basement thành 0,0000001 để khi lấy log không bị lỗi và giá trị log là giá trị 0

Giải thích chuyển đổi các biến thành dạng log(x)

- Cải thiện sự phù hợp của mô hình: giả định khi xây dựng mô hình hồi quy thì các sai số hồi quy (phần dư) phải có phân phối chuẩn, do đó trong trường hợp sai số hồi quy (phần dư) không có phân phối chuẩn thì việc lấy log của một biến giúp thay đổi tỉ lệ và làm cho biến đó có phân phối chuẩn Ngoài ra, trong trường hợp phần dư (phương sai thay đổi) do các biến độc lập gây ra, cũng có thể chuyển đổi các biến đó sang dạng log

- Đây là lý do giúp giải thích mối quan hệ giữa 2 biến thuận tiện hơn Nếu lấy log của biến phụ thuộc Y và biến độc lập X, khi đó hệ số hồi quy β sẽ là hệ số co giãn và giải thích như sau: X tăng 1% sẽ dẫn đến tăng việc kỳ vọng Y tăng lên β% (về mặt trung bình của Y),

- Ước lượng mô hình phi tuyến tính: việc lấy log cho phép ta ước lượng các mô hình này bằng hồi quy tuyến tính

3.2 Thống kê mô tả: dùng thống kê mẫu và đồ thị

- Đối với các biến liên tục, cần tính các giá trị thống kê mô tả: trung bình (mean), trung vị (median), độ lệch chuẩn (sd), giá trị nhỏ nhất (min), giá trị lớn nhất (max) Xuất kết quả dưới dạng bảng

Kết quả khi tính các biến price, sqft_above, sqft_living, sqft_basement

Kết quả khi tính các biến price, sqft_above, sqft_living, sqft_basement ở lạng log

- Đối với biến phân loại, cần thống kê các giá trị và tần số của từng giá trị dưới dạng bảng

Kết quả thống kê các giá trị biến floors, condition, view

Vẽ biểu đồ histogram thể hiện phân phối của biến price và log(price)

Kết quả vẽ biểu đồ histogram thể hiện phân phối biến price

Kết quả vẽ biểu đồ histogram của biến log(price)

Nhận xét: Dựa trên biểu đồ histogram của biến price, nhận thấy phân phối biến price có xu hướng lệch phải, phần lớn ngôi nhà có giá tiền gần như nhau và một số ít ngôi nhà có giá trị cao hơn Biểu đồ của biến log(price) có hình dạng phân phối chuẩn

Vẽ biểu đồ boxplot thể hiện phân phối của biến price và log(price) theo từng loại của biến floors

Kết quả biểu đồ boxplot của biến price theo biến floors

Kết quả vẽ biểu đồ boxplot của biến log(price) theo biến floors

Vẽ biểu đồ boxplot thể hiện phân phối của biến price và log(price) theo từng loại của biến condition

Kết quả biểu đồ boxplot của biến price theo biến condition

Kết quả biểu đồ boxplot của biến log(price) theo biến condition

Vẽ biểu đồ boxplot thể hiện phân phối của biến price và log(price) theo từng loại của biến view

Kết quả vẽ biểu đồ boxplot của biến price theo biến view

Kết quả vẽ biểu đồ boxplot của biến log(price) theo biến price

Vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_above trước và sau khi chuyển thành dạng log(x)

Kết quả vẽ biểu đồ thể hiện phân tán của biến price theo biến sqft_above trước và sau khi chuyển sang dạng log(x)

Vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_living trước và sau khi chuyển thành dạng log(x)

Kết quả vẽ biểu đồ thể hiện phân tán của biến price theo biến sqft_living trước và sau khi chuyển sang dạng log(x)

Vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_basement trước và sau khi chuyển thành dạng log(x)

Kết quả vẽ biểu đồ thể hiện phân tán của biến price theo biến sqft_basement trước và sau khi chuyển sang dạng log(x)

Nhận xét: Dựa trên biểu đồ phân tán nhận thấy log(price) có quan hệ tuyến tính rõ hơn với các biến log(sqft_above), log(sqft_living), log(sqft_basement) cụ thể là quan hệ đồng biến

Kết quả: dựa trên các đồ thị trên nhận thấy việc phân tích mối quan hệ tuyến tính giữa các biến độc lập và phụ thuộc (giá nhà) sẽ hiệu quả hơn trong việc chuyển đổi các biến sang dạng log(x) Khi đó để xác định mối quan hệ các biến với giá nhà là ngẫu nhiên hay có mối quan hệ tuyến tính giữa các biến với giá nhà sẽ dựa vào mô hình hồi quy tuyến tính Mô hình hồi quy tuyến tính giúp kiểm tra thông qua các khoảng tin cậy, các phép kiểm định và ước lượng giá trị của biến phụ thuộc (giá nhà) theo các biến độc lập.

Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến giá nhà ở quận King

Xét mô hình hồi quy tuyến tính bao gồm:

Biến phụ thuộc: log(price)

Biến dự báo (biến độc lập): floors, condition, view, log(sqxft_above), log(sqft_living), log(sqft_basement)

Mô hình được biểu diễn như sau: log(price) = β 0 + β 1 x floors1.5 + β 2 x floors2 + + β 14 x log(sqft_above) + β 15 x log(sqft_living) + β 16 x log(sqft_basement) + ε i

Trước khi ước lượng các hệ số βi cần chuyển các biến floors, condition, view sang dạng factor

Thực hiện ước lượng các hệ số βi , i = 0, , 16:

Kết quả xây dựng mô hình mô hình hồi quy tuyến tính

Nhận xét: Đường thẳng hồi quy ước lượng cho bởi phương trình sau: log(price) = 7.3008421+ 0.1186386x floors1.5 + 0.0512602x floors2 + + 0.4815272 x log(sqft_above) + 0.2741286 x log(sqft_living) + 0.0103920 x log(sqft_basement)

Với giả thuyết mức ý nghĩa 5% , đặt giả thuyết kiểm định hệ số hồi quy:

H0: Hệ số hồi quy không có ý nghĩa thống kê (βi = 0)

H1: Hệ số hồi quy có ý nghĩa thống kê (βi ≠ 0)

Nhận xét: Quan sát cột Pr ( > | t | )

Quan sát cột Pr: ứng với các biến as.factor(condition)2, as.factor(condition)3 có giá trị Pr lớn hơn mức ý nghĩa 5% Nên đối với các biến này, ta chấp nhận giả thiết H0 Do đó các hệ số ứng với các biến này không có ý nghĩa thống kê nên có thể loại bỏ khỏi mô hình Cân nhắc loại condition ra khỏi mô hình

Các biến còn lại đều có Pr nhỏ hơn mức ý nghĩa nên ta có thể bác bỏ H0, chấp nhận H1 tức là hệ số hồi quy ứng với các biến này có ý nghĩa trong thống kê Do đó, không thể loại các biến này ra khỏi mô hình Đặc biệt, các biến có giá trị Pr là < 2e - 16 = 10 -16 là rất nhỏ so với mức ý nghĩa 5% Do đó, các biến này có ảnh hưởng khá lớn đến biến phụ thuộc của chúng ta – biến price

Xét 2 mô hình hồi quy tuyến tính m1, m2

- Mô hình m1: chứa tất cả các biến còn lại là biến độc lập

- Mô hình m2: loại bỏ biến condition ra khỏi mô hình m1

Kết quả xây dựng mô hình hồi quy tuyến tính m2

So sánh hiệu quả của hai mô hình: sử dụng anova để so sánh và rút ra mô hình phù hợp

Kết quả so sánh anova 2 mô hình hồi quy tuyến tính Đặt giả thuyết:

H0: Hai mô hình hiệu quả giống nhau

H1: Hai mô hình hiệu quả khác nhau

Nhận xét: Giá trị Pr(> F) |t|) của tất cả các biến đều nhỏ hơn mức ý nghĩa 0.05 (2e - 16 < 0,05) ngoại trừ biến AP (5.51e – 11 > 0.05) nên ta bác bỏ H0 đối với các biến (AT, V, RH) nhưng không đủ cơ sở bác bỏ H0 với biến AP với mức ý nghĩa 5% Vậy hệ số hồi quy của biến AP không có ý nghĩa, cần loại bỏ biến

AP ra khỏi mô hình với độ tin cậy 95%

• Xây dựng mô hình m2 (loại biến AP), dùng Anova chọn ra mô hình hợp lý m2|t|) = 5.507e – 11 > 0,05 nên ta chấp nhận H0 với mức ý nghĩa 5% Vậy 2 mô hình có ý nghĩa như nhau với độ tin cậy là 95%

So sánh R 2 hiệu chỉnh của m1 và m2 để đưa ra kết luận mô hình nào hiệu quả hơn

Suy ra: mô hình 1 có hiệu quả hơn mô hình 2 (0.9287 > 0.9284)

3.2.3 Suy luận sự tác động của các biến đến Sản lượng điện ròng theo giờ

• Dựa trên kết quả tóm tắt trên mô hình 1, ta nhận thấy các biến AT, V, RH có Pr(>t) rất bé (***), tức khả năng bác bỏ H0 càng cao, tức các hệ số ứng với các biến trên có ý nghĩa thống kê cao, có nghĩa là những thay đổi của các biến này có ảnh hưởng nhiều đến sự thay đổi của sản lượng điện ròng Tiếp đến là biến AP có Pr(>t) = 5.51e-11 cũng ảnh hưởng nhiều đến Sản lượng điện ròng (ít hơn so với các biến còn lại)

• Mặt khác các hệ số hồi quy của 1 biến dự báo cũng được xem như ảnh hưởng trung bình lên biến phụ thuộc là sản lượng điện ròng khi tăng hoặc giảm 1 đơn vị của biến dự báo đó, giả sử khi các biến dự báo khác không đổi

• Cụ thể hơn, hệ số hồi quy ứng với AT = -1.977513 thì ứng với nhiệt độ tăng 1 độ thì ta có thể kỳ vọng sản lượng điện ròng giảm đi 1.9775 đơn vị (giả sử rằng các biến dự báo còn lại không đổi)

• Tương tự, hệ số hồi quy ứng với V = -0.233916 thì ứng với áp suất hút chân không tăng 1 đơn vị thì ta có thể kỳ vọng sản lượng điện ròng giảm đi 0.233916 đơn vị (giả sử rằng các biến dự báo còn lại không đổi)

• Tương tự, hệ số hồi quy ứng với AP = 0.062083 thì ứng với áp suất tăng 1 đơn vị thì ta có thể kỳ vọng sản lượng điện ròng tăng thêm 0.062083 đơn vị (giả sử rằng các biến dự báo còn lại không đổi)

• Và cuối cùng là, hệ số hồi quy ứng với RH = -0.158054 thì ứng với độ ẩm tỉ đối tăng 1% thì ta có thể kỳ vọng sản lượng điện ròng giảm đi thêm 0.158054 đơn vị (giả sử rằng các biến dự báo còn lại không đổi)

3.2.4 Dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy và giá trị dự báo Nêu ý nghĩa và nhận xét plot (m1, which = 1)

- Nhận xét: Đồ thị trên vẽ các giá trị dự báo và các giá trị thặng dư (sai số) tương ứng Dựa vào đồ thị ta thấy, đường màu đỏ trên đồ thị là cong, tức là mối quan hệ giữa các biến dự báo

X và biến phụ thuộc Y được không được xem là tuyến tính, nên không thỏa mãn giả định tuyến tính của dữ liệu

3.3.1 Từ mô hình trên, dùng lệnh predict () để dự báo sản lượng điện năng lượng ròng theo giờ (PE)

Tạo 2 thuộc tính và dự báo sản lượng ròng tại 2 thuộc tính

3.3.2 So sánh khoảng tin cậy của 2 giá trị dự báo trên

- Tạo bảng thể hiện dự sản lượng điện ròng ở 2 thuộc tính X1,X2

- Đổi tên dòng thành X1, X2

- So sánh khoảng tin cậy của 2 giá trị dự báo

Nhận xét: Với khoảng tin cậy 95%, ta thấy được độ dài khoảng tin cậy giá trị dự báo của

X1 < X2 nên ta có thể kết luận với tập dữ liệu từ X1, ta có thể thu được một giá trị dự báo chính xác hơn so với X2

Ngày đăng: 21/04/2024, 18:02

HÌNH ẢNH LIÊN QUAN

BẢNG PHÂN CÔNG CÔNG VIỆC - Bài tập lớn Xác suất – Thống Kê
BẢNG PHÂN CÔNG CÔNG VIỆC (Trang 2)
Đồ thị trên vẽ các giá trị dự báo và các giá trị thặng dư (sai số) tương ứng. Dựa vào đồ  thị ta thấy, đường màu đỏ trên đồ thị là cong, tức là mối quan hệ giữa các biến dự báo - Bài tập lớn Xác suất – Thống Kê
th ị trên vẽ các giá trị dự báo và các giá trị thặng dư (sai số) tương ứng. Dựa vào đồ thị ta thấy, đường màu đỏ trên đồ thị là cong, tức là mối quan hệ giữa các biến dự báo (Trang 38)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w