1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng hồi quy tuyến tính Đa biến trong dữ liệu sulfate Để dự Đoán chất lượng nguồn nước

35 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Hồi Quy Tuyến Tính Đa Biến Trong Dữ Liệu Sulfate Để Dự Đoán Chất Lượng Nguồn Nước
Tác giả Đào Trọng Hiếu, Lê Minh Mẫn, Trương Thị Tuyết Mai, Trương Hiểu Đông, Vũ Lưu Hoàn
Người hướng dẫn GV Nguyễn Đình Huy
Trường học Trường Đại Học Bách Khoa Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Kỹ Thuật Hóa Học
Thể loại Báo cáo
Năm xuất bản 2024
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 35
Dung lượng 3,99 MB

Cấu trúc

  • I. HOẠT ĐỘNG 1 (4)
    • 1. HỒI QUY TUYẾN TÍNH (4)
      • 1.1. Khái quát về hồi quy tuyến tính (4)
      • 1.2. Mô hình hồi quy tuyến tính đa biến (5)
      • 1.3. Đánh giá sự phù hợp của mô hình (5)
      • 1.4. Kiểm tra giả định không có sự tương quan giữa các phần dư (8)
      • 1.5. P-values trong kiểm định giả thiết (9)
      • 1.6. Giới thiệu về R – Studio (9)
  • II. HOẠT ĐỘNG 2 (10)
    • 2. GIẢI QUYẾT BÀI TẬP LỚN (10)
      • 2.1. Đề tài (10)
      • 2.2. Mô tả dữ liệu (10)
      • 2.3. Giải quyết đề tài (11)
      • 2.4. Thống kê mô tả (18)
      • 2.5. Thống kê suy diễn (20)
  • III. KẾT LUẬN ĐỀ TÀI (32)
    • 3.1. Tính cấp thiết của mô hình (32)
    • 3.2. Hiệu quả và hạn chế của mô hình hồi quy tuyến tính đa biến (33)
  • IV. KẾT LUẬN (35)
  • V. TÀI LIỆU THAM KHẢO (35)

Nội dung

Thông qua thống kê, các dữ liệu thu thập được phân tích theo nhiều tiêu chí khác nhau giúp người sử dụng có cái nhìn tổng quan về dữ liệu của họ, đưa ra được ước lượng về tổng thể lớn hơ

HOẠT ĐỘNG 1

HỒI QUY TUYẾN TÍNH

1.1 Khái quát về hồi quy tuyến tính

Hồi quy tuyến tính là phương pháp phân tích mối quan hệ giữa biến phụ thuộc Y và một hoặc nhiều biến độc lập X, sử dụng mô hình hàm tuyến tính bậc 1 Các tham số của mô hình được ước lượng từ dữ liệu, giúp hiểu rõ hơn về sự ảnh hưởng của các biến độc lập đối với biến phụ thuộc.

Một số loại hồi quy tuyến tính phổ biến:

 Hồi quy tuyến tính đơn giản: khi chỉ có một biến độc lập và một biến phụ thuộc

 Hồi quy tuyến tính bội: khi có nhiều hơn một biến độc lập có thể sử dụng để dự đoán giá trị của một biến phụ thuộc

 Hồi quy Logistic: tương tự hồi quy tuyến tính đơn giản nhưng biến phụ thuộc chỉ nhận hai giá trị là 0 và 1

1.2 Mô hình hồi quy tuyến tính đa biến

Hồi quy đa biến có thể được sử dụng để mô hình hóa các mối quan hệ tuyến tính hoặc phi tuyến giữa các biến

Phương trình hồi quy tổng thể với k biến độc lập có dạng như sau:

 β0: là hệ số tung độ gốc

 β1: là hệ số dốc của Y theo biến X1 và giữ các biến X2, X3, , Xk không đổi

 β2: là hệ số dốc của Y theo biến X2 và giữ các biến X1, X3, , Xk không đổi

 β3: là hệ số dốc của Y theo biến X3 và giữ các biến X1, X2, , Xk không đổi

 βk: là hệ số dốc của Y theo biến Xk và giữ các biến X1, X2, X3, , Xk-1 không đổi

 ε i : là thành phần ngẫu nhiên (yếu tố nhiễu), có kỳ vọng bằng 0 và phương sai không đổi ε i

Giả sử có một mẫu quan sát với giá trị thực tế là (Yi, Y2i, , Yki) với (i = 1, 2, 3, , n) Chúng ta sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các hệ số βk (với k = 0, 1, 2, 3, , k) Từ các giá trị ước lượng này, có thể viết thành hàm hồi quy mẫu.

Ŷ = β̂ + β 0 ̂X 1 1 + β̂X 2 2 + +β̂X k k Tại mỗi quan sát i, hàm hồi quy mẫu được viết thành:

Sự sai lệch giữa giá trị quan sát Yi và giá trị ước lượng Ŷ i được gọi là phần dư e i = Y i − Ŷ i

1.3 Đánh giá sự phù hợp của mô hình

Có nhiều phương pháp thống kê để đánh giá sự phù hợp của mô hình, bao gồm tính toán hệ số xác định, sử dụng thống kê F để xem xét mức ý nghĩa toàn diện của mô hình, tính sai số chuẩn của ước lượng và đánh giá ý nghĩa của từng biến độc lập.

1.3.1 Tính toán hệ số xác định bội

Khi có nhiều biến độc lập trong mô hình, hệ số xác định R² được sử dụng để đo lường phần biến thiên của biến phụ thuộc được giải thích bởi các mối quan hệ với tất cả các biến độc lập Trong trường hợp này, R² được gọi là hệ số xác định bội Công thức tính toán hệ số xác định bội là một phần quan trọng trong phân tích hồi quy.

 SSR (Regression Sum of Squares): biến thiên của hồi quy

 SST (Total Sum of Squares): tổng biến thiên của biến phụ thuộc

1.3.2 Hệ số xác định hiểu chỉnh

Hệ số xác định hiệu chỉnh R² adj là công cụ hữu ích để đo lường tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích, đồng thời điều chỉnh theo kích thước mẫu và số lượng biến độc lập trong mô hình hồi quy bội Công thức tính R² adj giúp đánh giá tính chính xác của mô hình hồi quy một cách hiệu quả hơn.

R adj 2 = 1 − (1 − R 2 ) [ n−1 n−k−1] Trong đó n là cỡ mẫu và k là số biến độc lập trong mô hình

Hệ số xác định hiệu chỉnh (Adjusted R²) là yếu tố quan trọng trong mô hình hồi quy, bởi vì khi thêm biến độc lập vào mô hình, R² sẽ luôn tăng, ngay cả khi các biến này không có mối liên hệ đáng kể với biến phụ thuộc Điều này có thể dẫn đến việc R² bị thổi phồng một cách giả tạo, đặc biệt khi số lượng biến độc lập lớn so với kích thước mẫu Do đó, việc xem xét hệ số xác định hiệu chỉnh giúp đánh giá chính xác khả năng giải thích của mô hình.

Sự gia tăng của R² có thể không đủ để bù đắp cho việc mất thêm bậc tự do khi thêm biến, trong khi R điều chỉnh (R adj²) xem xét thiệt hại này và điều chỉnh giá trị một cách hợp lý Khi một biến độc lập được thêm vào mà không có sự đóng góp đáng kể cho khả năng giải thích biến phụ thuộc, R adj² sẽ phản ánh điều đó một cách chính xác.

Trong mô hình hồi quy đa biến, R² điều chỉnh (R² adj) là chỉ số quan trọng để đánh giá khả năng giải thích của mô hình, đặc biệt khi số biến độc lập lớn so với kích thước mẫu Mặc dù R² adj có xu hướng tăng lên, nhưng R² sẽ luôn giảm đi Do đó, khi đánh giá độ phù hợp của mô hình hồi quy đa biến, bên cạnh R², việc tham khảo R² adj cũng rất cần thiết.

1.3.3 Đánh giá ý nghĩa toàn diện của mô hình

Mô hình hồi quy được xây dựng dựa trên dữ liệu từ mẫu tổng thể, do đó có thể bị ảnh hưởng bởi sai số lấy mẫu Vì vậy, việc kiểm định ý nghĩa thống kê của toàn bộ mô hình là cần thiết.

Chúng ta thiết lập giả thuyết H 0 và giả thuyết đối H1 như sau:

Nếu giả thuyết H0 đúng, tức là tất cả các hệ số độ dốc đều bằng 0, thì mô hình hồi quy bội không có khả năng dự đoán hay mô tả biến phụ thuộc Đại lượng thống kê F trong bảng ANOVA được sử dụng để kiểm định ý nghĩa toàn diện của mô hình hồi quy, và công thức tính đại lượng F được xây dựng dựa trên các yếu tố liên quan đến mô hình.

 SSR (Regression Sum of Squares): Tổng bình phương hồi quy

 SSE (Error Sum of Squares): Tổng bình phương sai số (phần dư)

 MSR (Mean Square Regression): Trung bình bình phương hồi quy

 MSE (Mean Square Error): Trung bình bình phương sai số n và k lần lượt là cỡ mẫu và số biến độc lập

Để đưa ra quyết định, cần tra bảng thống kê F để tìm giá trị tới hạn tương ứng với mức ý nghĩa đã chọn Để thực hiện việc này, cần biết thêm thông tin về bậc tự do của tử số và mẫu số, trong đó bậc tự do của tử số được qui ước là D1 = k và bậc tự do của mẫu số là D2 = (n - k - 1).

Từ đây, ta có qui trình đánh giá ý nghĩa toàn diện của mô hình như sau:

Bước 2: Chọn độ tin cậy cho kiểm định từ đó có mức ý nghĩa α

Bước 3: Từ D1 , D2 và α, tra bảng phân phối F tìm được giá trị F tới hạn

Bước 4: Tính giá trị F kiểm định theo công thức trên và so sánh với giá trị F tới hạn

Nếu giá trị F kiểm định lớn hơn giá trị F tới hạn, điều này cho thấy mô hình hồi quy bội với các biến độc lập đã chọn có khả năng giải thích một cách có ý nghĩa sự biến thiên của biến phụ thuộc.

1.3.4 Tính toán sai số chuẩn ước lượng:

Mô hình hồi quy được xây dựng nhằm xác định giá trị của biến phụ thuộc dựa trên các giá trị cụ thể của biến độc lập Độ lệch chuẩn của mô hình hồi quy, hay còn gọi là sai số chuẩn ước lượng, cho thấy mức độ chính xác của mô hình trong việc đạt được mục tiêu này Giá trị ước lượng của sai số chuẩn ước lượng được tính toán từ thông tin mẫu.

Sai số chuẩn là một chỉ số quan trọng dùng để ước lượng mức độ phân tán của các giá trị thực tế của biến phụ thuộc xung quanh các giá trị dự đoán từ mô hình hồi quy.

1.3.5 Đánh giá ý nghĩa của từng biến độc lập riêng biệt Ở kiểm định F, giả sử H1 được chấp nhận ta kết luận rằng mô hình toàn diện có ý nghĩa Điều này có ý nghĩa là có ít nhất một biến độc lập trong mô hình có thể giải thích được một cách có ý nghĩa cho biến thiên trong biến phụ thuộc Tuy nhiên điều này không có nghĩa là tất cả các biến độc lập đưa vào mô hình đều có ý nghĩa, để xác định biến độc lập nào có ý nghĩa chúng ta kiểm định giả thuyết sau:

HOẠT ĐỘNG 2

GIẢI QUYẾT BÀI TẬP LỚN

Kiểm định chất lượng nguồn nước thông qua phân tích hàm lượng Sulfate trong các mẫu nước là một phương pháp quan trọng Bằng cách xây dựng mô hình hồi quy tuyến tính đa biến, chúng ta có thể phân tích và dự đoán lượng Sulfate dựa trên các thông số của các thành phần khác Từ đó, chúng ta có thể đưa ra những kết luận và đánh giá chính xác về chất lượng của mẫu nước phân tích.

Tập tin Water_potability2.xlsx cung cấp thông tin chi tiết về chất lượng nước ở nhiều vùng khác nhau, với các thuộc tính dữ liệu bao gồm nồng độ pH và độ cứng của nước Dữ liệu này có thể truy cập tại địa chỉ: https://www.kaggle.com/datasets/adityakadiwal/water-potability, giúp người dùng hiểu rõ hơn về các thành phần hóa học có trong nước.

Chloramines: nồng độ clo và cloramin Sulfalte: nồng độ sulfate

Organic carbon: nồng độ cacbon hữu cơ Solids: nồng độ tổng lượng chất rắn hoà tan

Trihalomethanes: nồng độ THMs Conductivity: độ dẫn điện

Turbidity: độ đục Potability: khả năng uống được

Biến Data type Đơn vị Description pH {𝑥 ∈ 𝑅 | 0 ≤ 𝑥 ≤ 14} Không pH của nước

Hardness {𝑥 ∈ 𝑅 | 47.4 ≤ 𝑥 ≤ 323} mg/L Độ cứng của nước

Solids {𝑥 ∈ 𝑅 | 321 ≤ 𝑥 ≤ 61.2𝑘} ppm Tổng hàm lượng chất rắn hoà tan Chloramines {𝑥 ∈ 𝑅 | 0.35 ≤ 𝑥 ≤ 13.1} ppm Hàm lượng Chloramines hoà

8 tan Sulfate {𝑥 ∈ 𝑅 | 129 ≤ 𝑥 ≤ 481} mg/L Hàm lượng Sulfates hoà tan Conductivity {𝑥 ∈ 𝑅 | 181 ≤ 𝑥 ≤ 753} μS/cm Độ dẫn điện

Organic_carbon {𝑥 ∈ 𝑅 | 2.2 ≤ 𝑥 ≤ 28.3} ppm Hàm lượng cacbon hữu cơ Trihalomethanes {𝑥 ∈ 𝑅 | 0.74 ≤ 𝑥 ≤ 124} μg/L Hàm lượng Trihalomethanes Turbidity {𝑥 ∈ 𝑅 | 1.45 ≤ 𝑥 ≤ 6.74} NTU Tính chất phát quang của nước

Potability {𝑥 ∈ 𝑅 | 0 ≤ 𝑥 ≤ 1} none Chỉ thị liệu nước có uống được hay không

Cài đặt và khai báo các thư viện và hệ thống bằng lệnh install.packages và library

- “readxl”: Package đọc tập tin Excel mà đề bài đã cho

- “dplyr” : Package có chức năng thao tác và biến đổi dữ liệu

Gói "psych" là công cụ phân tích đa biến mạnh mẽ, cho phép người dùng xây dựng thang đo thông qua các phương pháp như phân tích nhân tố, phân tích thành phần chính và phân tích cụm Ngoài ra, gói này còn hỗ trợ phân tích độ tin cậy và cung cấp các số liệu thống kê mô tả cơ bản, giúp nâng cao chất lượng nghiên cứu và phân tích dữ liệu.

- “car”: Package cung cấp chức năng và công cụ phân tích hồi quy

- “gmodels”: Package cung cấp các công cụ khác nhau để phù hợp với mô hình

- “VIM”: Package trực quan hoá các giá trị bị thiếu

2.3.2 Đọc dữ liệu Đọc tệp tin “water_potability.csv” và gán với tên là water

Dùng hàm read_excel để đọc dữ liệu, những dữ liệu trống trong bảng sẽ được chuyển thành NA Code:

9 Nhận xét: Tệp tin chứa 3276 quan sát của 10 biến (9 biến định lượng và 1 biến phân loại)

Kiểm tra định dạng dữ liệu bằng hàm summary:

Để tìm độ lệch chuẩn của dữ liệu đầu vào, bạn có thể sử dụng hàm apply() để tính toán độ lệch chuẩn cho từng cột trong tập dữ liệu và lưu kết quả vào biến standard_deviations Phép tính này giúp đo lường sự biến thiên hoặc phân tán của dữ liệu.

Chuyển dữ liệu sang dạng numeric:

Từ các biểu đồ, có thể thấy rằng biến Conductivity và biến Organic_carbon chỉ có ít giá trị ngoại lai, trong khi các biến khác lại xuất hiện nhiều giá trị ngoại lai Hơn nữa, các biến này đều không có sự lệch quá nhiều về phía nào.

Tìm phương sai của dữ liệu đầu vào:

Để thống kê các biến bị khuyết mất, bạn có thể sử dụng hàm is.na để nhận diện các giá trị khuyết, hàm sum để đếm số lượng giá trị khuyết, và hàm mean để tính phần trăm biến bị khuyết so với tổng số biến trong cột.

Hàm apply dùng để áp dụng hàm lên trên các mảng dữ liệu

Biến pH có 491 quan sát với 15% dữ liệu khuyết, trong khi biến Sulfate có 781 quan sát với tỷ lệ dữ liệu khuyết chiếm 23.84% Biến Trihalomethanes ghi nhận 162 quan sát, trong đó dữ liệu khuyết chiếm 5%.

• Chúng ta nên thay thế dữ liệu khuyết bằng trung vị

Xử lý dữ liệu khuyết:

Tìm trung vị của biến dữ liệu khuyết (bỏ qua các giá trị khuyết):

Thế trung vị vào các biến bị khuyết, gộp các bảng dữ liệu thành một bảng dữ liệu mới với tên water1:

Tính phương sai của các biến với những giá trị đã được thay:

2.4.1 Biểu đồ tương quan đa biến

Nhận xét từ biểu đồ cho thấy hệ số tương quan giữa các biến không cao, điều này chỉ ra rằng các biến này không có mối quan hệ chặt chẽ với nhau Điều này chứng tỏ rằng chúng là các biến độc lập và không xảy ra hiện tượng đa cộng tuyến.

Nhận xét cho thấy rằng các giá trị của các biến phân bố có sự tương đồng với hình dạng của phân phối chuẩn Cụ thể, giá trị pH chủ yếu tập trung trong khoảng từ 5 đến 9, trong khi giá trị Sulfate cũng có xu hướng tập trung cao trong một khoảng nhất định.

The analysis reveals that water samples exhibit a high concentration of solids ranging from 280 to 380, with solid values predominantly between 10,000 and 30,000 Hardness levels are notably concentrated between 160 and 240, while chloramines show a significant range of 5 to 9 Additionally, trihalomethanes are primarily found between 40 and 80, turbidity levels range from 3 to 5, and conductivity values are concentrated between 300 and 550 Lastly, organic carbon concentrations fall within the range of 10 to 18, indicating that many water samples meet safety criteria.

2.5.1 So sánh tương quan các biến để chọn biến cho mô hình hồi quy

Sử dụng lệnh pairs để tạo biểu đồ tương quan giữa các biến, trong đó tham số “pch = 20” được thiết lập để định hình các ký hiệu trên biểu đồ thành những chấm tròn.

Nhận xét: Biểu đồ cho ta thấy được tổng quát phân bố giữa tất cả các biến và giữa các biến Hardness, Solids, Sulfate, ph, Trihalomethanes

2.5.2 Kiểm tra hồi quy đơn từng biến Đầu tiên, tạo ma trận tương quan giữa các biến bằng hàm “cor”

Sau khi xây dựng mô hình hồi quy tuyến tính cho từng cặp biến, cần tóm tắt kết quả hồi quy một cách chi tiết để đánh giá mức độ phù hợp và độ chính xác của mô hình.

Thông qua việc sử dụng R hiệu chỉnh và p-value, chúng ta có thể đánh giá độ tin cậy giữa các biến để xác định biến bị khuyết Kết quả cho thấy R hiệu chỉnh của mô hình Sulfate ~ Solid đạt giá trị cao nhất là 0,02913, trong khi p-value rất nhỏ Điều này cho thấy mối liên hệ giữa Sulfate và Solid là đáng tin cậy.

2.5.3 Phân tích hồi quy Đầu tiên, ta loại bỏ các hàng chứa giá trị NA

Code: clean_water hoiquy3 > hoiquy2 > hoiquy1.

2.5.4 So sánh 2 mô hình hồi quy

Dùng hàm anova để thực hiện phân tích phương sai giữa các mô hình

2.5.5 Kiểm tra dư lượng và dự đoán xét nghiệm

Dùng hàm Fitted dùng để hiển thị giá trị ước lượng dự đoán và trích xuất phần dư của mô hình bằng hàm resid

Sau đó vẽ đồ thị

Nhận xét: Mô hình hồi quy 3 đảm bảo nhất về độ tin cậy

Dùng kiểm định Durbin – Watson

Nhận xét: Giá trị p-value gần bằng 1, và Alternative hypothesis bằng 0 Suy ra hoàn toàn có thể dự đoán các giá trị khuyết bằng mô hình hoiquy3

2.5.6 Gán các giá trị bị thiếu bằng mô hình hồi quy

Dùng thuật toán K-Nearest Neighbors để dự đoán các giá trị bị khuyết dựa trên 5 điểm lân cận gần nhất

2.5.7 Đánh giá chất lượng nước dựa trên hàm lượng Sulfate

Tạo 1 bảng dữ liệu với tên “water2” sau đó tạo 1 cột Quality để đánh giá mẫu nước có thể uống được hay không dựa vào điều kiện là giá trị Sulfate < 250

Ngày đăng: 18/02/2025, 10:07

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w