1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài tập lớn xác suất & thống kê thống kê và phân tích hồi quy

37 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Tập Lớn Xác Suất & Thống Kê
Tác giả Phạm Nguyễn Tùng Dương, Huỳnh Tuấn Kiệt, Nguyễn Phước Minh, Phạm Hồ Thanh Sang
Người hướng dẫn GVHD: Huỳnh Thái Duy Phương
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh - Trường Đại Học Bách Khoa
Chuyên ngành Kỹ Thuật Hóa Học
Thể loại Bài Tập Lớn
Năm xuất bản 2024
Thành phố Hồ Chí Minh
Định dạng
Số trang 37
Dung lượng 1,17 MB

Cấu trúc

  • I. TỔNG QUAN DỮ LIỆU (6)
    • 1. Mục tiêu (6)
    • 2. Mô tả tập dữ liệu (6)
    • 3. Mô tả biến (7)
  • II. CƠ SỞ LÝ THUYẾT (8)
    • 1. Thống kê và phân tích hồi quy (8)
      • 1.1. Khái niệm về thống kê (8)
      • 1.2. Khái niệm về hồi quy (8)
    • 2. Mô hình hồi quy tuyến tính (8)
      • 2.1. Hồi quy tuyến tính (8)
      • 2.2. Hồi quy logistic (8)
      • 2.3. Kiểm định hosmer-lemeshow (9)
      • 2.4. Hệ số tương quan pearson (10)
      • 2.5. Mô hình Decision Tree (11)
    • 3. Phân tích phương sai Anova (11)
      • 3.1. Phân tích phương sai (11)
      • 3.2. Phân tích phương sai một nhân tố (12)
  • III. TIỀN XỬ LÝ SỐ LIỆU (14)
    • 1. Đọc dữ liệu (14)
    • 2. Làm sạch dữ liệu (15)
  • IV. THỐNG KÊ MÔ TẢ (18)
    • 1. Tính toán thống kê mẫu (18)
      • 2.1 Đồ thị Barplot (18)
      • 2.2. Đồ thị Histogram (19)
      • 2.3. Đồ thị Boxplot (21)
      • 2.4. Đồ thị ma trận tương quan (23)
  • V. THỐNG KÊ SUY DIỄN (25)
    • 1. Hồi quy Logistic nhị phân (25)
  • VI. THẢO LUẬN VÀ MỞ RỘNG (31)
  • VII. NGUỒN DỮ LIỆU VÀ NGUỒN CODE (36)
  • TÀI LIỆU THAM KHẢO (37)

Nội dung

Thống kê mô tả: 2 biến định lượng và Potability - Thống kê mẫu: Kết quả tính toán các thống kê mô tả cho các biến định lượn, thống kê số lượng cho mỗi phân loại của Potability - Vẽ đồ th

TỔNG QUAN DỮ LIỆU

Mục tiêu

Tiếp cận nguồn nước uống sạch là quyền cơ bản và cần thiết cho sức khỏe con người, đóng vai trò quan trọng trong chính sách bảo vệ sức khỏe Nước chiếm hơn 70% trọng lượng cơ thể và là dung môi cho các phản ứng sinh hóa, do đó, nguồn nước ô nhiễm có thể gây ra nhiều bệnh lý nghiêm trọng như bệnh da, gan, ruột và ngộ độc Vì vậy, việc phân tích và đánh giá chất lượng nước thông qua các giá trị quan trắc là rất cần thiết Điều tra, đánh giá nguồn nước có thể sử dụng và không thể sử dụng ở nhiều khu vực cần được thực hiện thông qua các phương pháp ước lượng, kiểm định và phân tích cụ thể.

Thống kê mô tả cung cấp các chỉ số thống kê quan trọng như nồng độ pH, lượng chất rắn, hàm lượng sulfát SO4²− và độ cứng của nước, nhằm phân tích và trực quan hóa dữ liệu về chất lượng nguồn nước.

- Thực hiện kiểm định trung bình, trung vị, phương sai, tương quan tuyến tính cho các chỉ số cần thiết của nguồn nước.

- Xây dựng mô hình hồi quy Logistic nhị phân thể hiện mối liên hệ giữa biến phụ thuộc Potability với các biến định lượng.

Mô tả tập dữ liệu

Tập dữ liệu này cung cấp thông tin về chất lượng nước tại một số khu vực khảo sát, nhấn mạnh tầm quan trọng của việc tiếp cận nguồn nước uống an toàn, một quyền cơ bản của con người và là yếu tố thiết yếu trong chính sách bảo vệ sức khỏe Vấn đề này không chỉ ảnh hưởng đến sức khỏe cá nhân mà còn có tác động lớn đến sự phát triển ở cấp quốc gia, khu vực và địa phương Nghiên cứu cho thấy rằng đầu tư vào cung cấp nước và vệ sinh có thể mang lại lợi ích kinh tế đáng kể, nhờ vào việc giảm thiểu các tác động tiêu cực đến sức khỏe và chi phí y tế, cho thấy rằng chi phí thực hiện các biện pháp can thiệp thường thấp hơn so với chi phí điều trị.

- Tiêu đề : Khả năng uống được của nước.

- Nguồn: https://www.kaggle.com/datasets/adityakadiwal/water-potability

- Số giá trị quan trắc : 3276.

- Số lượng biến: 10 biến, gồm 9 biến độc lập và 1 biến phụ thuộc.

Mô tả biến

STT Tên biến Điều kiện Đơn vị Mô tả

1 pH { x ∈ R |6.5

Ngày đăng: 16/02/2025, 09:46

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w