6.3. CáC MÔ HìNH HồI QUY DùNG CHO Dự BáO Sử DụNG N¦íC
6.3.1. Khái niệm hồi quy dùng cho dự báo sử dụng nước
Rất nhiều nghiên cứu kinh nghiệm trong các bài toán hệ thống nguồn nước có liên quan tới việc thiết lập mối quan hệ giữa các phản ứng của hệ thống và các yếu tố tác động vào hệ thống. Ví dụ, các nhà thủy văn học thường liên kết các đặc điểm của dòng chảy mặt như dòng chảy lớn nhất, hoặc
lượng dòng chảy mặt với các đặc điểm khí tượng và địa lý của lưu vực như
lượng mưa, cường độ giáng thủy, kích thước lưu vực, khu vực thành thị...
Trong dự báo nhu cầu dùng nước, các kỹ sư tài nguyên nước mong muốn xây dựng một mô hình liên kết sử dụng nước với các yếu tố tường minh như xã
hội, dân số, kinh tế và thủy văn. Tính từ "tường minh" được sử dụng vì, trong rất nhiều các nghiên cứu kinh nghiệm, mối quan hệ nhân – quả không được hiểu hoàn toàn thấu đáo. Tuy nhiên, sự phát triển của những quan hệ kinh nghiệm giúp cho những nhà phân tích có những hiểu biết sâu sắc về hoạt động của hệ thống.
Phân tích hồi quy thường hay sử dụng phương pháp thống kê để nghiên cứu và mô hình hóa những quan hệ kinh nghiệm này. Nó được ứng dụng rộng rãi hầu như trong mọi lĩnh vực của kỹ thuật và khoa học. Để minh họa cho khái niệm phân tích hồi quy, giả sử rằng các kỹ sư của thành phố của Austin, Texas phát triển một mô hình để dự báo sử dụng nước trong tương lai. Nhiệm vụ đầu tiên là nhận biết các yếu tố có thể ảnh hưởng đến sử dụng nước có thể có, nhưng không chỉ giới hạn trong đó như quy mô dân số, giá nước, thu nhập bình quân, và lượng giáng thủy hàng năm. Khi các yếu tố đã được xác định, dữ liệu được thu thập cho các yếu tố khác nhau theo thời gian được trình bày trong bảng 6.3.1. Có thể tưởng tượng là tổng lượng nước sử dụng hàng năm cho Austin là kết quả tổng hợp các ảnh hưởng của rất nhiều yếu tố. Để dùng cho mục đích minh họa, phương pháp bình quân đầu người được sử dụng để nghiên cứu mối quan hệ giữa tổng lượng sử dụng nước hàng năm với dân số.
Đương nhiên, trực giác cho chúng ta biết sử dụng nước hàng năm sẽ tăng như khi dân số tăng. Tuy nhiên, một câu hỏi hữu ích hơn là tại sao sử dụng nước thay đổi tương ứng với quy mô dân số. Nếu mối quan hệ như thế này có thể được thiết lập, kỹ sư và những người nghiên cứu quy hoạch thành phố có thể dự đoán được lượng nước sử dụng cho sự tăng trưởng dân số biết trước, để có thể cung cấp nước đầy đủ. Bước đầu tiên để thiết lập mối quan hệ như thế này là vẽ biểu đồ phân bố: quy mô dân số (trên trục hoành) với lượng nước sử dụng tương ứng (trên trục tung) như hình vẽ 6.3.1. Các điểm trong hình vẽ 6.3.1 biểu hiện một mức độ phân tán, tuy nhiên, có thể nhìn thấy được một xu thế hướng lên khá rõ ràng.
Bước tiếp theo là xây dựng một hàm toán học để mô tả xu thế đi lên của sử dụng nước tương ứng với quy mô dân số. Có thể giả thiết rằng sử dụng nước, Q, cho thành phố của Austin tương quan tuyến tính với dân số của thành phố, POP. Dân số này có thể được mô tả bởi phương trình sau:
0 1
Q POP (6.3.1)
trong đó 0 là giao điểm và 1 là độ dốc của đường thẳng. Phương trình (6.3.1) là mô hình tất định mà trong đó sử dụng nước (Q) được xác định đơn trị bởi dân số (POP). Trong thực tế, các điểm dữ liệu trong hình 6.3.1 không chính xác là nằm thẳng hàng, vì vậy phương trình (6.3.1) được sửa thành:
0 1 є
Q POP (6.3.2a)
hoặc:
0 1 є
y x (6.3.2b)
trong đó y là Q, x là POP, và là sai số giới hạn biểu thị sự khác nhau giữa sử dụng nước quan trắc (Q hay y) và giá trị ước lượng bởi phương trình đường thẳng (01POP). Nói theo cách khác, sai số giải thích cho sự không hoàn toàn đúng của mô hình đưa ra với số liệu quan trắc. Nguyên nhân gây nên các sai số này có thể nảy sinh do sai số đo đạc, mô hình không đầy đủ, và do ảnh hưởng của những yếu tố khác lên sử dụng nước.
Phương trình (6.3.2) là một mô hình hồi quy tuyến tính. Biến y được gọi là biến phụ thuộc (hoặc kết quả) và biến x là biến độc lập (hoặc biến hồi quy). Chính xác hơn, phương trình (6.3.2) là mô hình hồi quy tuyến tính
đơn giản bởi vì nó chỉ có một biến độc lập. Sự mở rộng thường thấy của phương trình (6.3.2) là có nhiều hơn một biến độc lập, nó được gọi là mô hình hồi quy tuyến tính bội. Có thể được biểu diễn dưới dạng:
0 1 1 ... k k є
y x x (6.3.3) Khi mà dạng của mô hình đã được giả định, giai đoạn tiếp theo của phân tích hồi quy là ước lượng các hệ số hồi quy, những thông số chưa biết của mô
hình. Sử dụng số liệu quan trắc cho các biến phụ thuộc và các biến độc lập.
Việc làm cho mô hình phù hợp với số liệu yêu cầu một tiêu chuẩn đo mức độ phù hợp. Tiêu chuẩn thường được sử dụng nhất dựa trên nguyên tắc bình phương nhỏ nhất, sẽ được mô tả ở sau. Trong giai đoạn ước lượng thông số mô
hình, người phân tích cần nghiên cứu tỉ mỉ sự thích hợp của mô hình và chất lượng của sự phù hợp. Bước này là cần thiết để bảo đảm mô hình hồi quy hữu ích trong thực tế và đúng với lý thuyết. Kiểm tra sự thích hợp của mô hình là một bước quan trọng để xác định mọi thiếu sót tiềm ẩn trong mô hình và có thể dẫn tới thay đổi và cải tiến mô hình.
Phát triển một mô hình gồm một biến phụ thuộc và nhiều biến độc lập (hay biến hồi quy) bằng phân tích hồi quy là một quá trình lặp đi lặp lại. Sự thành công trong việc phát triển một mô hình hợp lý phụ thuộc rất lớn vào kỹ năng của người phân tích: dịch mô hình và liên hệ hoạt động của mô hình với tiến trình dưới sự phân tích tỉ mỉ.
Trước khi giải thích về mặt kỹ thuật, có một vài khái niệm quan trọng trong phân tích hồi quy mà chúng ta cần biết. Các mô hình hồi quy thường thì
không bao hàm một quan hệ nhân quả giữa các biến tham gia. Quan hệ nhân quả giữa các biến nên được xác nhận bởi các dấu hiệu khác với những gì biểu lộ từ bộ số liệu. Trong rất nhiều nghiên cứu kinh nghiệm, các kỹ sư thường có
đủ hiểu biết về quá trình và có khả năng lựa chọn các biến độc lập, các biến này là các yếu tố nhân quả giúp tìm ra kết quả. Trong những trường hợp như
thế, phân tích hồi quy có thể được dùng để cung cấp các xác nhận về những mối quan hệ nhân quả này. Phương trình được xây dựng bằng phân tích hồi quy chỉ là một phép tính xấp xỉ về các tương quan phức tạp trong các quá trình
thực thế. Hơn thế nữa, tất cả các mô hình hồi quy chỉ chính xác trong miền dữ
liệu đã sử dụng trong phân tích. Các lỗi nghiêm trọng có thể phát sinh nếu áp dụng một phương trình hồi quy vào bộ số liệu ngoài miền giá trị của biến hồi quy. Do đó, để nâng cao khả năng ứng dụng của mô hình hồi quy, người phân tích nên thu thập số liệu tiêu biểu cho quá trình nghiên cứu.
Bảng 6.2.2
Loại dữ liệu và các nguồn có sẵn (Boland và các cộng sự, 1983) Loại dữ
liệu Các mục dữ liệu riêng Nguồn dữ liệu có sẵn
1. Dân số a. Dân số, độ lớn của hộ b. Dự báo dân số
Số liệu điều tra về dân số, số hộ của Mỹ; Các cục và sở quy hoạch; các quyển niên giám thành phố và tỉnh; dân số bang; các quyển phát triển kinh tế địa phương và trung ương; các công ty kinh tế; các niên giám thống kê trung ương và địa phương; các dự báo khu vực OBERS.
2. Nhà
a. Số đơn vị nhà theo loại và theo giá trị thị trường; mật độ nhà; diện tích đất trung bình; giá trị ước tính.
Số liệu điều tra về dân số, số hộ của Mỹ. Số liều điề tra và đặc tính của các hộ; Các cục và sở quy hoạch; các cơ quan đánh giá nhà đất; dân số bang; các cục tài chính bang; các cục phát triển kinh tế bang và địa phương; hội đồng quy hoạch địa phương; các công ty kinh tế; các dự báo khu vực OBERS.
3. Việc làm
a. Tổng việc làm trong các khu vực công nghiệp chính; Việc làm phân chia bởi chuẩn phân loại công nghiệp 3 – và 4 – con số; lịch sử tỉ lệ tăng trưởng việc làm địa phương.
b. Các dự báo việc làm tổng hợp và không tổng hợp (bởi SIC)*.
Số liệu điều tra về dân số của Mỹ; Các đặc chưng chi tiết về kinh tế xã
hội; Tổng điều tra Mỹ: Các loại hình kinh doanh ở hạt; Tổng điều tra các nhà sản xuất, dịch vụ Mỹ, , Các nhà thương mại bán buôn; Tổng quan hàng tháng về lao động; các tổ chức an toàn nghề nghiệp; Các cục phát triển kinh tế trung ương và địa phương; các cơ quan kinh tế trung ương;các công ty kinh tế; các nhà máy sdản xuất địa phương; các ngành dịch vụ địa phương; các dự báo khu vực OBERS.
4. Các biÕn kinh tÕ khác
a. Chỉ số giá cả tiêu dùng; chỉ số giá xây dựng; thu nhập cá nhân và gia đình.
b. Dự báo thu nhập.
Số liệu điều tra về dân số của Mỹ; Các đặc chưng chi tiết về kinh tế xã
hội; Tổng điều tra Mỹ: Các loại hình kinh doanh ở hạt; Vụ thương mại;
Tổng quan hàng tháng về lao động; các thống kê tóm tắt của bang và quốc gia; Văn phòng thống lao động Mỹ; các công ty kinh tế; các dự báo khu vực OBERS.
5. KhÝ hËu
Kiểu thời tiết địa phương: lượng mưa, nhiệt độ, tốc độ bốc hơi, độ ẩm thiếu hụt (bình thường và các điều kiện tạm thời)
Cơ quan khí quyển và đại dương quốc gia (NOAA); Trung tâm thời tiết quốc gia; Các trạm thí nghiệm của các trường đại học; các đơn vị bảo tồn đất và nước; các sân bay địa phương
6. Sử dụng
đất
Kiểu đất sử dụng; các quy định phân vùng.
Số liệu điều tra nông nghiệp mỹ; Các cục và sở quy hoạch; các hội
đồng quy hoạch thành phố; các số liệu thành phố; Các báo cáo điều tra Mỹ; Các báo cáo thống kê
7. Các thống kê về nước
Giá nước/ nước thải và tốc độ xây dựng;
quá trình sử dụng nước hàng tháng bởi loại khách hàng; số liệu lịch sử của tổn thất không tính toán được, phạm vi của những người dùng nước tự cấp.
Các cục cấp nước; các báo cáo kỹ thuật ; các khảo sát về nước của liên bang; các khảo sát khách hàng; cục điều phối liên bang; các tổ chức
địa phương
8. Bảo tồn thiên nhiên
Các biện pháp bảo tồn môi trường đã
thực hiện; các biện pháp bảo tồn dự kiến; những đo đạc về mức độ giảm, mức độ hiệu quả của các biện pháp; sự chấp nhận của xã hội; khung chính sách; các đơn vị dùng nước.
Các cục cấp nước; các cục điều phối liên bang; các thông kê của địa phương; Các cục và sở quy hoạch; từ phỏng vấn các nhân viên nhà nước và công chúng; các báo cáo về sự hài lòng của khách hàng; các nhà sản xuất có tiêu thụ nước; các nghiên cứu đã có
*SIC nghĩa là chuẩn phân loại công nghiệp.
Bảng 6.3.1
Dữ liệu về nhu cầu nước của Austin, Texas
Năm Dân số Giá nước ($/1000 gal) Thu nhập ($/người) Giáng thủy năm (inches) Sử dụng nước (ac-ft)
1965 216,733 0,98 5,919 40,57 39,606
1966 223,334 0,95 5,970 25,19 40,131
1967 230,135 1,20 6,521 33,54 45,667
1968 237,144 1,15 7,348 40,43 40,780
1969 244,366 1,10 7,965 33,59 45,330
1970 251,808 1,05 8,453 30,64 50,683
1971 259,900 1,00 8,713 24,95 56,600
1972 268,252 1,20 9,286 26,07 57,157
1973 276,873 1,13 9,694 40,46 57,466
1974 285,771 1,06 9,542 36,21 63,263
1975 294,955 0,98 9,684 36,81 57,357
1976 304,434 0,93 10,152 39,17 51,163
1977 314,217 0,87 10,441 22,14 68,413
1978 324,315 0,81 10,496 30,97 69,994
1979 334,738 1,10 10,679 37,50 65,204
1980 345,496 1,05 10,833 27,38 78,564
1981 354,401 0,96 11,060 45,73 76,339
1982 368,135 0,91 11,338 26,63 87,309
1983 383,326 0,87 11,752 33,98 82,120
1984 399,147 0,84 12,763 26,30 97,678
1985 424,120 1,41 12,748 32,49 97,708