Chương X SAI SỐ, ĐỘ CHÍNH XÁC VÀ ĐỘ CHI TIẾT
10.4. Nguồn của sai số
Có nhiều nguồn tạo ra sai số ảnh hưởng đến chất lượng của cơ sở dữ liệu GIS. Một số nguồn khá rõ ràng, nhưng có những nguồn rất khó khác định. Cần chú ý đặc biệt đến việc kiểm tra sai số bởi vì GIS thường tạo ra cảm giác yên tâm về độ chính xác cho người sử dụng. Ví dụ như sự chuyển hướng trơn tru của ranh giới, của đường bình độ, sự thay đổi theo cấp bậc của bản đồ đơn sắc là sự "hiển thị sai tao nhã" của thế giới thực. Trên thực tế, những thay đổi thường
"mơ hồ, từ từ, hoặc mờ nhạt". Sự kém chi tiết trong bản đồ bắt đầu từ quá trình chiếu và sự cần thiết phải nắn lại một vài dữ liệu, và sự kém chi tiết này có thể kéo dài suốt quá trình GIS. Việc nhận ra sai số và quan trọng hơn cả là nhận ra mức độ nào của sai số có thể được chấp nhận cần phải được người sử dụng xác định rõ ràng.
Có thể phân ra ba nhóm nguồn sai số chính sau đây (Zerger, 2002):
- Nguồn rõ rệt của sai số
- Sai số xuất phát từ sự biến đổi tự nhiên hoặc từ việc đo đạc ban đầu - Sai số xuất phát từ quá trình xử lý dữ liệu
Nhìn chung sai số xuất phát từ hai nhóm đầu thì dễ phát hiện hơn sai số xuất hiện trong quá trình xử lý. Trong các nhóm nguyên nhân sai số này lại có nhiều phân nhóm nguyên nhân.
10.4.1. Nhóm nguyên nhân rõ rệt
Tuổi của dữ liệu: Dữ liệu có thể đã quá cũ không thích hợp với một dự án GIS hiện tại.
Các tiêu chuẩn thu thập dữ liệu này không rõ ràng, không có, hoặc không thể được chấp nhận theo tiêu chuẩn hiện đại. Hơn nữa, nhiều thông tin có thể đã bị thay đổi theo thời gian do xói mòn, phân rã, hoặc các qúa trình địa mạo khác. Dù GIS có mạnh mẽ thế nào đi nữa thì việc phụ thuộc vào dữ liệu đã lỗi thời có thể làm biến dạng kết quả phân tích.
Mức độ bao trùm: Dữ liệu cho một vùng nghiên cứu có thể bị thiếu hoàn toàn, hoặc chỉ có thông tin ở một mức độ hạn chế cho dự án GIS. Ví dụ, bản đồ thảm thực vật hoặc đất có thể không được đầy đủ tại các ranh giới hoặc các vùng chuyển đổi và do đó không phản ánh đúng thực tại. Một ví dụ khác là thiếu thông tin viễn thám tại một vài vùng cụ thể của trái đất do tại đó luôn có mây che phủ. Dữ liệu nhất quán, chính xác và đầy đủ không phải lúc nào cũng có và vì vậy người sử dụng cần quyết định mức độ khái quát như thế nào là cần thiết, hoặc liệu có cần phải thu thập thêm dữ liệu hay không.
Tỷ lệ bản đồ: Tỷ lệ xác định khả năng hiển thị chi tiết trên bản đồ. Một bản đồ có tỷ lệ 1:1.000 có thể thể hiện các đối tượng điểm nhỏ hơn là một bản đồ có tỷ lệ nhỏ hơn, ví dụ 1:250.000. Tỷ lệ hạn chế dạng, số lượng, và chất lượng của dữ liệu. Tỷ lệ bản đồ cần phải phù
hợp với mức chi tiết của sự thể hiện cần thiết cho một dự án cụ thể. Việc phóng to một bản đồ nhỏ lên không làm tăng được mức chính xác và độ chi tiết của bản đồ.
Mật độ quan sát: Số lượng quan sát trong một khu vực liên quan đến mức độ tin cậy của dữ liệu và cần được người sử dụng biết. Nếu số lượng quan sát không đủ thì mức độ phân giải sẽ không đáp ứng được yêu cầu cho việc phân tích không gian. Trong trường hợp của điểm, nếu phân khoảng của đường bình độ là 40 feet, thì độ phân giải dưới mức này sẽ không thể mang đến độ chính xác thích hợp. Các đường trên bản đồ được khái quát hoá dựa trên phân khoảng của dữ liệu được thu thập, vì vậy khoảng cách thu thập càng ngắn thì độ xác thực càng cao.
Mức độ thích hợp: Nhiều khi dữ liệu mong muốn cho vùng nghiên cứu không có và thay vào đó dữ liệu "thay thế" được sử dụng. Mối quan hệ hợp lý giữa dữ liệu và hiện tượng đang nghiên cứu có thể tồn tại, nhưng kể cả khi ấy sai số vẫn xuất hiện bởi vì hiện tượng cần nghiên cứu không được đo đạc quan sát trực tiếp.
Một ví dụ về dữ liệu "thay thế" là tín hiện điện từ trong viễn thám được sử dụng để xác định thảm thực vật, dạng đất, nguy cơ xói mòn, và nhiều tính chất khác. Dữ liệu được thu thập một cách gián tiếp. Đầu thu trên vệ tinh không "nhìn" thấy cây, mà chỉ thu được các dấu hiệu số nhất định của cây cối và thảm thực vật. Đôi khi những dấu hiệu này được thu nhận ngay cả khi trên thực tế không có thực vật nào cả, hoặc có thực vật nhưng lại không thu được tín hiệu.
Vì lý do chi phí cho việc thu thập thực địa cao cho nên dữ liệu gián tiếp vẫn được sử dụng thay thế và người sử dụng cần hiểu những sai lệnh có thể và mặc dù những giả thiết đưa ra có thể hợp lý, nhưng nó không nhất thiết là đáng tin cậy.
Định dạng dữ liệu: Các phương pháp định dạng thông tin số cho mục đích trao đổi, lưu trữ và xử lý có thể gây ra sai số cho dữ liệu. Việc biến đổi tỷ lệ, hệ chiếu, chuyển đổi từ raster sang vector, và thay đổi độ phân giải, cỡ điểm lưới là những ví dụ có thể gây ra sai số do định dạng. Các tiêu chuẩn cho việc trao đổi, lưu trữ, truy cập dữ liệu bản đồ vẫn chưa được tuân thủ đầy đủ.
Chi phí: Việc thu thập và chyển đổi để có được dữ liệu đầy đủ và tin cậy thường rất tốn kém. Việc tự đi thu thập dữ liệu từ đầu cho một dự án GIS là quá tốn kém vì vậy người quản lý dự án cần cân nhắc giữa chi phí và độ tin cậy của thông tin.
10.4.2. Nhóm nguyên nhân sai số do sự biến đổi tự nhiên và phép đo đạc ban đầu
Độ xác thực vị trí: chỉ ra mức độ sai lệch của các đối tượng trên bản đồ so với vị trí thực tế của chúng. Nó phụ thuộc vào dạng dữ liệu được sử dụng hoặc được thu thập. Những người xây dựng bản đồ có thể xây dựng rất chính xác các đối tượng dễ xác định như đường sá, công trình, các ranh giới, và các đối tượng địa hình riêng biệt trên bản đồ và trong hệ thống kỹ thuật số, trong khi các ranh giới rời rạc của các đối tượng như thảm thực vật hoặc loại đất có thể chỉ là tương đối theo ước lượng của nhà bản đồ. Khí hậu, quần thể sinh vật, địa hình, loại đất, hệ thống tiêu thoát nước và các đối tượng khác mà không có ranh giới sắc nét trong tự nhiên cần có sự diễn giải nhất định. Các công việc khảo sát thực địa không chuẩn xác, sai số số hoá và chuyển đổi dữ liệu, sai số quét bản đồ - tất cả có thể tạo ra bản đồ không xác thực cho một dư án GIS.
Độ xác thực của nội dung: Độ xác thực về lượng có thể hiểu là sự gắn mác đúng hay không đúng cho những đối tượng cụ thể nào đó trên bản đồ. Ví dụ như rừng thông có thể bị gắn
mác là rừng gỗ cây vân sam, do đó tạo nên sai số mà người sử dụng bản đồ không hay biết. Một số đối tượng nhất định nào đó có thể bị bỏ qua trên bản đồ hoặc trong cơ sở dữ liệu.
Những sai số khác thuộc loại này có thể là do việc sử dụng, định cỡ không chuẩn xác cho các dụng cụ đo ví dụ như khi đo độ cao, độ pH của đất hoặc nước, hoặc là các khí thải trong khí quyển. Những sơ suất trên thực địa hay trong phòng thí nghiệm có thể không bị phát hiện trong một dự án GIS nếu như người sử dụng không phát hiện ra những thông tin đối nghịch nhau.
Nguồn gốc những sai lệch trong dữ liệu: Sự sai lệch trong dữ liệu có thể do sai số đo đạc. Ví dụ, người ta không thể hy vọng có được một độ chính xác cao tới dưới 1m với bộ thu GPS cầm tay, không vi phân. Tương tự, một máy đo nồng độ ôxi không được chỉnh chuẩn xác sẽ không cho kết quả chính xác nồng độ ôxi trong hơi nước.
Ngoài ra có những sự biến đổi tự nhiên trong bản thân dữ liệu được thu thập mà có thể không được phát hiện trong quá trình thu thập. Ví dụ, mức nhiễm mặn tại các vùng gần cửa sông trong năm phụ thuộc vào dòng chảy nước ngọt và bốc hơi. Nếu ta không nhận thức được sự thay đổi tự nhiên này thì có thể đưa đến những giả thuyết, quyết định sai lầm, và sai số đáng kể sẽ được đưa vào GIS. Trong mọi trường hợp nếu sai số không dẫn đến kết quả bất ngờ thì việc phát hiện ra chúng sẽ rất khó khăn.
10.4.3. Nhóm lỗi xuất hiện trong quá trình xử lý dữ liệu:
Sai số trong xử lý rất khó phát hiện bởi người sử dụng và cần phải được lưu ý. Đây là những sai số ẩn mà xuất hiện từ nhiều con đường, vì vậy rất tác hại, đặc biệt khi nó xuất hiện trong nhiều tập hợp dữ liệu được xử lý trong một dự án GIS.
Sai số về số: Các máy tính khác nhau có thể có những năng lực thực hiện các phép toán phức tạp khác nhau và vì thế tạo ra những kết quả khá khác nhau đối với cùng một bài toán. Một thách thức lớn là việc chuyển đổi sao cho chuẩn xác từ bản đồ có sẵn thành bản đồ số. Bởi vì máy tính cần xử lý dữ liệu dưới dạng số, sai số về số trong quá trình xử lý rất khó phát hiện.
Sai số trong phân tích Topo: Lỗi lôgic có thể gây ra việc phân tích Topo không chuẩn xác. Cần phải nhận thức rằng thông tin dữ liệu không đồng nhất và hay biến động. Việc chồng xếp nhiều lớp bản đồ có thể tạo ra những vấn đề như vùng sliver, không khớp biên, v.v… Sự chênh lệch về mức độ chuẩn xác giữa các lớp bản đồ khó được lường hết trong quá trình phân tích và nó tạo ra những thông tin "ảo" mà khó phân biệt với thông tin thực.
Những vấn đề liên quan đến phân loại và khái quát: Để có thể hiểu và xử lý được một lượng lớn thông tin, người ta cần phân loại, và trong nhiều trường hợp, cần khái quát hoá. Việc phân loại và khái quát hoá các dữ liệu sử dụng trong GIS luôn chứa đựng sai số nội suy nhất định và những sai số này cũng khó có thể nhận biết.
Sai số liên quan đến số hoá và định vị địa lý: Sai số xử lý cũng có thể phát sinh trong các quá trình như số hoá và định vị địa lý (geocoding), chồng xếp và giao cắt đường biên, và lỗi trong quá trình raster hoá bản đồ vector. Các sai số có thể xẩy ra do sơ suất từ bản thân người thao tác, hoặc từ tình trạng hư hại của bản đồ gốc. Một phần sai số có thể được phát hiện bằng cách so sánh bản đồ gốc với bản đồ được số hoá.