3.3. Khai phá dữ liệu
3.3.3 Khai phá dữ liệu trong Cơ sở dữ liệu địa chất
Khai phá cơ sở dữ liệu là một nguồn lực quan trọng trong việc thăm dò dầu mỏ và sản xuất. Nó được phổ biến kiến thức trong ngành công nghiệp dầu mỏ mà chi phí điển hình của một khoan mới là khá đắt, hơn nữa hệ thống khoan có quyết định đáng kể có thể làm giảm chi phí sản xuất chung.
Tiến bộ trong công nghệ khoan và phương pháp thu thập dữ liệu có dẫn đến các công ty dầu mỏ của họ có thu nhập một lượng lớn địa vật lý dữ liệu địa chất từ giếng sản xuất và các trang web thăm dò, và sau đó tổ chức chúng thành các cơ sở dữ liệu lớn. Kỹ thuật khai thác dữ liệu gần đây đã được sử dụng để lấy được chính xác phân tích mối quan hệ giữa các hiện tượng quan sát và các thông số. Những mối quan hệ sau đó có thể được sử dụng để định lượng dầu và khí đốt.
65
Về chất lượng, trữ lượng tốt phục hồi có bão hòa hydrocarbon cao đang mắc kẹt bởi trầm tích rất xốp (chứa porosity) và bao quanh bởi số lượng lớn các loại đá cứng có ngăn chặn sự rò rỉ dầu khí từ xa. Một khối lượng lớn các trầm tích xốp là rất quan trọng để dự trữ phục hồi tốt, do đó phát triển đáng tin cậy và chính xác các phương pháp cho dự đoán trầm tích từ các dữ liệu thu thập để ước tính tiềm năng dầu khí. Các quy tắc chung của các chuyên gia sử dụng cho tính toán độ xốp:
Độ xốp = K.e-F(x1, x2,..., xm).Depth
Hình 25: Mã vùng so với bản đồ đơn vị địa tầng của một khu vực nghiên cứu Thuật toán phân cụm dữ liệu K-means đã được sử dụng để xác định một tập các đồng nhất cấu trúc địa chất nguyên thủy (g1, g2,…, gm). Những nguyên thủy này sau đó đã được ánh xạ vào mã đơn vị so với bản đồ đơn vị tầng học. Hình trên mô tả một phần một bản đồ của tập hợp các giếng và bốn cấu trúc nguyên thủy. Bước tiếp theo trong quá trính phát triển được xác định phần của khu vực giếng được tạo thành từ cùng một trình tự của địa chất nguyên thủy. Mỗi trình tự quy định Ci ngữ cảnh. Từ một phần của bản đồ, trong C1 = g2. g1. g2. g3 đã được xác định tại 2 khu vực tốt (của 300 và 600
66
series). Sau khi bối cảnh đã được xác định, dữ liệu điểm thuộc bối cảnh được nhóm lại với nhau. Thủ tục dẫn xuất derivation làm việc phân tích hồi quy (Sen và Srivastava 1990).
Phương pháp này được áp dụng cho một tập dữ liệu của khoảng 2600 đối tượng tương ứng với mẫu đo thu thập từ giếng là các lưu vực Alaska.
K-means đã nhóm dữ liệu này đặt thành 7 nhóm, chúng ta chọn một bộ 138 đối tượng đại diện cho một bối cảnh để phân tích. Các tính năng định nghĩa cụm này đã được lựa chọn, và các chuyên gia surmised rằng bối cảnh đại diện cho một vùng độ xốp rỗng thấp, được mô hình bằng cách sử dụng các thủ tục hồi quy.
67
KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN
1. Kết luận
Data mining là một trong những lĩnh vực nghiên cứu mới, nhưng đồng thời nó cũng là một trong những xu hướng nghiên cứu ngày càng phổ biến.
Do nhu cầu của thực tế, với sự phát triển của công nghệ máy tính, của các lĩnh vực kinh tế - xã hội thì lượng thông tin lưu trữ ngày càng tăng, và nhu cầu khai thác thông tin, tri thức ngày càng lớn. Do đó việc đọc, nghiên cứu và phát triển phương pháp phân cụm dữ liệu đóng một vai trò rất quan trọng trong hoạt động của khoa học công nghệ máy tính cũng như trong hoạt động thực tiễn.
Các vấn đề tìm hiểu trong luận văn
Tổng hợp, nghiên cứu các nét cơ bản lý thuyết và ứng dụng thực tiễn của phân cụm dữ liệu. Với sự phát triển ngày càng lớn như vũ bão của Công nghệ thông tin, yêu cầu về nghiên cứu hoàn thiện, áp dụng phương pháp, kỹ thuật phân cụm dữ liệu là rất cần thiết và có ý nghĩa to lớn.
Trong chương 1, khóa luận trình bày tổng quan lý thuyết về phân cụm dữ liệu, và một số lý liên quan trực tiếp đến khai phá dữ liệu. Chương 2, giới thiệu tổng quan về các thuật toán phân cụm dữ liệu, khóa luận trình bày những thuật toán phổ biến, thông dụng. Chương 3 nói về một số ứng dụng tiêu biểu của phân cụm dữ liệu như phân đoạn ảnh, nhận diện đối tượng và ký tự, khai phá dữ liệu.
2. Định hướng phát triển
Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng là hướng nghiên cứu cần thiết, quan trọng. Tuy nhiên đây cũng là mảng rất rộng, bao hàm nhiều phương pháp, kỹ thuật, và hình thành nhiều nhóm khác nhau.
68
Phát triển nghiên cứu thêm về lý thuyết phân cụm dữ liệu, xây dựng, phát triển thêm các kỹ thuật, ứng dụng của phân cụm dữ liệu.
Trong quá trình nghiên cứu, thực hiện khóa luận mặc dù đã cố gắng tập trung nghiên cứu và tham khảo nhiều tài liệu, báo cáo, tạp chí khoa học, nhưng do trình độ còn nhiều giới hạn không thể tránh khỏi thiếu sót và hạn chế. Em rất mong được sự chỉ bảo đóng góp nhiều hơn nữa của các thầy, cô giáo và các bạn.
Một lần nữa, em xin chân thành gửi lời cảm ơn sự giúp đỡ của các thầy cô giáo khoa Công nghệ thông tin, đặc biệt là PGS.TS Trịnh Đình Thắng cùng toàn thể các bạn lớp K35CNTT đã giúp đỡ em trong quá trình làm khóa luận tốt nghiệp này.
69