CÁC NGHIÊN CỨU LIÊN QUAN

Một phần của tài liệu Khai thác dữ liệu bảo toàn tính riêng tư từ cơ sở dữ liệu ngoài (Trang 57 - 61)

CHƯƠNG 3 MÃ HÓA VÀ GIẢI MÃ DỮ LIỆU

3.1 CÁC NGHIÊN CỨU LIÊN QUAN

Trong chương này, chúng tôi nghiên cứu các vấn đề về nhiệm vụ khai thác luật kết hợp thuê ngoài trong khuôn khổ bảo toàn tính riêng tư của dữ liệu doanh nghiệp. Mục tiêu của việc khai thác luật kết hợp là phát hiện ra các nhóm sản phẩm hoặc các mặt hàng hay được khách hàng của siêu thị mua cùng nhau. Dữ liệu đầu vào là cơ sở dữ liệu bán hàng, là danh sách của tất cả các nhóm mặt hàng có khả năng, ví dụ như {sữa, bia, tã lót}, xuất hiện đồng thời trong các giỏ hàng và có ý nghĩa về mặt thống kê. Có hàng chục ngàn các sản phẩm khác nhau trong phân loại của một siêu thị, do đó số lượng các nhóm ứng viên tiềm năng của các sản phẩm nhanh chóng bùng nổ về mặt quy mô nhóm. Sự phát triển của điện toán đám mây thúc đẩy sự ra đời của một mô hình thuê người thực hiện dịch vụ khai thác ở bên ngoài so với việc chủ sở hữu dữ liệu. Ví dụ như, một siêu thị , cung cấp dữ liệu cho một nhà cung cấp dịch vụ khai thác dữ liệu thuê để nhận được các luật kết hợp có ích để từ đó phát triển trong kinh doanh của siêu thị trong thời gian tiếp theo. Tuy nhiên việc bảo vệ bí mật các dữ liệu thực của doanh nghiệp (siêu thị) cũng là vấn đề được đặt lên hàng đầu. Vấn đề bảo mật dữ liệu của doanh nghiệp nghĩa là, sẽ không tiết lộ dữ liệu bán hàng cũng như kết quả từ việc phân tích và khai thác các dữ liệu này.

Để có được sự bảo vệ dữ liệu một cách hoàn hảo nhất, chúng tôi đặt vấn đề là có một đối thủ đối nghịch muốn tấn công để có thông tin về dữ liệu bán hàng và các kết quả thu được từ khai thác dữ liệu bán hàng này. Đối thủ này cũng có một số thông tin cơ bản và phong phú về dữ liệu của doanh nghiệp. Với giả thiết này, chúng tôi giả định rằng kẻ tấn công biết chính xác về tập hợp các mặt hàng trong cơ sở dữ liệu giao dịch gốc và sự

phổ biến của chúng, nghĩa là, mỗi mặt hàng được bán ra bao nhiêu lần. Thông tin này có thể lấy được từ một công ty cạnh tranh hoặc từ các báo cáo đã được công bố.

Để chống lại cuộc tấn công này, chúng tôi đề xuất một chương trình mã hóa có thể biến đổi cơ sở dữ liệu D ban đầu thành D’ trước khi gửi đi khai thác theo các bước [6] :

(1) Thay thế mỗi mặt hàng bằng một mã (1—1).

(2) Thêm vào cơ sở dữ liệu thật các giao dịch giả đã được tính toán sao cho mà mỗi mặt hàng (nhóm mặt hàng) không thể phân biệt được với ít nhất k—1 các mặt hàng (nhóm mặt hàng) khác có cùng số lần xuất hiện trong cơ sở dữ liệu D.

Trên cơ sở của ý tưởng này, luận văn đặt vấn đề rằng, không chỉ các mặt hàng đơn lẻ mà bất kỳ nhóm mặt hàng nào trong ít nhất k nhóm (do chủ dữ liệu chỉ định) không thể bị tiết lộ. Sự bảo vệ này có nghĩa là, kẻ tấn công có một xác suất rất hạn chế trong việc dự đoán các mặt hàng thực tế có thể có trong dữ liệu bán hàng hoặc trong các kết quả khai thác dữ liệu; ngược lại, chủ sở hữu dữ liệu có thể giải mã một cách hiệu quả các kết quả khai thác bằng các thông tin mà nó lưu giữ. Đồng thời, việc mã hóa cơ sở dữ liệu ban đầu có thể được thực hiện một cách dễ dàng và hiệu quả. Trong luận văn này, chúng tôi chọn mô hình duy trì tính bảo mật thuê ngoài và hiển thị một số kết quả sơ bộ được áp dụng trong mô hình này trên quy mô lớn, các cơ sở dữ liệu giao dịch thực tế của một chuỗi siêu thị lớn ở châu Âu.

Cấu trúc mô hình mã hóa và giải mã của chúng tôi được minh họa trong hình 3.1 [6].

Hình 3.1. Cấu trúc của mô hình dịch vụ khai thác [6]

Khách hàng/chủ sở hữu sẽ mã hóa cơ sở dữ liệu của mình (TDB) bằng cách sử dụng một mô đun mã hóa/giải mã về cơ bản có thể được coi là một “hộp đen” do tính chất của nó. Mô đun này chịu trách nhiệm chuyển TDB D thành cơ sở dữ liệu được mã hóa TDB D*. Máy chủ sẽ tiến hành khai thác dữ liệu và gửi các mô hình (mã hóa) cho chủ sở hữu. Chương trình mã hóa của chúng tôi có đặc tính là số lượng trả về về lần xuất hiện của các mặt hàng là không đúng sự thật. Mô đun mã hóa/giải mã sẽ phục hồi danh tính thực sự của các mô hình quay trở lại cũng như số lần xuất hiện thực sự của chúng.

3.1.2Một số nghiên cứu liên quan

Trong mục này, chúng tôi muốn nêu lên một số nghiên cứu khác có sự tương đồng và khác biệt với cách đặt vấn đề của chúng tôi, chúng tôi phác thảo việc công bố, khai thác, và gia công dữ liệu bảo mật riêng có thể được phân loại thành các loại sau đây:

- Công bố dữ liệu bảo mật tính riêng tư (PPDP): Ý tưởng là dữ liệu đó được công bố bởi một chủ sở hữu vì lợi ích chung cho phép các nhà phân tích khai thác các mô hình từ đó. Dữ liệu được công bố với sự hạn chế, sự khái quát hóa, sự biến dạng hoặc sự phân tách thích hợp sao cho sự bí mật cá nhân không bị ảnh hưởng và các dữ liệu chưa được công bố là hữu ích cho việc khai thác (Fung và cộng sự, 2007; Machanavajjhala và cộng

sự, 2006; Samarati, 2001; Xiao và Tao, 2006; Xu và cộng sự, 2008). Rõ ràng, cách tiếp cận này có thể bảo vệ bí mật cá nhân nhưng không phải là bí mật của doanh nghiệp, nghĩa là, sự bí mật của cơ sở dữ liệu giao dịch và các luật kết hợp được khai thác.

- Khai thác dữ liệu bảo mật riêng tư (PPDM): Mô hình chính ở đây là dữ liệu riêng của nhiều người được một người thu thập từ một số nguồn với mục đích tổng hợp dữ liệu và thực hiện khai thác. Nếu người thu thập không đáng tin cậy trong việc bảo vệ sự riêng tư, dữ liệu sẽ chịu một sự nhiễu loạn ngẫu nhiên khi nó được thu thập. Các kỹ thuật đã được phát triển để gây xáo trộn cho các dữ liệu để bảo vệ sự riêng tư trong khi đảm bảo các mô hình được khai thác hoặc các thuộc tính phân tích khác vẫn gần gũi với các mô hình được khai thác từ dữ liệu gốc. Cơ chế làm việc này được tiên phong bởi Agrawal và Srikant (2000) và được tiếp bước bởi một số các tác giả khác sau đó (Agrawal và Haritsa, 2005; Rizvi và Haritsa, 2002). Một lần nữa, cách tiếp cận này không thích hợp đối với bí mật của doanh nghiệp, trong đó một số thuộc tính phân tích sẽ bị tiết lộ. Hơn nữa, các nhiễu loạn sẽ hạn chế các kết quả và chỉ cho kết quả gần đúng trong khi chúng tôi nhắm đến các kết quả chính xác.

- Đảm bảo khai thác nhiều bên trên các bộ dữ liệu phân tán: Dữ liệu mà theo đó việc khai thác được thực hiện được phân chia theo chiều ngang hoặc chiều dọc, và được phân phối cho nhiều bên. Các dữ liệu được phân chia không thể được chia sẻ và phải duy trì sự riêng tư nhưng kết quả của việc khai thác trên “liên kết” các dữ liệu được chia sẻ giữa những người tham gia, bằng cách thiết lập các giao thức an toàn nhiều bên (Gilburd và cộng sự, 2006; Kantarcioglu và Clifton, 2004; Krishna Prasad và Pandu Rangan, 2006).

Chúng không xem xét tính chất các bên thứ ba. Cách tiếp cận này một phần thực hiện sự riêng tư của doanh nghiệp, khi các cơ sở dữ liệu nội bộ được giữ kín, nhưng nó cũng quá yếu đối với vấn đề thuê dịch vụ bên ngoài mà chúng tôi đã đặt ra.

- Công bố mô hình bảo mật tính riêng tư (PPPP): Câu hỏi chính là làm thế nào để công bố các kết quả khai thác như các mô hình thường xuyên mà không cần phải tiết lộ

bất cứ thông tin nhạy cảm nào về các dữ liệu cơ bản (Atzori và cộng sự, 2008). Trường hợp này, các mô hình kết quả sẽ bị tiết lộ.

- Cơ sở dữ liệu thuê ngoài: Để bảo vệ an toàn cho dữ liệu thuê bên ngoài, chúng sẽ được mã hóa. Hầu hết các công trình sau đó tập trung vào đánh giá truy vấn hiệu quả đối với các cơ sở dữ liệu đã được mã hóa (Agrawal và cộng sự, 2004; Hacigumus và cộng sự, 2002; Song và cộng sự, 2000), và không thể áp dụng được cho mô hình của chúng tôi đề xuất. Hơn nữa, sự tấn công dựa vào tần số trong nghiên cứu của luận văn hiếm khi được nghiên cứu trong các tài liệu khác.

Vấn đề cụ thể mà chúng tôi đặt ra là bị tấn công khi thực hiện việc khai thác mô hình thuê ngoài trong phạm vi khuôn khổ bảo mật riêng tư của một công ty. Một khác biệt quan trọng giữa vấn đề này và những vấn đề của PPDM đề cập ở trên là, trong thiết lập của chúng tôi, không chỉ các dữ liệu cơ bản mà các kết quả khai thác cũng không được chia sẻ và phải được giữ bí mật.

Một phần của tài liệu Khai thác dữ liệu bảo toàn tính riêng tư từ cơ sở dữ liệu ngoài (Trang 57 - 61)

Tải bản đầy đủ (PDF)

(83 trang)