Mục tiêu nghiên cứu

Một phần của tài liệu Ẩn danh hóa dữ liệu có quan tâm luật kết hợp (Trang 31 - 35)

CHƯƠNG 4: ĐỀ XUẤT KỸ THUẬT BẢO VỆ TINH RIÊNG TƯ TRONG CHIA SẺ DỮ LIỆU

4.3. Mục tiêu nghiên cứu

- Giả sử có bảng dữ liệu, cho thuộc tính định danh(identification) là Họ tên, các thuộc tính Giới tính, tuổi, địa chỉ là thuộc tính định danh gần đúng (Quasi-

identifier),Chuẩn đoán bệnh là thuộc tính nhạy cảm (sensitive)

STT Họ tên Giới tính Tuổi Địa chỉ Chuẩn đoán bệnh

1 Nguyễn Thị Liên Nữ 83 Xã Long Hưng Bệnh đái tháo đường

28 Bảng 4.1 Bảng dữ liệu gốc

-Theo phương pháp K-anonymity truyền thống nếu cho K= 2 thì có thể sẽ có kết quả sau:

STT Họ tên Giới tính Tuổi Địa chỉ Chuẩn đoán bệnh

1 * Nữ 30-90 Xã Tân Châu Bệnh đái tháo đường

2 * Nữ 30-90 Xã Tân Châu Tăng huyết áp

3 * Nữ 30-90 Xã Long Hưng Sỏi thận

4 * Nữ 30-90 Xã Long Hưng Bệnh đái tháo đường

5 * Nữ 30-90 Xã Long Hưng Tăng huyết áp

Bảng 4.2 Kết quả K-anonymity theo truyền thống

Ở đây ta thấy Bảng 4.2 sau khi biến đổi thuộc tính Giới tính bị mất giá trị “Nam” sẽ dẫn đến kết quả sau khi khai phá dữ liệu sẽ không còn giá trị.

- Bài toán đặt ra là cho phép giữ lại một số luật kết hợp với một ngưỡng nào đó Ví dụ cho các luật kết hợp ban đầu, với ngưỡng 20%

Nữ Xã Long Hưng, có tần suất xuất hiện(support) là 2/5 (40%);

Nam Xã Long Khánh, có tần suất xuất hiện(support) là 1/5 (20%) Nếu K-anonymity với K=2 thì ta có thể có các kết quả sau:

+Trường hợp 1:

STT Họ tên Giới tính Tuổi Địa chỉ Chuẩn đoán bệnh

1 * Nam 30-90 Xã Long Khánh Bệnh đái tháo đường

2 * Nam 30-90 Xã Long Khánh Tăng huyết áp

3 * Nữ 30-90 Xã Long Hưng Sỏi thận

4 * Nữ 30-90 Xã Long Hưng Bệnh đái tháo đường

5 * Nữ 30-90 Xã Long Hưng Tăng huyết áp

Bảng 4.3 trường hợp 1 bảng dữ liệu sau khi biến đổi từ bảng 4.1

Nữ Xã Long Hưng, có tần suất xuất hiện là 3/5(60%)(> ngưỡng ban đầu);

Nam Xã Long Khánh, có tần suất xuất hiện là 2/5 (40%)(> ngưỡng ban đầu);

2 Lê Minh Hoàng Nam 62 Xã Tân Châu Tăng huyết áp 3 Trần Thị Hồng Loan Nữ 56 Xã Tân Châu Sỏi thận

4 Nguyễn Bích Ngọc Nữ 89 Xã Long Hưng Bệnh đái tháo đường 5 Nguyễn Lê Công Nam 83 Xã Long Khánh Tăng huyết áp

29 +Trường hợp 2:

STT Họ tên Giới tính Tuổi Địa chỉ Chuẩn đoán bệnh

1 * Nam 30-90 Xã Tân Châu Bệnh đái tháo đường

2 * Nam 30-90 Xã Tân Châu Tăng huyết áp

3 * Nữ 30-90 Xã Long Hưng Sỏi thận

4 * Nữ 30-90 Xã Long Hưng Bệnh đái tháo đường

5 * Nữ 30-90 Xã Long Hưng Tăng huyết áp

Bảng 4.4 trường hợp 2 bảng dữ liệu sau khi biến đổi từ bảng 4.1

Nữ Xã Long Hưng, có tần suất xuất hiện là 3/5(60%)(> ngưỡng ban đầu);

Nam Xã Long Khánh, có tần suất xuất hiện là 0 (0%)(< ngưỡng ban đầu);

+Trường hợp 3:

STT Họ tên Giới tính Tuổi Địa chỉ Chuẩn đoán bệnh

1 * Nữ 30-90 Xã Long Hưng Bệnh đái tháo đường

2 * Nam 30-90 Xã Long Khánh Tăng huyết áp

3 * Nam 30-90 Xã Long Khành Sỏi thận

4 * Nữ 30-90 Xã Long Hưng Bệnh đái tháo đường

5 * Nam 30-90 Xã Long Khánh Tăng huyết áp

Bảng 4.5 trường hợp 3 bảng dữ liệu sau khi biến đổi từ bảng 4.1

Nữ => Xã Long Hưng, có tần suất xuất hiện là 2/5(40%)(> ngưỡng ban đầu);

Nam => Xã Long Khánh, có tần suất xuất hiện là 3/5 (60%)(> ngưỡng ban đầu);

Trong 3 trường hợp trên thì ta chỉ chấp nhận kết quả Trường hợp 1 và Trường hợp 3 Sau đây là cụ thể mục tiêu chính của đề tài:

Nhận vào một Bảng dữ liệu T với các thông tin cá nhân, sau đó biến đổi thành một bảng T’, bảng T’ với K dòng dữ liệu giống nhau (K- anonymity), nhưng sẽ cho phép giữ lại một số luật kết hợp với một ngưỡng cho trước.

Ví dụ ứng dụng thực tế như sau:

-Bảng T ban đầu:

STT Họ tên Giới tính Tuổi Địa chỉ Chuẩn đoán bệnh

1 Nguyễn Thị Liên Nữ 83 Xã Long Hưng Bệnh đái tháo đường

30 Yêu cầu :

+Làm sao tạo thành K(K>=2) dòng giống nhau để không biệt được dòng nào là thông tin đúng

+Nhưng cần giữ lại thông tin sau : Nữ , Xã Long Hưng

Nam , Xã Long Khánh

+Lớn hơn hoặc bằng với một ngưỡng cho trước (20%) -Bảng T’ sau khi biến đổi sẽ là:

STT Họ tên Giới tính Tuổi Địa chỉ Chuẩn đoán bệnh

1 * Nữ 30-90 Xã Long Hưng Bệnh đái tháo đường

2 * Nam 30-90 Xã Long Khánh Tăng huyết áp

3 * Nam 30-90 Xã Long Khành Sỏi thận

4 * Nữ 30-90 Xã Long Hưng Bệnh đái tháo đường

5 * Nam 30-90 Xã Long Khánh Tăng huyết áp

Hoặc

STT Họ tên Giới tính Tuổi Địa chỉ Chuẩn đoán bệnh

1 * Nam 30-90 Xã Long Khánh Bệnh đái tháo đường

2 * Nam 30-90 Xã Long Khánh Tăng huyết áp

3 * Nữ 30-90 Xã Long Hưng Sỏi thận

4 * Nữ 30-90 Xã Long Hưng Bệnh đái tháo đường

5 * Nữ 30-90 Xã Long Hưng Tăng huyết áp

2 Lê Minh Hoàng Nam 62 Xã Tân Châu Tăng huyết áp 3 Trần Thị Hồng Loan Nữ 56 Xã Tân Châu Sỏi thận

4 Nguyễn Bích Ngọc Nữ 89 Xã Long Hưng Bệnh đái tháo đường 5 Nguyễn Lê Công Nam 83 Xã Long Khánh Tăng huyết áp

Một phần của tài liệu Ẩn danh hóa dữ liệu có quan tâm luật kết hợp (Trang 31 - 35)

Tải bản đầy đủ (PDF)

(51 trang)