1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bảo toàn tính riêng tư của người dùng trong môi trường cơ sở dữ liệu lớn

89 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bảo Toàn Tính Riêng Tư Của Người Dùng Trong Môi Trường Cơ Sở Dữ Liệu Lớn
Tác giả Nguyễn Thành Tín
Người hướng dẫn TS. Cao Tùng Anh
Trường học Trường Đại Học Công Nghệ TP. HCM
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2016
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 89
Dung lượng 2,36 MB

Cấu trúc

  • CHƯƠNG 1 ĐẶT VẤN ĐỀ (15)
    • 1.1 Tình hình nghiên cứu trên thế giới (16)
    • 1.2 Tình hình nghiên cứu trong nước (17)
  • CHƯƠNG 2 CƠ SỞ LÝ THUYẾT (19)
    • 2.1 Tổng quan dữ liệu lớn (19)
      • 2.1.1 Dung lƣợng (20)
      • 2.1.2 Tốc độ (20)
      • 2.1.3 Tính đa dạng (20)
      • 2.1.4 Giá trị (20)
    • 2.2 Khai thác dữ liệu lớn (20)
      • 2.2.1 Đặc tính của dữ liệu lớn HACE (21)
        • 2.2.1.1 Dữ liệu lớn không đồng nhất và đa chiều (21)
        • 2.2.1.2 Các nguồn dữ liệu độc lập và kiểm soát phân tán không tập trung (21)
        • 2.2.1.3 Phức tạp và bao hàm các mối quan hệ (22)
      • 2.2.2 Thách thức của khai thác dữ liệu với dữ liệu lớn (24)
        • 2.2.2.1 Lớp 1: nền tảng khai thác dữ liệu lớn (25)
        • 2.2.2.2 Lớp 2: ngữ nghĩa dữ liệu lớn và vùng kiến thức chuyên biệt của ứng dụng (26)
        • 2.2.2.3 Lớp 3: thuật toán khai thác dữ liệu lớn (28)
    • 2.3 Mã hoá dữ liệu (33)
      • 2.3.1 Mã hoá đối xứng căn bản (33)
        • 2.3.1.1 Mã hoá Ceasar (33)
        • 2.3.1.2 Mô hình mã hoá đối xứng (35)
        • 2.3.1.3 Mã hoán vị (37)
      • 2.3.2 Mã hoá đối xứng hiện đại (39)
        • 2.3.2.1 Mã dòng (41)
        • 2.3.2.2 Trao đổi khoá bí mật bằng trung tâm phân phối khoá (49)
      • 2.3.3 Mã hoá bất đối xứng (52)
        • 2.3.3.1 RSA (54)
        • 2.3.3.2 Độ an toàn của RSA (57)
        • 2.3.3.3 Bảo mật, chứng thực và không từ chối với mã hoá công khai (59)
        • 2.3.3.4 Trao đổi khoá (60)
        • 2.3.3.5 Phương pháp trao đổi khoá Diffie – Hellman (63)
  • CHƯƠNG 3 PHƯƠNG THỨC CẢI TIẾN TÍNH TOÁN BẢO TOÀN TÍNH RIÊNG TƢ TRÊN DỮ LIỆU LỚN (66)
    • 3.1 Kiến trúc của phân tích dữ liệu lớn (66)
    • 3.2 Các kỹ thuật bảo vệ tính riêng tƣ phổ biến (67)
    • 3.3 Độ tương đồng Cosine (69)
    • 3.4 Phương thức đề xuất tính toán độ tương đồng Cosine bảo đảm sự riêng tư (70)
    • 3.5 Thực nghiệm (76)

Nội dung

CƠ SỞ LÝ THUYẾT

Tổng quan dữ liệu lớn

Sự phát triển mạnh mẽ của Internet đã làm thay đổi cách thức hoạt động của các tổ chức thông qua các ứng dụng Web 2.0, mạng xã hội và điện toán đám mây, mở ra những phương thức kinh doanh mới Trong kỷ nguyên IoT, các cảm biến được tích hợp vào thiết bị di động, ô tô và máy móc công nghiệp đã tạo ra một lượng dữ liệu khổng lồ Theo báo cáo của trung tâm dữ liệu Internet năm 2011, lượng dữ liệu toàn cầu đạt 1.8ZB, tăng gần 9 lần chỉ trong 5 năm Thuật ngữ "dữ liệu lớn" được sử dụng để mô tả những bộ dữ liệu khổng lồ, chủ yếu là không có cấu trúc, được thu thập từ nhiều nguồn khác nhau.

Dữ liệu lớn đang trở thành yếu tố quan trọng mang lại lợi ích cho các tổ chức trong nhiều lĩnh vực, với 57% chuyên gia tài chính cho rằng đầu tư vào dữ liệu lớn là chìa khóa để đạt được lợi thế cạnh tranh, theo khảo sát của Oracle Corp và Accenture PLC Năm 2014, 73% tổ chức được khảo sát đã mua hoặc có kế hoạch đầu tư vào các dự án dữ liệu lớn, tăng từ 64% trong năm 2013, cho thấy sự quan tâm ngày càng tăng đối với việc nghiên cứu và ứng dụng dữ liệu lớn.

Dữ liệu lớn là thuật ngữ mô tả các bộ dữ liệu có kích thước khổng lồ, phát triển nhanh và khó khăn trong việc thu thập, lưu trữ, quản lý và phân tích bằng các công cụ thống kê hay ứng dụng cơ sở dữ liệu truyền thống Các đặc trưng chính của dữ liệu lớn bao gồm dung lượng (volume), tốc độ (velocity), tính đa dạng (variety) và giá trị (value).

Dung lượng dữ liệu lớn đang gia tăng nhanh chóng, với 1 PB dữ liệu được tạo ra mỗi 11 giây, tương đương với một đoạn video HD dài 13 năm Facebook phải xử lý khoảng 500 TB dữ liệu hàng ngày Lợi ích từ việc xử lý khối lượng lớn dữ liệu là rất hấp dẫn, nhưng cũng đặt ra nhiều thách thức trong việc tìm kiếm các phương pháp và kỹ thuật hiệu quả để quản lý khối lượng này.

Sự phát triển nhanh chóng của các kỹ thuật và công cụ lưu trữ đã dẫn đến việc bổ sung nguồn dữ liệu liên tục Theo ước tính của tổ chức McKinsey Global, lượng dữ liệu đang tăng trưởng với tốc độ 40% mỗi năm và dự kiến sẽ tăng gấp 44 lần từ năm 2009 đến 2020.

Dữ liệu được thu thập từ nhiều nguồn khác nhau như thiết bị cảm biến, thiết bị di động và mạng xã hội Các loại dữ liệu này bao gồm dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc, tồn tại dưới nhiều hình thức như hình ảnh, âm thanh, video và văn bản.

2.1.4 Giá trị Đây là đặc trƣng quan trọng nhất của dữ liệu lớn, đề cập đến quá trình trích xuất các giá trị to lớn đang tiềm ẩn trong các bộ dữ liệu khổng lồ.

Khai thác dữ liệu lớn

Những lý thuyết dưới đây được học viên trích dẫn từ tài liệu tham khảo [11] bao gồm các mục:

2.2.1 Đặc tính của dữ liệu lớn HACE

Dữ liệu lớn có những đặc điểm nổi bật như dung lượng lớn, tính không đồng nhất, nguồn dữ liệu độc lập với sự kiểm soát phân tán và phi tập trung Điều này tạo ra nhu cầu khai thác các mối quan hệ phức tạp và phát triển trong quá trình xử lý và phân tích dữ liệu.

Evolving) giữa các dữ liệu Những đặc tính này khiến việc khai thác thông tin hữu ích từ dữ liệu lớn gặp nhiều khó khăn

2.2.1.1 Dữ liệu lớn không đồng nhất và đa chiều

Dữ liệu lớn có đặc tính cơ bản là dung lượng lớn và sự đa dạng không đồng nhất về số chiều, do các bộ thu thập thông tin sử dụng phương pháp khác nhau để ghi nhận dữ liệu Chẳng hạn, trong lĩnh vực y - sinh học, mỗi cá thể được biểu diễn qua thông tin nhân khẩu học như giới tính, tuổi, và tiền sử bệnh tật Trong khi đó, các kết quả từ điều trị X-ray và chụp CT được thể hiện qua ảnh và phim, còn thông tin gene được biểu diễn bằng vi ảnh và chuỗi trong các kiểm tra DNA Sự không đồng nhất này thể hiện qua cách mà các tổ chức y tế khác nhau trình bày thông tin bệnh nhân, tạo ra thách thức lớn trong việc tích hợp dữ liệu từ nhiều nguồn khác nhau.

2.2.1.2 Các nguồn dữ liệu độc lập và kiểm soát phân tán không tập trung

Dữ liệu độc lập và kiểm soát phân tán không tập trung là đặc điểm chính của các ứng dụng dữ liệu lớn, cho phép mỗi nguồn dữ liệu tạo và thu thập thông tin mà không cần cơ chế kiểm soát tập trung Tuy nhiên, lượng thông tin khổng lồ cũng làm cho các ứng dụng dễ bị tấn công nếu chỉ dựa vào một cơ chế kiểm soát duy nhất Đối với các ứng dụng quan trọng như Google, Flickr, Facebook và Walmart, nhiều server được triển khai toàn cầu để đảm bảo dịch vụ liên tục và nhanh chóng Các nguồn thông tin này không chỉ phụ thuộc vào thiết kế kỹ thuật mà còn bị ảnh hưởng bởi luật pháp và quy định của từng quốc gia Ví dụ, thị trường Walmart ở châu Á khác biệt hoàn toàn so với Bắc Mỹ về khuyến mãi, sản phẩm bán chạy và hành vi khách hàng, trong khi luật chính phủ cũng tác động đến quy trình quản lý bán hàng và biểu diễn dữ liệu trong các thị trường.

2.2.1.3 Phức tạp và bao hàm các mối quan hệ

Khi dung lượng dữ liệu lớn gia tăng, độ phức tạp và các mối quan hệ trong dữ liệu cũng tăng theo Việc xác định đặc tính tốt nhất để biểu diễn các quan sát trở nên quan trọng, tương tự như việc sử dụng các trường dữ liệu như tuổi tác, giới tính và thu nhập để mô tả cá thể Tuy nhiên, cách tiếp cận này không xem xét mối quan hệ xã hội giữa các cá nhân, như các kết nối bạn bè qua sở thích chung hoặc qua mạng xã hội như Twitter và Facebook Mối tương quan giữa các cá thể làm cho việc biểu diễn và lý giải dữ liệu trở nên phức tạp hơn Trong khi cách biểu diễn đặc trưng coi cá thể giống nhau nếu có giá trị đặc tính tương tự, cách biểu diễn mối quan hệ cho phép kết nối giữa hai cá thể mà không cần chung bất kỳ đặc tính nào Sự phức tạp này đang ngày càng rõ rệt trong các ứng dụng dữ liệu lớn.

Hình 2-1 Framework xử lý dữ liệu lớn [11]

Lớp 1: nền tảng khai thác dữ liệu lớn (tập trung vào xử lí dữ liệu ở cấp độ thấp và tính toán)

Lớp 2: riêng tƣ và chia sẻ thông tin (tập trung vào ngữ nghĩa ở cấp độ cao, vùng kiến thức của ứng dụng và các vấn đề về sự riêng tư của người dùng)

Lớp 3 ngoài cùng tập trung chủ yếu vào các thuật toán khai thác dữ liệu thực tế

Nền tảng khai thác dữ liệu lớn

Chia sẻ thông tin và tính riêng tư của dữ liệu ứng dụng và tri thức của dữ liệu lớn

Khai thác trên dữ liệu động và phức tạp

Học nội bộ và phân rã mô hình

Khai thác từ dữ liệu đa nguồn, không đầy đủ và không chắc chắn

2.2.2 Thách thức của khai thác dữ liệu với dữ liệu lớn

Trong hệ thống cơ sở dữ liệu học thông minh, việc phân chia dung lượng dữ liệu lớn là rất quan trọng để giải quyết vấn đề dữ liệu lớn Cung cấp giải pháp cho các đặc tính theo quy luật HACE là yếu tố cốt lõi Hình 2-1 minh họa khung lý thuyết của xử lý dữ liệu lớn, bao gồm ba lĩnh vực riêng biệt và ba lớp khác nhau.

Thách thức trong việc xử lý dữ liệu lớn ở lớp 1 là dữ liệu thường được lưu trữ ở nhiều vị trí khác nhau và dung lượng dữ liệu có thể gia tăng liên tục Để giải quyết vấn đề này, cần có nền tảng tính toán hiệu quả để truy xuất các nguồn dữ liệu phân tán Chẳng hạn, nhiều thuật toán khai thác dữ liệu yêu cầu tất cả dữ liệu phải được tải lên bộ nhớ chính trước khi thực hiện tính toán Điều này tạo ra rào cản lớn đối với dữ liệu lớn do chi phí cao liên quan đến việc di chuyển dữ liệu từ nhiều vị trí khác nhau, bất chấp việc bộ nhớ chính có thể đủ lớn để chứa toàn bộ dữ liệu cần thiết.

Thách thức ở lớp 2 mang lại nhiều lợi ích cho quá trình khai thác thông tin, đồng thời tạo ra rào cản kỹ thuật đối với lớp 1 và 3 Cơ chế chia sẻ thông tin và bảo mật dữ liệu khác nhau tùy thuộc vào ứng dụng trong từng lĩnh vực Ví dụ, việc chia sẻ dữ liệu trong hệ thống mạng lưới cảm ứng cho giám sát lưu lượng nước thường không bị hạn chế, trong khi chia sẻ thông tin về vị trí người sử dụng di động lại không được chấp nhận Ngoài ra, các lĩnh vực ứng dụng có thể cung cấp thông tin hỗ trợ thiết kế cho các thuật toán khai thác dữ liệu Hiểu ngữ nghĩa và kiến thức chuyên ngành trong từng ứng dụng là rất quan trọng cho việc truy cập dữ liệu ở cấp độ thấp và thiết kế thuật toán khai thác ở cấp độ cao.

Thách thức ở lớp 3 bao gồm ba giai đoạn: đầu tiên là xử lý dữ liệu đa nguồn, không đầy đủ và không đồng nhất thông qua các kỹ thuật liên hợp Tiếp theo, dữ liệu động và phức tạp được khai thác để tạo ra kiến thức chung Cuối cùng, quá trình học nội bộ và phân rã mô hình sẽ phản hồi lại giai đoạn tiền xử lý, từ đó điều chỉnh mô hình và các tham số dựa trên phản hồi nhận được Trong suốt quá trình này, việc chia sẻ thông tin luôn được chú trọng.

2.2.2.1 Lớp 1: nền tảng khai thác dữ liệu lớn

Trong quy trình khai thác dữ liệu, việc phân tích và so sánh dữ liệu yêu cầu một nền tảng tính toán mạnh mẽ với khả năng truy cập hiệu quả từ ít nhất hai nguồn tài nguyên: dữ liệu và bộ xử lý tính toán Đối với các tác vụ quy mô nhỏ, máy tính để bàn có thể đáp ứng đủ yêu cầu, trong khi các tác vụ quy mô trung bình cần kỹ thuật tính toán song song để xử lý dữ liệu lớn hơn Đối với dữ liệu lớn, các hệ thống khai thác thường sử dụng cụm máy tính hiệu suất cao, với các công cụ lập trình song song như MapReduce để thực hiện khai thác trên nhiều node tính toán Ví dụ, siêu máy tính Titan tại phòng thí nghiệm quốc gia Oak Ridge, Hoa Kỳ, với 18.688 node và mỗi node có bộ xử lý 16-core, là một minh chứng cho khả năng xử lý dữ liệu lớn trong khai thác dữ liệu.

Các hệ thống dữ liệu lớn kết hợp phần cứng và phần mềm thường được hỗ trợ mạnh mẽ từ ngành công nghiệp Trong nhiều năm qua, các doanh nghiệp đã dựa vào dữ liệu giao dịch trong cơ sở dữ liệu quan hệ để đưa ra quyết định Khai thác dữ liệu lớn cho phép tận dụng mối quan hệ giữa cơ sở dữ liệu và dữ liệu phi cấu trúc như weblogs, truyền thông xã hội, email, cảm biến và hình ảnh để tạo ra thông tin giá trị Các công ty như IBM, Oracle và Teradata cung cấp sản phẩm giúp khách hàng tổ chức và khai thác nguồn dữ liệu đa dạng, kết hợp với dữ liệu hiện có để phát hiện những thông tin ẩn giấu và tối ưu hóa lợi ích.

2.2.2.2 Lớp 2: ngữ nghĩa dữ liệu lớn và vùng kiến thức chuyên biệt của ứng dụng

Ngữ nghĩa và kiến thức chuyên biệt của ứng dụng liên quan đến nhiều khía cạnh như điều lệ, chính sách, và kiến thức người dùng Hai vấn đề quan trọng nhất bao gồm: (1) chia sẻ thông tin và bảo mật dữ liệu, và (2) khu vực cùng kiến thức chuyên biệt của ứng dụng Vấn đề đầu tiên đặt ra câu hỏi về cách thức dữ liệu được duy trì, truy cập và chia sẻ Vấn đề thứ hai tìm hiểu những điều tiềm tàng trong các ứng dụng và loại kiến thức hoặc mẫu mà người sử dụng mong muốn khai thác từ dữ liệu.

Chia sẻ thông tin và bảo mật dữ liệu

Chia sẻ thông tin là mục tiêu quan trọng của nhiều tổ chức, nhưng việc ứng dụng dữ liệu lớn thường liên quan đến thông tin nhạy cảm như giao dịch ngân hàng và bản ghi y khoa Do đó, việc trao đổi dữ liệu cần phải cân nhắc kỹ lưỡng về bảo mật Ví dụ, việc biết vị trí và sở thích cá nhân có thể hỗ trợ cung cấp dịch vụ tốt hơn, nhưng việc lộ thông tin này có thể gây hậu quả nghiêm trọng Để bảo vệ tính riêng tư, có hai cách tiếp cận: hạn chế quyền truy cập thông qua xác thực và kiểm soát truy xuất, hoặc vô danh hóa dữ liệu nhạy cảm Cách tiếp cận đầu tiên gặp khó khăn trong việc thiết kế hệ thống xác thực hiệu quả, trong khi cách thứ hai nhằm làm cho dữ liệu trở nên ngẫu nhiên, với k-anonymity là một trong những phương pháp phổ biến, đảm bảo mỗi cá thể không thể bị nhận diện so với k-1 cá thể khác Ngoài ra, các phương pháp vô danh khác như nén, tổng quát hóa, xáo trộn và hoán vị cũng được sử dụng để tạo ra phiên bản dữ liệu mới mà không có thông tin định danh.

Một trong những lợi ích của việc sử dụng vô danh hóa dữ liệu trong chia sẻ thông tin là cho phép các tổ chức tự do chia sẻ dữ liệu mà không bị ràng buộc bởi kiểm soát truy cập Điều này đã mở ra một lĩnh vực nghiên cứu mới mang tên khai thác dữ liệu bảo toàn tính riêng tư, cho phép các tổ chức khai thác dữ liệu mà không cần tiết lộ thông tin nhạy cảm Phương pháp này thường bao gồm hai hướng tiếp cận, trong đó có việc sử dụng các giao thức truyền thông như giao thức Yao.

Năm 1986, một yêu cầu được đặt ra là phân phối toàn bộ dữ liệu thay vì chỉ yêu cầu giá trị thực tế của từng bản ghi Đồng thời, cần thiết kế một số phương pháp khai thác dữ liệu đặc biệt nhằm thu thập kiến thức và thông tin từ dữ liệu vô danh, phương pháp này tương tự như khai thác dữ liệu không chắc chắn.

Vùng và kiến thức chuyên biệt của ứng dụng

Mã hoá dữ liệu

Mật mã, hay mã hóa dữ liệu, là công cụ thiết yếu cho bảo mật thông tin, đáp ứng nhu cầu về tính bảo mật, tính chứng thực và tính không từ chối trong hệ truyền tin Mặc dù các hệ mật mã cổ điển ít được sử dụng hiện nay, chúng vẫn thể hiện những nguyên lý cơ bản áp dụng trong mật mã hiện đại Bài viết sẽ khám phá mã hóa đối xứng và mã hóa bất đối xứng, hai yếu tố quan trọng trong lĩnh vực mật mã hiện đại.

2.3.1 Mã hoá đối xứng căn bản Đây là phương pháp chủ yếu trong việc bảo đảm tính bảo mật (confidentiality) của một hệ truyền tin Đầu tiên sẽ tìm hiểu phương pháp mã hóa Ceasar và sau đó là mô hình tổng quát của phương pháp mã hóa đối xứng cùng một số tính chất liên quan

Vào thế kỷ thứ 3 trước Công Nguyên, Julius Caesar, một nhà quân sự người La Mã, đã phát minh ra phương pháp mã hóa văn bản bằng cách thay thế mỗi chữ cái bằng chữ cái đứng sau nó k vị trí trong bảng chữ cái Ví dụ, nếu chọn k = 3, bảng chuyển đổi sẽ được thiết lập như sau:

Chữ thay thế: D E F G H I J K L M N O P Q R S T U V W X Y Z A B C (sau Z sẽ vòng lại là A, do đó x A, y B và z C)

Giả sử có văn bản gốc (bản rõ):

MEET ME AFTER THE TOGA PARTY

Nhƣ vậy văn bản mã hóa (bản mã):

PHHW PH DIWHU WKH WRJD SDUWB

Thay vì gửi bản rõ trực tiếp cho cấp dưới, Ceasar đã sử dụng bản mã để bảo mật thông tin Khi nhận được bản mã, cấp dưới sẽ tiến hành giải mã theo quy trình ngược để lấy lại bản rõ Điều này có nghĩa là ngay cả khi đối thủ của Ceasar có được bản mã, họ cũng không thể hiểu được nội dung của nó.

Chúng ta hãy gán cho mỗi chữ cái một con số nguyên từ 0 đến 25:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Phương pháp Ceasar được biểu diễn như sau: với mỗi chữ cái p thay bằng chữ mã hóa C, trong đó:

C = (p + k) mod 26 (trong đó mod là phép chia lấy số dƣ)

Quá trình giải mã được thực hiện bằng công thức p = (C – k) mod 26, trong đó k là khóa Để đảm bảo bản tin được giải mã đúng, cả người gửi và người nhận phải sử dụng cùng một giá trị khóa k.

Ngày nay, phương pháp mã hóa của Ceasar đã trở nên không an toàn Nếu đối thủ có được bản mã "PHHW PH DIWHU WKH WRJD SDUWB" và biết rằng phương pháp mã hóa sử dụng phép cộng trừ modulo 26, họ có thể dễ dàng thử tất cả 25 trường hợp của k để giải mã.

KEY PHHW PH DIWHU WKH WRJD SDUWB

1 oggv og chvgt vjg vqic rctva

2 nffu nf bgufs uif uphb qbsuz

3 meet me after the toga party

4 ldds ld zesdq sgd snfz ozqsx

5 kccr kc ydrcp rfc rmey nyprw

6 jbbq jb xcqbo qeb qldx mxoqv

7 iaap ia wbpan pda pkcw lwnpu

8 hzzo hz vaozm ocz ojbv kvmot

9 gyyn gy uznyl nby niau julns

10 fxxm fx tymxk max mhzt itkmr

11 ewwl ew sxlwj lzw lgys hsjlq

12 dvvk dv rwkvi kyv kfxr grikp

13 cuuj cu qvjuh jxu jewq fqhjo

14 btti bt puitg iwt idvp epgin

15 assh as othsf hvs hcuo dofhm

16 zrrg zr nsgre gur gbtn cnegl

17 yqqf yq mrfqd ftq fasm bmdfk

18 xppe xp lqepc esp ezrl alcej

19 wood wo kpdob dro dyqk zkbdi

20 vnnc vn jocna cqn cxpj yjach

21 ummb um inbmz bpm bwoi xizbg

22 tlla tl hmaly aol avnh whyaf

23 skkz sk glzkx znk zumg vgxze

24 rjjy rj fkyjw ymj ytlf ufwyd

25 qiix qi ejxiv xli xske tevxc

Trong 25 trường hợp trên, chỉ có trường hợp k = 3 thì bản giải mã tương ứng là có ý nghĩa Do đó đối thủ có thể chắc chắn rằng ―meet me after the toga party‖ là bản rõ ban đầu

2.3.1.2 Mô hình mã hoá đối xứng

Phương pháp Ceasar là một trong những kỹ thuật mã hóa đơn giản nhất thuộc loại mã hóa đối xứng Về khía cạnh lý thuyết, mã hóa đối xứng có thể được mô tả qua một mô hình tổng quát.

Hình 2-2 Mô hình mã hoá đối xứng [5]

Mô hình trên gồm 5 yếu tố:

Bản rõ P (plaintext) Thuật toán mã hóa E (encrypt algorithm) Khóa bí mật K (secret key)

Bản mã C (ciphertext) Thuật toán giải mã D (decrypt algorithm) Trong đó: C = E (P, K)

Thuật toán mã hóa và giải mã sử dụng chung một khóa, với thuật toán giải mã là phép toán ngược của thuật toán mã hóa, ví dụ như trong mã hóa Ceasar, phép cộng E tương ứng với phép trừ D Mô hình này được gọi là phương pháp mã hóa đối xứng Bản mã C được gửi qua kênh truyền, và do đã được biến đổi so với bản rõ P, nên những người thứ ba can thiệp vào kênh truyền không thể hiểu được ý nghĩa của bản mã C.

Một đặc điểm quan trọng của mã hóa đối xứng là khóa cần được giữ bí mật giữa người gửi và người nhận, đồng nghĩa với việc khóa phải được chuyển một cách an toàn Điều này dẫn đến câu hỏi: nếu đã có một kênh an toàn để chuyển khóa, tại sao không sử dụng kênh đó để gửi bản tin?

Phá mã nơi nhận kênh an toàn kênh thường C

Mã hóa là cần thiết vì nội dung bản tin thường dài, trong khi khóa lại ngắn và có thể được sử dụng nhiều lần để truyền tin, giúp tiết kiệm chi phí khi chỉ cần chuyển khóa trên kênh an toàn Một yếu tố quan trọng khác của hệ mã hóa đối xứng là tính an toàn của nó Như đã thấy trong mã hóa Ceasar, từ một bản mã, người ta có thể dễ dàng suy ra bản rõ ban đầu mà không cần biết khóa bí mật Hành động tìm ra bản rõ từ bản mã mà không cần khóa được gọi là phá mã (cryptanalysis).

Một hệ mã hóa đối xứng được coi là an toàn khi không thể bị phá mã hoặc thời gian để thực hiện việc phá mã là không khả thi.

Phương pháp Ceasar không an toàn do khóa chỉ có 25 giá trị, cho phép kẻ phá mã thực hiện tấn công vét cạn khóa (bruteforce attack) nhanh chóng Để tăng thời gian phá mã và nâng cao mức độ an toàn, cần mở rộng miền giá trị của khóa Dưới đây là bảng liệt kê thời gian phá mã trung bình tương ứng với kích thước của khóa.

Số lƣợng khoá Thời gian thực hiện

(tốc độ thử: 10 3 khoá/giây)

Thời gian thực hiện (tốc độ thử: 10 9 khoá/giây)

Hoán vị 26 ký tự 26!~ 4 x 10 26 6,4 x 10 12 năm 6,4 x 10 6 năm

(tốc độ CPU hiện nay khoảng 3x10 9 Hz, tuổi vũ trụ vào khoảng ≈ 10 10 năm)

Bảng 2-1 Thời gian vét cạn khoá theo kích thước khoá [5]

Các phương pháp mã hóa hiện tại chủ yếu dựa vào việc thay thế một chữ cái trong bản rõ bằng một chữ cái khác (phương pháp thay thế) Một phương pháp khác là xáo trộn thứ tự các chữ cái trong bản rõ, khiến cho người đọc không thể hiểu được ý nghĩa của bản tin, mặc dù các chữ không bị thay đổi Một cách thực hiện đơn giản là ghi bản rõ theo từng hàng và sau đó tạo bản mã dựa trên các cột.

Ví dụ bản rõ "―attackpostponeduntilthisnoon‟ đƣợc viết lại thành bảng 4 x 7 nhƣ sau: a t t a c k p o s t p o n e d u n t i l t h i s n o o n

Khi kết xuất theo từng cột thì có đƣợc bản mã:

Một cơ chế phức tạp hơn trong mã hóa là hoán vị các cột trước khi thực hiện quá trình mã hóa Ví dụ, khi chọn khóa là MONARCH, chúng ta có thể thực hiện việc hoán vị các cột để tạo ra kết quả mã hóa khác nhau.

PHƯƠNG THỨC CẢI TIẾN TÍNH TOÁN BẢO TOÀN TÍNH RIÊNG TƢ TRÊN DỮ LIỆU LỚN

Ngày đăng: 09/07/2021, 18:17

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Hà Quang Thụy (2012). Seminar Một số tìm hiểu về khai thác dữ liệu bảo vệ tính riêng tư, Phòng Công nghệ tri thức, Khoa công nghệ thông tin, Đại học Công Nghệ, Đại học quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Seminar Một số tìm hiểu về khai thác dữ liệu bảo vệ tính riêng tư
Tác giả: Hà Quang Thụy
Năm: 2012
[2]. Lê Quỳnh Nga (2014). BIG DATA: Bức tranh toàn cảnh. Khoa hệ thống thông tin kinh doanh, Đại Học Kinh Tế TPHCM, 03(1&2), trang 53–73 Sách, tạp chí
Tiêu đề: BIG DATA: Bức tranh toàn cảnh. Khoa hệ thống thông tin kinh doanh
Tác giả: Lê Quỳnh Nga
Năm: 2014
[3]. Nguyễn Thị Lập (2013). Nghiên cứu một số kỹ thuật bảo vệ tính riêng tư trong hệ thống dịch vụ dựa trên vị trí, Luận văn Thạc Sĩ, truyền dữ liệu và mạng máy tính, Học viên bưu chính viễn thông Sách, tạp chí
Tiêu đề: Nghiên cứu một số kỹ thuật bảo vệ tính riêng tư trong hệ thống dịch vụ dựa trên vị trí
Tác giả: Nguyễn Thị Lập
Năm: 2013
[4]. Nguyễn Tuấn Khanh (2012). Nghiên cứu về bảo mật trong điện toán đám mây. Luận văn Thạc Sĩ, , truyền dữ liệu và mạng máy tính, Học viên bưu chính viễn thông Sách, tạp chí
Tiêu đề: Nghiên cứu về bảo mật trong điện toán đám mây
Tác giả: Nguyễn Tuấn Khanh
Năm: 2012
[5]. Trần Minh Văn (2008). Bài giảng An toàn và bảo mật thông tin. Khoa Công nghệ thông tin, Đại học Nha Trang .Tiếng Anh Sách, tạp chí
Tiêu đề: Bài giảng An toàn và bảo mật thông tin
Tác giả: Trần Minh Văn
Năm: 2008
[6]. Mayer-Schửnberger Viktor and Cukier Kenneth. (2013). Big data: a revolution that will transform how we live, work, and think, Houghton Mifflin Harcourt, Boston Sách, tạp chí
Tiêu đề: Big data: a revolution that will transform how we live, work, and think
Tác giả: Mayer-Schửnberger Viktor and Cukier Kenneth
Năm: 2013
[7]. Reddy Pallapolu Srikanth, Padamutham Chakradhar, and Reddy Thupili Sai Prasas. (1999). Implementing Paillier Cryptosystem for Composite Residuosity Class Problem. EUROCRYPT'99, LNCS 1592, pp. 223-238 Sách, tạp chí
Tiêu đề: Implementing Paillier Cryptosystem for Composite Residuosity Class Problem
Tác giả: Reddy Pallapolu Srikanth, Padamutham Chakradhar, and Reddy Thupili Sai Prasas
Năm: 1999
[9]. Singh Simon. (2002). The code book how to make it, break it, hack it, crack it, Delacorte Press, New York Sách, tạp chí
Tiêu đề: The code book how to make it, break it, hack it, crack it
Tác giả: Singh Simon
Năm: 2002

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN