1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu những kỹ thuật digital watermarking trong việc bảo vệ bản quyền số, xây dựng một ứng dụng bảo vệ bản quyền cho những luận án tốt nghiệp của sinh viên khoa CNTT

65 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm Hiểu Những Kỹ Thuật Digital Watermarking Trong Việc Bảo Vệ Bản Quyền Số, Xây Dựng Một Ứng Dụng Bảo Vệ Bản Quyền Cho Những Luận Án Tốt Nghiệp Của Sinh Viên Khoa CNTT
Tác giả Nguyễn Văn Đoàn
Người hướng dẫn TS. Đặng Trần Khánh, TS. Nguyễn Đức Cường, TS. Trần Văn Hoài
Trường học Đại Học Bách Khoa
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2007
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 65
Dung lượng 654,26 KB

Cấu trúc

  • Bia.pdf

  • LVTN.pdf

Nội dung

GIỚI THIỆU

Đặt vấn đề

Vấn đề vi phạm bản quyền tác giả là một chủ đề phức tạp được nhiều quốc gia quan tâm Trên toàn cầu, nhiều công ước và hiệp định quốc tế về quyền sở hữu trí tuệ đã được thiết lập, bao gồm công ước Berne về bảo hộ tác phẩm văn học và nghệ thuật, công ước bảo vệ nhà sản xuất bản ghi âm chống sao chép trái phép, công ước liên quan đến phân phối tín hiệu chương trình qua vệ tinh, và các thoả thuận về thương mại liên quan đến quyền sở hữu trí tuệ, cùng với hiệp ước của WIPO về quyền tác giả (WCT).

Các tổ chức quốc tế về quyền tác giả, như Tổ chức Sở hữu Trí tuệ Thế giới (WIPO), hiệp hội Công nghiệp ghi âm Quốc tế, và hiệp hội các Nhà soạn nhạc và Soạn lời Quốc tế, đã được thành lập để bảo vệ quyền sở hữu trí tuệ WIPO, một trong 16 cơ quan chuyên môn của Liên hợp quốc, đóng vai trò quan trọng trong việc thúc đẩy bảo hộ sở hữu trí tuệ toàn cầu Tổ chức này khuyến khích hợp tác giữa các quốc gia, quản lý các liên hiệp và tổ chức dựa trên hiệp định đa phương, đồng thời phát triển các luật mẫu để hỗ trợ các nước đang phát triển.

Việt Nam đang tích cực hội nhập vào nền kinh tế toàn cầu, không chỉ thông qua hợp tác phát triển kinh tế - xã hội mà còn tham gia vào các hiệp định và công ước bảo vệ quyền tác giả như hiệp định Việt - Mỹ và công ước Berne Chính phủ Việt Nam đã ký kết nhiều bản ghi nhớ quan trọng về bảo hộ sở hữu trí tuệ, bao gồm sự hợp tác giữa Cục sở hữu trí tuệ Thái Lan và Cục bản quyền tác giả Việt Nam, cũng như các thỏa thuận với Cục bản quyền quốc gia Trung Quốc Những nỗ lực này nhằm thúc đẩy và bảo vệ quyền tác giả và sở hữu trí tuệ tại Việt Nam.

Luật sở hữu trí tuệ Việt Nam quy định rõ ràng về các đối tượng bảo vệ, bao gồm quyền tác giả, quyền sở hữu công nghiệp và quyền đối với giống cây trồng Quyền tác giả bảo vệ các tác phẩm văn học, nghệ thuật, khoa học, cùng với các cuộc biểu diễn, bản ghi âm, ghi hình và chương trình phát sóng Quyền sở hữu công nghiệp bao gồm sáng chế, kiểu dáng công nghiệp, bí mật kinh doanh, nhãn hiệu và chỉ dẫn địa lý Đối với giống cây trồng, luật bảo vệ giống cây và vật liệu nhân giống Luật cũng quy định chi tiết về nội dung, giới hạn quyền, thời hạn bảo hộ, thủ tục đăng ký, lệ phí và xử lý vi phạm liên quan đến sở hữu trí tuệ.

Trong quá trình thực hiện quyền sở hữu trí tuệ, giám định về sở hữu trí tuệ là một công việc phức tạp, đòi hỏi kiến thức và nghiệp vụ chuyên môn để đánh giá các vấn đề liên quan đến xâm phạm quyền sở hữu trí tuệ Tùy thuộc vào đối tượng giám định như tác phẩm văn học, nghệ thuật, bản ghi âm, ghi hình hay kiểu dáng công nghiệp, cần áp dụng các kỹ thuật giám định phù hợp Nhiều bộ luật về bản quyền trên thế giới, bao gồm cả Mỹ, yêu cầu chủ sở hữu phải ký thông tin bản quyền lên mỗi bản sao sản phẩm để bảo vệ quyền lợi của mình.

Giấy tờ giả mạo, bao gồm công văn, chỉ thị, bằng cấp và giấy tờ tuỳ thân, đang trở thành vấn đề nóng bỏng trong việc bảo hộ quyền sở hữu trí tuệ và giám định chủ sở hữu Những tài liệu giả mạo này có thể xuất hiện ở bất kỳ cơ quan, tổ chức nào và mức độ nghiêm trọng của sự việc phụ thuộc vào tầm quan trọng của tài liệu bị giả mạo Để xử lý tình trạng này, bước đầu tiên là phát hiện và xác định tài liệu giả mạo.

Việc xây dựng một phương pháp nhúng thông tin bí mật vào tài liệu tiếng Việt là rất cần thiết để bảo vệ quyền sở hữu và phát hiện tài liệu giả mạo Thông tin bí mật này sẽ được nhúng vào từng mục, từng chương và toàn bộ tài liệu, nhằm ngăn chặn việc sử dụng trái phép hoặc giả mạo Phương pháp này sẽ được áp dụng thử nghiệm trên các tài liệu luận văn tốt nghiệp tại Khoa Công Nghệ Thông Tin, Đại Học Bách Khoa Thành phố.

Hướng giải quyết vấn đề

Digital watermarking là kỹ thuật nhúng thông tin vào sản phẩm để khẳng định quyền sở hữu, được phát triển mạnh mẽ từ những năm 1990 Kỹ thuật này có thể áp dụng cho nhiều loại sản phẩm như hình ảnh, video, âm thanh và văn bản Watermarking trong dữ liệu văn bản giúp theo dõi các tài liệu bị sao chép, phân phối trái phép hoặc giả mạo Đặc điểm của tiếng Việt với các ký tự latinh và dấu thanh như thanh ngang, thanh sắc, thanh huyền, thanh hỏi, thanh ngã và thanh nặng, cho phép nhúng thông tin bản quyền bằng cách dịch chuyển các dấu này một khoảng cách nhỏ mà người đọc khó nhận ra.

Phương pháp giải quyết vấn đề này là ứng dụng kỹ thuật digital watermarking để nhúng thông tin vào tài liệu tiếng Việt Cụ thể, thông tin sẽ được nhúng dựa trên các đặc điểm của dấu tiếng Việt bằng cách dịch chuyển các dấu lên hoặc xuống một khoảng nhỏ Phương pháp này không chỉ áp dụng cho tiếng Việt mà còn có thể được sử dụng cho các ngôn ngữ khác có dấu như tiếng Đức, tiếng Tây Ban Nha và tiếng Bồ Đào Nha.

CƠ SỞ LÝ THUYẾT

Kỹ thuật digital watermarking

Các phương pháp giấu thông tin (information hiding, data hiding) đang được nghiên cứu và ứng dụng mạnh mẽ trong lĩnh vực an toàn và bảo mật thông tin Kỹ thuật này cho phép nhúng thông tin vào đối tượng khác, làm cho thông tin trở nên không thể nhận biết hoặc giữ ở trạng thái bí mật Hai hướng tiếp cận chính trong giấu thông tin là steganography và watermarking Steganography cho phép giấu thông tin vào đối tượng để truyền tin trong giao tiếp bí mật, trong khi watermarking nhằm khẳng định bản quyền sở hữu hoặc chống lại việc xuyên tạc thông tin.

Hình 2.1 - Phân loại kỹ thuật giấu tin

Kỹ thuật giấu tin đã tồn tại từ lâu trong lịch sử, với nhiều ứng dụng khác nhau Một trong những câu chuyện nổi bật về phương pháp này được kể bởi các sử gia, minh chứng cho sự sáng tạo và khéo léo của con người trong việc bảo vệ thông tin quan trọng.

Vào thế kỷ trước Công nguyên, khi Histiaeus bị bắt giữ tại Susa, ông đã gửi một thông điệp bí mật cho Aristagoras ở Miletus bằng cách cạo trọc đầu một nô lệ tin cậy và xăm thông tin lên da đầu của người này Sau khi xăm, tóc của nô lệ đã mọc lại và che giấu thông điệp bí mật đó.

Steganography và watermarking là hai phương pháp giấu thông tin khác nhau Trong câu chuyện về người nô lệ được gửi tới Miletus cho Aristagoras, thông tin bí mật được xăm trên đầu người nô lệ cho thấy sự khác biệt này Nếu thông điệp trên đầu người nô lệ được truyền đi với mục đích tránh bị phát hiện, đó gọi là steganography Ngược lại, nếu thông tin bí mật chỉ nhằm xác định quyền sở hữu của người nô lệ thuộc về Histeiaus, thì phương pháp này được gọi là watermarking.

Kỹ thuật steganography được sử dụng để giấu thông tin trong các đối tượng mà người dùng khó có thể nghi ngờ, đặc biệt phổ biến trong quân đội Steganography cổ điển được chia thành hai loại: linguistic steganography và technical steganography Trong đó, technical steganography là phương pháp giấu thông tin vào đối tượng chứa dựa trên các đặc tính vật lý hoặc hóa học, ví dụ như việc sử dụng mực không màu để ẩn giấu thông điệp.

Kỹ thuật linguistic steganography sử dụng các dạng đặc biệt của chữ viết để giấu thông tin [2]

Watermarking thực hiện trên dữ liệu dạng số được gọi là digital watermaking Thuật ngữ digital watermarking được xuất hiện đầu tiên vào năm

Năm 1993, Tirkel đã giới thiệu hai phương pháp giấu tin trên ảnh dựa trên việc thay đổi giá trị các bit màu có trọng số thấp Kỹ thuật digital watermarking đã trở thành một lĩnh vực quan trọng trong khoa học máy tính, mật mã, xử lý tín hiệu và truyền thông, đồng thời là một giải pháp hiệu quả để bảo vệ quyền sở hữu trí tuệ khỏi việc sao chép trái phép Watermarking được phân loại thành nhiều loại khác nhau, bao gồm watermark bền vững (robust watermark), watermark dễ vỡ (fragile watermark), watermark sử dụng khóa (public/private watermark), và watermark nổi hoặc chìm (visible/invisible watermark) Watermark bền vững có khả năng tồn tại cao, ngay cả khi dữ liệu chứa bị biến đổi, trong khi watermark dễ vỡ dễ bị phá hủy nếu có sự thay đổi nhỏ Watermark sử dụng khóa cho phép quy định quyền truy cập vào thông tin nhúng, và watermark nổi cung cấp thông tin bản quyền cho người dùng, trong khi watermark chìm ẩn giấu thông tin mà người dùng không nhận ra.

Các kỹ thuật digital watermarking được đánh giá dựa trên ba tiêu chí chính: độ bền vững của thông tin nhúng, mức độ bảo mật và mức độ ẩn của thông tin Một kỹ thuật digital watermarking hiệu quả là khi nó đạt được các yêu cầu này ở mức cao nhất Tuy nhiên, việc nâng cao chất lượng của một yêu cầu có thể ảnh hưởng đến các yêu cầu khác.

Hình 2.2 - Tam giác các yêu cầu đối với digital watermarking

Watermarking là kỹ thuật vẫn còn trong giai đoạn phát triển Tương lai của watermarking đầy hứa hẹn [4] Nhiều công ty nghiên cứu về digital watermarking đã ra đời

2.1.2 Ứng dụng của digital watermarking

Digital watermarking is widely used across various fields, including copyright protection, content authentication, product labeling, and broadcast monitoring Its applications ensure robustness, invisibility, and security, making it an essential tool for safeguarding intellectual property and verifying content integrity.

(Broadcast Monitoring), điều khiển sao chép (Copy Control), … Các ứng dụng của digital watermarking sẽ trình bày cụ thể dưới đây

Bảo vệ bản quyền thông qua watermarking là một phương pháp phổ biến, giúp nhúng thông tin bản quyền vào sản phẩm để chứng minh quyền sở hữu Thông tin này rất quan trọng trong việc giải quyết tranh chấp hoặc khi cần xác minh quyền sở hữu sản phẩm Để đảm bảo hiệu quả, watermarking cần có độ bền vững cao.

Waterking được sử dụng để xác thực nội dung, đảm bảo rằng dữ liệu là nguyên bản và không bị thay đổi Điều này giúp ngăn chặn việc dữ liệu bị chỉnh sửa với mục đích xấu, hay còn gọi là xuyên tạc nội dung.

Product labeling through watermarking is essential for identifying the manufacturer, the user, and the product serial code This identification information must be distinctive and unique for each type of product.

Hệ thống theo dõi lịch phát sóng tự động giám sát nội dung, thời lượng và thời điểm phát sóng thông qua việc so sánh tín hiệu phát sóng với tín hiệu gốc đã lưu trữ, sử dụng kỹ thuật watermarking Hệ thống này rất hữu ích cho các tổ chức quảng cáo muốn theo dõi tình trạng thông tin quảng cáo của họ trên các phương tiện truyền thông Bên cạnh đó, watermarking cũng được áp dụng trong điều khiển sao chép dữ liệu đa phương tiện, cho phép các thiết bị đọc ghi nhận diện và xử lý thông tin đánh dấu trong sản phẩm nguồn Tại Nhật Bản, watermarking đã được sử dụng để quản lý sao chép DVD, với thông tin đánh dấu cho biết trạng thái cho phép sao chép như không được sao chép hoặc chỉ được sao chép một lần Trước khi sao chép, bộ đọc ghi sẽ kiểm tra thông tin đánh dấu để quyết định có thực hiện sao chép hay không.

Nguyên lý cơ bản của digital watermarking

Digital watermarking là một lĩnh vực đang phát triển, với nguyên lý cơ bản được trình bày dưới nhiều dạng khác nhau và vẫn đang tiếp tục thay đổi Ý tưởng chính của digital watermarking là nhúng thông tin (watermark) vào dữ liệu chứa (host data), với yêu cầu thông tin nhúng phải bí mật và hoàn toàn được che phủ bởi dữ liệu chứa Thông tin đã nhúng cần đảm bảo có thể trích xuất khi cần thiết Trên cùng một dữ liệu chứa, việc nhúng càng nhiều thông tin càng tốt là một mục tiêu quan trọng.

Để tăng cường tính bảo mật khi nhúng và trích dẫn thông tin, việc sử dụng các khoá bảo vệ (secure key) là cần thiết Các khoá này giúp đảm bảo tính hợp lệ của thông tin nhúng, ngăn chặn việc dữ liệu bị giả mạo Thiết kế một hệ thống digital watermarking cho phép nhúng thông tin bí mật (I) vào dữ liệu gốc (X) để tạo ra dữ liệu đã nhúng (Y) bao gồm nhiều công việc quan trọng.

− Xây dựng thông tin cần nhúng (W) Thông tin bí mật phải được chuyển dạng thích hợp trước khi nhúng vào dữ liệu chứa

W=h(I) Để đảm bảo tính bí mật có thể sử dụng thêm khoá bí mật K

Nếu cần xây dựng thông tin nhúng đặc trưng cho từng bảo sao dữ liệu chứa thì sử dụng thêm dữ liệu chứa gốc để tạo thông tin nhúng

− Xây dựng phương pháp nhúng thông tin vào sản phẩm (watermark encoder)

Nếu việc nhúng dữ liệu vào phương tiện chứa không cần sử dụng khoá (K) và phương tiện chứa gốc

Y=f(X,W) Nếu việc nhúng dữ liệu vào phương tiện chứa có sử dụng khoá (K)

Hình 2.3 - Nguyên lý nhúng thông tin

Hình 2.3 minh họa nguyên lý nhúng thông tin vào dữ liệu, trong đó cần cung cấp dữ liệu nhúng (W) và dữ liệu cần nhúng (X) Việc sử dụng khóa K là tùy chọn.

Xây dựng phương pháp lấy lại thông tin là rất quan trọng, vì thông tin đã nhúng I được truy xuất tùy thuộc vào cách thức nhúng dữ liệu Việc lấy lại thông tin có thể yêu cầu sử dụng sản phẩm gốc, tùy thuộc vào loại phương tiện chứa Ngoài ra, trong một số trường hợp, việc nhúng dữ liệu vào phương tiện chứa không cần thiết phải sử dụng khóa K.

I=g(Y) Nếu việc nhúng dữ liệu vào phương tiện chứa có sử dụng khoá K

I=g(Y,K) Nếu việc nhúng dữ liệu vào phương tiện chứa không sử dụng khoá K và cần phương tiện chứa gốc

Nếu việc nhúng dữ liệu vào phương tiện chứa có sử dụng khoá K và cần phương tiện chứa gốc

Hình 2.4 - Nguyên lý lấy lại thông tin đã nhúng

Hình 2.4 minh họa nguyên lý khôi phục thông tin đã nhúng vào dữ liệu (Y) Để thực hiện việc lấy lại thông tin, có thể cần sử dụng thêm dữ liệu gốc (X) hoặc khoá bí mật (K).

Các hình thức tấn công vào watermarking

Sau khi nhúng thông tin, sản phẩm có thể bị tấn công nhằm vô hiệu hóa thông tin này Các hình thức tấn công bao gồm gây nhiễu, vô hiệu hóa thông tin nhúng, nhúng lại thông tin và gỡ bỏ thông tin đã nhúng.

Gây nhiễu là một phương thức tấn công nhằm biến đổi dữ liệu để làm suy yếu thông tin nhúng Chẳng hạn, các tập tin hình ảnh có chứa thông tin bản quyền có thể bị gây nhiễu thông qua việc dịch chuyển hoặc xóa bỏ một số điểm ảnh trong dữ liệu ảnh.

Phương pháp vô hiệu hóa thông tin nhúng giúp cắt đứt mối liên hệ giữa thông tin nhúng và dữ liệu chứa nó, làm cho các chương trình truy xuất thông tin nhúng không thể xác định được thông tin đã nhúng Ví dụ về các kỹ thuật này bao gồm phóng to, thu nhỏ, quay và dịch chuyển không gian, thời gian trong dữ liệu hình ảnh và phim.

Hình thức tấn công nhúng lại thông tin cho phép nhúng thông tin mới vào dữ liệu đã có bản quyền, và dữ liệu này có thể bị nhúng lại nhiều lần Quá trình này có thể dẫn đến việc thông tin ban đầu bị hư hỏng, sai lệch hoặc bị vô hiệu hóa Đáng chú ý, thông tin nhúng lại có thể cùng tồn tại với thông tin đã được nhúng trước đó.

Hình thức tấn công gỡ bỏ thông tin nhúng yêu cầu phân tích dữ liệu để xác định và loại bỏ thông tin đã nhúng Đây là một phương pháp tấn công phức tạp, với xác suất thành công không cao.

Có ba hình thức tấn công chính: gây nhiễu, vô hiệu hóa thông tin nhúng, và nhúng lại thông tin mà không cần quan tâm đến dữ liệu và phương pháp nhúng Những cách tấn công này rất dễ thực hiện.

Digital watermarking trong dữ liệu đa phương tiện

Trong thời gian gần đây, sự phát triển mạnh mẽ của internet đã tạo ra những thay đổi lớn trong nhiều lĩnh vực của cuộc sống, trở thành nguồn tri thức khổng lồ cho nhân loại Internet không chỉ là nơi trao đổi thông tin tiện lợi mà còn làm nổi bật tầm quan trọng của kỹ thuật digital watermarking khi ngày càng nhiều nhà cung cấp muốn bán dữ liệu số qua mạng Dữ liệu số này bao gồm văn bản, hình ảnh, âm thanh và phim.

Watermarking trong dữ liệu văn bản đã được sử dụng lâu dài cho các công việc yêu cầu độ bí mật cao Các phương pháp watermarking trong dữ liệu văn bản bao gồm: watermarking trực tiếp trên văn bản, watermarking trên dữ liệu ở định dạng nhất định như Postscript và PDF, cũng như watermarking trên tập tin hình ảnh quét từ văn bản Chi tiết về watermarking trên văn bản sẽ được trình bày ở mục 2.5.

Watermarking là một phương pháp phổ biến trong việc xử lý dữ liệu hình ảnh, nơi thông tin được nhúng vào các pixel mà không làm giảm chất lượng ảnh đáng kể, khiến người xem khó phát hiện Với sự gia tăng sử dụng ảnh số trong đời sống hàng ngày, watermarking đã trở thành một ứng dụng quan trọng, đặc biệt trong lĩnh vực nhận diện như thẻ chứng minh, thẻ căn cước và hộ chiếu, cho phép giấu thông tin nhận dạng để xác thực thông tin cá nhân.

Watermarking âm thanh dựa vào đặc điểm khuyết điểm của hệ thống thính giác con người, với độ nhạy cảm thấp đối với những thay đổi nhỏ trong miền thời gian và tần số Một số phương pháp watermarking phổ biến bao gồm mã hóa LSB, mã hóa pha, trải phổ, ẩn echo, kỹ thuật chi trải phổ và điều biến chỉ mục.

Watermarking trong dữ liệu phim ngày càng được chú trọng và phát triển cho nhiều ứng dụng, bao gồm kiểm soát truy cập thông tin và bảo vệ quyền tác giả Một trong những phương pháp watermark nổi bật trong video do Cox đề xuất là phương pháp phân bố đều, với ý tưởng chính là phân tán thông tin ẩn theo tần số của dữ liệu gốc Kỹ thuật này tận dụng cả đặc điểm thị giác và thính giác của con người để giấu thông tin hiệu quả.

XML là một ngôn ngữ đánh dấu tương tự như HTML, được sử dụng để lưu trữ và chuyển đổi dữ liệu giữa các hệ thống khác nhau Nó chứa dữ liệu văn bản được cấu trúc theo dạng nhất định và sử dụng các thẻ do người dùng tự định nghĩa Dữ liệu được lưu trữ trong các thẻ này Một số phương pháp watermarking trong dữ liệu XML bao gồm việc sử dụng thẻ rỗng và thay đổi thứ tự thuộc tính Phương pháp thẻ rỗng nhúng thông tin vào tài liệu XML thông qua các thẻ rỗng kết hợp với thẻ bình thường, trong khi phương pháp thay đổi thứ tự thuộc tính thực hiện việc nhúng thông tin bằng cách thay đổi thứ tự các thuộc tính trong các thẻ.

Phương pháp sử dụng thẻ rỗng để nhúng thông tin vào tài liệu XML cho phép kết hợp giữa thẻ rỗng và thẻ bình thường Cụ thể, thẻ bình thường biểu thị việc nhúng bit 0, trong khi thẻ rỗng đại diện cho bit 1 Ví dụ này minh họa chuỗi bit được nhúng là 0110.

Hình 2.5 - Ví dụ nhúng bản quyền bằng phương pháp sử dụng thẻ rỗng [11]

Hình 2.6 minh họa phương pháp thay đổi thứ tự của các thuộc tính “month” và “date” trong thẻ “event” Quy tắc nhúng thông tin được áp dụng thông qua việc sử dụng thuộc tính.

Trong ngữ cảnh lập trình, khi thuộc tính "month" đứng trước thuộc tính "date", điều này có nghĩa là nhúng bit 0 Ngược lại, nếu thuộc tính "date" đứng trước "month", nó sẽ nhúng bit 1 Ví dụ này minh họa thông tin được nhúng dưới dạng chuỗi bit 01.

Hình 2.6 - Ví dụ nhúng bản quyền bằng phương pháp thay đổi thuộc tính [11]

Watermarking được áp dụng cho nhiều loại dữ liệu khác nhau, bao gồm bản đồ số và cơ sở dữ liệu quan hệ Bản đồ số là dữ liệu từ các hệ thống GIS, với các thành phần cơ bản như điểm, đường và vùng Thông tin được nhúng vào dữ liệu GIS thông qua việc điều chỉnh nhẹ các đặc tính như tọa độ và kích thước của đối tượng.

Digital watermarking trong dữ liệu văn bản

Dữ liệu văn bản là loại dữ liệu phổ biến nhất trong thực tế, hiện diện ở nhiều định dạng như sách, báo, trang web, hợp đồng và quảng cáo Nó tồn tại khắp nơi và đóng vai trò quan trọng trong việc truyền đạt thông tin.

Independence day

Văn bản có thể được phân phối rộng rãi qua internet, tuy nhiên, vấn đề bảo vệ bản quyền và theo dõi việc sử dụng tài liệu vẫn là thách thức lớn So với các dạng dữ liệu như âm thanh và hình ảnh, văn bản có ít đặc tính để nhúng thông tin bí mật Thông tin nhúng trong dữ liệu văn bản thường dễ bị gỡ bỏ bởi các ứng dụng nhận dạng ký tự (OCR), điều này làm cho tính bền vững của thông tin nhúng trở thành một thách thức lớn trong việc thực hiện watermarking trên văn bản.

Các phương pháp watermarking văn bản được phân thành ba nhóm chính: watermarking trực tiếp trên văn bản, watermarking trên dữ liệu đã định dạng và watermarking trên tập tin hình ảnh quét từ văn bản Bài viết sẽ trình bày chi tiết về từng nhóm phương pháp này.

2.5.1 Watermarking trực tiếp trên văn bản

Kỹ thuật digital watermarking trực tiếp trên dữ liệu văn bản ở dạng ký tự chưa định dạng (plain text) sử dụng các phương pháp giấu tin trong văn bản Tuy nhiên, việc áp dụng kỹ thuật watermarking có thể làm thay đổi đáng kể dữ liệu văn bản, khiến người đọc dễ dàng nhận ra Các phương pháp watermarking trực tiếp trên văn bản được chia thành ba nhóm chính.

− Nhóm phương pháp sửa khoảng trống (open space methods): nhúng thông tin thông qua việc thao tác trên các khoảng trống giữa các từ trong văn bản

− Nhóm phương pháp cú pháp (syntactic methods): nhúng thông tin dựa vào các dấu câu

− Nhóm phương pháp ngữ nghĩa (semantic methods): nhúng thông tin dựa trên việc thao tác trên chính các từ trong văn bản

Nhóm phương pháp nhúng bản quyền vào văn bản dựa trên việc thay đổi các khoảng trống trong văn bản có hai lý do chính Thứ nhất, việc thay đổi khoảng trống trong câu thường không làm thay đổi ý nghĩa của các cụm từ hay câu Thứ hai, người đọc thường không nghi ngờ tài liệu đã được nhúng thông tin thông qua những thay đổi nhỏ này Các khoảng trống có thể được thay đổi bao gồm khoảng trống giữa các từ, khoảng trống ở cuối mỗi hàng, hoặc khoảng trống giữa các ký tự trong từ.

Hình 2.7 - Ví dụ thay đổi khoảng trống giữa các từ trong câu

Hình 2.7 minh họa một ví dụ về việc nhúng thông tin thông qua khoảng trống giữa các từ trong câu Phần (a) cho thấy dữ liệu sau khi nhúng, trong khi phần (b) thể hiện dữ liệu nhúng kèm theo chú thích Quy tắc nhúng được áp dụng là: một khoảng trống có hai khoảng trống trước đó sẽ nhúng bit 0, trong khi hai khoảng trống có một khoảng trống trước đó sẽ nhúng bit 1 Dữ liệu được nhúng trong ví dụ này là một chuỗi ký tự.

“BK” theo mã ASCII (American Standard Character Interchange) Mã ASCII của ký tự “B” là 01000010, của ký tự “K” là 10001011 nên chuỗi bit đã được nhúng là

Hình 2.8 minh họa cách nhúng thông tin qua việc điều chỉnh khoảng trống ở cuối mỗi hàng trong câu Phần (a) thể hiện dữ liệu gốc, trong khi phần (b) cho thấy dữ liệu đã được nhúng thông tin bí mật.

Hình 2.8 - Ví dụ thay đổi khoảng trống cuối hàng [5]

Nhóm phương pháp cú pháp dựa trên sự nhập nhằng giữa các dấu chấm câu hoặc sửa đổi nghĩa của dữ liệu văn bản, dẫn đến việc thay đổi nội dung và cấu trúc của văn bản Mặc dù phương pháp này rất khó bị phá hủy, nhưng việc hiện thực hóa lại gặp khó khăn do chủ yếu phải thực hiện bằng sức người Hình 2.9 minh họa một ví dụ về việc nhúng thông tin thông qua việc thay đổi thứ tự các dấu chấm và dấu phẩy.

Hình 2.9 - Ví dụ nhúng bản quyền bằng phương pháp cú pháp [11]

Phương pháp ngữ nghĩa nhúng thông tin bằng cách thay đổi các từ trong văn bản Quy tắc sử dụng từ đồng nghĩa giúp nhúng thông tin một cách hiệu quả Mỗi cặp từ đồng nghĩa được gán hai giá trị chính, tạo ra sự linh hoạt trong việc truyền tải ý nghĩa.

(primary value) và phụ (secondary value) Ví dụ trong cặp từ đồng nghĩa “big” và

Từ "larger" có giá trị chính trong khi "big" chỉ có giá trị phụ, với việc sử dụng từ có giá trị chính tương đương với việc nhúng bit 1, và từ có giá trị phụ tương đương với nhúng bit 0 Phương pháp này mang lại ưu điểm là thông tin nhúng có độ bền vững cao, ngay cả khi văn bản được gõ lại Hình 2.10 minh họa một số cặp từ đồng nghĩa, với từ có giá trị chính ở bên trái và từ có giá trị phụ ở bên phải.

Hình 2.10 - Ví dụ về các cặp từ động nghĩa [5]

2.5.2 Watermarking trên dữ liệu đã định dạng

Dữ liệu có thể được lưu trữ dưới nhiều định dạng khác nhau như PDF, PostScript, RTF và TeX Thông tin bản quyền thường được nhúng vào văn bản dựa trên vị trí hiển thị của các ký tự Việc nhúng thông tin có thể thực hiện thông qua các phương pháp như dịch chuyển hàng, dịch chuyển từ hoặc dịch chuyển từng ký tự.

Hình 2.11 - Ví dụ dịch chuyển hàng

Phương pháp dịch chuyển hàng là kỹ thuật di chuyển một số dòng văn bản lên hoặc xuống một khoảng cách nhỏ, khiến người đọc khó nhận ra Thông tin bản quyền được ẩn giấu trong khoảng trống do việc dịch chuyển này tạo ra.

Hình 2.11 biểu diễn một ví dụ dịch chuyển hàng văn bản có nội dung “Chứng thực nội dung” lên trên một khoảng nhỏ

Phương pháp dịch chuyển liên quan đến việc di chuyển một số từ trong văn bản sang trái hoặc phải một khoảng cách nhỏ Thông tin đánh dấu bản quyền được ẩn giấu trong khoảng trống dịch chuyển Hình 2.12 minh họa ví dụ về việc dịch chuyển từ.

“bản” trong cụm từ “Bảo vệ bản quyền” sang phải một khoảng nhỏ

Hình 2.12 - Ví dụ dịch chuyển từ

Phương pháp dịch chuyển ký tự trong văn bản liên quan đến việc thay đổi một số ký tự trong các từ với khoảng cách rất nhỏ Hình 2.13 minh họa ký tự “T” trong từ.

“DATA” đã được dịch sang phải một khoảng nhỏ

Hình 2.13 - Ví dụ dịch chuyển ký tự

2.5.3 Watermarking trên tập tin hình ảnh quét từ văn bản

Văn bản đầu tiên được quét thành các tập tin hình ảnh, sau đó tiến hành nhúng thông tin Nhóm phương pháp này có khả năng áp dụng các kỹ thuật watermarking trên dữ liệu ở định dạng nhất định Bên cạnh đó, phương pháp này còn có thể thực hiện các đặc điểm khác của ký tự, bao gồm đặc điểm hiển thị và màu sắc của từng ký tự.

GIẢI PHÁP THỰC HIỆN

Đặc điểm của tiếng Việt và phương pháp nhúng thông tin

Tiếng Việt là ngôn ngữ chính thức của Việt Nam và là tiếng mẹ đẻ của khoảng 85% dân cư Thuộc hệ ngôn ngữ Nam Á, nhóm Môn-Khmer, nhánh Việt-Mường, tiếng Việt có nguồn từ vựng phong phú, phần lớn vay mượn từ tiếng Hán Trước đây, người Việt sử dụng chữ Hán (chữ Nho) để viết, sau đó phát triển thành chữ Nôm Hiện nay, tiếng Việt sử dụng chữ Quốc ngữ, hệ chữ viết dựa trên ký tự Latinh.

Bảng chữ cái tiếng Việt bao gồm 29 chữ cái, trong đó không có các chữ "F", "J", "W" và "Z" Những chữ cái này thường được sử dụng để viết các từ vay mượn từ tiếng nước ngoài Hình 3.1 minh họa các chữ cái được sử dụng trong tiếng Việt.

Hình 3.1 - Bảng chữ cái tiếng Việt

Tiếng Việt có hai loại phụ âm: phụ âm đơn và phụ âm ghép Phụ âm đơn bao gồm các chữ b, c, d, đ, g, h, k, l, m, n, p, q, r, s, t, v, x, trong khi phụ âm ghép gồm ch, gh, kh, ng, ngh, nh, ph, th, tr, gi, và qu Về nguyên âm, tiếng Việt có nguyên âm đơn, nguyên âm đôi và bán nguyên âm Nguyên âm đơn bao gồm a, ă, â, e, ê, i, o, ô, ơ, u, ư, y, trong khi nguyên âm đôi là iê, yê, ia, ưa, ươ, ua, uô Bán nguyên âm là o và u, đặc biệt trong các trường hợp oa, oe, uy.

Tiếng Việt là một ngôn ngữ thanh điệu với sáu thanh chính: ngang, huyền, sắc, hỏi, ngã và nặng Các dấu thanh được đặt trên nguyên âm, ngoại trừ dấu nặng được đặt dưới nguyên âm Ngoài ra, một số nguyên âm còn có dấu mũ và dấu “ă” Tất cả các dấu này được gọi chung là dấu tiếng Việt Việc dịch chuyển các dấu thanh này chỉ một khoảng cách nhỏ có thể không bị phát hiện, tạo cơ hội để nhúng thông tin bí mật vào tài liệu tiếng Việt.

Trong văn bản tiếng Việt, dấu nặng nằm dưới các nguyên âm, có đặc điểm đồ họa tương tự như dấu chấm câu, gây khó khăn trong việc nhúng thông tin Vì vậy, dấu nặng không được chọn để nhúng thông tin Ngược lại, các dấu chấm tròn nhỏ trên ký tự i, j có đặc điểm đồ họa giống dấu nặng, nhưng do nguyên âm phía dưới luôn là i hoặc j, việc nhận dạng trở nên đơn giản hơn, khiến ký tự i, j được lựa chọn để nhúng thông tin.

Các ký tự không có dấu phía trên không được chọn để nhúng thông tin bí mật, như thể hiện trong Hình 3.2 Hình này trình bày các ký tự bằng phông chữ Times New Roman, kích thước 13 Phần (a) cho thấy các ký tự ở dạng chữ bình thường, phần (b) ở dạng chữ nghiêng, phần (c) ở dạng chữ đậm, và phần (d) ở dạng chữ đậm và nghiêng.

Hình 3.2 - Các ký tự không chọn nhúng thông tin

Hình 3.3 minh họa các ký tự có thể nhúng thông tin, sử dụng phông chữ Times New Roman với kích thước 13 Phần (a) thể hiện các ký tự ở kiểu chữ bình thường, trong khi phần (b) là kiểu chữ nghiêng Phần (c) trình bày các ký tự ở dạng chữ đậm, và phần (d) kết hợp cả hai kiểu chữ đậm và nghiêng Các ký tự được trình bày bao gồm: a, b, c, d, đ, e, f, g, h, k, l, m, n, o, p, q, r, s, t, u, v, x, y, z.

Hình 3.3 - Các ký tự có thể nhúng thông tin bản quyền

Mỗi ký tự được chọn có khả năng nhúng một bit dữ liệu thông qua vị trí của các dấu trên nguyên âm Các ký tự như i, j, ă, â, ô, ê, và các ký tự khác với một dấu phía trên, nhúng thông tin bằng cách di chuyển dấu trên cùng Trong khi đó, các ký tự có hai dấu như ằ, ắ, ẳ, ẵ chỉ thay đổi vị trí của các dấu sắc, huyền, hỏi, ngã để nhúng dữ liệu Các ký tự này bao gồm nhiều nguyên âm và phụ âm khác nhau, cho phép truyền tải thông tin một cách hiệu quả và đa dạng.

Thông tin nhúng cần được chuyển đổi thành chuỗi bit trước khi tích hợp vào tài liệu tiếng Việt Quy tắc nhúng bit vào ký tự là: dịch chuyển dấu lên để biểu thị bit 1 và dịch chuyển dấu xuống để biểu thị bit 0 Chuỗi bit dữ liệu sẽ được nhúng liên tục vào tài liệu tiếng Việt, từ trái sang phải và từ trên xuống dưới trên mỗi dòng văn bản.

Lựa chọn định dạng văn bản

Chọn phương pháp watermarking cho văn bản đã định dạng giúp giảm độ phức tạp trong việc nhúng thông tin bí mật, như thông tin bản quyền Có nhiều định dạng văn bản khác nhau, trong đó PostScript nổi bật với nhiều tính năng và được sử dụng rộng rãi Là một ngôn ngữ lập trình, PostScript cho phép thao tác biểu diễn ký tự giống như hình ảnh, mang lại sự thuận tiện trong việc nhúng thông tin Do đó, PostScript là lựa chọn lý tưởng cho định dạng dữ liệu để nhúng thông tin.

Nhúng thông tin (Encoder)

Trong luận văn này, chúng tôi chỉ thực hiện cho các tài liệu tiếng Việt sử dụng phông chữ Times New Roman, kích thước 13, kiểu gõ Unicode và khoảng cách giữa các dòng 1.5 Tài liệu cần được soạn thảo bằng phần mềm Microsoft Word, vì đây là phần mềm phổ biến nhất tại Việt Nam Việc dịch chuyển dấu để nhúng thông tin có thể áp dụng cho các phông chữ khác nhau, nhưng trong trường hợp này, chúng tôi tập trung vào định dạng Microsoft Word.

Tài liệu tiếng Việt cần được chuyển đổi từ định dạng Microsoft Word sang PostScript trước khi nhúng thông tin Sau khi hoàn tất quá trình nhúng, tài liệu sẽ được phát hành dưới dạng tập tin hình ảnh PDF, có thể truy cập qua phần mềm Acrobat Reader, ứng dụng đọc dữ liệu văn bản phổ biến nhất trên internet.

Các công việc liên quan đến việc nhúng thông tin vào tài liệu bao gồm: chuyển đổi luận văn tốt nghiệp từ định dạng Microsoft Word sang PostScript, tạo thông tin bản quyền, thực hiện nhúng bản quyền vào tập tin PostScript và chuyển đổi tập tin PostScript sang định dạng PDF Dưới đây là chi tiết cụ thể cho từng công việc.

3.3.1 Chuyển định dạng từ Microsoft Word sang PostScript Để chuyển dữ liệu từ định dạng Microsoft Word sang định dạng PostScript có rất nhiều phương pháp như: sử dụng chức năng in ra tập tin (print to file) trong Microsoft Word, sử dụng chương trình Adobe Writer, sử dụng phần mềm DOC to Image Converter, … PostScript là một ngôn ngữ lập trình nên có nhiều cách khác nhau để biểu diễn cũng một dữ liệu Do đó cùng một dữ liệu dạng Microsoft Word nếu chuyển sang PostScript theo các cách khác nhau thì sẽ thu được tập tin PostScipt có độ phức tạp khác nhau Thông thường, mã PostScipt sinh ra rất khó đọc hiểu

Phương pháp chuyển đổi định dạng từ Microsoft Word sang PostScript bằng phần mềm DOC to Image Converter nổi bật với khả năng nhận dạng dễ dàng các dấu tiếng Việt Đặc điểm này tạo điều kiện thuận lợi cho việc nhúng thông tin bản quyền Do đó, DOC to Image Converter là sự lựa chọn lý tưởng cho quá trình chuyển đổi định dạng.

The DOC to Image Converter is a commercial software available for purchase at http://www.pdf-convert.com/doc2img/ Once installed, it integrates as a toolbar within Microsoft Word, allowing users to easily convert the current Microsoft Word document into PostScript format.

Hình 3.4 - Thanh công cụ Doc to Image Converter

Thông tin nhúng vào dữ liệu cần được xây dựng đặc trưng cho từng tài liệu, với tính bí mật được đảm bảo bằng cách mã hóa thông tin sang dạng bí mật Việc nhúng thông tin dựa vào sự thay đổi vị trí của các dấu ký tự tiếng Việt: dịch chuyển dấu lên tương ứng với bit 1 và dịch chuyển dấu xuống tương ứng với bit 0 Do đó, thông tin bản quyền cần được chuyển đổi thành các bit 0 và 1 để thuận tiện cho việc điều chỉnh vị trí của các dấu.

3.3.3 Nhúng thông tin vào tập tin PostScript

PostScript là ngôn ngữ mô tả trang in, tập trung vào vị trí các đối tượng đồ họa trong văn bản, trong đó các ký tự được coi là đối tượng đồ họa Các hàng và đoạn văn bản chỉ khác nhau về tọa độ hiển thị, khiến việc phân biệt giữa chúng trở nên khó khăn Khi nhúng thông tin vào tài liệu, quá trình này diễn ra liên tục từ trái qua phải và từ trên xuống dưới, không cần chú ý đến các đoạn văn bản Chuỗi bit thông tin bản quyền sẽ được nhúng theo hình thức xoay vòng, với mỗi dấu dịch chuyển tương ứng với việc nhúng một bít Khi đến bit cuối, quá trình nhúng sẽ tiếp tục từ bit đầu tiên, ví dụ như chuỗi bit 0110 sẽ được nhúng liên tục thành 01100110011001100110

Khoảng cách dịch chuyển các dấu tiếng Việt để nhúng thông tin cần cân nhắc giữa hai yếu tố: phải đủ nhỏ để không làm thay đổi đáng kể tài liệu và đủ lớn để dễ dàng truy xuất thông tin đã nhúng Tập tin PostScript được tạo ra từ phần mềm Doc to Image Converter cho phép điều chỉnh vị trí của đối tượng với độ chính xác 1/1200 inch Qua thử nghiệm, tôi nhận thấy rằng khoảng cách dịch chuyển các dấu tiếng Việt tối ưu là 1/150 inch.

Hình 3.5 biểu diễn một đoạn văn bản sau đã được nhúng thông tin

101010101010101, khoảng cách dịch chuyển 1/150 inch Phần (a) hiển thị với độ phóng to 100%, phần (b) hiển thị đoạn văn bản với độ phóng to 200%

Hình 3.5 - Đoạn văn bản đã nhúng bản quyền

Đặc điểm của mã PostScript được sinh ra từ phần mềm DOC to Image Converter yêu cầu phải đọc nhiều dòng mã liên tục để nhận diện các dấu tiếng Việt và dấu tròn trên ký tự i, j Cần tối đa 41 dòng mã PostScript để nhận hết các dấu cần thiết Giải thuật nhúng thông tin bản quyền vào luận văn tốt nghiệp được minh họa trong hình 3.6, trong đó giả sử input.ps là tập tin gốc cần nhúng bản quyền và output.ps là tập tin kết quả chứa dữ liệu đã được nhúng bản quyền.

Hình 3.6 - Lưu đồ giải thuật nhúng thông bản quyền

3.3.4 Chuyển định dạng PostScript sang định dạng PDF

Sau khi nhúng thông tin, tài liệu tiếng Việt cần được chuyển đổi sang định dạng PDF, một định dạng phổ biến trên internet Để thực hiện việc này, có nhiều phần mềm hỗ trợ chuyển đổi từ PostScript sang PDF, trong đó Adobe Acrobat và GhostScript là những lựa chọn phổ biến GhostScript là phần mềm mã nguồn mở và miễn phí, do đó, việc sử dụng GhostScript để chuyển đổi định dạng là hợp lý Tài liệu sau khi chuyển đổi sẽ tồn tại ở dạng hình ảnh.

Để chuyển đổi tập tin PostScript sang định dạng PDF trước khi phân phối, người dùng cần cài đặt phần mềm miễn phí GhostScript từ www.ghostscript.com Việc sử dụng GhostScript yêu cầu thiết lập các thông số thích hợp, như được minh họa trong hình 3.7.

Hình 3.7 - Thông số sử dụng với GhostScript

3.3.5 Tóm lược quy trình nhúng thông tin vào tài liệu tiếng Việt

Quy trình nhúng thông tin vào tài liệu tiếng Việt được thực hiện theo sơ đồ hình 3.8 Tài liệu này sẽ được chuyển sang định dạng PostScript bằng phần mềm Doc to Image Converter, sau khi đáp ứng đủ yêu cầu về phông chữ Tiếp theo, thông tin bí mật sẽ được nhúng vào tài liệu ở định dạng PostScript Cuối cùng, tài liệu sẽ được chuyển đổi sang định dạng PDF bằng phần mềm GhostScript với lệnh gswin32 –q –dNOPAUSE –sOutputFile = " + dfFileName + ".

" -DEVICE= pdfwrite" + PostScriptFileName + " quit.ps";

Hình 3.8 - Quy trình nhúng thông tin bản quyền

Lấy lại thông tin đã nhúng (Decoder)

Thông tin nhúng được sử dụng để xác minh bản quyền sở hữu và kiểm tra tính xác thực của tài liệu Để khôi phục thông tin này, tài liệu nghi ngờ cần được quét sang dạng ảnh xám Trong quá trình quét, dữ liệu có thể bị nhiễu, ví dụ như khi văn bản bị nghiêng một góc nhỏ Hình ảnh sau khi quét cần được lọc nhiễu trước khi tiến hành phân tích để khôi phục thông tin bản quyền Sau khi lọc, dữ liệu sẽ được phân tích để lấy lại thông tin đã nhúng, mà không cần tài liệu gốc ban đầu.

Tài liệu tiếng Việt (.DOC)

DOC to Image Converter Tài liệu tiếng Việt (.PS)

Tài liệu tiếng Việt (.PS)

(Đã nhúng thông tin bí mật)

Tài liệu tiếng Việt (.PDF)

(Đã nhúng thông tin bí mật)

3.4.1 Quét tài liệu, lọc nhiễu

Máy quét cho phép quét tài liệu với nhiều độ phân giải khác nhau, trong đó độ phân giải 300 DPI được xác định là hợp lý nhất Khi quét tài liệu với độ phân giải lớn, việc nhận diện các dấu tiếng Việt và khoảng cách dịch chuyển của chúng trở nên dễ dàng hơn Tuy nhiên, nếu độ phân giải quá cao, quá trình xử lý và lấy lại thông tin nhúng sẽ tốn nhiều thời gian do khối lượng dữ liệu lớn Ngược lại, quét với độ phân giải thấp sẽ gây khó khăn trong việc thu hồi thông tin.

Để lấy lại thông tin nhúng, tài liệu cần được quét thành ảnh xám với độ phân giải 300 DPI Khi quét, nên thiết lập giá trị Contrast và Brightness là 128 Hiện tại, Decoder chỉ hoạt động hiệu quả với tài liệu sử dụng phông chữ Times New Roman và kích thước phù hợp.

Khoảng cách dịch chuyển các dấu tiếng Việt là 1/150 inch Để phát triển một ứng dụng lọc nhiễu hiệu quả, cần có giải thuật tốt và đầu tư nhiều công sức Photoshop, với nhiều tính năng nổi bật, là phần mềm xử lý ảnh phổ biến và thuận tiện cho việc lọc nhiễu.

Sau khi quét ảnh văn bản với độ phân giải 300 DPI, bạn có thể sử dụng phần mềm Photoshop để lọc nhiễu với các thông số cụ thể Quy trình lọc nhiễu trong Photoshop chỉ cần thực hiện 3 bước đơn giản.

Để bắt đầu, bạn cần chuyển ảnh sang dạng ảnh xám (grayscale) 8 bit Mặc dù trong quá trình quét đã chọn chế độ ảnh xám, nhưng Photoshop vẫn nhận diện ảnh là ảnh màu Vì vậy, bước chuyển đổi này là cần thiết.

Để cải thiện chất lượng hình ảnh khi quét, hãy điều chỉnh thông số Contrast lên +40 Việc tăng Contrast giúp loại bỏ những điểm ảnh nhiễu, thường xuất hiện do giấy quét không đạt độ trắng tuyệt đối.

− Bước 3: chỉnh thông số Brightness có giá trị + 40 Chỉnh lại thông số Brightness tăng lên nhằm mục đích làm rõ (làm đậm) các ký tự trong văn bản

3.4.2 Lấy lại thông tin nhúng từ tài liệu nghi ngờ

Thông tin nhúng được xác định dựa trên vị trí tuyệt đối giữa các dấu tiếng Việt Chương trình Decoder hiện tại chỉ hoạt động chính xác với phông chữ Times New Roman, kích thước 13 Nếu thay đổi kích thước hoặc loại phông chữ khác, cần phải xây dựng lại hệ thống mặt nạ nhận dạng cho phù hợp.

Khoảng cách giữa dấu và ký tự trước khi nhúng thông tin được ký hiệu là h, trong khi khoảng cách giữa dấu và ký tự nguyên âm sau khi nhúng thông tin là h’ Nếu h’ lớn hơn h, dữ liệu nhúng biểu thị bit 1, ngược lại, nếu h’ nhỏ hơn h, dữ liệu nhúng biểu thị bit 0 Hình 3.9 minh họa nguyên tắc nhận dạng bit nhúng trên ký tự “à”, với phần (a) thể hiện nguyên lý nhận dạng bit 1 và phần (b) thể hiện nguyên lý nhận dạng bit 0.

Hình 3.9 Ví dụ nguyên lý nhận dạng bit đã nhúng

Trong tài liệu tiếng Việt, khoảng cách giữa các dấu và ký tự nguyên âm phía dưới thay đổi tùy thuộc vào ký tự cụ thể Khi nhận dạng thông tin nhúng, cần chú ý đến các trường hợp khác nhau, vì khoảng cách xét bit nhúng có thể là 0 hoặc 1, tùy thuộc vào loại ký tự và dấu tiếng Việt Hình 3.10 minh họa khoảng cách giữa các dấu tiếng Việt và ký tự nguyên âm phía dưới, với các ký tự ở dạng bình thường, chưa nhúng thông tin cần thiết, trong đó h1 > h2 > h3 > h4.

Hình 3.10 - Ví dụ khoảng cách khác nhau giữa dấu và ký tự nguyên âm

Decoder sử dụng bộ mặt nạ nhận dạng các dấu tiếng Việt đã được xây dựng trước để nhận diện các dấu trong hình ảnh Khi phát hiện một dấu, Decoder tính toán khoảng cách từ dấu đến ký tự nguyên âm hoặc các dấu mũ, dấu “ă” phía dưới để trích xuất dữ liệu đã nhúng.

Khi sử dụng các kiểu chữ khác nhau, hình dạng của dấu tiếng Việt cũng thay đổi Dấu tiếng Việt trong từ chữ hoa và chữ thường có hình dạng khác nhau Tùy thuộc vào từng loại dấu, sẽ có một số lượng mặt nạ nhận dạng nhất định Hình 3.11 minh họa các trường hợp mặt nạ cần nhận dạng với dấu sắc.

Hình 3.11- Mặt nạ nhận dạng dấu sắc h2 h4 h1 h3

Quá trình lấy lại thông tin đã nhúng được thực hiện theo giải thuật sau biểu diễn trên hình 3.12

Hình 3.12- Giải thuật lấy lại thông tin đã nhúng

Nhận dạng ra các dòng văn bản bằng cách xét các pixel theo từng toạ độ từ lề trái qua lề phải văn bản:

− Nếu tất cả các pixel trên đường thẳng pixel từ sang lề phải đều có giá trị màu là trắng thì coi là khoảng trống

− Nếu có pixel có giá trị màu khác màu trắng thì vùng dữ liệu đó thuộc trong một dòng văn bản

Hình 3.13- Ví dụ nhận dạng các dòng văn bản từ tập tin hình ảnh

Hình 3.13 thể hiện việc nhận nhận dạng ra các dòngvăn bản Để nhận dạng đúng các dòng thì tài liệu phải chỉnh khoảng cách các hàng là 1.5 lines

Bước 1: đọc tập tin hình ảnh lấy ra các dòng văn bản

Bước 2: xét từng dòng văn bản Mỗi dòng văn bản thực hiện các công việc sau:

− Lấy một từ văn trong dòng văn bản ra xem xét

Dựa vào các mặt nạ xây dựng, quá trình nhận dạng dấu tiếng Việt được thực hiện bằng cách xác định khoảng cách giữa dấu và ký tự hoặc dấu phía dưới Từ đó, có thể tính toán được bit nhúng, xác định giá trị là bit 0 hay bit 1.

Để nhận dạng các dòng văn bản trong tập tin hình ảnh chứa dữ liệu cần trích dẫn bản quyền, cần lọc bỏ các điểm đen không cần thiết sau khi quét Việc lọc nhiễu bằng chương trình Photoshop rất hiệu quả, đặc biệt qua việc điều chỉnh thông số Brightness và Contrast.

Dấu nặng trong tiếng Việt có đặc điểm giống với dấu chấm, nên không cần thiết phải nhận dạng để nhúng thông tin Dấu nặng nằm dưới mỗi từ, trong khi các dấu tiếng Việt khác nằm trên ký tự nguyên âm Do đó, phạm vi nhận dạng các dấu tiếng Việt có nhúng thông tin bản quyền được xác định theo trục y, từ đầu mỗi từ đến chiều cao ký tự nguyên âm Hình 3.14 minh họa phạm vi rà soát thông tin nhúng theo trục y từ h1 đến h2.

Hình 3.14- Ví dụ vùng nhận dạng dấu tiếng Việt trong từng từ

3.4.3 Tóm lược quy trình lấy lại thông tin đã nhúng

Nhận xét giải pháp thực hiện

Phương pháp nhúng thông tin vào tài liệu thông qua việc dịch chuyển các dấu tiếng Việt cho phép nhúng một lượng lớn dữ liệu Trong tiếng Việt, nhiều từ có dấu, trong đó một số từ với nguyên âm i và một nguyên âm khác có thể chứa tới 2 bit dữ liệu Thông tin nhúng này có độ bền vững cao, mặc dù tài liệu sau khi nhúng bản quyền chỉ có sự thay đổi nhỏ Tuy nhiên, dữ liệu nhúng có thể bị mất nếu người dùng gõ lại văn bản hoặc sử dụng các chương trình nhận dạng ký tự để tái tạo lại văn bản.

Tài liệu ở dạng ảnh xám

Tài liệu ở dạng ảnh xám

Thông tin nhúng Tài liệu nghi ngờ

KẾT QUẢ THỬ NGHIỆM

Giới thiệu

Để khẳng định hiệu quả của phương pháp digital watermarking, cần phát triển ứng dụng bảo vệ bản quyền cho luận văn tốt nghiệp tại Khoa Công Nghệ Thông Tin, trường Đại Học Bách Khoa TP.HCM, vì luận văn tốt nghiệp của sinh viên thường là dạng văn bản tiếng Việt.

Mỗi sinh viên Đại Học Bách Khoa đều phải thực hiện và bảo vệ luận văn tốt nghiệp, đánh dấu thử thách lớn đầu tiên trong quá trình học tập Luận văn không chỉ là sản phẩm trí tuệ của sinh viên mà còn là kết quả của việc vận dụng kiến thức học được và nghiên cứu sâu hơn để giải quyết vấn đề cụ thể Nhiều luận văn có khả năng ứng dụng thực tiễn, nhưng hiện tại chúng chủ yếu được lưu trữ tại thư viện khoa và trường, dẫn đến lượng độc giả hạn chế.

Trong bối cảnh internet phát triển mạnh mẽ, nó đã tạo ra sự thay đổi lớn trong nhiều lĩnh vực, trở thành nguồn tri thức khổng lồ và môi trường trao đổi thông tin tiện lợi Việc giới thiệu các sản phẩm luận văn tốt nghiệp trên internet không chỉ giúp độc giả dễ dàng tham khảo mà còn tiết kiệm thời gian và công sức nghiên cứu Hơn nữa, độc giả có thể kiểm chứng và phản hồi thông tin, đồng thời các luận văn sẽ có cơ hội được áp dụng vào thực tế nhiều hơn.

Việc giới thiệu luận văn tốt nghiệp mang lại nhiều lợi ích nhưng cũng đối mặt với thách thức lớn, đặc biệt là tình trạng sử dụng trái phép Luận văn có thể bị sao chép một phần hoặc toàn bộ cho các mục đích không chính đáng Do đó, cần thiết phải xây dựng một phương pháp bảo vệ bản quyền hiệu quả cho luận văn tốt nghiệp, cho phép nhúng thông tin bản quyền và dễ dàng truy xuất khi cần thiết.

Thông tin bản quyền cần được nhúng bí mật vào luận văn tốt nghiệp, giúp tài liệu không bị nghi ngờ về bản quyền Thông tin này chỉ tạo ra sự thay đổi nhỏ, và chỉ được sử dụng khi có tranh chấp hoặc cần chứng minh bản quyền hợp lệ Theo yêu cầu của Khoa Công Nghệ Thông Tin, sinh viên phải nộp luận văn tốt nghiệp dưới dạng Microsoft Word với các thông số quy định.

− Phông chữ: Time News Roman

− Lề trái: 3.0cm, lề phải: 2.0cm, trên: 3.0cm, dưới: 2.5cm

− Khoảng cách giữa các dòng văn bản (line spacing): 1.5 lines

Mỗi luận văn tốt nghiệp của sinh viên thường bao gồm hai thành phần chính: bài báo cáo và source code Mục tiêu chính của luận văn này là bảo vệ các đoạn văn bản trong bài báo cáo, bao gồm các đoạn văn, hình ảnh và hình vẽ.

Do vậy thông tin bản quyền cần được nhúng vào từng đoạn văn bản.

Xây dựng Encoder

Theo yêu cầu của Khoa Công Nghệ Thông tin, sinh viên cần nộp luận văn tốt nghiệp dưới dạng file Microsoft Word, đảm bảo các thông số kỹ thuật đã được quy định.

− Phông chữ: Time News Roman

− Lề trái: 3.0cm, lề phải: 2.0cm, trên: 3.0cm, dưới: 2.5cm

− Khoảng cách giữa các dòng văn bản (line spacing): 1.5 lines

Phần nhúng thông tin (Encoder) được phát triển bằng C#, chuyển đổi tài liệu tiếng Việt từ định dạng Microsoft Word sang PostScript trước khi thực hiện nhúng Encoder đọc từng dòng dữ liệu trong tập tin PostScript, nhận diện các dấu tiếng Việt và điều chỉnh vị trí của chúng theo yêu cầu người dùng thông qua thông số Shift value Giá trị Shift value là một số nguyên không âm, và khoảng cách dịch chuyển được tính bằng giá trị Shift value nhân với 1/1200 inch Thông tin bản quyền được cung cấp dưới dạng chuỗi bit và nhập vào qua thông số Embed data Hình 4.1 minh họa giao diện của phần Encoder.

Hình 4.1 - Giao diện phần Encoder

Sau khi nhúng thông tin bản quyền, tài liệu sẽ được chuyển đổi sang định dạng PDF Trước khi thực hiện chuyển đổi, cần cài đặt chương trình GhostScript Hình 4.2 minh họa giao diện của quá trình chuyển đổi định dạng, trong đó thông số GS path chỉ đến tên tệp thực thi của GhostScript.

Hình 4.2 - Giao diện chuyển định dạng PostScript sang định dạng PDF

Xây dựng Decoder

Phần lấy lại thông tin bản quyền (decoder) được phát triển dựa trên thư viện System.Drawing trong C# Thư viện này cung cấp lớp Bitmap, cho phép người dùng thao tác với các tập tin hình ảnh định dạng Bitmap (.bmp) Để sử dụng Decoder, tài liệu cần được quét thành ảnh xám với độ phân giải 300 DPI Hiện tại, Decoder hoạt động hiệu quả nhất với tài liệu sử dụng phông chữ Times New Roman, kích thước 13, và khoảng cách dịch chuyển các dấu tiếng Việt là 1/150 inch.

Sau khi lọc nhiễu, ảnh được lưu dưới định dạng Bitmap (.bmp) và ảnh xám 8 bit Decoder sử dụng tập tin Bitmap để nhận dạng các dấu tiếng Việt thông qua bộ mặt nạ đã được xây dựng trước Khi nhận diện một dấu, Decoder tính khoảng cách từ dấu tới ký tự nguyên âm hoặc các dấu mũ, dấu ắ phía dưới để trích xuất dữ liệu đã nhúng.

Các dấu tiếng Việt trên văn bản có thể bị thay đổi một cách nhỏ sau khi quét và lọc nhiễu Để cải thiện khả năng nhận dạng, decoder sử dụng hai thông số: khoảng cách khác nhau chấp nhận giữa hai pixel (Different value) và độ chính xác chấp nhận một dấu (Accuracy) Trong ảnh xám, giá trị Red, Green và Blue của mỗi pixel đều bằng nhau Mỗi pixel được biểu diễn bằng 8 bit màu, với giá trị Red, Green, Blue nằm trong khoảng từ 0 đến 255 Khoảng cách khác nhau chấp nhận giữa hai pixel cho phép xác định hai pixel là giống nhau nếu các giá trị Red, Green, Blue lệch nhau trong giới hạn của thông số Different value Ví dụ, nếu Different value là 170, khi so sánh hai pixel p1 và p2, điều kiện cần thỏa mãn là |p1.Red-p2.Red|

Ngày đăng: 29/08/2021, 17:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w