57 Trang 5 BẢNG THUẬT NGỮ Thuật ngữ Ý nghĩa Blob Khối một đơn vị thông tin CSDL Cơ sở dữ liệu DBMS Hệ quản trị cơ sở dữ liệu Media Phương tiện Multimedia Đa phương tiện Pixel Điểm ảnh
Dữ liệu đa phương tiện
Dữ liệu đa phương tiện hiện nay rất phổ biến và được chia thành hai loại chính: dữ liệu liên tục và dữ liệu không liên tục Dữ liệu liên tục bao gồm âm thanh và video, là những dạng dữ liệu thay đổi theo thời gian Ngược lại, dữ liệu không liên tục không phụ thuộc vào thời gian, bao gồm văn bản (có hoặc không có định dạng), hình ảnh tĩnh và các đối tượng đồ họa.
Như vậy các kiểu dữ liệu thông thường của một CSDL đa phương tiện bao gồm:
- Dữ liệu văn bản (có hoặc không có định dạng),
- Đồ họa: là các bản vẽ, minh họa được mã hóa như các tệp postscript,
- Hình ảnh: là các hình ảnh được mã hóa sử dụng các dạng thức chuẩn như là JPEG, MPEG…,
Các loại dữ liệu đa phương tiện có sự đa dạng về định dạng, hình thức lưu trữ, dung lượng và cấu trúc Dù có những khác biệt này, chúng vẫn chia sẻ các đặc tính chung quan trọng.
Dữ liệu đa phương tiện thường thiếu cấu trúc, dẫn đến việc áp dụng các phương pháp quản trị dữ liệu chuẩn như chỉ số hóa, tìm kiếm nội dung và truy vấn dữ liệu trở nên khó khăn.
Nội dung đa phương tiện như video, âm thanh và hoạt hình có tính tạm thời, phụ thuộc vào yếu tố thời gian, điều này ảnh hưởng trực tiếp đến việc lưu trữ, thao tác và mô tả chúng.
- Có dung lượng lớn: các dữ liệu video và âm thanh thường đòi hỏi các thiết bị lưu trữ lớn
Các ứng dụng hỗ trợ xử lý dữ liệu phi chuẩn thường yêu cầu quy trình phức tạp, bao gồm việc áp dụng các thuật toán nén dữ liệu cho các hệ thống cơ sở dữ liệu đa phương tiện.
Cơ sở dữ liệu đa phương tiện
Khái niệm cơ bản
Cơ sở dữ liệu đa phương tiện là một loại cơ sở dữ liệu đặc biệt, chứa các tập hợp dữ liệu đa dạng từ nhiều phương tiện truyền thông khác nhau Đa phương tiện được hiểu là sự kết hợp của nhiều hình thức truyền thông, mang lại khả năng lưu trữ và quản lý thông tin phong phú hơn.
Có hai loại cơ sở dữ liệu đa phương tiện chính: cơ sở dữ liệu đa phương tiện liên kết và cơ sở dữ liệu đa phương tiện nhúng.
Cơ sở dữ liệu đa phương tiện liên kết tổ chức thông tin dưới dạng siêu dữ liệu (metadata) để kết nối với các dữ liệu thực như đồ họa, hình ảnh, âm thanh và video Những dữ liệu này có thể được lưu trữ trên nhiều thiết bị khác nhau, bao gồm ổ cứng, CD-ROM, DVD hoặc lưu trữ trực tuyến Trong cơ sở dữ liệu này, các phần tử đa phương tiện được sắp xếp một cách có hệ thống, bao gồm hình ảnh, âm thanh và video.
Trong hệ thống cơ sở dữ liệu, dữ liệu có thể được lưu trữ dưới dạng off-line như ổ cứng, CD-ROM, DVD, hoặc trực tuyến Một ưu điểm nổi bật của loại cơ sở dữ liệu này là kích thước của nó được giảm thiểu đáng kể, vì các thành phần đa phương tiện có dung lượng lớn không được nhúng trực tiếp vào cơ sở dữ liệu, mà chỉ lưu trữ các liên kết tới chúng.
Cơ sở dữ liệu đa phương tiện
Dữ liệu đa phương tiện
CD-Rom, DVD, hoặc ổ cứng
Hình 1.1 – Cơ sở dữ liệu đa phương tiện liên kết
Cơ sở dữ liệu đa phương tiện nhúng là loại cơ sở dữ liệu mà các đối tượng dữ liệu đa phương tiện được lưu trữ trực tiếp dưới dạng nhị phân Lợi ích chính của loại cơ sở dữ liệu này là tốc độ truy xuất dữ liệu nhanh hơn, nhờ vào việc giảm thời gian truy cập vào các phương tiện bên ngoài Tuy nhiên, nhược điểm lớn nhất của nó là kích thước của cơ sở dữ liệu sẽ rất lớn.
Việc lựa chọn cơ sở dữ liệu phù hợp phụ thuộc vào mục đích sử dụng, kích thước dữ liệu đa phương tiện và khả năng của hệ thống máy chủ Đối với cơ sở dữ liệu ảnh, tổ chức theo kiểu nhúng là lựa chọn hợp lý do kích thước ảnh thường nhỏ Ngược lại, với cơ sở dữ liệu video, tổ chức theo kiểu liên kết là cần thiết vì kích thước tệp tin video có thể rất lớn, lên tới hàng ghi hoặc hơn.
Hệ quản trị cơ sở dữ liệu đa phương tiện là một framework cho phép quản lý nhiều loại dữ liệu với các định dạng khác nhau từ nhiều nguồn phương tiện Để đảm bảo hiệu quả, hệ thống này cần có những tính chất đặc trưng nhất định.
Có khả năng truy vấn dữ liệu đồng nhất từ nhiều nguồn khác nhau, bao gồm cả dữ liệu media và văn bản, giúp tối ưu hóa việc xử lý và phân tích thông tin.
Có khả năng truy vấn đồng thời nhiều nguồn phương tiện khác nhau và thực hiện các phép toán của cơ sở dữ liệu cổ điển trên dữ liệu đa phương tiện.
- Có khả năng nhận các dữ liệu media từ một thiết bị lưu trữ cục bộ
- Có khả năng nhận một kết quả trả ra từ một truy vấn và thuyết minh câu trả lời dưới dạng phương tiện âm thanh-hình ảnh
- Có khả năng phân phối các biểu diễn này trong một cách nào đó để thỏa mãn các yêu cầu về chất lượng dịch vụ.
Cấu trúc của cơ sở dữ liệu đa phương tiện
Cấu trúc của cơ sở dữ liệu đa phương tiện bao gồm các thành phần chính sau đây:
- Mô hình hóa dữ liệu,
- Truyền thông đa phương tiện
Trong phân tích dữ liệu, hai vấn đề quan trọng cần chú ý là cấu trúc dữ liệu và cách truy cập dữ liệu Dữ liệu có thể được lưu trữ dưới dạng không cấu trúc (không có định dạng) hoặc có cấu trúc (được định dạng) Dữ liệu không cấu trúc không thể được tìm kiếm thông qua các chi tiết có cấu trúc, trong khi dữ liệu có cấu trúc được tổ chức thành các biến, trường và thuộc tính với giá trị tương ứng Ngoài ra, dữ liệu đa phương tiện có thể được lưu trữ dưới dạng thô hoặc dưới dạng các kiểu dữ liệu đã đăng ký và mô tả, với dữ liệu thô thường được biểu diễn bằng pixel hoặc bit.
Mô hình hóa dữ liệu trong cơ sở dữ liệu đa phương tiện tập trung vào thiết kế khái niệm nhằm thực hiện các hoạt động như lựa chọn, trèn và truy vấn các đối tượng media Đối với các đa phương tiện dựa trên thời gian như video, âm thanh và hoạt hình, các khái niệm về luồng dữ liệu, thời gian, sự đồng bộ và cấu thành thời gian đóng vai trò quan trọng Những khái niệm này khác biệt rõ rệt so với dữ liệu văn bản thông thường Một trong những thách thức lớn nhất của hệ thống cơ sở dữ liệu đa phương tiện là mô tả cấu trúc thời gian ràng buộc phương tiện để phục vụ cho việc truy vấn, cập nhật, trích rút và biểu diễn thông tin.
Lưu trữ dữ liệu là quá trình quản lý các đối tượng dữ liệu đa phương tiện trong cơ sở dữ liệu, bao gồm các phương tiện tĩnh như văn bản và hình ảnh, cùng với các phương tiện động có tính chất thời gian thực Cơ chế lưu trữ khác nhau giữa các kiểu dữ liệu, với dữ liệu phương tiện liên tục thường được lưu trữ trên máy chủ riêng để đáp ứng yêu cầu thời gian thực, trong khi dữ liệu không liên tục được lưu trữ dưới dạng thông tin tệp tin Các dữ liệu thông thường thường được lưu trữ trên các thiết bị như ổ cứng, CD-ROM, DVD hoặc trực tuyến.
Truy tìm dữ liệu trong cơ sở dữ liệu đa phương tiện nhằm mục đích truy cập thông tin một cách hiệu quả Các đối tượng đa phương tiện được chia thành hai loại: đối tượng chủ động và đối tượng bị động Đối tượng bị động không tham gia vào quá trình phục hồi thông tin, trong khi đó, trong môi trường cơ sở dữ liệu đa phương tiện, tất cả các đối tượng nên là đối tượng chủ động để nâng cao hiệu quả truy cập.
Ngôn ngữ truy vấn là công cụ thiết yếu để tìm kiếm dữ liệu đa phương tiện trong cơ sở dữ liệu Trong hệ thống quản trị cơ sở dữ liệu, các truy vấn người dùng được xử lý thông qua ngôn ngữ truy vấn, đóng vai trò quan trọng trong việc quản lý dữ liệu Một ngôn ngữ truy vấn đa phương tiện cần xử lý các mối quan hệ phức tạp, bao gồm không gian và thời gian, đồng thời hỗ trợ tìm kiếm theo từ khóa và nội dung của các đối tượng đa phương tiện Có hai loại truy vấn chính: truy vấn xác định, yêu cầu người dùng phải biết rõ thông tin cần tìm, và truy vấn mờ, trong đó tính chất của đối tượng không rõ ràng Dựa trên ngữ cảnh, truy vấn dữ liệu đa phương tiện có thể được phân loại thành truy vấn theo từ khóa, truy vấn ngữ nghĩa và truy vấn trực quan Trong đó, truy vấn từ khóa phổ biến nhất do tính đơn giản, trong khi truy vấn ngữ nghĩa khó khăn hơn do yêu cầu cao về khả năng đánh chỉ mục và đối sánh mẫu Truy vấn trực quan, như truy vấn bằng nội dung ảnh (QBIC), sử dụng biểu tượng để tìm kiếm nội dung trong hình ảnh.
Truy tìm thông tin văn bản
Hệ thống truy tìm thông tin tự động hoá (IR) đã được phát triển từ những năm 1940 để quản lý khối lượng lớn tài liệu khoa học Chức năng chính của hệ thống IR là lưu trữ và quản lý một số lượng lớn tài liệu văn bản, giúp truy tìm nhanh chóng thông qua các truy vấn Việc truy tìm thông tin tự động chủ yếu tập trung vào các từ khóa, nhằm mục đích tìm kiếm tài liệu văn bản, mặc dù thuật ngữ "truy tìm thông tin" có thể được hiểu rộng hơn là tìm kiếm bất kỳ loại thông tin nào.
Truy xuất và chỉ số hóa dữ liệu đa phương tiện
Các hệ quản trị cơ sở dữ liệu (DBMS) truy xuất dữ liệu dựa trên thông tin có cấu trúc thông qua các kết nối chính xác Truy xuất thông tin (IR) còn được biết đến là truy xuất dựa trên văn bản, trong đó việc truy xuất dựa vào nội dung chủ yếu dựa trên các đặc điểm truyền thống như màu sắc và hình dáng, thay vì chỉ dựa vào mô tả văn bản Truy xuất dựa trên nội dung là một tiêu chuẩn dựa vào sự tương đồng, không phải là sự kết nối chính xác giữa truy vấn và tập dữ liệu Hệ thống truy xuất dữ liệu đa phương tiện (MIRS) cung cấp khả năng truy xuất thông tin đa phương tiện thông qua sự kết hợp của DBMS, IR và các kỹ thuật truy xuất dựa trên nội dung Tuy nhiên, trong một MIRS, một số vấn đề như phiên bản và kiểm soát an toàn có thể chưa được thực hiện đầy đủ Một MIRS mạnh mẽ và hoàn chỉnh được gọi là MDBMS.
Trích rút đặc trưng và biểu diễn nội dung
Trong các hệ thống truy tìm thông tin đa phương tiện, việc trích rút đặc trưng hoặc biểu diễn nội dung là một trong những vấn đề quan trọng nhất Quá trình trích rút đặc trưng có thể diễn ra tự động hoặc bán tự động, và trong một số tài liệu, thuật ngữ này còn được gọi là chỉ số hoá Theo quy ước chung, thuật ngữ “chỉ số” không chỉ đơn thuần là một danh từ mà còn liên quan đến cấu trúc dữ liệu và tổ chức các đặc trưng đã được trích rút, nhằm phục vụ cho việc nghiên cứu và truy xuất hiệu quả.
Hệ thống IR và vai trò của nó trong việc truy xuất đa phương tiện
Ngoài các hệ quản trị cơ sở dữ liệu (DBMS), còn có hệ thống truy xuất thông tin (IR) tập trung vào việc truy xuất tài liệu văn bản Hệ thống IR đóng vai trò quan trọng trong quản lý thông tin đa phương tiện vì hai lý do chính.
Trong các tổ chức, văn bản tồn tại dưới nhiều hình thức khác nhau, đặc biệt là trong các thư viện, và đóng vai trò quan trọng trong việc cung cấp thông tin Để khai thác hiệu quả thông tin từ các tài liệu đã lưu trữ, cần thiết phải có một hệ thống tìm kiếm thông tin (IR) hiệu quả.
Văn bản có thể được sử dụng để chú giải các dạng dữ liệu như âm thanh, hình ảnh và video Các kỹ nghệ IR thường được áp dụng để phục hồi thông tin truyền thông, nhưng việc sử dụng văn bản vẫn gặp nhiều giới hạn.
- Việc chú giải nhìn chung phải làm bằng tay và tiêu tốn thời gian,
- Văn bản chú giải chưa đầy đủ và còn mang tính chủ quan,
- Các kỹ nghệ IR không thể điều khiển các câu hỏi từ nội dung khác (như âm thanh và ảnh),
Đa phương tiện có nhiều đặc tính nổi bật như sự đa dạng trong bố cục hình ảnh và các loại đối tượng khác nhau, giúp tạo ra những trải nghiệm phong phú và sinh động hơn cho người dùng Nếu không có những yếu tố này, nội dung sẽ chỉ đơn thuần là một văn bản tĩnh, thiếu sức hấp dẫn và sự tương tác.
Tổng quan cơ sở dữ liệu ảnh
Hạn chế của cơ sở dữ liệu truyền thống
Các cơ sở dữ liệu truyền thống chỉ hỗ trợ một số kiểu dữ liệu cơ bản như số nguyên, dấu phẩy động và chuỗi ký tự Để phục vụ cho các ứng dụng liên quan đến ảnh, một số hệ quản trị cơ sở dữ liệu bổ sung thêm BLOB, cho phép lưu trữ chuỗi nhị phân có chiều dài tùy ý Tuy nhiên, các ứng dụng này thường chỉ lưu trữ đường dẫn hoặc tham chiếu đến ảnh trong các bản ghi quan hệ, trong khi ảnh thực tế lại được lưu trên các hệ thống lưu trữ khác Chiến lược lưu trữ này khiến dữ liệu trong cơ sở dữ liệu chủ yếu mang tính chất số học hoặc văn bản, không đủ khả năng đáp ứng nhu cầu của các cơ sở dữ liệu ảnh.
Một chức năng quan trọng của cơ sở dữ liệu ảnh là khả năng truy xuất nội dung ảnh, điều mà cơ sở dữ liệu truyền thống thường thiếu Trong các cơ sở dữ liệu truyền thống, việc truy vấn dựa vào các thuộc tính mô tả văn bản, phù hợp cho tài liệu mà chỉ tìm kiếm nội dung văn bản Tuy nhiên, với hệ thống truy tìm hoàn toàn trên văn bản, các truy vấn có thể kết hợp nhiều thuật ngữ và từ ngữ trong văn bản Khái niệm truy xuất nội dung không thể áp dụng cho các kiểu dữ liệu khác ngoài kiểu dữ liệu cơ bản Để truy xuất nội dung ảnh, cần có mô tả chi tiết hơn, bao gồm việc trích xuất các đặc trưng như màu sắc, hình dạng và hoa văn, và sử dụng chúng trong các truy vấn.
Kiến trúc chung của một hệ quản cơ sở dữ liệu ảnh
Các cơ sở dữ liệu ảnh thường được xây dựng trên nền tảng hệ quản trị cơ sở dữ liệu truyền thống, tích hợp các đặc trưng và khả năng xử lý ảnh Việc tích hợp này bao gồm các mô đun lưu trữ phân cấp, cơ chế truy tìm nội dung, bộ chỉnh sửa đồ họa và các công cụ hỗ trợ khác Để đảm bảo hiệu năng, hệ quản trị cơ sở dữ liệu ảnh cần có các thành phần như cơ chế tìm kiếm, cấu trúc dữ liệu không gian, biểu diễn truy vấn và các module mở rộng Do đó, hệ thống của cơ sở dữ liệu ảnh bao gồm nhiều đối tượng và mô đun từ các nguồn khác nhau Hình ảnh minh họa kiến trúc chung của hệ quản trị cơ sở dữ liệu ảnh.
Hình 1.2 – Minh họa kiến trúc đơn giản của một hệ quản trị cơ sở dữ liệu ảnh
Các đặc trưng ảnh
Ngày nay, sự phát triển mạnh mẽ của thiết bị kỹ thuật số đã dẫn đến sự gia tăng đáng kể trong kho dữ liệu ảnh Nhu cầu tìm kiếm ảnh trong cơ sở dữ liệu đang gia tăng, trong khi kỹ thuật tìm kiếm dựa vào chuỗi văn bản truyền thống không còn đáp ứng đủ Do đó, cần áp dụng các kỹ thuật tìm kiếm mới để đáp ứng yêu cầu ngày càng cao này.
Các thành phần thị giác như màu sắc, hoa văn và hình dạng của đối tượng là những yếu tố quan trọng trong việc tìm kiếm ảnh Bài viết này sẽ tổng quan về các kỹ thuật tìm kiếm ảnh, với sự chú ý đặc biệt vào kỹ thuật tìm kiếm dựa trên hoa văn trong phần tiếp theo của luận văn.
Tập hợp ảnh Đặc trưng ảnh Biểu diễn văn bản
Mô hình hóa hệ thống trích rút đặc trưng và tìm kiếm ảnh tập trung vào ba đặc trưng chính: màu sắc, hoa văn và hình dạng Màu sắc là đặc trưng quan trọng nhất trong tìm kiếm ảnh, vì nó cung cấp thông tin mà người dùng quan tâm, giúp lọc nhiều lớp ảnh dựa trên vị trí và định lượng màu sắc Đối với những lớp ảnh mà đặc trưng màu sắc không đủ, như cỏ, mây hay đá, đặc trưng hoa văn trở nên cần thiết để tìm kiếm hiệu quả Cuối cùng, đối với những lớp ảnh liên quan đến hình dạng, như hình ellipse hay hình tròn, việc tìm kiếm theo hình dáng là mục tiêu quan trọng của hệ thống Độ đo cũng đóng vai trò quyết định đến độ chính xác và kết quả của quá trình tìm kiếm ảnh.
1.3.4.1 Đặc trư ng màu s ắc của ảnh
Sự nhận thức về màu sắc đóng vai trò quan trọng trong cuộc sống con người, phụ thuộc vào tính chất vật lý của ánh sáng và quá trình xử lý thị giác, cùng với kinh nghiệm cá nhân Con người sử dụng thông tin màu sắc để phân biệt đối tượng, vật liệu, thực phẩm, vị trí và thời gian trong ngày Với sự phát triển của công nghệ, các thiết bị xử lý màu sắc như máy quay phim màu, thiết bị chiếu màu và phần mềm xử lý ảnh ngày càng trở nên phổ biến Những thiết bị này có khả năng sử dụng màu sắc cho nhiều mục đích tương tự như con người, cung cấp phép đo đa dạng tại mỗi điểm ảnh mà không cần xử lý không gian phức tạp Dưới đây là một số hệ màu được áp dụng trong ảnh số.
Mắt người có khả năng phân biệt hàng ngàn màu sắc, với ba màu chính RGB (Đỏ-Xanh lá-Xanh dương) tạo ra khoảng 16 triệu màu khác nhau Mỗi điểm ảnh RGB bao gồm ba byte, tương ứng với các màu R, G và B, cho phép mã hóa màu sắc bằng cách kết hợp các màu chính Hệ thống màu RGB, được sử dụng phổ biến trong ảnh số nhờ tính tương thích với màn hình máy tính, là một hệ thống màu cộng, trong đó màu sắc được tạo ra bằng cách thêm các thành phần vào màu đen Tuy nhiên, hạn chế lớn nhất của không gian màu RGB là không phản ánh đúng cách con người cảm nhận màu sắc, làm cho nó không phù hợp cho việc tìm kiếm ảnh.
Hệ thống màu CMY, viết tắt của Cyan-Magenta-Yellow, là mô hình in trên giấy trắng, hoạt động theo nguyên tắc trừ màu trắng thay vì thêm màu đen như hệ RGB Ba màu chính trong CMY là màu lục lam, màu đỏ tươi và màu vàng, tương ứng với ba màu mực in Trong hệ thống này, màu cyan hấp thụ ánh sáng đỏ, magenta hấp thụ ánh sáng xanh lục, và yellow hấp thụ ánh sáng xanh dương, tạo ra sự phản ánh màu sắc khi in ảnh dưới ánh sáng trắng CMY là hệ thống âm tính, với mã hóa màu như trắng (0,0,0) khi không hấp thụ ánh sáng và đen (255,255,255) khi hấp thụ toàn bộ ánh sáng trắng Mặc dù CMY có tính đơn giản và ứng dụng rộng rãi trong in ấn, nhưng nhược điểm của nó tương tự như hệ RGB, do cách mã hóa không phản ánh chính xác cách con người cảm nhận màu sắc, làm cho nó không phù hợp trong việc tìm kiếm ảnh dựa vào nội dung.
Hệ thống màu HSI mã hóa thông tin màu sắc bằng cách phân chia giá trị cường độ I từ hai giá trị mã hóa thuộc về độ hội tụ của màu sắc, bao gồm độ màu (Hue) H và độ bão hòa (Saturation) S.
Không gian màu HSI bao gồm ba thành phần chính: Độ màu (Hue) H, được định nghĩa trong khoảng 0 đến 2Π, thể hiện màu sắc; Độ bão hòa (Saturation) S, có giá trị từ 0 đến 1, phản ánh độ thuần khiết của màu sắc; và Cường độ (Intensity) I, cho biết độ sáng của điểm ảnh Hình dung không gian màu HSI như một hình nón, trong đó trục chính biểu diễn cường độ sáng, khoảng cách đến trục thể hiện độ tập trung, và góc xung quanh trục biểu thị sắc màu Hệ thống màu HSI thường được so sánh với hệ thống màu HSV, trong đó sử dụng Value thay vì Intensity HSI phù hợp hơn cho nhiều thiết kế đồ họa nhờ khả năng điều khiển trực tiếp ánh sáng và độ màu, đồng thời hỗ trợ tốt hơn cho các thuật toán xử lý ảnh nhờ tiêu chuẩn hóa ánh sáng và tập trung vào hai tham số chính là độ hội tụ màu và cường độ màu.
Hình sau là khối nón màu minh họa hệ thống màu HSI:
Hệ thống màu HSI phân chia rõ rệt giữa ánh sáng và màu sắc, cho phép tính đặc trưng và so sánh sự tương đồng màu sắc giữa hai ảnh Điều này làm cho HSI trở thành công cụ lý tưởng cho việc tìm kiếm ảnh dựa trên màu sắc Sự giống và khác nhau về màu sắc giữa hai ảnh chỉ mang tính tương đối đối với con người, vì vậy khi áp dụng trên máy tính, chúng ta cũng cần giả lập sự tương đối này Phương pháp tìm kiếm màu sắc chủ yếu dựa vào lược đồ màu để đặc trưng hóa từng ảnh, và với những đặc điểm riêng của mô hình màu HSI, lược đồ màu cũng được điều chỉnh đặc biệt để phù hợp với các đặc điểm này.
Con người chỉ có khả năng nhận thức ánh sáng có bức xạ điện từ trong khoảng 400 đến 700 nanomet Cơ quan thị giác cảm nhận ánh sáng từ bề mặt của các đối tượng, kết quả từ sự tương tác giữa năng lượng chiếu sáng và các phân tử trên bề mặt Ví dụ, một đối tượng màu xanh dương sẽ phản chiếu màu xanh dương khi được chiếu ánh sáng trắng, nhưng sẽ xuất hiện màu tím khi chiếu ánh sáng đỏ.
Phương pháp tìm kiếm dựa trên đặc trưng màu:
Một phương pháp phổ biến để tìm kiếm ảnh trong một tập hợp ảnh hỗn tạp là sử dụng lược đồ màu Phương pháp này đơn giản và có tốc độ tìm kiếm nhanh, nhưng độ chính xác của kết quả không cao Tuy nhiên, nó có thể được coi là bước lọc đầu tiên cho các tìm kiếm tiếp theo.
Lược đồ màu là bảng tóm tắt thông tin về màu sắc của một bức ảnh, cho phép tính toán nhanh chóng chỉ qua một lần duyệt ảnh Việc này mang lại lợi ích lớn về tốc độ trong việc tìm kiếm ảnh Một số tính chất quan trọng của lược đồ màu cần chú ý trong việc truy tìm ảnh bao gồm độ chính xác và khả năng phân loại màu sắc hiệu quả.
- Việc tính lược đồ màu của ảnh diễn ra rất nhanh chóng trong ảnh chỉ qua một lần duyệt qua toàn bộ ảnh,
- Lược đồ màu tương đối bất biến đối với phép tịnh tiến, xoay ảnh, và nhất là sự kéo nhỏ, kéo giãn, thay đổi kích thước của ảnh,
- Lược đồ màu của một ảnh màu có thể là một cách miêu tả rất có ý nghĩa cho việc truy tìm ảnh hay nhận dạng đối tượng trong ảnh
Có thể kế đến một số lược độ màu như: lược đồ màu thông thường RGB, lược đồ màu HSI
1.3.4.2 Đặc trưng hoa văn của ảnh a ,
Hoa văn (texture) vẫn chưa có một định nghĩa chính xác về bản chất của nó trong ảnh Hoa văn được sử dụng để phân chia ảnh thành các vùng quan tâm và phân lớp các vùng này Nó cung cấp thông tin về sự sắp xếp không gian của màu sắc và cường độ trong ảnh.
Hoa văn được đặc trưng bởi sự phân bổ không gian của những mức cường độ trong một khu vực láng giềng với nhau
Hoa văn bao gồm nhiều hoa văn gốc, hay còn gọi là hoa văn cơ sở, được gộp lại, và đôi khi các hoa văn này còn được gọi là texel Khi phân tích hoa văn, có hai đặc trưng chính cần lưu ý.
HOA VĂN ẢNH VÀ CÁC KỸ THUẬT TÌM KIẾM DỰA TRÊN HOA VĂN ẢNH –
Khái niệm hoa văn ảnh
Trong nhiều thuật toán về thị giác máy tính và xử lý ảnh, một giả định quan trọng là sự đồng nhất về mật độ của miền ảnh cục bộ Tuy nhiên, hình ảnh thực tế, như bề mặt gỗ, thường không đáp ứng điều kiện này, mà có sự biến thiên mật độ theo các khuôn mẫu gọi là hoa văn trực quan Những hoa văn này có thể xuất phát từ các đặc tính bề mặt vật lý như độ thô hoặc các mạch định hướng, thường mang tính chất xúc giác, hoặc từ các phản xạ khác nhau như màu sắc trên bề mặt.
Hoa văn là những hình ảnh có thể nhận diện dễ dàng, nhưng việc định nghĩa chính xác về chúng lại gặp nhiều khó khăn Các nhà nghiên cứu đã đưa ra nhiều quan niệm khác nhau về hoa văn Coggins [3] đã tổng hợp một số định nghĩa hoa văn từ các tài liệu liên quan đến thị giác máy, minh họa sự đa dạng trong cách hiểu về khái niệm này.
Hoa văn có thể được coi là sự thay thế cho một miền vĩ mô, với cấu trúc đơn giản hóa thành các mẫu tương ứng Trong đó, các phần tử cơ bản được sắp xếp theo những nguyên tắc nhất định.
Một miền trong hình ảnh có hoa văn bất biến khi các thống kê cục bộ hoặc tính chất cục bộ của hàm ảnh giữ nguyên giá trị, thay đổi chậm hoặc gần như tuần hoàn.
Hoa văn được định nghĩa là thuộc tính của một trường không có các thành phần có thể liệt kê được Mối quan hệ giữa các thành phần trong hoa văn thường không rõ ràng, nhằm tập trung sự chú ý của người quan sát vào các đặc tính bao quát của hình ảnh như độ thô, độ mấp mô và độ mịn Theo quy luật tự nhiên, các mẫu không thể liệt kê này được hình thành từ các quá trình ngẫu nhiên.
Hoa văn ảnh là hàm biến thiên không gian trong mật độ pixel, có giá trị mức xám, và được ứng dụng rộng rãi trong nhiều lĩnh vực Một trong những ứng dụng nổi bật là nhận dạng các miền ảnh thông qua các đặc tính hoa văn Hoa văn đóng vai trò quan trọng trong việc nhận diện các kiểu miền đồng nhất, từ đó giúp xác định các kiểu hoa văn khác nhau, quá trình này được gọi là phân lớp hoa văn Mục tiêu của phân lớp hoa văn là tạo ra bản đồ phân lớp cho các ảnh đầu vào, trong đó mỗi miền hoa văn đồng nhất được phân loại vào một lớp hoa văn cụ thể.
Tổng hợp hoa văn (texture synthesis) là kỹ thuật quan trọng trong nén ảnh và đồ họa máy tính, giúp tái tạo bề mặt của các đối tượng có hoa văn Việc áp dụng tổng hợp hoa văn không chỉ nâng cao chất lượng hình ảnh mà còn mang lại hiệu quả trong việc xây dựng các bề mặt phong phú và chi tiết.
Hoa văn là khái niệm trực quan phản ánh các đặc tính như độ mịn, độ thô và tính đồng nhất của một khu vực Nó đóng vai trò quan trọng trong việc nhận thức thị giác của con người, cung cấp thông tin về chiều sâu của cảnh vật và hướng đi của bề mặt.
Chúng ta sẽ xem xét hoa văn cấp độ xám, một lĩnh vực đã được nghiên cứu và đánh giá kỹ lưỡng trong nhiều năm, với nhiều chứng minh hữu ích Ngoài ra, các kỹ thuật áp dụng cho hoa văn cấp độ xám cũng có thể được mở rộng cho hoa văn màu.
Mô hình hóa hoa văn
Nhận dạng các phẩm chất quan sát được của hoa văn trong ảnh là bước quan trọng trong việc xây dựng mô hình toán học cho hoa văn Biến thiên cường độ trong ảnh thường phản ánh các biến đổi vật lý trong cảnh như bọt biển hoặc sóng nước Mô hình hóa những biến đổi này là thách thức, do đó hoa văn thường được mô tả bằng các biến đổi hai chiều trong cường độ ảnh Điều này lý giải tại sao không có định nghĩa chung cho hoa văn trong thực tế, mặc dù một số tính chất trực quan của hoa văn được coi là đúng.
Hoa văn là một đặc tính quan trọng của miền, nhưng hoa văn của điểm chưa được định nghĩa rõ ràng Do đó, hoa văn mang tính khái niệm và định nghĩa của chúng cần bao gồm các giá trị mức xám trong vùng lân cận Kích thước của vùng lân cận này phụ thuộc vào kiểu hoa văn hoặc kích thước của các phần tử cơ sở định nghĩa hoa văn.
Hoa văn được xác định bởi sự phân phối không gian của các mức xám, do đó, biểu đồ hai chiều và ma trận đồng xuất hiện là những công cụ phân tích hoa văn hiệu quả.
Các hoa văn trong một bức ảnh có thể được quan sát ở nhiều tỷ lệ và mức phân giải khác nhau Ví dụ, hoa văn của một bức tường xây bằng gạch có thể hiển thị các viên gạch riêng lẻ ở độ phân giải thấp, trong khi ở độ phân giải cao hơn, chi tiết bên trong từng viên gạch sẽ được thể hiện rõ ràng hơn.
Một miền được coi là có hoa văn khi số lượng đối tượng cơ sở trong miền đó lớn Nếu chỉ có một vài đối tượng cơ sở, nó sẽ được gọi là một nhóm đối tượng thay vì một hoa văn Hoa văn được định nghĩa thông qua các đặc trưng quan sát được, đóng vai trò quan trọng trong việc mô tả hoa văn Các nguyên tắc nhận dạng các tính chất như tính đồng đều, độ dày, độ thô, độ ráp, tính tuyến tính, tính định hướng, hướng, tần số và pha là rất quan trọng Một số đặc trưng quan sát được có thể phụ thuộc lẫn nhau, ví dụ như tần số phụ thuộc vào độ dày, trong khi hướng lại phụ thuộc vào các hoa văn có tính định hướng.
Trong bài luận này, chúng tôi sẽ trình bày các phương pháp mô hình hóa hoa văn, với trọng tâm là phương pháp xử lý tín hiệu sử dụng bộ lọc Gabor Việc quan sát hoa văn từ nhiều chiều khác nhau dẫn đến sự đa dạng trong các phương pháp biểu diễn Dựa trên phương pháp này, chúng tôi sẽ phát triển một ứng dụng tìm kiếm ảnh dựa trên bộ lọc Gabor.
Giả sử có một ảnh kích thước và có mức xám Ảnh đó sẽ được biểu diễn một cách hình thức như sau:
2.2.1 Các phương pháp thống kê
Một trong những đặc trưng quan trọng của hoa văn là sự phân phối không gian của các giá trị mức xám Do đó, các đặc trưng thống kê đã được phát triển sớm và trở thành một trong những phương pháp ứng dụng chủ yếu trong lĩnh vực thị giác máy.
2.2.1.1 Ma trận đồng xuất hiện (co occurrence matrices)-
Mức xám ước lượng các tính chất liên quan đến thống kê cấp 2 đã được Haralik đề xuất thông qua việc sử dụng ma trận đồng xuất hiện mức xám (GLCM) Phương pháp này đã trở thành một trong những đặc trưng nổi bật và phổ biến nhất trong phân tích hoa văn Ma trận đồng xuất hiện mức xám có kích thước cụ thể, giúp cải thiện độ chính xác trong việc nhận diện và phân loại hình ảnh.
( G là số lượng các mức xám trong ảnh) cho một véc tơ dời hình được định nghĩa như sau:
Trong đó: là số lần xuất hiện của cặp mức xám i và j mà đứng cách nhau một khoảng cách d
, và là lực lượng của tập hợp.
Ví dụ xét một ảnh có có 3 giá trị mức xám khác nhau:
0 0 2 2 ma trận xuất hiện đồng thời mức xám cho ảnh này với véc tơ dịch chuyển d(1,0) là như sau:
Chú ý rằng ma trận đồng xuất hiện không đối xứng, tuy nhiên ma trận đồng xuất hiện đối xứng có thể được tính bằng công thức sau:
Ma trận đồng xuất hiện cung cấp thông tin về phân phối không gian của các mức xám trong ảnh hoa văn Khi các phần tử của ma trận này tập trung dọc theo đường chéo, hoa văn sẽ có đặc điểm thô liên quan đến véc tơ dịch hình Bảng dưới đây trình bày các đặc trưng hoa văn được tính toán từ ma trận đồng xuất hiện cùng với công thức tương ứng.
Bảng 2.1 – Các đặc trưng hoa văn được trích chọn từ ma trận đồng xuất hiện mức xám
Trong đó là trung bình, còn , là độ lệch chuẩn của
Việc sử dụng mâ trận đồng xuất hiện có một số khó khăn sau:
Không có phương pháp ước lượng hiệu quả nào để chọn véc tơ dời hình d, và việc tính toán ma trận xuất hiện đồng thời cho các giá trị d khác nhau là điều không khả thi.
Đối với một giá trị xác định của d, có nhiều đặc trưng có thể được tính toán từ ma trận đồng xuất hiện, điều này tạo ra nhu cầu cần có phương pháp lựa chọn các đặc trưng phù hợp để sử dụng.
Các đặc trưng hoa văn dựa trên ma trận đồng xuất hiện được áp dụng đầu tiên trong việc phân lớp hoa văn, không phải trong phân đoạn hoa văn.
2.2.1.2 Các đặc trưng tự tương quan
Một trong những đặc điểm quan trọng của nhiều hoa văn là sự lặp lại của các yếu tố trong hình ảnh Để đánh giá tính đồng đều, độ mịn và độ thô của hoa văn trong ảnh, chúng ta có thể sử dụng hàm tự tương quan Hàm tự tương quan của ảnh cung cấp thông tin chi tiết về cấu trúc và tính chất của hoa văn.
Trong đó: I(x,y) là hàm biểu diễn ảnh
Hàm tự tương quan phản ánh kích thước và độ mịn của hoa văn gốc; hoa văn thô sẽ dẫn đến sự giảm chậm của hàm này, trong khi hoa văn mịn hơn sẽ làm hàm
2.2.2 Các phương pháp hình học
Các phương pháp phân tích hình học phụ thuộc vào tính chất của các phần tử hoa văn gốc Khi xác định các phần tử hoa văn trong ảnh, có hai cách tiếp cận chính để phân tích Cách thứ nhất là tính toán các tính chất thống kê của các phần tử hoa văn và sử dụng chúng làm đặc trưng hoa văn Cách thứ hai là trích xuất các quy luật sắp xếp mô tả hoa văn, bao gồm các phương pháp hình học để phân tích hoa văn.
Các bài toán phân tích hoa văn
2.3.1 Mục đích của phân tích hoa văn
Mục đích nghiên cứu hoa văn trong thị giác máy tính là hiểu, mô hình hóa và xử lý hoa văn, nhằm mô phỏng thị giác con người thông qua công nghệ máy tính.
Một hệ thống thị giác máy tính tiêu biểu có thể được chia thành các thành phần như sau:
Hình 2.1 – Thành phần của hệ thống thị giác máy tính
Phân tích hoa văn có thể được áp dụng trong nhiều giai đoạn của quy trình xử lý ảnh Trong giai đoạn tiền xử lý, ảnh được phân đoạn thành các vùng liên tiếp dựa trên tính chất hoa văn của từng miền Ở giai đoạn trích chọn đặc trưng và phân lớp, các đặc trưng hoa văn cung cấp gợi ý cho mẫu phân lớp hoặc hỗ trợ nhận dạng các đối tượng.
Hậu xử lý Đầu vào
Các phương pháp mô hình hóa hoa văn và trích chọn đặc trưng hoa văn có thể áp dụng cho bốn dạng bài toán chính: phân đoạn hoa văn, phân lớp hoa văn, tổng hợp hoa văn và tạo hình từ hoa văn.
Phân đoạn hoa văn là một thách thức lớn do sự không chắc chắn về các kiểu hoa văn tồn tại trong ảnh, số lượng hoa văn khác nhau và khu vực nào có hoa văn Thực tế, không cần xác định rõ các hoa văn mà chỉ cần phân biệt được hai hoa văn khác nhau Hai phương pháp phổ biến cho phân đoạn hoa văn là phương pháp dựa trên miền và phương pháp dựa trên biên.
Cách tiếp cận dựa trên miền nhằm nhận diện các miền trong ảnh có hoa văn đồng nhất bằng cách hợp nhất các vùng điểm ảnh dựa trên độ tương tự của thuộc tính hoa văn Các miền có hoa văn khác nhau được phân đoạn rõ ràng, giúp tách biệt chúng hiệu quả Tuy nhiên, phương pháp này gặp khó khăn trong việc xác định số lượng hoa văn có trong ảnh và cần thiết lập ngưỡng để phân vùng các hoa văn khác nhau.
Phương pháp tiếp cận dựa trên biên tập trung vào việc phát hiện sự khác biệt trong hoa văn giữa các miền kề nhau, cho phép xác định biên tại những khu vực có sự thay đổi rõ rệt Một ưu điểm của phương pháp này là không cần xác định trước số lượng miền hoa văn trong ảnh Tuy nhiên, một hạn chế là các biên có thể không hoàn toàn khép kín, dẫn đến việc hai miền trong ảnh không được nhận diện như những miền tách biệt Do đó, các phương pháp dựa trên biên chỉ tạo ra các phân đoạn khi tất cả các đường biên được phát hiện một cách hoàn chỉnh.
Phân lớp hoa văn quyết định loại hoa văn trong ảnh và có hai phương pháp chính: phân lớp có thầy và phân lớp không có thầy Phân lớp có thầy sử dụng các hoa văn mẫu, hay còn gọi là tập huấn luyện, để huấn luyện bộ phân lớp nhận diện đặc trưng của từng lớp hoa văn Ngược lại, phân lớp không có thầy không cần tri thức trước đó mà có khả năng tự động phát hiện các lớp hoa văn khác nhau từ dữ liệu đầu vào.
Phương pháp phân lớp thường bao gồm hai giai đoạn: trích chọn đặc trưng và nhận dạng lớp hoa Giai đoạn trích chọn đặc trưng là rất quan trọng, vì nó cung cấp các đặc trưng cho mỗi lớp hoa, giúp nhận diện các đặc trưng bất biến trước biến đổi như dịch chuyển, quay hay thay đổi tỷ lệ Để đạt hiệu quả cao, các đặc trưng được lựa chọn cần có độ đo định lượng gần nhau cho các hoa văn tương tự Tuy nhiên, việc thiết kế một bộ trích chọn đặc trưng phù hợp cho mọi loại hoa văn vẫn là thách thức lớn.
Giai đoạn thứ hai trong quá trình phân lớp hoa văn liên quan đến việc huấn luyện các bộ phân lớp để xác định phân lớp cho từng hoa văn đầu vào dựa trên các đặc trưng đã được lựa chọn Trong giai đoạn này, bộ phân lớp hoạt động như một hàm nhận các đặc trưng đã chọn làm đầu vào và tạo ra các lớp đặc hoa văn làm đầu ra.
Trong phân lớp, phương pháp k láng giềng gần nhất thường được áp dụng để xác định phân lớp của hoa văn Quy trình này bao gồm việc tính toán khoảng cách đến k trường hợp huấn luyện gần nhất trong không gian đặc trưng nhiều chiều, nơi chứa các véc tơ đặc trưng được chọn Các loại khoảng cách thường được sử dụng bao gồm khoảng cách Euclide và khoảng cách Kullback-Leibler.
Khoảng cách Kullback Laibler giữa hai phân phối xác - xuất P và Q trên tập
X hữu hạn được định nghĩa như sau:
Tổng hợp hoa văn là một kỹ thuật phổ biến trong đồ họa máy tính, cho phép tạo ra các hoa văn lớn từ các mẫu nhỏ Kỹ thuật này được sử dụng để ánh xạ hoa văn trên bề mặt và trong các ứng dụng biểu diễn cảnh Hoa văn tổng hợp khác biệt so với hoa văn mẫu, với ưu điểm chính là khả năng xử lý các điều kiện biên và tránh sự lặp lại nguyên mẫu.
Trong lĩnh vực thị giác máy tính, tổng hợp hoa văn đóng vai trò quan trọng nhờ vào khả năng cung cấp phương pháp kinh nghiệm để kiểm tra và phân tích hoa văn Thuật toán tổng hợp hoa văn thường dựa vào phân tích hoa văn, giúp chứng minh các mô hình tiềm ẩn Các ứng dụng của tổng hợp hoa văn rất đa dạng, bao gồm chỉnh sửa ảnh, làm đầy ảnh và tổng hợp video.
Hình 2.2 – Ví dụ về tổng hợp hoa văn
2.3.5 Hình dạng từ hoa văn
Tạo hình từ hoa văn là phương pháp ước lượng hình bề mặt 3D thông qua việc phân tích tính chất hoa văn của ảnh 2D Tính đồng đều và đẳng hướng yếu của hoa văn cung cấp gợi ý về hình ảnh, với gradient của hoa văn thường phản ánh các hình chiếu phối cảnh từ góc nhìn nghiêng Điều này cho phép suy ra các tham số hình dạng bề mặt và các biến đổi cảnh bên dưới Bằng cách hướng một độ đo thích hợp của gradient hoa văn và bản đồ độ sâu, hình dạng của các đối tượng có thể được tái tạo Tạo hình từ hoa văn không chỉ phục hồi chính xác hướng bề mặt mà còn xây dựng lại hình dạng bề mặt và thể hiện các đối tượng trong không gian 3D.
Phân tích ảnh sử dụng bộ lọc Gabor
Bộ lọc Gabor là công cụ quan trọng trong phân tích hoa văn ảnh, với nhiều ứng dụng thực tiễn như nhận dạng ký tự, khuôn mặt, hoa văn tay, mống mắt và nhận dạng ảnh dựa trên nội dung.
Trong phần này của luận văn sẽ tập trung nghiên cứu bộ lọc Gabor, các biểu diễn toán học và các đặc trưng Gabor trong phân tích hoa văn
Bộ lọc Gabor hai chiều là công cụ quan trọng trong phân tích hoa văn và đã được nghiên cứu sâu rộng Bài luận văn này tập trung vào việc khám phá bộ lọc Gabor 2 chiều và ứng dụng của nó trong tìm kiếm ảnh theo nội dung.
Trong xử lý tín hiệu số, bộ lọc đóng vai trò quan trọng trong việc loại bỏ các thành phần không mong muốn như tiếng ồn ngẫu nhiên, đồng thời trích xuất những thành phần hữu ích của tín hiệu nằm trên miền tần số chính xác.
Biểu đồ sau minh hoạ ý tưởng chính của bộ lọc :
Hình 2.3 – Sơ đồ mô tả bộ lọc
Bộ lọc Tín hiệu thô( chưa được lọc) Tín hiệu được lọc
Có 2 bộ lọc cơ bản, lọc số và tương tự Chúng rất khác nhau về cấu tạo vật lý và cách làm việc
Bộ lọc tương tự sử dụng mạch điện tử với các thành phần như điện trở, tụ điện và bộ khuếch đại để tạo ra hiệu ứng lọc cần thiết Chúng được ứng dụng rộng rãi trong việc giảm tiếng ồn, cải thiện chất lượng video, cân bằng đồ họa trong hệ thống hi-fi và nhiều lĩnh vực khác.
Có nhiều công nghệ chuẩn hóa được sử dụng để thiết kế mạch lọc tương tự theo các yêu cầu cụ thể Trong tất cả các giai đoạn, tín hiệu được lọc có thể là điện thế hoặc cường độ dòng điện.
Bộ lọc số sử dụng bộ xử lý số để thực hiện các phép toán số học trên các giá trị mẫu của tín hiệu Bộ xử lý này có thể là các máy tính thông thường, cho phép xử lý và phân tích tín hiệu một cách hiệu quả.
PC, hoặc chip DSP chuyên dụng
Tín hiệu tương tự cần được lấy mẫu và số hoá thông qua bộ chuyển đổi ADC, chuyển đổi từ tín hiệu tương tự sang tín hiệu số Các giá trị nhị phân được tạo ra từ quá trình này sẽ được đưa vào bộ vi xử lý để thực hiện các phép tính số học.
Các phép tính đặc trưng bao gồm nhân giá trị với hằng số và cộng các tích số lại với nhau Kết quả của những phép toán này, nếu cần thiết, sẽ tái hiện các giá trị mẫu của tín hiệu đã được lọc Những giá trị này được chuyển đổi qua bộ chuyển đổi DAC (từ số sang tương tự) để đưa tín hiệu trở lại dạng tương tự.
Trong bộ lọc số, tín hiệu được thể hiện qua chuỗi số thay vì điện áp hoặc dòng điện Biểu đồ dưới đây minh họa một hệ thống đơn giản.
Hình 2.4 – Mô phỏng hệ thống lọc số
Biến đổi Fourier phân tích tần số trong tín hiệu, nhưng đột biến trong miền thời gian sẽ ảnh hưởng đến toàn bộ trục tần số Để khắc phục vấn đề này, Gabor đã giới thiệu một phương pháp mới bằng cách áp dụng hàm cửa sổ không gian vào phân tích Fourier Hàm cửa sổ này được tịnh tiến dọc theo trục không gian để bao phủ toàn bộ tín hiệu, với hàm cửa sổ Gaussian được Gabor sử dụng.
Biến đổi Gabor của tín hiệu một chiều được định nghĩa như sau [3]:
Tín hiệu tương tự được lọc
Tín hiệu số được lọc
Tín hiệu được lấy mẫu, số hóa
Hàm cửa sổ Gaussian đóng vai trò quan trọng trong việc xác định giới hạn quyết định trong miền thời gian và tần số của biến đổi Fourier cửa sổ, hay còn gọi là biến đổi Gabor Giới hạn này được xác định bởi tích băng thông thời gian, được thể hiện qua công thức cụ thể.
Khi hàm cửa sổ là hàm Gaussian thì biến đổi trên trở thành biến đổi Gabor
Khi chọn cửa sổ cho biến đổi Fourier, phân tích trong miền thời gian – tần số được xác định trên toàn bộ mặt phẳng này Để khắc phục giới hạn của biến đổi Fourier cửa sổ, cần cho phép thay đổi trong miền thời gian – tần số Thời gian phân tích sẽ tăng lên khi tần số trung tâm của bộ lọc phân tích tăng, trong khi băng thông liên quan giữ nguyên theo tỷ lệ logarithm Điều này có thể đạt được bằng cách sử dụng cửa sổ với độ rộng thay đổi tương ứng với sự thay đổi tần số.
Hàm Gabor trong miền không gian được biểu diễn như sau:
Trong đó s x y( , ) là một hàm sin phức, được gọi là phần tử mang và
( , ) w x y là hàm Gaussian hai chiều được gọi là thành phần bao.r
Hàm sin phức được định nghĩa như sau:
Hàm Gaussian hai chiều được định nghĩa như sau:
( x x − ) r = − − ( x x )sin θ + ( y y c − ) os θ (2.10) Ý nghĩa các tham số của bộ lọc Gabor như sau:
K: là tỷ lệ độ lớn của hàm Gaussian
( , )a b : là tỷ lệ hai trục của hàm Gaussian θ : góc quay của hàm Gaussian
( , )x y : vị trí hàm Gaussian đạt giá trị cực đại
( , )u v : Tần số của sóng mang trong hệ tọa độ đề các
Biến đổi fourier của hàm Gabor :
− + Độ lớn cực đại của biến đổi fourier đạt được khi ( , ) ( , )u v = u v0 0 và giá trị cực đại là
Trong miền tần số vùng các điểm có độ lớn bằng 1
2 độ lớn cực đại được tính như sau:
Phương trình (2.14) là một ellipse tâm ( , )u v 0 0 quay với góc θ quanh trục u Trục chính của ellipse là 2 aC a bC b ≈ , 2 ≈
Hình 2.5 – Bộ lọc Gabor trong miền tần số
Hàm Gabor có thể được điều chỉnh thông qua các tham số khác nhau trong các ứng dụng khác nhau, dẫn đến sự khác biệt trong cách biểu diễn của nó tùy thuộc vào các tham số đã chọn.
2.4.3 Biểu diễn đặc hoa văn ảnh
Biểu diễn hoa văn của ảnh I(x, y) được thực hiện thông qua việc nhân chập ảnh với bộ lọc Gabor có các tham số được lựa chọn Các bộ lọc Gabor được tạo ra bằng cách quay và co dãn các hàm Gabor theo nhiều hướng khác nhau và ở các tỷ lệ khác nhau Ảnh sau khi trải qua quá trình lọc bằng hàm Gabor sẽ có sự biến đổi rõ rệt về hoa văn.
XÂY DỰNG ỨNG DỤNG TRUY TÌM ẢNH DỰA TRÊN NỘI DUNG SỬ DỤNG BỘ – LỌC GABOR
Trích chọn đặc trưng hoa văn
Một hàm Gabor hai chiều và biến đổi Fourier của nó được biểu diễn như sau [6]:
Các tham số σ x và σ y xác định phạm vi không gian và giải tần số của bộ lọc Gabor, trong khi cặp (W, 0) thể hiện tần số trung tâm của bộ lọc trong hệ tọa độ vuông góc miền tần số (u, v).
Cho g x y ( , ) là hàm sinh cho họ bộ lọc Gabor Một tập các hàm Gabor
, , , ( , ) m ( , ) gm n x y = a g x y − được sinh ra bằng việc quay hàm và biến đổi tỷ lệ hàm g x y( , )
Và là tổng số các hướng quay và là tổng số co giãn (tỷ lệ).S
Tập hợp các hàm này tạo thành một tập cơ sở hoàn chỉnh nhưng không trực giao
Tần số tâm thấp và tần số tâm cao được ký hiệu lần lượt là Cho U l và U h Để đảm bảo hiệu suất tối ưu của bộ lọc, các tham số cần được lựa chọn sao cho độ lớn của đường biên đáp ứng bộ lọc trong miền tần số đạt 1/2 so với đường biên cực đại liền kề.
Hình 3.1 – Biểu diễn bộ lọc Gabor trên miền tần số Kết quả các tham số của bộ lọc như sau [8]:
3.1.2 Biểu diễn đặc trưng hoa văn
Cho ảnh có kích thước, biến đổi Gabor của nó được cho bởi công thức sau [6]:
Trung bình và độ lệch chuẩn của độ lớn của ảnh sau khi lọc được sử dụng để xây dựng véc tơ đặc trưng [6]:
Trong đó N là tổng số các điểm ảnh trong ảnh.
Một vộc tơ được xõy dựng xử dụng cỏc thành phần đặc trưng àm n , và
, σ m n được sử dụng để biểu diễn hoa văn ảnh
Để đo độ tương tự hoa văn của một ảnh đầu vào có véc tơ đặc trưng Q fQ và ảnh T trong cơ sở dữ liệu có véc tơ đặc trưng fT, người ta sử dụng hàm khoảng cách để tính toán sự giống nhau giữa hai véc tơ này Hàm khoảng cách này sẽ trả về một giá trị cho biết mức độ tương tự giữa hoa văn của ảnh đầu vào và ảnh trong cơ sở dữ liệu Bằng cách sử dụng hàm khoảng cách, người ta có thể dễ dàng xác định được mức độ tương tự giữa các hoa văn khác nhau và tìm kiếm các hoa văn tương tự trong cơ sở dữ liệu.
3.1.3 Biểu diễn bất biến trong biểu diễn Gabor
Chúng ta phân tích một tập hợp các hình ảnh hoa văn đồng nhất với nội dung giống nhau nhưng có các hướng khác nhau Mặc dù phân phối năng lượng của tín hiệu trong mỗi hình ảnh là khác nhau, tổng năng lượng của các bộ lọc Gabor được tạo ra trong mỗi giải vẫn giữ hằng số.
Các đáp ứng của bộ lọc Gabor ở các tỷ lệ khác nhau nhưng cùng một hướng có thể được cộng lại để đạt được bất biến co dãn Tuy nhiên, bất biến tỷ lệ phức tạp hơn so với bất biến quay.
Theo phương pháp xây dựng bộ lọc đã nêu, sẽ có K bộ lọc với các hướng khác nhau tại mỗi tỷ lệ Bộ lọc Gabor bất biến quay sẽ được thiết kế theo cách này.
Mỗi g ( ) m n R , ( , )x y là một bộ lọc trích chọn các đặc trưng từ một giải tỷ lệ xác định, trên tất cả các hướng của mặt phẳng phổ tần số
Biến đổi Gabor của ảnh là
Trong đó: m = 0, 1, …, S-1 biểu diễn các tính chất của ảnh ( , )I x y trong một giải tỷ lệ trên toàn bộ các hướng của nửa mặt phẳng phổ tần số
Giá trị trung bình của là:
Trong đó N là tổng số các điểm ảnh trong ảnh
Véc tơ đặc trưng bất biến quay là:
Véc tơ này được sử dụng cho việc tìm kiếm ảnh hoa văn.
3.1.4.2 Biểu diễn Gabor bất biến co giãn
Bằng việc cộng tất cả các bộ lọc theo S dưới mỗi hướng họ các bộ lọc bất biến co giãn có thể thu được như sau [6]:
Mỗi là một bộ lọc trich rút các đặc trưng từ một giải hướng xác định bao gồm tất cả các tỷ lệ như được chỉ trong hình sau
Hình 3.2 – Biểu diễn bất biến tỷ lệ của bộ lọc Gabor Đây chính là một biểu diễn Gabor bất biến tỷ lệ Vì vậy biến đổi của ảnh là
Công thức này mô tả các tính chất của một ảnh trong một giải hướng bao gồm tất cả các tỷ lệ, từ đó tính toán trung bình và độ lệch chuẩn của độ lớn các hệ số biến đổi.
Trong đó N là tổng số các điểm ảnh trong ảnh
Các đại lượng này là bất biến co giãn, từ đó xây dựng véc tơ đặc trưng Gabor bất invariant co giãn cho bài toán truy tìm ảnh hoa văn.
Việc chọn tham số cho bộ lọc Gabor thường dựa trên kinh nghiệm Trong ứng dụng tìm kiếm ảnh, tôi sử dụng tham số của bộ lọc Gabor được đề xuất bởi B.S Manjunath và W.Y Ma.
Cài đặt ứng dụng
Mục đích của ứng dụng này là xây dựng một cơ sở dữ liệu ảnh đơn giản, trong đó các phần tử so sánh là các véc tơ đặc trưng đã được trích chọn Hàm đo lường sự khác biệt sử dụng khoảng cách Euclide Mô hình tổng quan của ứng dụng được trình bày như sau:
Mô hình xây dựng cơ sở dữ liệu ảnh
Hình 3.3 – Mô hình cơ sở dữ liệu ảnh thử nghiệm Hình trên minh họa quá trình lọc và lưu trữ ảnh vào cơ sở dữ liệu Ảnh đầu vào
Véc tơ đặc trưng bất biến quay
Véc tơ đặc trưng bất biến co giãn
Tham số bộ lọc Ảnh được lọc
Một ảnh đầu vào sẽ được xử lý qua bộ lọc Gabor với các tham số đã được xác định trước Quá trình này cho phép tính toán các véc tơ đặc trưng của ảnh, bao gồm ba loại véc tơ khác nhau.
- Véc tơ đặc trưng gốc (là véc tơ đặc trưng chưa có bất biến quay và bất biến co giãn),
- Véc tơ đặc trưng biểu diễn bất biến quay của ảnh,
Véc tơ đặc trưng là công cụ quan trọng để biểu diễn bất biến co giãn của ảnh Các ảnh cùng với véc tơ đặc trưng được lưu trữ trong cơ sở dữ liệu, nhằm phục vụ cho việc tìm kiếm hiệu quả trong tương lai.
Mô hình dưới đây mô tả quy trình tìm kiếm ảnh trong cơ sở dữ liệu Ảnh đầu vào, tức là ảnh cần tìm kiếm, sẽ được xử lý qua bộ lọc Gabor với các tham số tương ứng Các đặc trưng Gabor của ảnh sẽ được tính toán và so sánh độ tương tự với các ảnh trong cơ sở dữ liệu Hàm so sánh này sẽ trả về danh sách các ảnh tương tự đáp ứng một ngưỡng xác định Hai tham số ngưỡng được thiết lập là số lượng ảnh tối đa được tìm kiếm và ngưỡng của hàm khoảng cách đánh giá độ tương tự.
Hình 3.4 – Mô tả quá trình tìm kiếm ảnh Ảnh cần tìm kiếm
Các véc tơ đặc trưng ảnh
Véc tơ đặc trưng của các ảnh trong cơ sở dữ liệu Tham số bộ lọc
Tính toán độ tương tự
Danh sách ảnh đầu ra
Kết quả minh họa
Bộ ảnh kiểm tra được lấy từ cơ sở dữ liệu Brodatz, nổi tiếng với 112 ảnh hoa văn đa dạng Cơ sở dữ liệu này cung cấp 52 kiểu hoa văn khác nhau, phục vụ cho các nghiên cứu và ứng dụng trong lĩnh vực thiết kế.
Các ảnh này được quay, được phóng to để thực hiện kiểm tra trong ngữ cảnh bất biến quay và bất biến tỷ lệ
- Kết quả tìm kiểm ảnh không theo bất biến quay và tỷ lệ
Kết quả trả ra(5 ảnh kết quả chính xác nhất):
- Kết quả tìm kiếm ảnh theo bất biến quay