TỔNG QUAN
Tổng quan về tra cứu ảnh theo nội dung
Tra cứu ảnh dựa theo nội dung (CBIR) bắt nguồn từ năm 1992 và thuộc lĩnh vực tra cứu thông tin trực quan (VIR) Đây là một chủ đề nghiên cứu mới trong công nghệ thông tin, trong đó tương tác với nội dung trực quan là phương pháp thiết yếu để tìm kiếm thông tin Các yếu tố trực quan như màu sắc, kết cấu, hình dạng và bố cục không gian có liên quan trực tiếp đến cảm nhận nội dung ảnh Đồng thời, các khái niệm cao cấp như ý nghĩa đối tượng và khung cảnh trong ảnh cũng được sử dụng làm manh mối để tìm kiếm hình ảnh tương tự từ cơ sở dữ liệu.
Tra cứu thông tin trực quan là một lĩnh vực nghiên cứu quan trọng, bao gồm các hoạt động như mô hình hóa và thể hiện dữ liệu, phân tích phim ảnh, nhận dạng và thị giác máy tính Ngoài ra, tổ chức cơ sở dữ liệu đa phương tiện, lập chỉ mục đa chiều, và mô hình hóa tâm lý hành vi người dùng cũng đóng vai trò thiết yếu Hệ thống tương tác người - máy và trực quan hóa dữ liệu là những yếu tố then chốt giúp nâng cao hiệu quả trong việc tra cứu thông tin.
Các yếu tố mô tả nội dung bao gồm màu sắc, kết cấu, hình dạng và mối liên hệ không gian chuyển động Nguồn gốc màu sắc liên quan đến đối tượng, vai trò và các thông tin cảm nhận như cảm giác và ý nghĩa hình ảnh Phân tích ảnh, nhận dạng và thị giác máy tính đóng vai trò quan trọng trong hệ thống tra cứu thông tin trực quan, cho phép tự động trích xuất thông tin thông qua phân tích phân bố điểm ảnh và đo lường nội dung trực quan.
Trong đồ án này, em chỉ tập trung vào đặc trưng màu cho ứng dụng tra cứu ảnh dựa theo nội dung.
Các chức năng của một hệ thống tra cứu ảnh dựa vào nội dung tiêu biểu 12 1 Truy vấn người sử dụng
Hệ thống tra cứu ảnh dựa trên nội dung (Content-Based Image Retrieval) không chỉ xử lý các nguồn thông tin đa dạng như văn bản, hình ảnh và video mà còn đáp ứng nhu cầu của người dùng Hệ thống này phân tích nội dung của nguồn thông tin và các truy vấn, sau đó so sánh chúng để tìm kiếm các mục tin liên quan Các chức năng chính của hệ thống bao gồm khả năng xử lý thông tin đa dạng và cung cấp kết quả tìm kiếm chính xác.
Phân tích nội dung từ các nguồn thông tin và trình bày chúng một cách thích hợp để so sánh các truy vấn là một bước quan trọng, mặc dù thường tốn nhiều thời gian do phải xử lý từng thông tin (các ảnh) trong cơ sở dữ liệu Tuy nhiên, quá trình này chỉ cần thực hiện một lần.
Phân tích truy vấn người dùng và biểu diễn chúng để so sánh với cơ sở dữ liệu là bước quan trọng, tương tự như bước trước nhưng chỉ áp dụng cho ảnh truy vấn Cần định nghĩa một chiến lược hiệu quả để so sánh các truy vấn tìm kiếm với thông tin trong cơ sở dữ liệu Việc tra cứu thông tin liên quan phải được thực hiện nhanh chóng và trực tuyến Sử dụng các kỹ thuật đánh chỉ số hiện đại giúp tổ chức lại không gian đặc trưng, từ đó tăng tốc quá trình đối sánh.
Thực hiện các điều chỉnh cần thiết trong hệ thống dựa trên phản hồi từ người sử dụng hoặc các ảnh được tra cứu
Hình 1.1: Mô hình hệ thống tra cứu ảnh dựa theo nội dung
Cơ sở dữ liệu nh
Người sử dụng Tạo truy vấn
Cơ sở dữ liệu đặc trưng Trích chọn đặc trưng Đánh chỉ số
So sánh độ tương tự
Các kết quả tra cứu Ảnh Phản hồi liên quan
1.2.1 Truy vấn người sử dụng
Có nhiều cách để gửi truy vấn trực quan, và một phương pháp hiệu quả là phải tự nhiên với người sử dụng đồng thời thu thập đủ thông tin để trích xuất kết quả có ý nghĩa Dưới đây là những phương pháp truy vấn phổ biến trong nghiên cứu tra cứu ảnh dựa trên nội dung.
1.2.1.1 Truy vấn bởi ảnh mẫu (QBE – Query By Example)
Trong kiểu truy vấn này, người dùng chỉ định một ảnh truy vấn để tìm kiếm các ảnh tương tự trong cơ sở dữ liệu Ảnh truy vấn có thể là ảnh thông thường, ảnh quét độ phân giải thấp, hoặc phác thảo từ công cụ mô tả giao diện đồ họa Hệ thống này mang lại lợi ích là phương pháp tự nhiên cho người dùng trong việc tra cứu ảnh trong cơ sở dữ liệu.
1.2.1.2 Truy vấn bởi đặc trƣng (QBF – Query By Feature)
Trong hệ thống QBF, người dùng xác định truy vấn bằng cách chỉ ra các đặc trưng cần tìm kiếm, chẳng hạn như tra cứu ảnh có góc phần tử trái chứa 25% pixel màu vàng Truy vấn này được thực hiện thông qua các công cụ giao diện đồ họa chuyên dụng Mặc dù các chuyên gia trong lĩnh vực tra cứu ảnh coi đây là điều bình thường, nhưng người dùng thông thường có thể gặp khó khăn QBIC là một ví dụ điển hình về hệ thống tra cứu ảnh dựa trên nội dung sử dụng phương pháp truy vấn này.
1.2.1.3 Các truy vấn dựa vào thuộc tính ( Attribute – Based queries )
Các truy vấn dựa vào thuộc tính sử dụng chú thích văn bản do con người tạo ra như một khoá tra cứu chính, nhưng việc đạt được độ trừu tượng cao trong biểu diễn này gặp khó khăn do thông tin trong ảnh rất phong phú Mặc dù phương pháp này nhanh chóng và dễ thực hiện hơn, nhưng nó cũng tiềm ẩn độ chủ quan và nhập nhằng cao Hầu hết các nỗ lực nghiên cứu và thương mại hiện nay đều tập trung vào việc phát triển các hệ thống hiệu quả cho phương pháp QBE.
1.2.2 Đánh chỉ số nhiều chiều Để thực hiện tra cứu ảnh dựa vào nội dung đối với các cơ sở dữ liệu ảnh lớn, các kỹ thuật đánh chỉ số nhiều chiều cần được sử dụng Có ba cộng đồng nghiên cứu chính đóng góp vào lĩnh vực này: hình học tính toán, quản trị cơ sở dữ liệu, và nhận dạng mẫu Các kỹ thuật đánh chỉ số nhiều chiều phổ biến đã có gồm thuật toán bucketing, cây k-d, cây k-d ưu tiên, cây tứ phân, cây K-D-B, cây hB, cây R-tree và các biến thể của nó cây R + và R *
Lịch sử của các kỹ thuật đánh chỉ số nhiều chiều có thể quay lại giữa những năm
Vào năm 1970, các phương pháp như khối, cây tứ phân và cây k đã được giới thiệu, nhưng hiệu suất của chúng vẫn chưa đạt yêu cầu Để đáp ứng nhu cầu cấp bách về đánh chỉ số không gian từ các hệ thống GIS và CAD, Guttman đã đề xuất cấu trúc R-tree Dựa trên nghiên cứu của ông, nhiều biến thể R-tree đã được phát triển Năm 1990, Beckmann và Kriegel đã giới thiệu biến thể R-tree động, R* tree, nhưng nó gặp khó khăn khi làm việc với số chiều lớn hơn 20.
Đánh giá hiệu năng tra cứu
Để đánh giá hiệu năng của hệ thống tra cứu, hai chỉ số quan trọng là độ thu hồi (recall) và độ chính xác (precision) được sử dụng Những chỉ số này được lấy từ hệ thống tra cứu thông tin truyền thống Đối với một truy vấn q, tập hợp các ảnh phù hợp với truy vấn đó được ký hiệu là Rq, trong khi kết quả tra cứu của truy vấn q được ký hiệu là Qq Độ chính xác của việc tra cứu được định nghĩa là tỷ lệ giữa những kết quả thu được và những kết quả phù hợp với truy vấn.
) ( ) ( q Q q R q precision Q Độ thu hồi là tỉ lệ những kết quả thích hợp do truy vấn trả lại:
Việc lựa chọn R q gặp khó khăn do sự đa dạng trong cách hiểu về một bức ảnh Khi số lượng ảnh phù hợp vượt quá số lượng ảnh mà hệ thống tìm được, khái niệm độ thu hồi trở nên vô nghĩa Do đó, độ chính xác và độ thu hồi chỉ là mô tả thô về hiệu suất của hệ thống tra cứu Gần đây, MPEG7 đã đề xuất một phương pháp đánh giá hiệu suất mới gọi là ANMRR (average normalized modified retrieval rank), kết hợp độ chính xác và độ thu hồi thành một số đo duy nhất Số lượng ảnh hoàn toàn đúng với truy vấn q được ký hiệu là N(q), trong khi số lượng lớn nhất của các ảnh hoàn toàn đúng với tất cả các truy vấn Q là M Đối với mỗi truy vấn q, mỗi bức ảnh hoàn toàn đúng k được gán một giá trị xếp hạng rank(k), thể hiện thứ hạng của nó trong số những ảnh hoàn toàn đúng nếu ảnh đó nằm trong k kết quả truy vấn đầu tiên, hoặc có giá trị k 1 nếu ảnh không nằm trong k kết quả đầu tiên.
Thứ hạng trung bình AVR q đối với truy vấn q được tính:
Thứ hạng tra cứu sửa đổi MRR q được tính là:
MRR nhận giá trị 0 khi tất cả các ảnh hoàn toàn đúng đều nằm trong k kết quả truy vấn đầu tiên
Thứ hạng tra cứu sửa đổi và chuẩn hoá NMRR q ) nhận giá trị từ 0 đến 1 được tính:
Thứ hạng tra cứu sửa đổi và chuẩn hoá trung bình ANMRR xét trên tất cả các truy vấn
Những hệ thống tra cứu ảnh theo nội dung
Trong những năm gần đây, nhiều hệ thống tra cứu ảnh (CBIR) đã được phát triển, bao gồm các hệ thống nghiên cứu và thương mại Dưới đây là một số hệ thống CBIR tiêu biểu đã được xây dựng.
1.4.1 Hệ thống QBIC (Query By Image Content) của IBM
QBIC là hệ thống truy vấn ảnh dựa trên nội dung thương mại đầu tiên, cho phép người dùng tìm kiếm hình ảnh thông qua các ảnh mẫu, phác thảo và bản vẽ do họ tạo ra Hệ thống này hỗ trợ các truy vấn dựa vào mẫu kết cấu và màu sắc được chọn lựa QBIC sử dụng kỹ thuật flood-fill tăng cường và cung cấp công cụ phác thảo giúp người dùng theo dõi các điểm biên của đối tượng dựa trên khái niệm.
Công cụ "snakes" trong nghiên cứu thị giác máy tính tự động căn lề đường cong phác thảo của người sử dụng với các điểm biên ảnh gần cạnh, nhằm tối đa hóa độ lớn gradient ảnh Sau khi nhận diện đối tượng, QBIC sẽ tính toán các đặc trưng của mỗi đối tượng và ảnh, bao gồm màu sắc, kết cấu, hình dạng và phác thảo.
Ngay sau khi các đặc trưng được mô tả, QBIC sử dụng các độ đo tương tự để nhận diện các ảnh tương tự Trong quá trình tìm kiếm, QBIC phân biệt giữa “các ảnh” và “các đối tượng”, trong đó ảnh là hình ảnh màu đầy đủ hoặc khung đơn của video, còn đối tượng là phần của ảnh QBIC tính toán các đặc trưng cho cả đối tượng và ảnh, và là một trong số ít hệ thống có khả năng nhận diện dựa trên bản miêu tả đánh chỉ số đặc trưng nhiều chiều.
1.4.2 Hệ thống Virage của công ty Virage
Virage là một máy tìm kiếm ảnh dựa vào nội dung, phát triển tại liên hợp Virage, hỗ trợ truy vấn trực quan dựa trên màu sắc, cấu trúc và kết cấu, tương tự như QBIC Tuy nhiên, Virage vượt trội hơn QBIC bằng cách cho phép người dùng tùy chỉnh trọng số của các đặc trưng theo nhu cầu cá nhân Jeffrey và cộng sự đã đề xuất một khuôn khổ mở cho quản lý ảnh, phân loại các đặc trưng trực quan thành hai nhóm: tổng quát (như màu sắc, hình dạng, kết cấu) và lĩnh vực cụ thể (như nhận diện khuôn mặt, phát hiện khối u).
1.4.3 Hệ thống RetrievalWare của tập đoàn công nghệ Excalibur
RetrievalWare là một công cụ tìm kiếm hình ảnh dựa trên nội dung, được phát triển bởi tập đoàn công nghệ Excalibur Công nghệ tìm kiếm này sử dụng các đặc trưng như màu sắc, hình dạng, kết cấu, độ sáng, bố cục màu và tỷ lệ hướng của ảnh để thực hiện truy vấn Người dùng có khả năng điều chỉnh trọng số cho từng đặc trưng trong quá trình tìm kiếm, giúp tối ưu hóa kết quả tìm kiếm theo nhu cầu của họ.
1.4.4 Hệ thống VisualSeek và WebSeek của đại học Columbia
VisualSEEk là một máy tìm kiếm trực quan, trong khi WebSEEk là một máy tìm kiếm văn bản và hình ảnh trên web, cả hai đều được phát triển tại đại học Columbia VisualSEEK hỗ trợ các truy vấn dựa trên đặc trưng trực quan và mối quan hệ không gian, trong khi WebSEEK bao gồm ba module chính: module tập hợp ảnh/video, module phân loại chủ đề và đánh chỉ số, cùng với module tìm kiếm và tra cứu, hỗ trợ tìm kiếm dựa trên từ khóa và nội dung trực quan.
1.4.5 Hệ thống Photobook của phòng thí nghiệm truyền thông MIT
Photobook là một công cụ tương tác phát triển tại MIT Media, cho phép người dùng tìm kiếm ảnh dựa trên màu sắc, hình dạng và kết cấu Hệ thống này hoạt động như một công cụ bán tự động, tạo mẫu truy vấn từ ảnh mẫu do người dùng cung cấp Người dùng có thể trực tiếp đưa ra yêu cầu truy vấn trong nhiều lĩnh vực khác nhau để tối ưu hóa kết quả Trong phiên bản mới nhất, Picard và các cộng sự đã tích hợp người dùng vào quá trình lặp và chú thích tra cứu ảnh.
1.4.6 Hệ thống Netra của Đại học California, Thƣ viện ảnh Alexandria
Netra là hệ thống tra cứu ảnh nguyên mẫu được phát triển trong dự án ADL, sử dụng thông tin màu, kết cấu, hình và vị trí không gian để tìm kiếm các vùng tương tự trong cơ sở dữ liệu Hệ thống này nổi bật với các đặc trưng nghiên cứu chính như phân tích kết cấu qua lọc Gabor, xây dựng từ điển ảnh dựa trên mạng neural, và phân đoạn vùng dựa vào luồng biên.
Kết luận
Trong chương này, tôi đã trình bày kỹ thuật tra cứu ảnh dựa vào nội dung, bao gồm thông tin thị giác, chức năng của hệ thống và đánh giá hiệu năng tra cứu Tôi cũng đã giới thiệu một số hệ thống tra cứu ảnh theo nội dung, đặc biệt nhấn mạnh vào các đặc trưng thị giác Đồ án này tập trung vào việc nâng cao hiệu năng của hệ thống tra cứu ảnh thông qua việc sử dụng đặc trưng màu sắc.
CÁC KHÁI NIỆM CƠ BẢN
Màu sắc
Màu sắc là đặc trưng trực quan quan trọng nhất trong việc đánh chỉ số và tìm kiếm hình ảnh Đây cũng là đặc trưng được sử dụng phổ biến nhất trong lĩnh vực này.
Một ảnh màu tiêu biểu từ camera số hoặc tải xuống từ Internet thường có ba kênh màu, trong khi ảnh xám chỉ có một kênh và ảnh đa phổ có thể có nhiều hơn ba kênh Tuy nhiên, dữ liệu ba chiều từ ảnh màu không mô tả chính xác màu sắc mà chỉ cho biết vị trí của các pixel trong không gian màu Các pixel với giá trị (1,1,1) có thể xuất hiện khác nhau trong các không gian màu khác nhau Do đó, để mô tả đầy đủ một ảnh màu, cần có thông tin không gian hai chiều để xác định vị trí của pixel trong miền không gian màu và dữ liệu màu ba chiều để biết vị trí của pixel trong không gian màu đó.
Trong các ứng dụng CBIR, tín hiệu màu một hoặc hai chiều đóng vai trò quan trọng, đặc biệt khi điều kiện thu ảnh có độ tương phản mạnh Thông tin màu (Hue) được sử dụng để phân biệt chất liệu của các đối tượng trong cảnh Khi xem thông tin màu của một ảnh như tín hiệu đa chiều, việc phân tích thông qua ước lượng mật độ xác suất là phương pháp đơn giản để mô tả màu sắc Lược đồ là công cụ cơ bản nhất trong việc này Ngoài ra, các phương pháp khác để mô tả thông tin màu trong tra cứu ảnh theo nội dung bao gồm không gian màu, véc tơ liên kết màu, tương quan màu, màu trội và các mômen màu.
Không gian màu là mô hình đại diện cho màu sắc dựa trên giá trị độ sáng, xác định thông tin màu được thể hiện Nó có thể là không gian 1, 2, 3 hoặc 4 chiều, trong đó mỗi chiều, hay còn gọi là thành phần, đại diện cho các giá trị độ sáng, còn được gọi là kênh màu Mỗi điểm ảnh trong ảnh thường được biểu diễn bằng không gian màu 3 chiều Các không gian màu phổ biến bao gồm RGB, CMY, CIE L*a*b và HSV Đến nay, vẫn chưa có sự thống nhất về không gian màu nào là tốt nhất.
Không gian RGB là một trong những không gian màu phổ biến nhất được sử dụng trong hiển thị hình ảnh, được xây dựng dựa trên cách mắt con người nhận diện ba màu cơ bản: đỏ, lục và lam Ba thành phần màu này, Red, Green và Blue, được coi là màu gốc và có thể kết hợp với nhau để tạo ra nhiều màu sắc khác nhau Mặc dù không gian RGB là định dạng phổ biến cho ảnh số nhờ vào tính tương thích với màn hình vi tính, nhưng nó lại có hạn chế lớn trong việc phản ánh cách con người cảm nhận màu sắc, điều này làm cho nó không phù hợp cho việc tìm kiếm ảnh.
Không gian màu CMY, viết tắt của Cyan-Magenta-Yellow, được sử dụng chủ yếu trong in ấn Ba màu chính này tương ứng với ba màu mực in cơ bản Chúng được gọi là màu gốc trừ, vì mỗi màu trong không gian CMY được tạo ra thông qua việc hấp thụ ánh sáng Cụ thể, Cyan hấp thụ ánh sáng đỏ, Magenta hấp thụ ánh sáng xanh lục, và Yellow hấp thụ ánh sáng xanh dương.
Công thức chuyển đổi từ không gian màu RGB sang không gian màu CMY đó là:
Hệ thống màu CMY là sự đảo ngược của RGB, với đặc tính đơn giản và ứng dụng rộng rãi trong thực tế Tuy nhiên, nó cũng gặp phải nhược điểm tương tự như RGB, đó là cách mã hóa màu sắc không phản ánh chính xác cách mà con người cảm nhận Do đó, CMY không phù hợp cho việc tra cứu ảnh dựa trên nội dung.
Hình 2.2: Không gian màu CMY
Mô hình L*a*b được CIE đề xuất để định lượng sự khác biệt màu sắc dưới ánh sáng ban ngày, với khả năng chuyển đổi để thích nghi với các nguồn sáng khác Màu sắc được xác định qua hai tọa độ x và y, trong đó độ sáng L* phản ánh cảm nhận giác quan, còn a* và b* là tọa độ màu Trong không gian màu này, các màu khác nhau theo một hướng duy nhất gần như tương đương Tuy nhiên, việc chuyển đổi sang không gian màu RGB lại không tuyến tính, tạo ra sự tách biệt giữa ánh sáng và màu sắc, đồng thời mở ra khả năng tra cứu ảnh dựa vào nội dung một cách hiệu quả.
Mô hình HSV (Hue, Saturation, Value), còn được gọi là HSB (Hue, Saturation, Brightness) định nghĩa một không gian màu gồm 3 thành phần tạo nên:
Hue: là loại màu ( màu đỏ, xanh hay vàng, )
Saturation: là độ thuần khiết của màu
Value: là độ sáng của màu
Mô hình HSV, được phát triển bởi Ray Smith vào năm 1978, là một phép biến đổi phi tuyến của không gian màu RGB Mô hình này giúp phân tách rõ ràng giữa màu sắc (H, S) và độ sáng (V), phù hợp với cách mà con người cảm nhận màu sắc.
Hình 2.3: Không gian màu HSV
2.1.2 Các đặc trƣng về màu sắc
Lược đồ màu là đại lượng đặc trưng cho phân bố màu cục bộ của ảnh
Trong đó, i đại diện cho một bin màu, với giá trị i là 0,255 cho ảnh xám và 0, 2 24 cho ảnh màu RGB Ni là số điểm ảnh có giá trị màu i, trong khi n là tổng số pixel trong ảnh Lược đồ màu này cho thấy rằng, đối với mỗi điểm ảnh trong ảnh I, H I c i thể hiện xác suất điểm ảnh đó có màu c i, nhưng không mang thông tin về không gian Ưu điểm của phương pháp này là khả năng phân tích màu sắc một cách hiệu quả.
Tính toán lược đồ màu ít tốn chi phí, đơn giản, nhanh chóng
Lược đồ màu bất biến với một số phép hình học Affine: tịnh tiến, xoay, co giãn
Lược đồ màu có nhược điểm là chỉ phân bố màu sắc toàn cục trong ảnh mà không xem xét yếu tố vị trí cục bộ, dẫn đến việc mất thông tin không gian về mối quan hệ giữa các màu sắc.
Nhiều hình ảnh có thể sử dụng cùng một lược đồ màu, điều này thường thấy trong việc phân đoạn video và tra cứu thông tin thị giác.
2.1.2.2 Vector liên kết màu (Color Coherence Vector)
Trong nghiên cứu [3], một phương pháp mới đã được giới thiệu để liên kết thông tin không gian với lược đồ màu thông qua các véctơ liên kết màu (CCV - Color Coherence Vectors) Mỗi bin màu được phân loại thành hai loại: liên kết, nếu nó thuộc về một vùng màu đồng nhất lớn, và không gắn kết, nếu không thuộc vùng màu đồng nhất đó Để biểu thị số lượng pixel gắn kết và không gắn kết trong mỗi bin màu, ta có thể sử dụng ký hiệu i cho số pixel gắn kết và j cho số pixel không gắn kết trong ảnh Vector liên kết màu của một bức ảnh được định nghĩa dưới dạng véctơ (1, 1), (2, 2), , (N, N).
Trong đó: 1 1 , 2 2 , , N N là lược đồ màu của ảnh
Theo thông tin không gian bổ sung, Vector liên kết màu cho kết quả tra cứu tốt hơn so với lược đồ màu, đặc biệt đối với các hình ảnh có màu sắc đồng nhất hoặc chứa nhiều vùng kết cấu.
Tương quan màu không chỉ mô tả phân bố màu của các pixel mà còn thể hiện tương quan không gian giữa các cặp màu Một tương quan màu là bảng đánh chỉ số các cặp màu, trong đó xác định xác suất tìm thấy một pixel có màu j cách pixel có màu i một khoảng cách k Nếu I đại diện cho toàn bộ tập hợp các pixel trong ảnh và I c(i) biểu thị tập các pixel có màu c(i), thì tương quan màu được định nghĩa dựa trên các yếu tố này.
Trong đó, i, j {1,2, ,N} k {1,2, , d} p 1 p 2 : là khoảng cách giữa các pixel p 1 và p 2 Kích thước của Correlogram là O m 2 d
Khi chọn d để tính Correlogram, ta cần chú ý vấn đề sau:
- Giá trị d lớn thì cần nhiều chi phí tính toán và không gian lưu trữ
- Giá trị d nhỏ có thể giảm giá trị lưu trữ của đặc trưng
Kết cấu
Kết cấu là một đặc tính quan trọng của ảnh, với các phương pháp biểu diễn kết cấu được phân thành hai loại chính: cấu trúc và thống kê Phương pháp cấu trúc sử dụng toán tử hình thái và đồ thị kề để mô tả kết cấu qua nhận dạng cấu trúc và các quy luật sắp đặt Trong khi đó, phương pháp thống kê áp dụng các kỹ thuật như phổ năng lượng Fourier, ma trận đồng hiện, và phân tích thành phần chính bất invariant để mô tả kết cấu thông qua phân bố thống kê của cường độ ảnh Nhiều biểu diễn kết cấu đã được chứng minh hiệu quả trong việc tra cứu ảnh dựa theo nội dung.
2.2.1 Ma trận đồng hiện (Co-occurence Matrix)
Ma trận đồng hiện là công cụ lưu trữ số lần xuất hiện của các cặp điểm ảnh trong một khu vực nhất định, được tính toán dựa trên các quy luật cụ thể Ma trận này được xây dựng dựa trên độ sáng và khoảng cách giữa các điểm ảnh, với phần tử C i,j đại diện cho số lượng cặp điểm ảnh trong ảnh có kích thước n*m.
Trong không gian hai chiều, tọa độ của một điểm ảnh được ký hiệu là p, q, trong khi i, j đại diện cho các mức độ sáng của ảnh Khoảng cách giữa hai điểm ảnh lân cận được ký hiệu là x, y Để đảm bảo tính chính xác, các giá trị sin, cos, d y, d x cần đủ nhỏ, nhằm xác định p x, q y là các điểm lân cận của p, q.
Các đặc trưng kết cấu suy ra từ ma trận đồng hiện đó là: Độ nhiễu: log 2.7 i j ij ij C
C ij j i Contrast Độ đồng nhất 2.10 i j 1 ij j i y C Homogeneit
Các đặc trưng Tamura, bao gồm thô, độ tương phản, hướng, giống nhất, tính chất đều và nhám, được thiết kế để phù hợp với nghiên cứu tâm lý về nhận thức của con người đối với kết cấu Trong số đó, các yếu tố thô, độ tương phản và hướng đã được áp dụng trong nhiều hệ thống tra cứu ảnh nổi tiếng như QBIC và Photobook.
Thô là một độ đo tính chất hột của kết cấu Để tính toán thô, các trung bình động A k (x,y) được tính đầu tiên sử dụng cỡ 2 k 2 k (k 0,1, ,5)tại mỗi pixel
Trong đó, g(i,j) là cường độ pixel tại (i,j)
Sự khác nhau giữa các cặp trung bình động không theo hướng ngang và đứng cho mỗi pixel được tính toán đó là:
Giá trị của k cực đại hoá E theo một trong hai hướng được sử dụng để đặt cỡ tốt nhất cho mỗi pixel đó là:
Thô được tính bằng trung bình S best trên toàn bộ ảnh đó là:
Cải tiến đặc trưng thô thông qua lược đồ mô tả phân bố của S best đã nâng cao hiệu suất tra cứu và khả năng xử lý cho ảnh hoặc vùng có đa đặc tính kết cấu, từ đó mang lại lợi ích lớn hơn cho các ứng dụng tra cứu ảnh.
Công thức cho tương phản là:
4 : là mômen thứ tư về trung bình
2.2.2.3 Hướng Độ lớn và góc của véc tơ được định nghĩa như sau:
Trong đó, H và V là các khác biệt ngang và dọc của chập
Bằng cách lượng hoá và đếm số pixel có độ lớn G lớn hơn một ngưỡng nhất định, ta có thể xây dựng một lược đồ biểu thị bằng H D Lược đồ này sẽ chỉ ra các đỉnh bền vững cho các ảnh có hướng cao, trong khi các ảnh không có hướng bền vững sẽ có độ phẳng tương đối Toàn bộ lược đồ được tóm gọn để thu thập các độ đo hướng dựa trên tính nhọn của các đỉnh.
Trong đó, p là tổng các phạm vi này trên n p đỉnh
Mỗi đỉnh p,w p là tập các bin màu được phân bố trên nó p là bin màu nhận giá trị đỉnh
Phân rã Wold cung cấp một phương pháp mới để mô tả các kết cấu thông qua các đặc tính nhận thức, bao gồm ba thành phần chính: điều hoà, tạm thời và vô định, tương ứng với chu kỳ, hướng và tính ngẫu nhiên của kết cấu Các kết cấu chu kỳ thể hiện thành phần điều hoà mạnh, trong khi các kết cấu hướng cao có thành phần tạm thời nổi bật, và những kết cấu kém cấu trúc thường có thành phần vô định mạnh hơn Đối với một trường ngẫu nhiên đều, phân rã Wold cho phép trường này được phân chia thành ba thành phần trực giao: vô định, tiền định và tạm thời.
Trong đó, u(m,n) là thành phần vô định d(m,n) là thành phần tiền định e(m,n): là thành phần tạm thời h(m,n): là thành phần điều hoà
Thành phần tạm thời có thể được phân rã tiếp thành h(m,n)và e(m,n)
Trong miền tần số ta có:
Trong đó, F y ( , ),F u ( , ),F d ( , ),F h ( , ),F e ( , ): là các hàm phân bố phổ (SDF) của {y(m,n)},{u(m,n)},{d(m,n)},{h(m,n)} và {e(m,n)} tương ứng
Trong không gian, ba thành phần trực giao có thể được xác định thông qua ước lượng khả năng nhất (MLE), bao gồm điều chỉnh một quá trình AR bậc cao, tối thiểu hóa hàm giá, và giải quyết một tập hợp các phương trình tuyến tính Trong miền tần số, các thành phần Wold được xác định thông qua ngưỡng toàn cục của các độ lớn phổ Fourier của ảnh Phương pháp trích chọn đỉnh điều hoà và mô hình MRSAR được giới thiệu mà không cần phân rã thực sự của ảnh, nhằm dung hòa sự đa dạng của các sự không đồng nhất trong các mẫu kết cấu tự nhiên.
2.2.4 Mô hình tự hồi qui đồng thời SAR
Mô hình SAR là một dạng của mô hình trường ngẫu nhiên Markov (MRF) và đã chứng minh thành công trong việc mô hình hóa cấu trúc trong nhiều thập kỷ qua So với các mô hình MRF khác, SAR yêu cầu ít tham số hơn Trong mô hình SAR, cường độ pixel được xác định thông qua các biến ngẫu nhiên, trong đó cường độ g(x,y) tại pixel (x,y) có thể được ước lượng bằng cách kết hợp tuyến tính các giá trị pixel lân cận g(x',y') cùng với một số hạng nhiễu.
Trong đó, là giá trị xiên được xác định bởi trung bình của toàn bộ ảnh
D là tập lân cận của (x,y)
(x',y' ) là tập các trọng số được kết hợp với mỗi pixel lân cận
(x,y) là một biến ngẫu nhiên độc lập Gaussian với trung bình không
Kỹ thuật sai số bình phương tối thiểu (LSE) và phương pháp ước lượng khả năng nhất (MLE) là hai phương pháp phổ biến được áp dụng để đánh giá các tham số trong mô hình SAR.
Mô hình SAR không có tính bất biến quay, nhưng để tạo ra mô hình SAR bất biến quay (RISAR), các pixel phải nằm trên các đường tròn có bán kính khác nhau với tâm tại mỗi pixel (x,y) Điều này cho phép cường độ g(x,y) tại pixel (x,y) được ước lượng thông qua tập D lân cận của nó.
Số lân cận tròn p được xác định để tối ưu hóa chi phí tính toán và đảm bảo tính bất biến trong quá trình quay Để đạt được điều này, giá trị của p không nên quá lớn hoặc quá nhỏ Thông thường, p có thể được tính toán bằng công thức p 2l.(x,y).
Trong đó, N i là lân cận tròn thứ i của ( x , y ) w i ( x ' , y ' ) là một tập các trọng số được tính trước chỉ ra đóng góp của pixel
Mô hình tự hồi quy đồng thời đa phân giải MRSAR được đề xuất để phân tích các kết cấu có tính chất hột khác nhau trong vòng tròn thứ i Ảnh được biểu diễn bằng hình chóp Gaussian đa độ phân giải, với lọc thông thấp và lấy mẫu dưới được áp dụng ở nhiều mức khác nhau Tại mỗi mức của hình chóp, có thể áp dụng mô hình SAR hoặc mô hình RISAR để phân tích.
MRSAR đã chứng minh hiệu quả vượt trội trên cơ sở dữ liệu kết cấu Brodatz so với các phương pháp đặc trưng kết cấu khác, bao gồm phân tích thành phần chính, phân rã Wold và biến đổi sóng.
2.2.5 Các đặc trƣng lọc Gabor
Lọc Gabor là một công cụ phổ biến trong việc trích xuất các đặc trưng ảnh, đặc biệt là đặc trưng kết cấu Công nghệ này tối ưu hóa việc giảm thiểu sự không chắc chắn trong cả miền không gian và miền tần số, đồng thời thường được áp dụng để xác định hướng và tỷ lệ biên cũng như phát hiện đường Nhiều phương pháp đã được đề xuất để mô tả kết cấu của ảnh dựa trên lọc Gabor, với ý tưởng cốt lõi là sử dụng lọc này để trích xuất các đặc trưng kết cấu hiệu quả.
Hàm Gabor hai chiều g ( x , y ) được định nghĩa:
Trong đó, x : là độ lệch chuẩn của các bao Gaussian dọc theo hướng x y : là độ lệch chuẩn của các bao Gaussian dọc theo hướng y
Sau đó một tập các lọc Gabor có thể thu được bởi sự co giãn và quay thích hợp của
K và S là số các hướng và các tỷ lệ a m : là nhân tố tỷ lệ nhằm để đảm bảo rằng năng lượng là độc lập của m
Một ảnh I(x,y) đã cho, biến đổi Gabor của nó được định nghĩa bằng:
Trong đó, *: chỉ ra số liên hợp phức mn : là trung bình mn : là độ lệch chuẩn của độ lớn W mn (x,y)
00 , , , , , , , f có thể được sử dụng để biểu diễn đặc trưng kết cấu của một vùng kết cấu thuần nhất
2.2.6 Các đặc trƣng biến đổi sóng
Hình dạng
Màu sắc và kết cấu là những thuộc tính quan trọng trong một bức ảnh, trong khi hình dạng không phải là thuộc tính chính mà thường được mô tả sau khi ảnh được phân đoạn thành các vùng hoặc đối tượng Hình dạng chỉ đơn giản là biên giới của một đối tượng trong ảnh Để có một biểu diễn đặc trưng tốt về hình dạng của một đối tượng, nó cần phải bất biến với các yếu tố như dịch chuyển, quay và tỷ lệ.
Biểu diễn hình cổ điển dựa trên một tập hợp các bất biến mômen, trong đó nếu đối tượng R được thể hiện dưới dạng ảnh nhị phân, các mômen trung tâm bậc p q của hình ảnh đối tượng R sẽ được định nghĩa.
Trong đó, (x c ,y c ) là tâm của đối tượng
Mômen trung tâm này có thể được chuẩn hoá để bất biến tỷ lệ:
Dựa trên các mômen này, một tập các bất biến mômen đối với dịch chuyển, quay và tỷ lệ có thể tìm thấy trong:
Chu tuyến của một đối tượng hai chiều được thể hiện qua một dãy đóng đường bao các pixel liên tiếp (x_s, y_s), với 0 ≤ s < N-1 là tổng số pixel trên đường biên Hàm xoay (hoặc góc xoay) θ(s) đo góc tang ngược chiều kim đồng hồ theo độ dài cung s từ một điểm tham chiếu trên đường biên, và có thể được định nghĩa bằng công thức: ds = x dx + y dy, trong đó x_s và y_s là tọa độ của các pixel trên chu tuyến.
Một vấn đề quan trọng trong biểu diễn này là sự biến đổi theo hướng quay của đối tượng và lựa chọn điểm tham chiếu Khi chúng ta di chuyển điểm tham chiếu dọc theo đường biên của đối tượng một khoảng t, hàm xoay sẽ trở thành (s t) Nếu đối tượng được quay một góc, hàm mới sẽ là (s).
Để so sánh sự tương tự hình giữa các đối tượng A và B, cần tính toán khoảng cách tối thiểu trên tất cả các trượt t và các quay có thể.
Giả định rằng mỗi đối tượng đã được tỷ lệ hóa để tổng chiều dài chu vi đạt 1, điều này cho thấy độ đo này không thay đổi khi có dịch chuyển, quay hoặc thay đổi tỷ lệ.
2.3.3 Các ký hiệu mô tả Fourier
Ký hiệu mô tả Fourier được sử dụng để mô tả hình dạng của một đối tượng thông qua biến đổi Fourier của đường bao của nó Đối với một đối tượng hai chiều, đường biên đóng được xác định bởi một dãy các pixel bao liên tiếp (x s, y s).
Độ cong tại một điểm s trên đường biên đóng được xác định bằng tỷ lệ thay đổi theo hướng tan của đường biên, trong đó 0 ≤ s ≤ N và N là tổng số pixel trên đường bao.
Trong đó, K(s): là độ cong s : là hàm xoay của đường biên đóng
Khoảng cách trọng tâm được định nghĩa bằng hàm khoảng cách giữa các pixel bao quanh và trọng tâm (x c ,y c ) của đối tượng:
Toạ độ phức hợp thu được bởi biểu diễn đơn giản các toạ độ của các pixel bao như các số phức hợp:
Biến đổi Fourier của ba loại biểu diễn đường biên đóng tạo ra ba tập hệ số phức, thể hiện hình ảnh của một đối tượng trong miền tần số Các hệ số tần số thấp mô tả đặc điểm hình chung, trong khi các hệ số tần số cao phản ánh chi tiết hình Để đạt được bất biến quay, chỉ sử dụng độ lớn của các hệ số phức và loại bỏ các thành phần pha Để có được bất invariant tỷ lệ, độ lớn của các hệ số được chia cho độ lớn của thành phần DC hoặc hệ số không đầu tiên Bất biến dịch chuyển được thu nhận trực tiếp từ biểu diễn đường biên đóng.
Các ký hiệu mô tả Fourier của đường cong là:
Ký hiệu mô tả Fourier của khoảng cách trọng tâm là:
Trong đó, F i trong 3.31 và 3.32 biểu thị thành phần thứ i của các hệ số biến đổi Fourier
Các biến đổi Fourier của nó có tính đối xứng hay F i F i
Ký hiệu mô tả Fourier của toạ độ phức hợp là:
Trong đó, F 1 là thành phần tần số khác không đầu tiên được sử dụng để chuẩn hoá các hệ số biến đổi
Cả hai thành phần tần số dương và âm đều được xem xét trong quá trình phân tích Hệ số DC phụ thuộc vào vị trí của hình ảnh và cần được loại bỏ Để đảm bảo rằng các đặc trưng hình ảnh của tất cả các đối tượng trong cơ sở dữ liệu có cùng độ dài, đường bao quanh ((x s, y s), 0 s N 1) của mỗi đối tượng được lấy mẫu lại với M mẫu trước khi thực hiện biến đổi Fourier.
2.3.4 Hình tròn, độ lệch tâm, và hướng trục chính
Hình tròn được định nghĩa là:
P là chu vi của một đối tượng
Hướng trục chính là hướng của vectơ riêng lớn nhất trong ma trận bậc hai của một vùng hoặc đối tượng Độ lệch tâm được định nghĩa là tỷ lệ giữa giá trị riêng nhỏ nhất và giá trị riêng lớn nhất.
Thông tin không gian
Các vùng hoặc đối tượng có màu sắc và kết cấu tương tự có thể dễ dàng phân biệt nhờ vào các ràng buộc không gian Chẳng hạn, bầu trời và biển đều có màu xanh, nhưng vị trí không gian của chúng trong ảnh lại khác nhau Do đó, việc xem xét vị trí không gian của các vùng hoặc quan hệ không gian giữa nhiều đối tượng trong một bức ảnh là rất hữu ích cho việc tìm kiếm hình ảnh.
Các thao tác giao và chồng được áp dụng để kết hợp thông tin không gian với thông tin màu Bố cục màu tạo ra một đặc trưng quan trọng trong quá trình tra cứu, được gọi là đặc trưng màu - không gian.
Tìm kiếm ảnh dựa trên quan hệ không gian của các vùng vẫn là một thách thức trong tra cứu ảnh dựa vào nội dung, do việc phân đoạn tin cậy của các đối tượng thường không khả thi Mặc dù một số hệ thống chia ảnh thành các khối đều, nhưng thành công vẫn hạn chế vì hầu hết ảnh tự nhiên không thể được chia thành các khối đồng nhất về không gian Để khắc phục vấn đề này, một phương pháp mới dựa vào biến đổi Radon đã được đề xuất, cho phép khai thác phân bố không gian của các đặc trưng trực quan mà không cần phân đoạn phức tạp.
Phân đoạn
Phân đoạn là quá trình chia ảnh thành các vùng tương ứng với các đối tượng trong ảnh, đóng vai trò quan trọng trong tra cứu ảnh Đặc trưng hình và đặc trưng bố cục đều phụ thuộc vào chất lượng phân đoạn Bài viết này sẽ mô tả một số kỹ thuật phân đoạn đã được áp dụng trong lĩnh vực thị giác máy và tra cứu ảnh.
Một ưu điểm nổi bật của các thuật toán phân đoạn là khả năng tự động trích xuất các đường bao quanh từ hàng triệu bức ảnh mà không cần nhiều thời gian và công sức của con người Tuy nhiên, trong các bối cảnh tự nhiên với những bức ảnh không có điều kiện tiên quyết, phân đoạn tự động không phải lúc nào cũng đáng tin cậy Trong những trường hợp này, thuật toán chỉ có thể phân đoạn các vùng mà không xác định được các đối tượng cụ thể Để đạt được sự phân đoạn chính xác cho các đối tượng, sự can thiệp của con người là cần thiết.
Với các đặc trưng hình, phân đoạn chính xác là mong muốn cao trong khi các đặc trưng bố cục, một phân đoạn thô có thể là đủ.
Độ đo
2.6.1 Khái niệm Độ đo tương tự là một trong những phương pháp tốt để máy tính phân biệt được các hình ảnh qua nội dung của chúng Thông thường hệ thống tra cứu ảnh theo nội dung sẽ truy vấn hình ảnh bằng phương pháp đo tương tự dựa trên các chức năng, việc xác định nó có thể dưới nhiều hình thức như phát hiện biên, màu sắc, vị trí điểm ảnh các phương pháp như histogram, màu sắc và phân tích histogram dòng cột sử dụng biểu đồ để xác định độ tương tự
Giả sử D : là hàm khoảng cách m l k , , : là các đối tượng
Thì D cần đáp ứng các tiền đề sau:
D khoảng cách là số dương k l D l k
D , , khoảng cách có tính đối xứng m l D l k D m k
D , , , bất đẳng thức tam giác
Độ đo đóng vai trò quan trọng trong việc tìm kiếm hình ảnh dựa trên nội dung, ảnh hưởng trực tiếp đến kết quả tìm kiếm và độ chính xác của chúng.
2.6.2 Một số độ đo thông dụng
Khoảng cách giữa hai đối tượng k và l được ký hiệu là D(k,l), trong đó d là số chiều của không gian Tọa độ thứ i của đối tượng k được biểu thị là x ik, và tọa độ thứ i của đối tượng l là x il.
2.6.2.3 Khoảng cách Euclid: Đây là cách tính khoảng cách Euclid thông thường giữa các K bin:
2.6.2.4 Độ đo khoảng cách min-max Được thực hiện trên ý tưởng lấy phần giao của hai lược đồ màu cần so sánh, ta sẽ được một lược đồ màu, tính tổng các giá trị có được từ lược đồ mày sẽ được độ đo min-max Khoảng cách min-max thể hiện sự tương tự giữa hai lược đồ màu Ta có:
KỸ THUẬT TRA CỨU ẢNH DỰA THEO NỘI DUNG
Màu sắc
Lược đồ màu là công cụ hữu ích giúp người dùng tìm kiếm ảnh dựa trên màu sắc, một yếu tố gần gũi và quen thuộc với con người Việc sử dụng lược đồ màu không chỉ thân thiện mà còn hiệu quả trong việc tìm kiếm những bức ảnh có sự tương đồng về màu sắc Độ đo tính tương tự giữa lược đồ màu của ảnh truy vấn H I Q và lược đồ màu của ảnh trong cơ sở dữ liệu H I D sẽ giúp nâng cao khả năng tìm kiếm chính xác hơn.
Trong đó, M : tổng số bin màu
3.1.2 Vector liên kết màu (Color Coherence Vector)
Lược đồ màu đặc trưng vector liên kết màu không chỉ thể hiện màu sắc của ảnh mà còn làm rõ mật độ phân bố màu trong ảnh Mặc dù hai ảnh có thể có lược đồ màu tương tự, sự khác biệt trong phân bố màu sắc có thể dẫn đến việc tra cứu cho ra nhiều ảnh thừa Tuy nhiên, việc sử dụng vector liên kết màu trong quá trình tra cứu sẽ giúp khắc phục tình trạng này, nâng cao độ chính xác trong việc tìm kiếm ảnh.
Với mỗi ô màu, giả sử số điểm liên kết màu là và số điểm không liên kết màu là thì vector liên kết màu được xác định:
Trong đó, n là số ô màu Độ đo tương tự giữa hai ảnh dựa trên đặc trưng vector liên kết màu:
3.1.3 Đặc trưng tự tương quan màu (AutoCorrelogram)
Đặc trưng tương quan màu, tương tự như vector liên kết màu, thể hiện sự phân bố màu sắc của ảnh và mật độ phân bố màu rõ ràng hơn Đặc trưng này giúp giảm thiểu dư thừa trong việc tra cứu ảnh, từ đó tìm kiếm những bức ảnh có ngữ nghĩa gần gũi hơn với ảnh truy vấn.
Bao gồm các thông tin về sự tương quan về mặt không gian các màu
Có thể được dùng để mô tả sự phân bố toàn cục của mối quan hệ không gian cục bộ giữa các màu
Kích thước của vector đặc trưng nhỏ giúp tiết kiệm dung lượng lưu trữ Độ đo tính tương tự về màu sắc giữa đặc trưng tương quan màu của ảnh truy vấn I Q và ảnh trong cơ sở dữ liệu I I rất quan trọng để nâng cao độ chính xác trong việc tìm kiếm hình ảnh.
Độ đo khoảng cách giữa các lƣợc đồ màu
3.2.1 Khoảng cách dạng Minkowsky Độ đo này chỉ so sánh các bin giống nhau giữa các lược đồ màu (xem hình 3.1) và được xác định :
Trong đó, Q và I là hai ảnh
N là số các bin trong lược đồ màu
H Q i là giá trị bin i trong lược đồ màu H Q
H I i là giá trị bin i trong lược đồ màu H I i
N Hình 3.1: Khoảng cách dạng Minkowsky
3.2.2 Khoảng cách toàn phương Độ đo này không chỉ so sánh các bin giống nhau mà so sánh nhiều bin giữa các lược đồ màu (xem hình 3.2) và được xác định:
Trong đó, Q và I là hai ảnh
H Q là lược đồ màu của ảnh Q
H I là lược đồ màu của ảnh I
N là số các bin trong lược đồ màu a i , j biểu thị sự tương tự giữa màu i và màu j i
N Hình 3.2: Khoảng cách toàn phương
3.2.3 Độ đo khoảng cách min-max Được thực hiện lấy phần giao của hai lược đồ cần so sánh, ta sẽ được một lược đồ Tính tổng các giá trị có được từ lược đồ này cho ta được độ min-max Khoảng cách min-max thể hiện sự tương tự giữa hai lược đồ Công thức: Đối với độ đo min: ta tính dựa vào giá trị min tại mỗi K bin màu
Inter Đối với độ đo max: ta tính dựa vào giá trị max tại mỗi K bin màu
Kỹ thuật dựa vào đặc trƣng màu
Hai kỹ thuật phổ biến trong việc tra cứu ảnh theo nội dung dựa trên đặc trưng màu là lược đồ màu toàn cục và lược đồ màu cụ bộ.
3.3.1 Lƣợc đồ màu toàn cục
Lược đồ màu toàn cục là công cụ mô tả sự phân bố màu sắc bằng cách sử dụng tập hợp các bin màu Khi áp dụng lược đồ màu toàn cục, mỗi ảnh sẽ được mã hóa theo lược đồ màu của nó, và khoảng cách giữa hai ảnh được xác định dựa trên sự khác biệt giữa các lược đồ màu tương ứng Kỹ thuật này cho phép sử dụng nhiều phương pháp đo lường khác nhau để tính toán khoảng cách giữa hai lược đồ màu.
Hình 3.3 : Ba ảnh và biểu đồ màu tương ứng
Trong biểu đồ có ba màu: White, Gray anh Red Ta có kí hiệu lược đồ màu như sau: Image A { 25%, 41.7%, 33.3% }
Ta có độ đo khoảng cách giữa hai ảnh A và B (sử dụng độ đo khoảng cách Euclid) cho lược đồ màu toàn cục là:
Lược đồ màu toàn cục là phương pháp truyền thống để tra cứu ảnh dựa trên màu sắc, nhưng nó không cung cấp thông tin về sự phân bố màu trong các vùng ảnh Do đó, khoảng cách giữa các ảnh có thể không phản ánh chính xác sự khác biệt thực sự giữa chúng, dẫn đến hạn chế trong việc sử dụng lược đồ này.
3.3.2 Lƣợc đồ màu cục bộ
Phương pháp lược đồ màu cục bộ liên quan đến việc phân tích sự phân bố màu sắc của các vùng trong ảnh Quy trình bắt đầu bằng việc phân đoạn ảnh thành nhiều khối và sau đó tạo biểu đồ màu cho từng khối Mỗi ảnh được thể hiện qua các biểu đồ này, cho phép so sánh hiệu quả giữa hai ảnh Khoảng cách giữa hai ảnh được tính bằng cách tổng hợp khoảng cách giữa các vùng tương ứng của chúng Đặc biệt, khi áp dụng căn bậc hai của độ đo khoảng cách Euclid, khoảng cách giữa hai ảnh Q và I cho biểu đồ cục bộ được xác định một cách chính xác.
Trong đó, m : là số vùng được phân đoạn trong ảnh n : là số mức trong biểu đồ màu
H i : là giá trị của mức i trong biểu đồ màu đại diện cho vùng k của ảnh.
TRIỂN KHAI & THỰC NGHIỆM
Quy trình xây dựng phần mềm tra cứu ảnh tổng hợp
Hình 4.1: Quy trình huấn luyện tập dữ liệu ảnh ban đầu
Hình 4.2 Mô hình của ứng dụng
Lựa chọn tập ảnh tổng hợp CSDL Ảnh cần truy vấn
Tính độ đo khoảng cách
Lựa chọn tập mẫu
Hình 4.3: Tập ảnh cơ sở dữ liệu
Bộ sưu tập ảnh mẫu mà tôi sử dụng bao gồm 1.491 bức ảnh thuộc nhiều thể loại khác nhau, như các kỳ quan, động vật hoang dã, phong cảnh tự nhiên và đời sống của cư dân ở một số vùng tại Châu Phi Tất cả những hình ảnh này được sưu tầm từ trang web http://www.fuzzywobble.com.
Lựa chọn phương pháp truy vấn ảnh
Sau khi nghiên cứu các phương pháp truy vấn ảnh theo nội dung, tôi nhận thấy rằng phương pháp dựa trên đặc trưng màu sắc là lựa chọn phù hợp cho chúng tôi Lý do là vì phương pháp này dễ tiếp cận, dễ cài đặt và mang lại kết quả tương đối tốt trong một số trường hợp nhất định.
Các độ đo lược đồ màu mà em sử dụng là:
- Độ đo khoảng cách toàn phương
- Độ đo khoảng cách min-max
Trong bài viết này, tôi sử dụng thư viện OpenCV với wrapper EmguCV cho C#.NET để thực hiện các thao tác như tính lược đồ màu và nạp ảnh Đối với phương pháp đo khoảng cách min-max, tôi không sử dụng thư viện bên ngoài nào.
Xây dựng ứng dụng
Hình 4.4: Kiến trúc của ứng dụng
- Interface IImageCompare: Là giao diện định nghĩa ra các phương thức cần triển khai chung cho các lớp sử dụng để so sánh các lược đồ màu
Phương thức cần triển khai là `double GetSimilarity(Bitmap a, Bitmap b)`, trong đó nhận vào hai đối tượng lớp Bitmap đại diện cho hai bức ảnh cần so sánh Kết quả trả về là một giá trị từ 0 đến 1, thể hiện độ tương tự giữa hai bức ảnh.
- Xây dựng một struct RBGHistogram để lưu trữ các thông tin về lược đồ màu
- Triển khai 2 lớp: RGBHistogram_ToanPhuong và RBGHistogram_MIN kế thừa từ IImageCompare để thực thi việc so sánh lược đồ màu nhằm thực hiện mục tiêu bài toán
Class tính độ đo khoảng cách min/max
Class tính độ đo khoảng cách toàn phương
GIAO DIỆN NGƯỜI SỬ DỤNG
- Xây dựng các phương thức xử lý giao diện, nạp ảnh, hiện thị kết quả …
- Phần cứng: Cấu hình tối thiểu để cài đặt NET Framework 3.5
- Hệ điều hành: Windows XP, Windows 7
- Môi trường cần: NET Framework 3.5
Kết quả
Hình 4.5: Giao diện ứng dụng Ảnh cần tra cứu kết quả
Hình 4.6: Tiến trình tra cứu
Hình 4.7: Kết quả tra cứu
Trong nghiên cứu này, chúng tôi thực hiện các thí nghiệm và so sánh kết quả giữa hai phương pháp đo khoảng cách: độ đo khoảng cách min/max và độ đo khoảng cách toàn phương Kết quả cho thấy sự khác biệt rõ rệt giữa hai phương pháp này, với độ đo khoảng cách toàn phương cung cấp thông tin chi tiết hơn về mối quan hệ giữa các điểm dữ liệu, trong khi độ đo min/max tập trung vào các giá trị cực trị Sự lựa chọn giữa hai phương pháp này sẽ phụ thuộc vào mục tiêu phân tích và yêu cầu cụ thể của từng nghiên cứu.
Hình 4.8: So sánh giữa hai kỹ thuật sử dụng
Theo kết quả thực nghiệm từ 21 ví dụ, chúng tôi nhận thấy rằng độ đo khoảng cách toàn phương giúp tìm kiếm ảnh tương tự hiệu quả hơn, nhưng độ chính xác trong việc tìm ảnh chính lại kém Điều này có nghĩa là khi có nhiều ảnh tương tự, chỉ khác nhau về kích thước hoặc độ sáng, kỹ thuật sử dụng độ đo khoảng cách toàn phương cho kết quả chính xác thấp hơn so với độ đo khoảng cách min/max.
Tìm ảnh có đặc trưng màu khá tương tự nhau Tốt hơn
Tìm những ảnh chỉ khác nhau về kích thước, độ sáng… Tốt hơn Độ phức tạp thuật toán Cao hơn
Tốc độ thực nghiệm trong ứng dụng
Nhanh hơn (vì sử dụng thư viện OpenCV với kiểu dữ liệu con trỏ mạnh mẽ)
Chậm hơn vì em chưa tận dụng được các kỹ thuật con trỏ trong C#