TỔNG QUAN VỀ TRA CỨU ẢNH DỰA TRÊN NỘI DUNG
Giới thiệu
Kho dữ liệu ảnh ngày càng khổng lồ, vượt quá khả năng kiểm soát của con người, khiến việc tìm kiếm một bức ảnh trong hàng trăm ngàn bức trở nên khó khăn Việc xem từng bức ảnh một để tìm nội dung cần thiết là không khả thi, đặc biệt khi số lượng ảnh sẽ tiếp tục gia tăng trong tương lai Do đó, nhu cầu về một công cụ hỗ trợ tìm kiếm ảnh dựa trên nội dung cơ sở dữ liệu là rất cấp thiết.
Tra cứu ảnh theo nội dung chính thức được giới thiệu lần đầu vào năm 1992, thông qua Hội thảo về các hệ thống quản lý thông tin trực quan do Quỹ Khoa học Quốc gia Hoa Kỳ tổ chức.
Tra cứu ảnh theo nội dung là quá trình tìm kiếm trong cơ sở dữ liệu hình ảnh để xác định những bức ảnh phù hợp với yêu cầu cụ thể Một số hệ thống tìm kiếm tiêu biểu cho phương pháp này bao gồm QBIC, VIR Image Engine, VisualSEEK, NeTrA, MARS và Viper.
Tra cứu ảnh là một công nghệ quan trọng được áp dụng trong nhiều lĩnh vực như y tế, khoa học, hình sự, bảo tồn và ngân hàng Nhiều nhà nghiên cứu đang quan tâm đến việc phát triển các hệ thống tra cứu ảnh để tối ưu hóa quá trình tìm kiếm Theo Wikipedia, hệ thống này cho phép người dùng duyệt, tìm kiếm và tra cứu ảnh từ một cơ sở dữ liệu ảnh số lớn, mang lại hiệu quả cao trong việc xử lý thông tin hình ảnh.
Tra cứu thông tin thị giác
Thuật ngữ “Tra cứu thông tin” đã xuất hiện từ năm 1952 và thu hút sự chú ý của các nhà nghiên cứu từ năm 1961 [Jones and Willet, 1977] Hệ thống tra cứu thông tin có thể được mô tả là một hệ thống lưu trữ và tra cứu thông tin, bao gồm các thành phần tương tác với nhau Mỗi thành phần được thiết kế với chức năng và mục đích riêng, tất cả nhằm đạt được mục tiêu tìm kiếm thông tin trong một phạm vi nhất định.
Trước đây, việc tra cứu thông tin chủ yếu dựa vào cấu trúc văn bản, nhưng định nghĩa này vẫn được áp dụng cho tra cứu thông tin thị giác (VIR - Visual Information Retrieval) Tuy nhiên, có sự khác biệt giữa kiểu thông tin và cách tra cứu giữa văn bản và các đối tượng trực quan Thông tin kết cấu là tuyến tính, trong khi hình ảnh là hai chiều và video là ba chiều Văn bản có điểm bắt đầu và kết thúc rõ ràng, cùng với chuỗi phân tích cú pháp tự nhiên, nhưng chiến lược này không phù hợp với ảnh và video.
Có hai phương pháp chính để giải quyết bài toán tra cứu thông tin thị giác: phương pháp dựa trên thuộc tính và phương pháp dựa trên đặc điểm Phương pháp dựa trên thuộc tính sử dụng các kỹ thuật tra cứu thông tin truyền thống và quản lý cơ sở dữ liệu, nhưng việc phân tích kết cấu thường tốn thời gian và phụ thuộc vào cảm nhận chủ quan của con người, dẫn đến sự không chính xác trong quá trình xử lý Để khắc phục điều này, việc truy cập ảnh và video dựa trên văn bản đã thúc đẩy sự phát triển của các giải pháp dựa trên đặc điểm, trong đó ảnh được trích chọn thông qua các đặc điểm thị giác như màu sắc, kết cấu và hình dạng Bài viết sẽ tập trung vào các đặc điểm cụ thể, đặc biệt là màu sắc và kết cấu, áp dụng cho tra cứu ảnh dựa trên nội dung Tuy nhiên, không có đặc điểm đơn lẻ nào là tối ưu cho mọi tình huống, vì vậy một sự kết hợp của nhiều đặc điểm là cần thiết để đạt được kết quả tra cứu hiệu quả.
1.2.1 Những thành phần của một hệ thống tra cứu ảnh
Một hệ thống tra cứu ảnh đòi hỏi các thành phần như hình 1.1:
1.2.2 Công nghệ tự động trích chọn metadata
Mỗi đặc điểm nguyên thủy của ảnh, như biểu đồ màu và hình dạng, có định dạng đặc trưng riêng Biểu đồ màu thường được sử dụng để thể hiện đặc điểm màu sắc, trong khi hình dạng có thể được biểu diễn bằng các đoạn biên liền nhau Với việc sử dụng metadata phù hợp, hệ thống tra cứu ảnh dựa trên nội dung có thể tìm kiếm ảnh theo màu sắc, hình dạng, kết cấu và sự kết hợp của các đặc tính này.
1.2.3 Giao diện để lấy yêu cầu truy vấn của người sử dụng
Trong bất kỳ hệ thống tra cứu nào, quá trình bắt đầu luôn từ yêu cầu tra cứu của người sử dụng, do đó việc lấy yêu cầu này một cách chính xác là rất quan trọng Tra cứu dựa trên văn bản đã trở nên phổ biến, chẳng hạn như khi tìm kiếm sách trong thư viện bằng từ khóa Đối với hệ thống tra cứu hình ảnh dựa trên nội dung, quá trình này thường sử dụng một hình ảnh mẫu do người dùng cung cấp, gọi là truy vấn bởi mẫu Tuy nhiên, không phải lúc nào người dùng cũng có thể cung cấp ảnh mẫu Để khắc phục vấn đề này, các hệ thống tra cứu hình ảnh hiện nay đã phát triển giao diện cho phép người dùng chỉ định hoặc chọn một số đặc điểm cơ bản nhằm tạo ra ảnh mẫu, như trong hệ thống QBIC.
Hình 1.1 Kiến trúc tổng quan của hệ thống tra cứu ảnh
Internet Intranet or Extranet or
Người dùng có thể chỉ định truy vấn đặc điểm màu sắc trên server của IBM bằng cách lựa chọn số lượng thành phần RED, BLUE, GREEN hoặc chọn màu sắc mong muốn từ bảng màu Bên cạnh đó, người dùng cũng có thể chọn kết cấu ưa thích cho đặc điểm kết cấu và vẽ phác họa cho truy vấn hình dạng.
1.2.4 Phương pháp để so sánh độ tương tự giữa các ảnh
Hệ thống tra cứu ảnh dựa trên nội dung sử dụng các phương pháp dựa trên đặc điểm nguyên thủy để so sánh độ tương tự giữa ảnh mẫu và tập ảnh Tuy nhiên, sự tương tự giữa các ảnh không chỉ được xác định bằng một cách duy nhất, mà còn phụ thuộc vào yêu cầu truy vấn Ví dụ, hai bức tranh có thể có độ tương tự cao khi xem xét mặt trời, nhưng lại thấp khi chỉ tập trung vào biển xanh Do đó, việc tìm ra phương pháp đo độ tương tự chính xác cho mọi kiểu yêu cầu là rất khó khăn, và mỗi phương pháp tra cứu đều có giới hạn riêng Công nghệ tra cứu dựa trên màu sắc, chẳng hạn, có thể gặp khó khăn khi phân biệt giữa bầu trời xanh và mặt biển xanh Vì vậy, hiệu quả của công nghệ tra cứu ảnh phụ thuộc vào kiểu yêu cầu mà người dùng đưa ra.
1.2.5 Công nghệ tạo chỉ số và lưu trữ dữ liệu hiệu quả Đối với một tập dữ liệu ảnh lớn thì không gian lưu trữ cho metadata là rất cần thiết Một hệ thống tra cứu ảnh dựa trên nội dung phải có những công nghệ hiệu quả để quản lý metadata đồng thời phải có chuẩn để mô tả nó Chuẩn MP7 đang là chuẩn quan trọng nhất để mô tả metadata cho cả dữ liệu ảnh và dữ liệu video Khi một truy vấn được xử lý trên một cơ sở dữ liệu lớn, việc so sánh độ tương tự giữa ảnh truy vấn và tất cả các hình ảnh từng cặp là không thể thực hiện được bởi người dùng chỉ cần những ảnh có độ tương tự cao so với ảnh mẫu Những chỉ số cấu trúc có thể giúp tránh được việc tìm kiếm tuần tự và cải thiện truy vấn một cách hiệu quả nên được sử dụng trong hệ thống tra cứu ảnh dựa trên nội dung Hơn nữa với những cơ sở dữ liệu ảnh thường xuyên thay đổi thì chỉ số cấu trúc động là rất cần thiết Khi nội dung của ảnh được thể hiện bởi các vector low dimension và khoảng cách giữa các ảnh được định nghĩa (chẳng hạn như khoảng không gian được tính toán bằng khoảng cách Euclidean) cây R và các thành phần của nó có thể được sử dụng để đánh chỉ số cho ảnh Khi khoảng cách không được định nghĩa như không gian vector hoặc khi không gian vector là Hight dimension hoặc khi mà những gì chúng ta có chỉ là một hàm khoảng cách tức là khoảng không metric thì những phương pháp để đánh chỉ số ảnh dựa trên hàm khoảng cách trong không gian metric là thích hợp.
Đặc điểm của tra cứu ảnh
Để xác định kiểu truy vấn phù hợp cho người sử dụng trong cơ sở dữ liệu ảnh, cần hiểu rõ nhu cầu của họ, bao gồm lý do tìm kiếm ảnh, mục đích sử dụng và cách họ đánh giá lợi ích của hình ảnh Nhu cầu này thường đa dạng, với ảnh tĩnh được yêu cầu vì nhiều lý do khác nhau.
Minh họa của những bài báo, truyền đạt thông tin hoặc cảm xúc khó mô tả bằng từ
Hiển thị dữ liệu chi tiết cho phân tích
Ghi lại dữ liệu thiết kế cho việc sử dụng sau này
Truy cập ảnh từ kho dữ liệu yêu cầu tìm kiếm hình ảnh với mô tả đặc trưng của đối tượng, bao gồm các yếu tố như kết cấu và màu sắc Các thuộc tính của ảnh rất đa dạng và có thể được sử dụng hiệu quả trong quá trình tra cứu.
Sự kết hợp đặc biệt của đặc tính màu sắc, kết cấu, hình dạng (ví dụ những ngôi sao mà xanh)
Sự xắp xếp của các kiểu riêng biệt của đối tượng (ví dụ những chiếc ghế xung quanh cái bàn)
Sự mô tả kiểu sự kiện ( Trận bóng đá)
Tên cá nhân , vị trí, sự kiện( ví dụ Nữ hoàng đón nhận vương miện)
Những cảm xúc chủ quan kết hợp với hình ảnh( ví dụ niềm hạnh phúc) Metadata giống như ai đã tạo ra ảnh, ở đâu, khi nào?
Các kiểu truy vấn được phân loại thành ba mức độ phức tạp, mỗi mức đều mang tính trừu tượng cao hơn so với mức trước đó Để trả lời những truy vấn này một cách chính xác, người dùng thường cần tham khảo thêm tri thức bên ngoài.
Mức 1: Gồm tra cứu bởi những đặc điểm nguyên thủy như màu sắc, kết cấu, hình dạng hoặc những vị trí đặc biệt của những phần tử ảnh Ví dụ “Tìm một bức tranh với một đối tượng dài , màu xám ở trên đỉnh góc trái”, “ Tìm ảnh chứa ngôi sao màu vàng được xếp thành một dãy” hoặc “Tìm bức tranh giống như thế này” Mức tra cứu này sử dụng các đặc điểm từ chính những ảnh đó mà không cần tham khảo bất kỳ tri thức bên ngoài nào Nó thường được ứng dụng trong lĩnh vực chuyên gia như việc đăng kí thương hiệu, nhận dạng các bộ sưu tập thiết kế
Mức 2: Gồm những tra cứu bằng những đặc điểm biến đổi liên quan đến một số kết luận logic về sự đồng nhất của các đối tượng được mô tả trong ảnh Nó có thể được chia thành: a) Khôi phục các đối tượng theo kiểu nhất định( ví dụ tìm ảnh của chiếc xe buýt 2 tầng b) Tra cứu những đối tượng đặc biệt hoặc người (ví dụ tìm bức ảnh của tháp Eiffel) Để trả lời truy vấn ở mức này cần phải tham khảo một số tri thức bên ngoài, đặc biệt là truy vấn ở mức 2b Trong ví dụ đầu tiên ở trên hiểu biết trước tiên cần thiết để xác định đối tượng là một chiếc xe buýt hơn là một chiếc xe tải Trong ví dụ thứ 2 cần một tri thức về một cấu trúc có tên là “tháp Eiffel” Truy vấn mức này thường gặp hơn so với mức 1
Mức 3: Gồm tra cứu bởi những thuộc tính trừu tượng liên quan đến một số lượng đáng kể suy luận ở mức cao về ý nghĩa và mục đích của đối tượng Mức này có thể được chia làm: a) Tra cứu tên gọi của những sự kiện hoặc kiểu của hành động (ví dụ Tìm bức tranh về điệu nhảy dân gian Scottish) b) Tra cứu ảnh với những cảm xúc (“Tìm bức tranh mô tả sự đau khổ”)
Những thành công trong việc trả lời truy vấn ở mức độ cao đòi hỏi sự tinh tế của công cụ dò tìm, nhằm tạo ra kết nối giữa nội dung ảnh và các khái niệm trừu tượng thông qua lập luận phức hợp và ý kiến chủ quan Tuy nhiên, loại truy vấn này ít phổ biến hơn so với mức độ 2 và thường xuất hiện trong lĩnh vực báo chí và thư viện nghệ thuật.
Sự phân lớp các kiểu truy vấn có thể giúp minh họa điểm mạnh và hạn chế của các công nghệ tra cứu ảnh khác nhau Hiện nay, có một khoảng cách đáng kể giữa mức 1 và mức 2 Một số tác giả coi mức 2 và mức 3 là tra cứu ảnh dựa trên ngữ nghĩa, do đó, khoảng cách giữa mức 1 và mức 2 được xem là khoảng cách ngữ nghĩa.
Những ứng dụng cơ bản của tra cứu ảnh
Tra cứu ảnh được ứng dụng trong rất nhiều lĩnh vực, những lĩnh vực thành công bao gồm:
Quản lý tài sản trí tuệ
Thiết kế kiến trúc máy móc
Thiết kế thời trang và nội thất
Hệ thống thông tin địa lý
Giáo dục và đào tạo
Tra cứu ảnh dựa trên nội dung
Thuật ngữ "tra cứu ảnh dựa trên nội dung" được Kato giới thiệu lần đầu tiên để mô tả các thí nghiệm của ông về việc tự động tìm kiếm hình ảnh trong cơ sở dữ liệu dựa trên đặc điểm hình dạng và màu sắc Quá trình này hiện nay được sử dụng phổ biến để truy xuất hình ảnh mong muốn từ một tập hợp lớn dựa vào các đặc điểm như màu sắc, kết cấu và hình dạng, những đặc điểm này được trích xuất tự động từ chính hình ảnh Các đặc điểm có thể là nguyên thủy hoặc ngữ nghĩa, nhưng quá trình trích chọn phải chủ yếu được thực hiện tự động Cần lưu ý rằng việc tra cứu ảnh dựa trên từ khóa gán thủ công không được coi là tra cứu ảnh dựa trên nội dung, mặc dù từ khóa có thể mô tả nội dung của hình ảnh.
Tra cứu ảnh dựa trên nội dung là một phương pháp quan trọng trong lĩnh vực xử lý ảnh và đồ họa máy tính, tập trung vào việc tìm kiếm hình ảnh theo các đặc điểm mong muốn từ một tập hình ảnh lớn Phương pháp này khác biệt với các lĩnh vực liên quan nhờ vào việc nhấn mạnh các đặc điểm như màu sắc, kết cấu, hình dạng và ngữ nghĩa, từ đó tạo ra những vấn đề nghiên cứu và phát triển độc đáo trong lĩnh vực này.
1.5.1 Những phương pháp quản lý dữ liệu ảnh truyền thống
Việc lưu trữ và tra cứu ảnh hiệu quả đã trở thành mối quan tâm lớn đối với các nhà quản lý thư viện ảnh và bộ sưu tập thiết kế trong nhiều năm Trong khi việc tìm kiếm ảnh trong một tập nhỏ có thể dễ dàng thực hiện, việc xác định ảnh trong một tập lớn với hàng ngàn đề mục đòi hỏi công nghệ tiên tiến hơn Công nghệ phổ biến hiện nay là gán mô tả dữ liệu cho mỗi ảnh thông qua từ khóa, tiêu đề hoặc mã phân lớp khi ảnh được đưa vào tập hợp lần đầu, và sau đó sử dụng những ký hiệu này làm khóa để tìm kiếm.
Nhiều thư viện ảnh hiện nay sử dụng từ khóa như phương pháp tra cứu chính, với sơ đồ chỉ số được phát triển để phản ánh đặc điểm tự nhiên của tập ảnh Một ví dụ tiêu biểu là hệ thống của Getty Image, với hơn 10.000 từ khóa được phân loại thành chín nhóm nghĩa như địa lý, con người, hoạt động và khái niệm Trong lĩnh vực nghệ thuật, từ điển chuyên đề về nghệ thuật và kiến trúc (AAT), bắt nguồn từ viện Rensselaer Polytechnic vào những năm 80, đã trở thành công cụ quan trọng cho các thư viện nghệ thuật toàn cầu AAT bao gồm 120.000 thuật ngữ mô tả đối tượng, chất liệu hình ảnh, kiến trúc và di sản văn hóa, được sắp xếp theo hệ thống phân cấp khái niệm như thuộc tính vật lý, kiểu dáng, giai đoạn và chất liệu.
Một số sơ đồ chỉ số sử dụng mã phân lớp thay vì từ khóa để mô tả nội dung ảnh, vì chúng cung cấp ngôn ngữ độc lập và thể hiện rõ ràng khái niệm hệ thống phân cấp Ví dụ điển hình là CONCLASS của trường Đại học Leiden [Gordon, 1990].
Công nghệ đánh chỉ số ảnh hiện nay nổi bật với khả năng chỉ số từ khóa, cho phép mô tả đa dạng nội dung ảnh Nó dễ dàng mở rộng để thích ứng với các khái niệm mới và mô tả nội dung ảnh ở mức độ phức tạp Mặc dù có nhiều phần mềm tra cứu văn bản hỗ trợ tự động hóa tìm kiếm, nhưng quá trình đánh chỉ số thủ công, dù là từ khóa hay mã phân lớp, vẫn gặp phải hai hạn chế chính.
Thứ nhất: Nó vốn là công việc rất tỉ mỉ, thời gian đánh chỉ số được đưa ra cho ảnh tĩnh là khoảng 7-40 phút/1 ảnh [Eakins and Graham, 1999]
Thứ hai: Sự không nhất quán trong việc gán nghĩa cho các bức ảnh là vấn đề đáng lưu ý, khi mà những người khác nhau thường sử dụng các từ ngữ khác nhau để mô tả cùng một hình ảnh.
1.5.2 Các chức năng của hệ thống tra cứu ảnh dựa trên nội dung
Hệ thống tra cứu ảnh dựa trên nội dung tiêu biểu kết hợp nhiều nguồn thông tin khác nhau như văn bản, ảnh và video, đồng thời đáp ứng nhu cầu của người sử dụng Nó phân tích nội dung của các nguồn thông tin và truy vấn của người dùng, từ đó đối sánh để tìm ra các tiêu chí liên quan Các chức năng chính của hệ thống bao gồm khả năng tìm kiếm và phân loại thông tin hiệu quả.
Phân tích nội dung của nguồn thông tin và chuyển đổi chúng thành không gian đặc điểm để phù hợp với truy vấn của người sử dụng là một bước quan trọng Quy trình này giúp tối ưu hóa việc đối sánh thông tin một cách nhanh chóng Mặc dù bước này thường tốn nhiều thời gian do phải xử lý tuần tự các thông tin trong cơ sở dữ liệu, nhưng nó chỉ cần thực hiện một lần và có thể tiến hành độc lập.
Phân tích các truy vấn của người dùng và chuyển đổi chúng thành các định dạng phù hợp để so sánh với cơ sở dữ liệu nguồn Bước này tương tự như bước trước, nhưng chỉ áp dụng cho các ảnh truy vấn.
Xác định chiến lược đối sánh truy vấn tìm kiếm với thông tin trong cơ sở dữ liệu là bước quan trọng có thể thực hiện trực tuyến và nhanh chóng Công nghệ đánh chỉ số hiện đại giúp nhận diện không gian đặc điểm, từ đó tăng tốc độ xử lý đối sánh hiệu quả.
Để tối ưu hóa hệ thống, cần thực hiện các điều chỉnh cần thiết dựa trên phản hồi từ người dùng hoặc hình ảnh được tra cứu, thường thông qua việc đối chiếu các tham số trong công nghệ đối sánh.
Hệ thống tra cứu ảnh dựa trên nội dung kết hợp các nguồn thông tin trực quan đa dạng và đáp ứng yêu cầu của người sử dụng Sự liên kết giữa hai yếu tố này được thể hiện qua các công việc cụ thể, như minh hoạ trong hình 1.2.
Hình 1.2: Các chức năng chính của hệ thống tra cứu ảnh dựa trên nội dung
Người sử dụng yêu cầu:
Có nhiều cách để thực hiện truy vấn trực quan, trong đó phương pháp tự nhiên với người sử dụng là hiệu quả nhất, cho phép thu thập thông tin đầy đủ từ người dùng để trích xuất các kết quả có ý nghĩa Dưới đây là những phương pháp thường được áp dụng trong kỹ thuật tra cứu ảnh dựa trên nội dung.
Truy vấn bằng ví dụ (QBE - Query By Example) cho phép người dùng chỉ định một hình ảnh gốc để tìm kiếm trong cơ sở dữ liệu ảnh Hình ảnh truy vấn có thể là một bức ảnh chuẩn, một bức ảnh quét với độ phân giải thấp, hoặc được vẽ bằng công cụ đồ họa Ưu điểm của phương pháp này là tính tự nhiên và dễ sử dụng, giúp người dùng dễ dàng tra cứu hình ảnh trong cơ sở dữ liệu.
Các phương pháp tra cứu ảnh dựa trên nội dung
1.6.1 Tra cứu ảnh dựa trên màu sắc
Tra cứu ảnh dựa trên nền tảng màu sắc tương tự chủ yếu dựa vào ý tưởng phân tích biểu đồ màu của từng ảnh Mỗi ảnh được đưa vào hệ thống sẽ trải qua quá trình tính toán tỷ lệ các điểm ảnh của từng màu và lưu trữ biểu đồ màu trong cơ sở dữ liệu Người dùng có thể tìm kiếm bằng cách xác định tỷ lệ màu mong muốn (ví dụ 75% Xanh, 25% Đỏ) hoặc sử dụng một ảnh mẫu với biểu đồ màu đã được tính toán Quá trình đối sánh sẽ so sánh biểu đồ màu của các hình ảnh với biểu đồ màu của truy vấn gần nhất Kỹ thuật phổ biến nhất cho việc này là biểu đồ màu giao nhau, được phát triển bởi Swain và Ballard vào năm 1991, và các kỹ thuật cải tiến từ phương pháp này hiện đang được áp dụng rộng rãi trong các hệ thống tra cứu ảnh hiện đại.
Phương pháp cải tiến độc đáo của Swain và Ballard bao gồm việc sử dụng biểu đồ màu tích lũy, kết hợp với biểu đồ màu giao nhau và các thành phần đối sánh không gian Ngoài ra, hệ thống còn áp dụng vùng truy vấn dựa trên màu sắc Kết quả đạt được từ các hệ thống này đã để lại ấn tượng sâu sắc.
1.6.2 Tra cứu ảnh dựa trên kết cấu
Khả năng tra cứu ảnh dựa trên kết cấu tương tự có thể không hiệu quả, nhưng lại hữu ích trong việc phân biệt các vùng ảnh có màu sắc tương đồng, như bầu trời và biển hoặc lá cây và cỏ Nhiều kỹ thuật được áp dụng để đo kết cấu tương tự, với công nghệ tiên tiến nhất dựa trên việc so sánh các giá trị đã biết, cụ thể là các số liệu thống kê thứ hai được tính toán từ truy vấn và ảnh lưu trữ Từ đó, có thể xác định khoảng cách của kết cấu ảnh thông qua các yếu tố như mức độ tương phản, độ thô, phương hướng và tính cân đối, hoặc chu kỳ, phương hướng và tính ngẫu nhiên.
Các phương pháp phân tích kết cấu trong tra cứu bao gồm bộ lọc Gabor và Fractal, cho phép truy vấn kết cấu tương tự như truy vấn màu sắc bằng cách chọn mẫu từ bảng màu hoặc cung cấp ảnh mẫu Hệ thống sẽ tìm kiếm những ảnh có độ đo kết cấu tương đồng nhất với truy vấn Gần đây, công nghệ cuốn từ điển kết cấu do Ma và Manjunath phát triển đã tự động tra cứu các vùng kết cấu rõ ràng trong ảnh dựa trên sự tương tự, nhằm nhận diện và mã hóa các lớp quan trọng của kết cấu trong tập ảnh.
1.6.3 Tra cứu ảnh dựa trên hình dạng
Khả năng tra cứu hình dạng là một nhu cầu cơ bản, với hình dạng là khái niệm rõ ràng hơn so với kết cấu Những đặc điểm tiêu biểu của hình dạng được tính toán cho từng đối tượng trong ảnh lưu trữ, và truy vấn được thực hiện bằng cách so sánh các đặc điểm của ảnh truy vấn với các đặc điểm đã lưu Hai loại đặc điểm hình dạng chính thường được sử dụng là đặc điểm tổng thể như tỷ lệ bên ngoài và hình tròn, cùng với các đặc điểm cục bộ như đoạn biên liên tiếp Các phương pháp so sánh hình dạng bao gồm biến dạng co giãn, so sánh biểu đồ định hướng của biên, và sử dụng kỹ thuật so sánh đồ thị Truy vấn trong hệ thống tra cứu hình dạng thường được thực hiện thông qua hình ảnh mẫu hoặc bản phác thảo do người dùng vẽ.
Việc đối sánh hình dạng của các đối tượng 3 chiều là một thách thức lớn, và hiện chưa có giải pháp chung cho vấn đề này Tuy nhiên, một số phương pháp hữu ích đã được phát triển để xác định các đặc điểm của đối tượng từ nhiều góc độ khác nhau Một trong những phương pháp là xây dựng tập mô hình 3 chiều từ các ảnh 2 chiều có sẵn và đối sánh chúng với các mẫu trong cơ sở dữ liệu [Chen and Stokman, 1996] Ngoài ra, một phương pháp khác là tạo ra nhiều ảnh 2 chiều từ mỗi đối tượng trong cơ sở dữ liệu và đối sánh từng ảnh này với ảnh truy vấn [Dickínon et al.].
Nghiên cứu về độ đo tương tự hình dạng 3 chiều đã được đề cập trong tài liệu năm 1998, với các vấn đề liên quan bao gồm việc định nghĩa các độ đo này [Shum et al, 1996] và cung cấp công cụ cho người dùng để tạo ra các truy vấn hình dạng 3 chiều [Horikoshi và Kasahara, 1990].
1.6.4 Tra cứu ảnh bởi các đặc điểm khác
Một trong những phương tiện truy cập dữ liệu hiệu quả nhất là tìm kiếm theo vị trí trong ảnh, điều này rất quan trọng trong hệ thống thông tin địa lý Các phương pháp truy cập dữ liệu theo không gian đã được áp dụng từ lâu (Chock et al [1984], Roussopoulos et al [1988]) và công nghệ tương tự cũng được dùng để tìm kiếm ảnh chứa các đối tượng có mối quan hệ không gian xác định (Chang et al [1998], Chang và Jungert [1991]) Mặc dù các thuật toán cho việc tra cứu không gian vẫn đang được cải tiến, việc đánh chỉ số không gian một mình lại không hiệu quả bằng khi kết hợp với các yếu tố khác như màu sắc và hình dạng.
Các kiểu đặc điểm ảnh được sử dụng làm nền tảng cho việc tra cứu ảnh dựa trên nội dung chủ yếu dựa vào sự biến đổi của cường độ điểm ảnh Các công nghệ hiện nay tập trung vào việc trích xuất những đặc điểm phản ánh các khía cạnh hình ảnh mà con người có thể cảm nhận, mặc dù khó mô tả Kỹ thuật biến đổi wavelet đã chứng minh hiệu quả cao trong việc đối sánh các đặc điểm wavelet từ truy vấn với ảnh lưu trữ, mang lại kết quả tra cứu hứa hẹn Ngoài ra, phương pháp tra cứu theo hình thức cũng đạt kết quả tốt với hai phiên bản: một cho đối sánh toàn bộ và một cho đối sánh các phần được chọn của ảnh.
TRA CỨU ẢNH DỰA TRÊN KẾT CẤU
Giới thiệu
Kết cấu là một khái niệm trực quan quan trọng trong tri giác của con người, tương tự như màu sắc, và là yếu tố cần thiết khi truy vấn cơ sở dữ liệu ảnh Mặc dù mọi người đều có thể nhận thấy kết cấu, việc xác định nó lại khá khó khăn, dẫn đến nhiều khái niệm khác nhau về kết cấu Dù không có định nghĩa chung, các nhà nghiên cứu đều đồng thuận vào hai điểm chính trong việc phân tích kết cấu.
Trong một kết cấu có sự biến đổi lớn về cường độ giữa các điểm ảnh liền kề, giới hạn của độ phân giải thể hiện sự không đồng nhất.
Kết cấu là một thuộc tính đồng nhất trong các không gian lớn hơn độ phân giải của ảnh, cho thấy rằng ảnh có độ phân giải nhất định.
Khác với màu sắc, kết cấu diễn ra trên một vùng rộng lớn hơn là tại một điểm và thường được định nghĩa qua các mức xám tương tự như màu sắc Một số nhà nghiên cứu xác định kết cấu bằng cách mô tả nó qua các thuật ngữ của hệ thống thị giác con người như hướng, độ thô và độ tương phản Trong khi đó, một số nhà nghiên cứu khác lại định nghĩa kết cấu dựa trên các ứng dụng thực tiễn, tạo ra nhiều khía cạnh đa dạng và phương pháp trích xuất kết cấu Định nghĩa kết cấu dựa trên nhận thức của con người phù hợp cho nghiên cứu và thảo luận về đặc tính tự nhiên của nó, nhưng cũng đặt ra một số vấn đề khi được sử dụng làm cơ sở cho các thuật toán phân tích kết cấu.
Kết cấu theo nhận thức của con người
Julez đã tiến hành nghiên cứu về sự nhận thức cấu trúc trong nội dung phân biệt cấu trúc, đặt ra câu hỏi về thời điểm hai kết cấu được xem là khác biệt mặc dù có cùng độ sáng, độ tương phản và màu sắc Phương pháp nghiên cứu của Julez liên quan đến việc gắn kết một kết cấu với một kết cấu khác; nếu phần gắn kết nằm ngoài kết cấu lân cận, hai kết cấu sẽ được coi là không giống nhau Để phân tích khả năng phân biệt giữa các kết cấu, Julez đã sử dụng hai số liệu thống kê để hỗ trợ cho kết quả nghiên cứu.
Số liệu thống kê thứ nhất đo khả năng quan sát giá trị xám tại vị trí ngẫu nhiên trong ảnh, được tính từ biểu đồ cường độ điểm ảnh mà không phụ thuộc vào sự tương tác giữa các điểm ảnh lân cận, ví dụ như cường độ trung bình của ảnh Ngược lại, số liệu thống kê thứ hai định nghĩa khả năng quan sát một cặp giá trị xám xuất hiện từ điểm này đến điểm khác với khoảng cách, hướng và vị trí ngẫu nhiên, phản ánh các thuộc tính của cặp giá trị điểm ảnh.
Julez nhận thấy rằng các kết cấu có số liệu thống kê thứ nhất giống nhau nhưng số liệu thống kê thứ hai khác nhau thì dễ phân biệt Tuy nhiên, ông không thể tìm thấy những kết cấu có cả hai số liệu thống kê giống nhau mà vẫn có thể phân biệt được Điều này dẫn đến phỏng đoán của ông rằng “Chuẩn thứ hai của kết cấu là không thể phân biệt được”.
Caelli đã kết luận rằng chuẩn thứ hai của kết cấu có thể phân biệt được qua nhận thức thị giác của con người Nghiên cứu của Julez cho thấy phỏng đoán ban đầu của ông là sai, và ông nhận ra rằng kỹ thuật cảm nhận thị giác không cần sử dụng số liệu thống kê thứ ba mà chỉ cần số liệu thống kê loại hai, gọi là textons, để phân biệt các kết cấu Ba lớp texton bao gồm màu sắc, khối kéo dài, và điểm kết thúc của khối kéo dài Julez nhấn mạnh rằng hệ thống nhận thức thị giác không thể tính toán các tham số thống kê cao hơn loại hai, mà chỉ sử dụng số liệu thống kê loại một của textons Nghiên cứu tâm sinh lý học đã phát triển các mô hình để phân biệt kết cấu, xác định các thước đo mà con người nhạy cảm nhất với sự biến đổi của kết cấu Beck chứng minh rằng cảm nhận phân đoạn kết cấu liên quan đến phân tích không gian tần số Các thí nghiệm của Campbell và Robson cho thấy hệ thống trực quan phân tích hình ảnh thành các bộ lọc tần số và hướng khác nhau De Valois nghiên cứu bộ não khỉ cho thấy tế bào phản ứng với tần số và hướng cụ thể, dẫn đến việc áp dụng phương pháp lọc đa kênh trong phân tích kết cấu Tamura đã chỉ ra rằng các thuộc tính như không đồng dạng, mật độ, độ thô, độ gồ ghề, tính đều đặn, hướng và tần số rất quan trọng trong mô tả kết cấu, và nhiều thuộc tính này không độc lập với nhau, điều này giải thích tại sao không có phương pháp duy nhất nào phù hợp cho tất cả các loại kết cấu.
Phương pháp cho phân tích kết cấu
2.3.1 Tiêu chuẩn kết cấu thống kê
Một tập hợp các đặc điểm được sử dụng để biểu diễn các thuộc tính của cấu trúc ảnh, bao gồm độ tương phản, mối tương quan và entropy Những đặc điểm này thường được trích xuất từ các chuỗi giá trị mức xám, giá trị mức xám khác nhau hoặc ma trận kết hợp Việc lựa chọn các đặc điểm này rất quan trọng, vì ảnh không thể được tái tạo từ tập hợp các đặc điểm đã được đánh giá.
2.3.2 Mô hình kết cấu ƣớc lƣợng (Stochastic)
Quá trình ước lượng bị ảnh hưởng bởi nhiều tham số, và việc phân tích được thực hiện thông qua việc xác định mô hình cùng với các tham số ước lượng Điều này cho phép tái tạo xử lý ước lượng từ các mô hình và tham số kết hợp Các tham số ước lượng đóng vai trò quan trọng trong việc giải quyết các bài toán phân đoạn và phân lớp kết cấu Tuy nhiên, một thách thức lớn đối với mô hình kết cấu là sự không tương thích của một số kết cấu tự nhiên với các hạn chế của mô hình đặc thù.
2.3.3 Tiêu chuẩn kết cấu cấu trúc
Kết cấu có thể được coi là các mô hình hai chiều, bao gồm một tập hợp các đặc điểm gốc hoặc mẫu con được sắp xếp theo những quy luật nhất định Những đặc điểm này có thể là hình dạng như hình tròn, hình lục giác hoặc mô hình dấu chấm Các kết cấu lớn thường chứa những đặc điểm gốc lớn, trong khi kết cấu nhỏ được hình thành từ các đặc điểm nguyên thủy nhỏ hơn, liên quan đến độ phân giải của ảnh Ảnh có kết cấu được tạo ra từ các đặc điểm nguyên thủy theo các quy luật cả trong phạm vi ảnh và mối quan hệ giữa các ảnh Ví dụ, các kết cấu này có thể bao gồm những cấu trúc như miếng vải mỏng hoặc bức tường gạch, và việc xác định các đặc điểm này thường gặp nhiều khó khăn.
2.3.4 Những đặc điểm kết cấu
Mô hình trong phân tích ảnh nhằm khám phá các đặc tính nội tại của ảnh và hiểu rõ hiện tượng tạo ra chúng Các mô hình này giúp xác định quy định và giả định về thế giới vật lý cũng như quy trình vẽ hình Nghiên cứu mô hình kết cấu tập trung vào việc tìm kiếm sự phù hợp, thậm chí hoàn hảo, để biểu diễn các kết cấu phổ biến Mục tiêu là áp dụng những mẫu này cho các công việc như phân lớp, phân đoạn các phần của ảnh với các kết cấu khác nhau, và phát hiện những thiếu sót hay bất thường trong kết cấu.
Structural models can be categorized into three main groups: Probability Density Function (PDF) models, General Shape (GS) models, and Partial models.
Mô hình hàm mật độ xác suất (PDF) là công cụ quan trọng trong việc phân tích sự phân bố không gian của cường độ trong kết cấu Các phương pháp như mô hình ngẫu nhiên Gauss-Markov (MGRF) và phương pháp đồng sự kiện mức xám (GLC) cho phép đo lường sự tương tác giữa các điểm ảnh, với MGRF tập trung vào các điểm ảnh đơn lẻ và GLC đo sự tương tác giữa các cặp điểm ảnh.
Các phương pháp GS tạo mẫu kết cấu như bề mặt, đo lường các đặc điểm mà con người có thể cảm nhận như biên, đường cường độ cực trị, dạng sóng và hướng Những phương pháp này tương tác với một lượng lớn điểm ảnh trên phạm vi rộng hơn so với các phương pháp PDF Các phương pháp điều hòa đo tính chu kỳ trong kết cấu, tìm kiếm những đặc điểm trực quan diễn ra liên tiếp với khoảng thời gian đều đặn Ngoài ra, các phương pháp nguyên thủy khám phá ra tập hợp các đặc điểm trực quan cô đọng như đường biên và cường độ cực trị, tạo ra vectơ đặc điểm bao gồm cường độ của những đặc điểm này trong kết cấu.
Những phương pháp cục bộ (Partial) tập trung vào một số khía cạnh đặc biệt của những đặc tính kết cấu không có lợi cho các khía cạnh khác.
Những phương pháp phân tích kết cấu
2.4.1 Phương pháp Gause Markov Random Field (GMRF) Đây là phương pháp PDF có tham số, nó có giả định cơ bản là những kết cấu một phần là cấu trúc, một phần là ước lượng Trong thực tế những phương pháp này thừa nhận rằng cấu trúc trong kết cấu có thể được mô tả một cách cục bộ
Phương pháp này sử dụng hàm mật độ xác suất Gauss để ước lượng cường độ điểm ảnh dựa trên các điểm ảnh lân cận Ý nghĩa của phân bố Gauss thể hiện qua hàm tuyến tính của cường độ các điểm ảnh gần nhau Phương pháp bình phương tối thiểu thường được áp dụng để xác định các hệ số tuyến tính và biến đổi của phân bố Gauss Mặc dù phân bố nhị thức thường được ưa chuộng hơn, nhưng trong các tham số sử dụng, phân bố nhị thức vẫn tương đương với phân bố Gauss.
Chellappa và Chaterjee đưa ra công thức tiêu biểu sau:
I(x,y) = ∑(x, y)∈Ns Ө(x, y) (I(x + x,y + y) + I(x - x,y - y)) + e(x,y) Ở đây, I(x,y) đại diện cho cường độ của điểm ảnh tại tọa độ (x,y) trong ảnh, với N là tập hợp các điểm ảnh láng giềng đối xứng, bao gồm cả điểm ảnh đó N s là một nửa của N, và (x,y) là tham số ước lượng được tính theo phương pháp bình phương tối thiểu Ngoài ra, e(x,y) là trung bình nhiễu Gauss không đổi, có các thuộc tính như sau:
Với V là sai số bình phương trung bình của ước lượng bình phương tối thiểu
2.4.2 Phương pháp Gray-Level Co-occurrence Matrices Đây là phương pháp PDF không có tham số Sự khác biệt giữa phương pháp này với các phương pháp có tham số phản ánh sự phân biệt được tạo bởi các con số thống kê giữa hai kỹ thuật tạo mẫu PDF có tham số và không tham số Không gian mức xám đồng nhất ước lượng những thuộc tính của ảnh có liên quan đến những số liệu thống kê thứ hai Haralick gợi ý sử dụng ma trận mức xám đồng nhất (GLCM) cái mà đã trở thành một trong những phương pháp nổi tiếng nhất và được sử dụng rộng rãi những đặc điểm kết cấu Ma trận đồng nhất mức xám Pd(G*G) với vectơ thay thế d=(dx,dy) được định nghĩa như sau:
P d (i,j)=|| {((r, s),(t, v)):(t, v)=(r+dx, s+dy), I(r, s)=i, I(t, v)=j}|| Ở đây (r, s), (t,v) N x N, ||.|| là lực lượng trong tập hợp
Hình 2.1 minh họa quá trình tính toán ma trận đồng nhất mức xám, trong đó hình 2.1a cho thấy ảnh được lượng tử hóa thành 4 mức cường độ, và hình 2.1b thể hiện ma trận GLC với offset (dx, dy) = (0, 1) Hai cặp điểm được đóng khung trong hình 2.1a với I(x,y) = 1 và I(x+dx,y+dy) = 2, trong khi bin tương ứng được nhấn mạnh trong hình 2.1b Ma trận Co-occurrent được định nghĩa theo cách này là không cân đối, và một biến thể cân đối có thể được tính bằng công thức P = P_d + P_-d Ma trận này giúp khám phá các thuộc tính về phân bố không gian cấp xám trong cấu trúc ảnh Nếu đầu vào trong ma trận tập trung theo đường chéo, cấu trúc sẽ thô đối với véc tơ thay thế d Haralick đã chỉ ra một số đặc điểm kết cấu có thể tính toán từ ma trận này, được liệt kê trong bảng 2.1.1, trong đó x, y là phương sai và độ lệch tiêu chuẩn của P_d(x) = j P_d(x,j) và P_d(y) = i P_d(i,y).
Ma trận Co-occurrent gặp phải một số khó khăn, bao gồm việc thiếu phương pháp hoàn hảo cho việc lựa chọn véc tơ thay thế d và khó khăn trong việc tính toán ma trận với nhiều giá trị khác nhau của d Hơn nữa, với mỗi giá trị d, có một số lượng lớn các đặc điểm có thể được tính toán, điều này yêu cầu phải áp dụng một số phương pháp lựa chọn đặc điểm để xác định những đặc điểm quan trọng nhất.
Bảng 2.1: Một số trích chọn đặc điểm kết cấu từ ma trận đồng nhất mức xám Đặc điểm kết cấu Công thức
2.4.3 Phương pháp Gray-Level Difference (GLD)
Như Weszka đã chỉ ra, phương pháp GLD tương tự như GLC, nhưng khác biệt chính là GLD tính toán véc tơ chênh lệch cường độ, trong khi GLC tính toán ma trận các cặp cường độ Điều này có nghĩa là GLD tổng hợp ma trận GLC qua các đường chéo của nó.
Cụ thể, cho bất kỳ khoảng cách thay thế d=(dx,dy) thì:
Mật độ xác suất của Id(x,y) được ký hiệu là P d, trong đó nếu có m mức xám, sẽ tạo thành một véc tơ m chiều với thành phần thứ i là xác suất mà Id(x,y) nhận giá trị i Đối với ảnh I rời rạc, việc tính toán Pd trở nên đơn giản bằng cách đếm số lần xuất hiện của mỗi giá trị I d (x,y) Các đặc điểm tương tự cũng có thể được tính toán theo bảng 2.1.1.
2.4.4 Phương pháp phân bố kết cấu (Texture spectrum)
Các phương pháp lấy mẫu kết cấu được mô tả trong bài viết coi cường độ điểm ảnh như những hàm ước lượng từ các điểm ảnh lân cận Tuy nhiên, không gian của tất cả các mẫu cường độ trong vùng lân cận rất lớn, ví dụ với vùng lân cận 5 x 5, PDF trở thành một hàm trong không gian 24 chiều Phương pháp GMRF và GLC nhằm giảm độ phức tạp tính toán của mô hình PDF GMRF ước lượng cường độ dựa trên giả định rằng phân bố là Gaussian và tập trung trong một hàm tuyến tính của các cường độ lân cận Trong khi đó, GLC sử dụng mô hình biểu đồ, yêu cầu không gian cường độ được chia thành các "bin" và chỉ nhạy cảm với các tác động loại hai, không nhạy cảm với các tác động loại cao hơn.
Phương pháp phân bố kết cấu sử dụng mô hình PDF rất nhạy cảm với các tác động mạnh Đặc biệt, các phương pháp này áp dụng mô hình biểu đồ, trong đó sự phân chia không gian cường độ phản ứng mạnh với các tác động cao giữa các điểm ảnh Để tạo ra sự nhạy cảm này, việc lượng tử hóa các giá trị cường độ thành một số mức nhỏ giúp giảm đáng kể kích thước không gian.
Số lượng lớn nhất của các mức được sử dụng là bốn nhưng hai mức hoặc ngưỡng là phổ biến hơn
Ojala đã phát triển đơn vị kết cấu với tám thành phần, mỗi thành phần có hai giá trị {0,1} từ các điểm ảnh lân cận 3x3, được gọi là mẫu nhị phân cục bộ (LBP) Sự phân bố của LBP trên một vùng tạo nên phân bố kết cấu, với 256 kiểu nhị phân được tính toán bằng cách so sánh từng điểm ảnh không phải trung tâm với điểm ảnh trung tâm Phương pháp LBP là bất biến với độ xám và dễ dàng kết hợp với thước đo tương phản đơn giản thông qua việc tính toán mức xám trung bình của các điểm ảnh lân cận sau khi áp dụng ngưỡng 0,1.
Với mỗi điểm lân cận 3 x 3, xét cường độ Pi của các điểm ảnh hợp thành với P 0 là cường độ của điểm ảnh trung tâm thì:
1 Lấy ngưỡng P i với giá trị của điểm trung tâm:
2 Đếm số giá trị điểm khác 0 : n= ∑ i-1 P i r
3 Tính toán mẫu nhị phân cục bộ : LBP = ∑ i-1 P i ´ *2 i-1
4 Tính toán độ tương phản cục bộ
Phương pháp LBP tương tự như các phương pháp của Wang và He, nhưng tạo ra ít đơn vị kết cấu phân biệt hơn Wang thực hiện lượng tử hóa ở ba mức cường độ, dẫn đến 3, 8 hoặc 6561 đơn vị kết cấu khác nhau Trong khi đó, Read lượng tử hóa ảnh thành bốn mức cường độ và chỉ sử dụng các điểm lân cận 3 x 2, tạo ra 4, 6 hoặc 4096 đơn vị kết cấu phân biệt.
Ví dụ Ngưỡng Trọng số
Hình 2.2: Tính toán thước đo mẫu nhị phân cục bộ và tương phản
Một phương pháp phân bố kết cấu khác là N-tuple, trong đó các đơn vị kết cấu sử dụng một tập con của điểm từ vùng lân cận lớn hơn, thay vì tất cả các điểm trong vùng lân cận nhỏ như các phương pháp trước Thông thường, các tập con này bao gồm từ 6 đến 10 điểm, được chọn ngẫu nhiên từ các vùng lân cận có kích thước từ 6 x 6 đến 10 x 10 Mỗi bộ nhớ thuật toán N-tuple cần có 30 đơn vị N-tuple, mỗi đơn vị sử dụng một tập con ngẫu nhiên khác nhau Đồ thị đơn vị kết cấu và thông tin lớp kết cấu được tính toán độc lập cho từng đơn vị N-tuple, và sau đó thông tin lớp kết cấu từ các đơn vị này được kết hợp để tạo ra thông tin lớp tổng thể cho bộ nhớ N-tuple.
Các phương pháp phân bố kết cấu nhạy cảm dựa vào sự tương tác cao giữa các điểm ảnh có thể được cải thiện bằng cách giảm kích thước không gian cường độ thông qua quá trình lượng tử hoá Trong không gian đã được giảm thiểu này, chỉ cần một số lượng giới hạn các điểm ảnh, thường là dưới 10, kết hợp với đặc điểm véc tơ để hình thành nên đặc tính của kết cấu.
Mô hình hình dạng chung dùng trong kết cấu (GS-Gross Shape)
Một thuộc tính quan trọng của nhiều kết cấu là sự lặp lại tự nhiên của các phần trong ảnh Hàm tương quan tự động của ảnh có thể được sử dụng để đánh giá số lượng lớn tính đều đặn, cũng như độ mịn và độ thô của kết cấu Hàm tương quan tự động P của ảnh I được định nghĩa như sau:
Hàm tương quan tự động của các kết cấu không tuần hoàn được thể hiện qua hình chóp đơn, với bề rộng và bề dài phụ thuộc vào độ thô và hướng của kết cấu Đối với kết cấu mịn như hình 3.a, hàm tương quan tự động giảm nhanh, tạo ra hình nhọn, trong khi kết cấu thô như hình 4.3 có hàm tương quan giảm chậm hơn, dẫn đến đỉnh rộng hơn Kết cấu hướng như hình 3.c tạo ra đỉnh thon dài, còn kết cấu cân đối như hình 3.d cho thấy các đỉnh và rãnh trong hàm tương quan tự động.
Hình 2.3: Hàm tương quan tự động tính toán cho 4 kết cấu
Các phương pháp tương quan tự động đã được so sánh với các phương pháp khác trong thí nghiệm của Wesszka và lý thuyết của Harlow Cả hai nghiên cứu chỉ ra rằng, khả năng phân biệt của các phương pháp tương quan tự động yếu hơn so với các phương pháp GLC Nguyên nhân được giải thích là do sự không phù hợp của mô hình kết cấu.
Tamura đã phát triển một phương pháp tiếp cận dựa trên nhận thức tri giác của con người, xác định sáu đặc điểm kết cấu: độ thô, độ tương phản, hướng, đường nét, trạng thái đều đặn và độ ráp Trong đó, ba đặc điểm đầu tiên đã đạt được thành công đáng kể và được áp dụng rộng rãi Độ thô, được coi là đặc điểm kết cấu cơ bản, có mối quan hệ trực tiếp với phạm vi và tỷ lệ lặp lại, giúp xác định kích thước lớn nhất của một kết cấu trong hình ảnh, bao gồm cả những kết cấu nhỏ Tính trung bình tại mỗi điểm được tính toán dựa trên các lân cận có kích thước theo luỹ thừa.
Sau đó tại mỗi toạ độ lấy sự khác nhau giữa các cặp trung bình tương ứng trong vùng lân cận không trùng nhau
Để tối ưu hóa kích thước cho từng điểm, cần lựa chọn giá trị k sao cho E đạt giá trị lớn nhất theo cả hai hướng Độ thô được đo bằng trung bình Sopt (x,y) = 2 opt trên toàn bộ bức ảnh Độ tương phản được xác định qua vùng động của mức xám, phản ánh sự khác biệt giữa màu đen và trắng Đầu tiên, độ tương phản được đo bằng độ lệch tiêu chuẩn của mức xám, sau đó sử dụng kurtosis 4 để đánh giá Do đó, thước đo tương phản được định nghĩa một cách rõ ràng.
Giá trị trung bình và giá trị biến thiên là hai yếu tố quan trọng trong việc phân tích dữ liệu Thực nghiệm n=1/4 cho thấy sự tương đồng chặt chẽ nhất với các thước đo của con người, giúp nâng cao độ chính xác trong việc đánh giá thông tin.
Hướng là thuộc tính toàn bộ của một vùng, không nhằm phân biệt các hướng mà tổng hợp độ hướng Hai mặt nạ đơn giản được sử dụng để phát hiện biên ảnh, tính toán độ lớn tại mỗi điểm Biểu đồ Hd của xác suất biên được tính bằng cách xác định các tọa độ có độ lớn vượt ngưỡng và lượng tử hóa theo góc biên, phản ánh góc độ hướng Để rút ra thước đo từ Hd, đỉnh cao độ được tính từ moment thứ hai Ảnh tamura tính toán ba đặc điểm tại mỗi điểm ảnh, xử lý như sự phân bố không gian giữa độ thô, độ tương phản và hướng, cho phép xem ảnh như phân bố RGB và sử dụng đặc điểm kiểu biểu đồ màu Giá trị độc đáo của kết cấu được tính toán qua một cửa sổ tại mỗi điểm.
Những phương pháp Primitive
Phần này thảo luận về các phương pháp kết cấu biên và hình thái học, trong đó các kết cấu ban đầu có phạm vi và hướng đặc trưng Các đường thẳng và biên có hướng xác định tốt, với phạm vi được quy định bởi chiều rộng của chúng Các phương pháp điều hoà đồng thời đo lường phạm vi và các đặc điểm hướng, cho thấy mối quan hệ chặt chẽ giữa các phương pháp như Gabor và biến đổi Fourier, trong đó Gabor là một phần của biến đổi Fourier Tuy nhiên, sự khác biệt giữa các phương pháp này là rõ ràng: các phương pháp Primitive tập trung vào các đặc điểm cục bộ, trong khi các phương pháp điều hoà đo lường các đặc điểm rời rạc trong không gian.
Các phương pháp Primitive liên quan đến các phương pháp kết cấu, nhưng chúng có xu hướng sử dụng các mẫu kết cấu đơn giản hơn, trong khi các phương pháp kết cấu thường tạo ra độ phức tạp cao hơn.
2.6.1 Phương pháp Primitive đầu tiên (Early primitive)
Bộ lọc không gian là phương pháp hiệu quả nhất để đạt được các thuộc tính kết cấu của ảnh, với các nghiên cứu trước đây tập trung vào việc đo mật độ biên trên một đơn vị diện tích Các kết cấu mịn thường có mật độ biên cao hơn so với kết cấu thô, và thước đo biên thường được tính toán thông qua các mặt nạ biên đơn giản như Robert hoặc Laplace Độ lớn của thước đo biên có thể được xác định trên toàn bộ vùng của ảnh bằng cách phân tích phản ứng từ các mặt nạ này Hsu đã đề xuất một phương pháp mới, đo cường độ điểm khác nhau giữa các điểm lân cận với cường độ không đổi, và khoảng cách này được sử dụng làm thước đo mật độ biên.
Malik và Peroma đã phát triển bộ lọc không gian để mô phỏng cảm nhận kết cấu trong hệ thống thị giác của con người Bộ lọc cân xứng, thường là các biến thể của hàm Gauss, được sử dụng phổ biến Để phân biệt các cặp kết cấu có độ sáng trung bình và thống kê thứ hai giống nhau, các phương pháp không tuyến tính trở nên cần thiết Việc phát hiện đường ranh giới kết cấu được thực hiện thông qua các phương pháp phát hiện biên đơn giản, cho phép phân biệt giữa các mẫu kết cấu tự nhiên và nhân tạo một cách hiệu quả.
Bộ lọc Gabor là một phương pháp hiệu quả trong xử lý tín hiệu số để trích chọn các đặc điểm kết cấu, hoạt động cả trong miền tần số và không gian Chúng giúp tạo mẫu cho các phản ứng của hệ thống tri giác con người Turner đã áp dụng danh sách bộ lọc Gabor để phân tích kết cấu, cho phép lọc đa kênh ảnh và trích xuất thông tin về tần số và hướng Đặc điểm kết cấu được tính toán bằng cách lọc ảnh với dãy bộ lọc hướng và tính độ lệch chuẩn của đầu ra trong miền tần số Quy trình lọc ảnh I(x,y) với bộ lọc Gabor được mô tả cụ thể.
W mn (x,y) = ∫I(x,y)gmn * (x - x 1 ,y – y 1 )dx 1 dy 1 thể hiện độ lệch chuẩn và độ lệch trung bình của đại lượng |Wmn|, được áp dụng cho đặc điểm véc tơ Đầu ra của bộ lọc ở các phạm vi khác nhau sẽ tạo ra các vùng khác nhau.
Vì lý do này mà mỗi thành phần của đặc điểm véc tơ được chuẩn hoá bằng cách sử dụng độ lệch chuẩn.