Việc sử dụng các phân nhóm để xem nhóm đối tượng 3D cho mục đích công nhận đối tượng trong phạm vi dữ liệu đã được mô tả trong Dorai và Jain.
Các thuật ngữ dùng để chỉ xem một hình ảnh phạm vi của một đối tượng thu được từ bất cứ quan điểm tùy ý. Hệ thống xem xét, làm việc theo một quan điểm phụ thuộc (hoặc xem trung tâm) cách tiếp cận đối với vấn đề công nhận đối tượng, mỗi đối tượng được công nhận là đại diện trong điều khoản của một thư viện hình ảnh loạt các đối tượng đó.
Có rất nhiều ý có thể có của một đối tượng 3D và mục tiêu là một trong những công việc để tránh kết hợp một đầu vào xem không rõ đối với từng hình ảnh của từng đối tượng. Một chủ đề phổ biến công nhận đối tượng được lập chỉ mục, trong đó xem chưa biết được sử dụng để chọn một tập hợp con của các đối tượng trong cơ sở dữ liệu để so sánh, và từ chối tất cả các điểm khác của đối tượng. Một trong những cách tiếp cận để đánh chỉ sử dụng các khái niệm của các tầng lớp xem, một lớp xem là tập hợp các điểm chất lượng tương tự của một đối tượng.
Xem đối tượng đã được nhóm lại vào các lớp dựa trên hình dạng giống nhau của các tính năng phổ. Mỗi hình ảnh đầu vào của một đối tượng xem trong sản lượng cô lập một véc tơ tính năng mà nó mô tả. Các tính năng véc tơ ml = ∑ (ℎ) (ℎ) hóa quang phổ phân phối, H(h) của một đối tượng xem là thu được từ dữ liệu phạm vi của nó bằng cách xây dựng một biểu đồ các giá trị chỉ số hình dạng (có liên quan đến các giá trị bề mặt cong) và tích lũy tất cả các đối tượng điểm ảnh mà rơi vào mỗi thùng. Bởi bình thường hóa quang phổ đối với diện tích tổng số đối tượng quy mô (size) khác nhau mà có thể tồn tại giữa các đối tượng khác nhau được gỡ bỏ. Tại thời điểm đầu tiên ml tính toán mà có ý nghĩa H(h):
58
ml = ∑ (ℎ) (ℎ)
Với moment trung tâm khác mp 2 ≤ p ≤ 10 được định nghĩa là:
mp = ∑ (ℎ - ml)p H(h)
Do đó các véc tơ đặc tính được biểu thị bằng R = (m1, m2, …, m10) nằm trong khoảng [-1,1]
Tại o = {O1, O2, …, On} là một lựa chọn của n đối tượng 3D với cảnh nằm trong cơ sở dữ liệu. MD, cảnh thứ i của j đối tượng, trong cơ sở dữ liệu được biểu thị bằng ( , ) nơi là đối tượng nhãn và là véc tơ đặc tính.
Cho một tập đối tượng đại diện = {( , ), … ( , )} mà mô tả m
cảnh của i đối tượng, mục tiêu là để lấy ra một phần của cảnh pi = { , , … , }. Mỗi cụm trong pi chứa những cảnh của đối tượng thứ i
mà đối tượng đó đã được cấp tương tự dựa trên sự không giống nhau giữa các thời điểm tương ứng với các tính năng của hình quang phổ của các cảnh. Các biện pháp giữa và được định nghĩa:
D( , ) = ∑ ( − )2 Phân cụm dữ liệu Cảnh (Views)
Hình dưới cho thấy một tập hợp con các điểm của Rắn hổ mang được sử dụng trong thử nghiệm. Hình dạng quang phổ được xem là véc tơ đặc tính và sau đó tính năng của nó được xác định. Cảnh của từng đối tượng đang tụ tập, dựa trên D không giống nhau giữa véc tơ thời điểm của họ bằng các kết nối Đề án clustering thứ bậc (Jain và Dubes 1988). Các nhóm thứ bậc thu được với 320 cảnh cả đối tượng Rắn hổ mang được hiển thị trong hình 23.
Cảnh của nhóm phân cấp 9 đối tượng khác cũng tương tự như các dendrogram trong hình 23. Dendrogram này được cắt ở mức độ không giống
59
nhau là 0,1 hoặc ít hơn để có được nhỏ gọn và cũng cách nhau cụm. Các clustering thu được theo cách này chứng minh rằng quan điểm của từng đối tượng rơi vào một vài cụm khác biệt. Các trọng tâm của mỗi cụm này được xác định bởi trung bình của véc tơ thời điểm của lượt xem rơi vào một cụm.
Hình 23: Một tập con các cảnh của ảnh Rắn hổ mang được chọn từ 320 cảnh Dorai và Jain (1995) chứng minh rằng phân nhóm này dựa trên xem nhóm đối tượng phù hợp với điều kiện về tính chính xác phân loại và số lượng phù hợp cần thiết cho việc phân loại đúng của xem thử. Xem đối tượng được nhóm thành các cụm xem nhỏ gọn và đồng nhất, như vậy chứng tỏ sức mạnh của cluster dựa trên sơ đồ tổ chức xem và phù hợp với đối tượng có hiệu quả.
60
Hình 24: Cấu trúc của một nhóm gồm 320 cảnh của một tác phẩm điêu khắc con rắn hổ mang
3.2.2 Nhận dạng ký tự
Kỹ thuật nhận dạng ký tự vào phân cụm dữ liệu được phát triển bởi Connell và Jain (1998) được nhận biết lexemes trong văn bản viết tay cho các mục đích của nhà văn công nhận độc lập. Sự thành công của một hệ thống nhận dạng chữ viết là phụ thuộc vào việc chấp nhận bởi người sử dụng tiềm năng. Nhà văn phụ thuộc hệ thống cung cấp một mức độ cao hơn sự công nhận chính xác hơn so với các hệ thống nhà văn độc lập, nhưng đòi hỏi số lượng lớn dữ liệu đào tạo. Một nhà văn độc lập hệ thống phải có khả năng nhận ra nhiều phong cách văn bản nhằm đáp ứng một người dùng cá nhân.
Khi các biến thiên của phong cách văn bản phải được bắt giữ bởi một hệ thống tăng, nó càng trở nên khó khăn để phân biệt giữa các lớp khác nhau do số lượng chồng chéo trong không gian đặc tính này. Một trong những giải pháp cho vấn đề này là để tách các dữ liệu từ những phong cách viết khác nhau cho mỗi lớp học vào lớp con khác nhau, được gọi là lexemes, đại diện
61
cho các phần của dữ liệu dễ dàng được tách ra từ các dữ liệu của các tầng khác hơn mà lexemes thuộc.
Trong hệ thống này, chữ viết là bị bắt bởi số hóa các tọa độ (x, y) và vị trí của các cây bút và vị trí đặt điểm bút (lên hoặc xuống) với tỷ lệ lấy mẫu không đổi. Sau một số lấy lại mẫu, bình thường hóa, và làm mịn, mỗi nét bút là đại diện như một chuỗi dài biến điểm. Một số liệu dựa trên đàn hồi mẫu lập trình phù hợp và năng động, được xác định để cho phép khoảng cách giữa hai nét để được tính toán.
Sử dụng các khoảng cách tính bằng cách này, một ma trận gần nhau được sử dụng của từng loại chữ số. Mỗi biện pháp ma trận khoảng cách lớp trong cho một lớp chữ số cụ thể. Chữ số trong một lớp đặc biệt là nhóm trong một thực nghiệm để tìm một số lượng nhỏ các nguyên mẫu. Phân cụm được thực hiện bằng cách sử dụng chương trình CLUSTER phân nhóm tốt nhất cho mỗi giá trị của K trên một số phạm vi, trong đó K là số cụm dữ liệu vào để phân vùng. Theo dự đoán, có nghĩa là lỗi bình phương (MSE) giảm đơn điệu như là một chức năng của K. Các “tối ưu” giá trị của K được chọn bằng cách xác định trong biểu đồ của MSE và K. Khi đại diện cho một cụm chữ số của một mẫu thử nghiệm duy nhất, tốt nhất nhận diện kết quả được công nhận đã thu được bằng cách sử dụng các chữ số đó là gần nhất để tới trung tâm cụm.
Sử dụng sơ đồ này, tỷ lệ nhận diện chính xác lên đến 99,33 %.