DATN- NGHIÊN CỨU CÁC THUẬT TOÁN NHẬN DẠNG TRÊN ROBOT DỰA VÀO CỬ CHỈ TAY NGƯỜI

TÓM TẮT ĐỒ ÁN Đồ án được nghiên cứu, khảo sát và thực hiện với mục đích trình bày một cách tổng quan về nghiên cứu nhận dạng cử chỉ tay người, bao gồm các giai đoạn chung của nhận dạng cử chỉ tay, phương pháp và kỹ thuật phổ biến của từng giai đoạn, các hướng nghiên cứu và tóm tắt một số mô hình nhận dạng cử chỉ tay thành công đã được công bố. Đồng thời áp dụng những kiến thức đã được học trong nhà trường để phân tích, xây dựng chương trình nhận dạng cử chỉ tay người. Chương trình áp dụng những kỹ thuật xử lý hình ảnh giúp người dùng có thể tương tác được với máy tính bằng những cử chỉ thông dụng. Người dùng sẽ thực hiện tương tác thông qua một camera được kết nối với máy tính bằng các cử chỉ tay, chương trình sẽ phân tích cử chỉ ghi lại được và đưa ra hành động mà người dùng mong muốn. Ứng dụng này phần nào có thể thay thể chuột và bàn phím khi sử dụng máy tính, giúp người dùng có thêm các phương thức tương tác mới, linh hoạt và dễ dàng hơn.

CƠ SỞ LÝ THUYẾT

Tổng quan về xử lý ảnh số

Con người tiếp nhận thông tin chủ yếu qua các giác quan, trong đó thị giác là yếu tố quan trọng nhất Gần đây, sự phát triển của phần cứng máy tính đã thúc đẩy mạnh mẽ lĩnh vực xử lý ảnh và đồ họa, mở ra nhiều ứng dụng trong đời sống Xử lý ảnh và đồ họa đóng vai trò thiết yếu trong việc nâng cao tương tác giữa con người và máy móc.

Quá trình xử lý ảnh là thao tác trên ảnh đầu vào để đạt được kết quả mong muốn, có thể là một bức ảnh "tốt hơn" hoặc một kết luận cụ thể, như thể hiện trong Hình 2.1.

Ảnh được coi là tập hợp các điểm ảnh, trong đó mỗi điểm ảnh thể hiện cường độ sáng hoặc một đặc trưng tại vị trí cụ thể của đối tượng trong không gian Điều này cho thấy ảnh trong xử lý ảnh có thể được xem như một hàm n chiều P(c1, c2, , cn) Hệ thống xử lý ảnh được mô tả qua sơ đồ tổng quát như Hình 2.2.

Hình 2.15: Các bước cơ bản trong một hệ thống xử lý ảnh [4]

2.1.2 Một số vấn đề cơ bản trong xử lý ảnh

2.1.2.1 Điểm ảnh Ảnh trong thực tế là một tập các điểm liên tục về không gian và độ sáng Để có thể xử lý bằng máy tính, ảnh cần phải được số hóa Số hóa ảnh là sự biến đổi tín hiệu liên tục sang rời rạc thông qua quá trình lấy mẫu và lượng hóa thành phần giá trị Mỗi điểm như vậy gọi là điểm ảnh (pixel) Khái niệm điểm ảnh là một phần tử của ảnh số có tọa độ (x,y) với độ xám hoặc màu nhất định, kích thước và khoảng các giữa các điểm ảnh được chọn sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật, các phần tử của ảnh số tạo thành ma trận điểm ảnh.

2.1.2.2 Độ phân giải của ảnh Độ phân giải của ảnh là mật độ điểm ảnh được thể hiện trên ảnh số Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được lựa chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh Việc lựa chọn khoảng cách giữa các điểm ảnh tạo nên mật độ phân bố đó chính là độ phân giải của ảnh

Không gian màu là mô hình toán học dùng để diễn tả màu sắc thực tế dưới dạng số Trong xử lý ảnh, có nhiều không gian màu được phát triển cho các mục đích khác nhau Các không gian màu cơ bản thường được sử dụng bao gồm không gian mức xám, không gian màu RGB và HSV.

Không gian mức xám thể hiện mức xám của ảnh, với mỗi điểm ảnh nhận giá trị từ 0-255, tương ứng với màu đen và màu trắng Ảnh mức xám được mã hóa bằng 8 bit, cho phép ứng dụng trong việc tìm đường biên ảnh, trích xuất đặc trưng và phục vụ cho việc phát hiện đối tượng một cách hiệu quả.

Không gian màu RGB là một hệ thống màu phổ biến trong đồ họa máy tính và các thiết bị kỹ thuật số, bao gồm ba màu cơ bản: đỏ (R), xanh lục (G) và xanh lơ (B) Hệ thống này cho phép mô tả tất cả các màu sắc khác nhau Đối với hình ảnh số được mã hóa 24 bit, mỗi kênh màu R, G, B sẽ nhận giá trị từ 0 đến 255, với 8 bit cho mỗi kênh.

Không gian màu HSV là một hệ thống phổ biến trong chỉnh sửa và phân tích ảnh, cũng như trong lĩnh vực thị giác máy tính Nó được mô tả bằng ba thông số chính: H (màu sắc), S (sự bão hòa) và V (cường độ sáng) Không gian màu này có thể được hình dung dưới dạng hình trụ hoặc hình nón, trong đó vòng tròn từ 0-360 độ biểu thị màu sắc, khoảng cách từ trục ra ngoài thể hiện sự bão hòa, và chiều cao của hình khối biểu diễn giá trị cường độ sáng.

Hình 2.17: Minh họa không gian màu HSV 2.1.2.3 Một số hàm xử lý ảnh cơ bản

 Tăng giảm độ tương phản và độ sáng

Giả sử ảnh I là ảnh xámvới kích thước m × n và các số nguyên a, b Khi đó, kỹ thuật tăng, giảm độ tương phản và sáng được thể hiện: for (i = 0; i < m; i ++) for (j = 0; j < n; j ++)

Khi đó, hệ số a chính là tỷ lệ tương phản và b là độ sáng.

Giả sử ảnh I là ảnh xám với kích thước m × n, hai số min, max và ngưỡng θ khi đó: Kỹ thuật tách ngưỡng được thể hiện: for (i = 0; i < m; i ++) for (j = 0; j < n; j ++)

Kỹ thuật chuyển đổi ảnh thành ảnh đen trắng sử dụng ngưỡng θ được áp dụng trong việc quét và nhận dạng văn bản, giúp tách biệt các ký tự để dễ dàng nhận diện Nếu min = 0 và max = 1, quy trình sẽ xác định giá trị của mỗi pixel dựa trên ngưỡng đã đặt, từ đó cải thiện hiệu quả trong việc nhận dạng văn bản.

Kỹ thuật nhằm giảm bớt số mức xám của ảnh bằng cách nhóm lại số mức xám gần nhau thành 1 nhóm.

Kỹ thuật tách ngưỡng thường được áp dụng cho hai nhóm, nhưng thực tế có thể có nhiều nhóm với kích thước khác nhau Để đảm bảo tính tổng quát trong quá trình biến đổi, người ta thường sử dụng kích thước đồng nhất gọi là bunch_size.

I [i, j] = I [i, j]/ bunch – size × bunch_size ∀(i,j) 11EquationSection (Next)(2.1)

Phát hiện và phân vùng tay người

Phát hiện và phân vùng tay người là kỹ thuật xác định vị trí tay trong ảnh, giúp tách biệt vùng ảnh chứa tay với các vùng khác Để thực hiện điều này, tôi đã áp dụng phương pháp phát hiện đối tượng dựa trên đặc trưng Haar-like kết hợp với thuật toán phân loại AdaBoost trên từng khung hình từ camera Phương pháp bao gồm hai giai đoạn chính: trích chọn đặc trưng và huấn luyện Dưới đây là phần trình bày về cách thức hoạt động của phương pháp này.

2.2.1 Đặc trưng Haar-like Đặc trưng Haar-like là một loại đặc trưng được ứng dụng phổ biến trong bài toán phát hiện mặt người do Viola và Jones công bố [30] Nhờ vào sự thông công của đặc trưng Haar-like, em đã ứng dụng đặc trưng này để phát hiện tay người trong ảnh Đặc trưng Haar-like gồm 4 đặc trưng cơ bản, mỗi đặc trưng Haar–like là sự kết hợp của hai hay ba hình chữ nhật “trắng” hay “đen” như trong hình sau:

Hình 2.18: 4 đặc trưng Haar-like cơ bản[18]

Ngoài ra, 4 đặt trưng Haar-like cơ bản được mở rộng và chia làm 3 tập đặc trưng như Hình 2.6, Hình 2.7 và Hình 2.8.

 Đặc trưng cạnh (edge features):

Hình 2.19: Hình ảnh đặc trưng cạnh [18]

 Đặc trưng đường (line features):

Hình 2.20: Hình ảnh đặc trưng đường [18]

 Đặc trưng xung quanh tâm (center-surround features):

Hình 2.21: Hình ảnh đặc trưng xung quanh tâm [18]

Giá trị của đặc trưng Haar-like được xác định dựa trên sự chênh lệch giữa tổng giá trị pixel mức xám trong vùng đen và vùng trắng Cụ thể, công thức tính toán được thể hiện như sau: f(x) = ∑ vùng đen (các mức xám của pixel) - ∑ vùng trắng (các mức xám của pixel).

Việc tính toán các giá trị của đặc trưng Haar-like liên quan đến việc tổng hợp các vùng pixel trên ảnh, tuy nhiên, quá trình này đòi hỏi một chi phí tính toán lớn khi áp dụng cho tất cả các vị trí trên ảnh Do đó, Viola và các cộng sự đã phát triển các phương pháp tối ưu để giảm thiểu khối lượng tính toán cần thiết.

Jones đã giới thiệu khái niệm "ảnh chia nhỏ" (integral image), là một mảng 2 chiều có kích thước tương đương với kích thước của ảnh cần tính toán các đặc trưng Haar-like Mỗi phần tử trong mảng được tính bằng tổng các giá trị điểm ảnh phía trên và bên trái của điểm ảnh đó Công thức tính integral image tại điểm P ở vị trí (x,y) trên ảnh I.

Hình 2.22: Hình minh họa tính integral image (a) ảnh ban đầu, (b) ảnh chia nhỏ

Sau khi tính toán xong ảnh tích phân như trong Hình 2.9, việc tính tổng giá trị mức xám của bất kỳ vùng nào trên ảnh trở nên rất đơn giản.

Hình 2.23: Tổng các giá trị pixel nằm trong vùng A [30]

Giả sử ta cần tính tổng các giá trị mức xám của vùng A như trong Hình 2.10, ta có thể tính như sau:

Để chọn các đặc trưng Haar-like cho việc thiết lập ngưỡng, Viola và Jones áp dụng phương pháp máy học AdaBoost AdaBoost kết hợp các bộ phân loại yếu để tạo thành một bộ phân loại mạnh, trong đó bộ phân loại yếu chỉ có độ chính xác cao hơn một chút so với dự đoán ngẫu nhiên, trong khi bộ phân loại mạnh có thể đạt độ chính xác trên 60%.

2.2.2 Thuật toán tăng tốc Adaboost

AdaBoost (Adaptive Boost) là một thuật toán học máy mạnh mẽ, giúp xây dựng bộ phân loại mạnh bằng cách chọn lọc các đặc trưng tốt từ các bộ phân loại yếu và kết hợp chúng một cách tuyến tính thông qua trọng số Thuật toán này cải thiện độ chính xác dần dần bằng cách áp dụng hiệu quả một chuỗi các bộ phân loại yếu.

Họ các bộ phân lớp yếu

Hình 2.24: Lược đồ cơ bản của Adaboost

Thuật toán AdaBoost bắt đầu bằng cách phân bố trọng số đều cho mỗi mẫu huấn luyện Trong lần lặp đầu tiên, nó huấn luyện một bộ phân loại yếu sử dụng đặc trưng Haar-like hiệu quả nhất để phát hiện các mẫu Ở lần lặp thứ hai, các mẫu bị phân loại sai sẽ nhận trọng số cao hơn, giúp tập trung vào việc cải thiện độ chính xác cho những mẫu này Quá trình lặp lại tiếp tục, dẫn đến việc tạo ra một chuỗi cascade các bộ phân loại yếu, kết hợp lại thành một bộ phân loại mạnh với độ chính xác cao Ví dụ về thuật toán AdaBoost được minh họa sau ba lần lặp cho thấy hiệu quả của phương pháp này.

Các trọng số như nhau cho tất cả các mẫu thử

Các mẫu thử vừa bị phân loại sai sẽ được tăng độ lớn trọng số

Tiếp tục đánh trọng số lớn hơn cho các mẫu thử vừa bị phân loại sai ở bước 2

Hình 2.25: Thuật toán học Adaboost [18]

AdaBoost áp dụng khái niệm trọng số để đánh dấu các mẫu nhận dạng Trong quá trình huấn luyện, sau khi xây dựng mỗi bộ phân loại yếu, thuật toán cập nhật trọng số bằng cách tăng trọng số cho các mẫu bị nhận dạng sai và giảm trọng số cho các mẫu được nhận dạng đúng Nhờ vậy, các bộ phân loại yếu sau có thể tập trung vào các mẫu mà các bộ phân loại trước đó chưa xử lý tốt Cuối cùng, các bộ phân loại yếu này sẽ được kết hợp dựa trên hiệu suất của chúng để tạo ra một bộ phân loại mạnh mẽ hơn.

Thuật toán AdaBoost được tình bày dưới đây:

 Cho một tập gồm n mẫu (x1,y1), (x2,y2),… (xn,yn) với xk ∈ (xk1, xk2, …, xkm) là vector đặc trưng và yk ∈ (-1, 1) là nhãn của mẫu (1 ứng với đối tượng, -1 ứng với nền).

Khởi tạo trọng số ban đầu cho tất cả các mẫu, trong đó m là số mẫu đúng tương ứng với đối tượng (y = 1) và l là số mẫu sai tương ứng với nền (y = -1).

 Xây dựng T bộ phân loại yếu

 Với mỗi đặc trưng trong vector đặc trưng, xây dựng một weak classifier hj với ngưỡng θj và lỗi εj.

 Chọn ra h j với ε j nhỏ nhất, ta được h t :

 Cập nhật lại trọng số:

Zt: Hệ số dùng để đưa Wt+1 về đoạn [0,1] (chuấn hóa)

 Strong classifier được xây dựng :

Quá trình huấn luyện bộ phân loại trong thuật toán AdaBoost diễn ra qua một vòng lặp, trong đó ở mỗi bước lặp, thuật toán sẽ lựa chọn bộ phân loại yếu ht có lỗi t nhỏ nhất để bổ sung vào bộ phân loại mạnh Sau khi chọn bộ phân loại ht, AdaBoost sẽ tính toán giá trị t dựa trên công thức (2.7), với mục tiêu giảm thiểu giá trị lỗi t.

Hệ số t nói lên mức độ quan trọng của ht:

Trong công thức (2.8), mọi bộ phân loại ht đều ảnh hưởng đến kết quả phân loại H(x), với mức độ ảnh hưởng tùy thuộc vào giá trị  t Cụ thể, bộ phân loại h t có giá trị  t lớn sẽ đóng vai trò quan trọng hơn trong việc xác định H(x).

Trong công thức (2.7), giá trị  t tỉ lệ nghịch với  j, cho thấy rằng khi chọn h t dựa trên tiêu chí đạt  j nhỏ nhất, giá trị  t sẽ đạt được mức tối đa.

Sau khi tính toán giá trị t, Adaboost cập nhật trọng số của các mẫu bằng cách tăng trọng số cho các mẫu mà h t phân loại sai và giảm trọng số cho các mẫu mà h t phân loại đúng Cách này giúp trọng số của mẫu phản ánh mức độ khó nhận diện, từ đó ht+1 sẽ tập trung vào việc học cách phân loại những mẫu khó này.

Nhận dạng cử chỉ

Nhận dạng cử chỉ là quá trình xác định loại cử chỉ dựa trên dữ liệu phân tích từ các bước trước Trong nghiên cứu này, tôi sử dụng kỹ thuật trích trọng đặc trưng Histogram of Oriented Gradients (HOG) kết hợp với mạng neural nhân tạo (ANN) để phân loại cử chỉ trong tập mẫu cơ sở Các cơ sở lý thuyết của phương pháp này sẽ được trình bày chi tiết dưới đây.

2.3.1 Đặc trưng Histogram of Oriented Gradients Đặc trưng HOG được đề xuất bởi N.Dalal [25] Ý tưởng đặc trưng HOG xuất phát từ hình dạng và trạng thái của đối tượng có thể được đặc trưng bằng sự phân bố về cường độ và hướng thay đổi của giá trị điểm ảnh, được biểu thị dưới dạng vectơ được gọi là vectơ gradient Gradient là một vector có các thành phần biểu thị tốc độ thay đổi giá trị của điểm ảnh Giá trị vectơ gradient mang lại nhiều thông tin hữu ích, nó biểu biểu sự thay đổi giá trị độ sáng của các điểm ảnh, đặc biệt sự thay đổi giá trị vectơ gradient rõ rệt khi điểm ảnh thuộc các vùng góc và cạnh của đối tượng Do vậy đặc trưng HOG là một lựa chọn hiệu quả cho việc biểu diễn ảnh tư thế tay người Ảnh đầu vào Tính toán

Chia ảnh thành các khối

Tính toán đặc trưng từng khối

Kết hợp tạo thành đặc trưng của ảnh

Hình 2.28: Các bước tính toán đặc trưng HOG

Hình 2.15 trình bày sơ đồ các bước trích chọn đặc trưng HOG.

Bước1: Tính toán vector gradient cho từng điểm ảnh

Trong một bức ảnh xám, giá trị điểm ảnh dao động từ 0 đến 255 Vector gradient của một điểm ảnh được xác định bằng cách tính hiệu giữa giá trị của điểm ảnh đó và các điểm ảnh lân cận ở bên trái, bên phải, bên trên và bên dưới.

Gọi Ix và Iy là hiệu giá trị của 2 cặp điểm ảnh trái và phải, trên và dưới Vectơ gradient được tính toán theo công thức sau:

55Equation Section (Next)(2.9) Hướng : arctan x y

(2.10)Hình 2.16 Minh họa ví dụ tính toán vectơ grandient tại một điểm ảnh.

Hình 2.29: Hình ảnh minh họa tính toán giá trị vectơ gradient

Chia ảnh đầu ra thành các khối bằng nhau, mỗi khối được chia thành 4 ô có số pixels đồng đều Các khối này được xếp chồng lên nhau theo kiểu hai ô như mô tả trong Hình 2.17 Số lượng khối được xác định bằng công thức (3), trong đó W image là tham số cần thiết.

H image ,W block , H block , W cell , H cell lần lượt là chiều rộng, chiều cao của ảnh, khối và ô.

1 1 image block cell image block cell block cell cell

Hình 2.30: Hình ảnh minh họa cho sự chia các khối chồng lấp [7]

Bước 3: Tính vector đặc trưng cho từng khối

Mỗi ô trong khối được đại diện bởi một vector đặc trưng, chia không gian hướng thành p bin, tương ứng với số chiều của vector Góc hướng nghiêng tại pixel có tọa độ (x,y) với độ lớn α(x,y) sẽ được phân loại vào một trong p bin.

Rời rạc hóa unsigned-HOG (p=9):

Rời rạc hóa signed-HOG (p):

Giá trị bin được xác định bởi tổng cường độ biến thiên của các pixels thuộc về bin đó.

Hình 2.31: Minh họa cho HOG của 1 ô với p = 9[7]

Một khối gồm 4 ô, và vector đặc trưng của khối được hình thành bằng cách nối các vector đặc trưng của 4 ô Số chiều của vector đặc trưng cho một khối là 4xp bin, với p có thể là 9 (unsigned-HOG) hoặc 18 (signed-HOG).

Bước 4: Tính vector đặc trưng cho ảnh

Để chuẩn hóa vector đặc trưng của các khối, cần chia vector này cho độ lớn của nó Việc ghép các vectơ đặc trưng của từng khối sẽ tạo ra một ảnh đặc trưng HOG cho toàn bộ ảnh Số chiều của vectơ đặc trưng của ảnh được tính theo công thức nhất định.

/ / * / feature image blocks image feature block size n size

(2.14) Trong đó, n blocks/image là khối và size feature/block là số chiều vectơ đặc trưng mỗi khối.

2.4.2.1 Tổng quan về mạng neural nhân tạo

Neural nhân tạo là một đơn vị tính toán có khả năng tiếp nhận nhiều tín hiệu đầu vào và tạo ra một tín hiệu đầu ra Nó hoạt động bằng cách nhận diện các tín hiệu từ nguồn bên ngoài, sau đó sử dụng thông tin này để tính toán và truyền tín hiệu ra cho các đơn vị khác.

Hình 2.32: Mô hình một neural nhân tạo [21]

Mạng nơ-ron bao gồm các thành phần chính như tín hiệu đầu vào (xi), trọng số liên kết (wji), độ lệch (bj), hàm đầu vào (aj), hàm kích hoạt (g(x)), và đầu ra (zj) Liên kết nơ-ron là yếu tố quan trọng trong mạng nơ-ron nhân tạo, giúp kết nối đầu ra của nơ-ron trong một lớp với đầu vào của nơ-ron trong lớp khác Đặc điểm nổi bật của liên kết này là trọng số, mà mỗi tín hiệu đi qua sẽ được nhân với trọng số tương ứng Các trọng số liên kết này đóng vai trò là các tham số tự do cơ bản của mạng nơ-ron, cho phép điều chỉnh để phù hợp với môi trường xung quanh.

Hàm vào được sử dụng để tính tổng các tín hiệu đầu vào của mạng nơ-ron, đã được nhân với các trọng số liên kết tương ứng, tạo ra một bộ hợp tuyến tính.

Hàm kích hoạt, hay còn gọi là hàm kích hoạt phi tuyến, chuyển đổi tổ hợp tuyến tính của tất cả các tín hiệu đầu vào thành tín hiệu đầu ra, đảm bảo tính phi tuyến cho mạng neural Hàm này hoạt động như một hàm giới hạn, kiểm soát biên độ của tín hiệu đầu ra trong một khoảng giá trị hữu hạn.

Các dạng hàm kích hoạt thường được sử dụng trong thực tế [5]:

 Hàm bước: step(x) = { 1nếu x ≥Ɵ 0nếu x

Tiêu đề	Nghiên Cứu Các Thuật Toán Nhận Dạng Trên Robot Dựa Vào Cử Chỉ Tay Người
Tác giả	Giảng Viên Thực Hiện
Người hướng dẫn	TS. Nguyễn Hữu Phát
Trường học	Trường Đại Học Bách Khoa Hà Nội
Thể loại	Đồ Án Tốt Nghiệp
Năm xuất bản	2020
Thành phố	Hà Nội

Định dạng
Số trang	74
Dung lượng	14,53 MB