TỔNG QUAN
Giới thiệu tình hình nghiên cứu hiện nay
Trong những năm gần đây, xử lý ảnh đã đạt được nhiều thành tựu vượt bậc, đặc biệt trong lĩnh vực nhận dạng và phân loại ảnh Các hệ thống xử lý ảnh không chỉ giúp giảm khối lượng công việc mà còn tăng cường độ chính xác trong việc đưa ra quyết định liên quan đến hình ảnh, ảnh hưởng tích cực đến nhiều lĩnh vực như quân sự, quốc phòng, kinh tế, xã hội và an ninh.
Hiện nay, với sự phát triển của khoa học công nghệ, đặc biệt trong lĩnh vực xử lý ảnh, bài toán nhận dạng con người đã được ứng dụng rộng rãi trong nhiều lĩnh vực như kinh tế, đời sống xã hội và an ninh quốc phòng Do đó, nhận dạng con người trở thành chủ đề nghiên cứu được giới khoa học quan tâm Các phương pháp nhận dạng như nhận dạng vân tay, vân mắt và khuôn mặt đã trải qua quá trình phát triển dài hạn và hiện đạt độ chính xác cao.
Và nhận dạng vân tay đã cho độ chính xác gần nhƣ tuyệt đối và hiện đƣợc ứng dụng rộng rãi trong nhiều lĩnh vực
Việc nhận dạng cử chỉ của con người ngày càng được chú trọng nhằm cải thiện giao tiếp giữa con người và máy tính Các hệ thống như Samsung SmartTV đã áp dụng công nghệ nhận dạng cử chỉ bàn tay để điều khiển tivi mà không cần remote, trong khi Microsoft phát triển vòng cảm biến đeo tay Digits, cho phép người dùng điều khiển nhiều thiết bị khác thông qua cử chỉ tay.
Hình 1.1 : Vòng cảm biến nhận dạng cử chỉ Digits của Microsoft
Một số ứng dụng thực tế dựa trên cử chỉ bàn tay
Nhận dạng cử chỉ bàn tay có rất nhiều ứng dụng trong thực tế:
Thiết kế 3D là một quá trình phức tạp và tốn thời gian, đặc biệt khi sử dụng chuột máy tính để thao tác trong không gian ba chiều Để cải thiện trải nghiệm này, Viện Công nghệ Massachusetts đã phát triển công nghệ 3DRAW, sử dụng bút nhúng kết hợp với thiết bị Polhemus để theo dõi vị trí và định hướng của bút trong không gian 3D.
Điều khiển từ xa là công nghệ giúp tăng cường khả năng điều khiển bằng tay trong các tình huống khẩn cấp, lỗi hệ thống hoặc ở những vùng khó tiếp cận Công nghệ này cho phép con người điều khiển máy móc từ xa, đặc biệt là trong các lĩnh vực như trí tuệ nhân tạo, nơi cánh tay robot được điều khiển thông qua cử chỉ cơ thể để thực hiện các nhiệm vụ cần thiết Ngoài ra, điều khiển từ xa còn được ứng dụng rộng rãi trong các dịch vụ giải trí như tivi và trò chơi điện tử.
Hình 1.2 : Sử dụng bàn tay giống nhƣ hình một khẩu súng để chơi các trò chơi bắn súng
Thực tế ảo (VR) là công nghệ mô phỏng thế giới thật thông qua máy tính, tái tạo môi trường vật chất xung quanh Công nghệ này cung cấp trải nghiệm giác quan đa dạng, bao gồm thị giác, thính giác, xúc giác, khứu giác và vị giác ảo Thực tế ảo được ứng dụng rộng rãi trong các lĩnh vực giải trí, giáo dục, nghệ thuật và y học, mang lại nhiều lợi ích và trải nghiệm mới cho người dùng.
Ngôn ngữ ký hiệu là hình thức tự nhiên và thô sơ nhất của ngôn ngữ, xuất hiện từ rất sớm trong lịch sử nhân loại, trước cả khi ngôn ngữ nói ra đời Nó cho phép con người giao tiếp mà không cần chia sẻ một ngôn ngữ chung, đồng thời tạo điều kiện cho người câm điếc hòa nhập với xã hội.
Tính cấp thiết của đề tài
Nhóm nghiên cứu đã quyết định tìm hiểu về "Ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay" nhằm khám phá khả năng nhận dạng cơ bản của cử chỉ bàn tay Thành tựu hiện tại trong lĩnh vực nhận dạng cử chỉ đã thúc đẩy nhóm nâng cao sự quan tâm và mong muốn phát triển ứng dụng thực tiễn cho công nghệ này.
Mục tiêu nghiên cứu
- Trích đặc trƣng PCA và kết hợp với phát hiện màu da nhận dạng bàn tay
- Xây dựng mô hình nhận dạng cử chỉ bằng mạng Nơ-ron trên Matlab.
Nhiệm vụ nghiên cứu
- Tìm hiểu các bước trích đặc trưng PCA
- Thực hiện trích đặc trƣng PCA và phân biệt màu da trên matlab
- Nghiên cứu tổng quan về mạng Nơ-ron nhân tạo
- Mô phỏng hệ thống nhận dạng cử chỉ dùng mạng Nơ-ron nhân tạo.
Đối tƣợng, phạm vi nghiên cứu và giới hạn đề tài
Đối tượng nhận dạng trong nghiên cứu này là bàn tay, với các cử chỉ bao gồm một ngón, hai ngón, ba ngón, bốn ngón và năm ngón Nhóm nghiên cứu hiện tại chỉ tập trung vào việc nhận dạng các cử chỉ cơ bản của bàn tay.
Phương pháp nghiên cứu
- Tìm hiểu các bước thực hiện phương pháp trích đặc trưng PCA
- Thực hiện phân biệt màu da trên Matlab
- Nghiên cứu tổng quan về mạng Nơ-ron nhân tạo
- Mô phỏng mô hình nhận dạng cử chỉ sử dụng mạng Nơ-ron nhân tạo.
Bố cục của đồ án
Hệ thống nhận dạng cử chỉ đang được nghiên cứu và phát triển mạnh mẽ, với nhiều ứng dụng trong các lĩnh vực như công nghệ thông tin, robot và giao tiếp người-máy Đề tài này có tính cấp thiết cao, nhằm nâng cao hiệu quả tương tác giữa con người và máy móc Mục tiêu nghiên cứu là phát triển các phương pháp nhận dạng cử chỉ chính xác và nhanh chóng, phục vụ cho các ứng dụng thực tiễn Nhiệm vụ của đề tài bao gồm khảo sát các kỹ thuật hiện có, thiết kế mô hình nhận dạng và thử nghiệm trên các đối tượng cụ thể Phạm vi nghiên cứu tập trung vào các cử chỉ cơ bản trong giao tiếp hàng ngày, với giới hạn là không mở rộng đến các cử chỉ phức tạp hay trong môi trường không kiểm soát.
- Chương 2: Cơ sở lí thuyết :
Trong xử lý ảnh, các khái niệm và lý thuyết quan trọng bao gồm phương pháp trích đặc trưng PCA, phân biệt màu da, và hệ thống nhận dạng sử dụng mạng nơ-ron nhân tạo Ngoài ra, việc hiểu rõ các không gian màu cũng đóng vai trò thiết yếu trong quá trình này.
- Chương 3: Thiết kế hệ thống :
Lưu đồ giải thuật cho quá trình huấn luyện và nhận dạng ảnh sử dụng phương pháp phân biệt màu da và xác định diện tích bàn tay, kết hợp với phân tích thành phần chính (PCA) và mạng nơ-ron, giúp cải thiện độ chính xác trong việc nhận diện và phân tích hình ảnh.
- Chương 4: Kết quả mô phỏng :
Cho biết kết quả mô phỏng,xác suất nhận dạng thành công qua các lần thử nghiệm
- Chương 5: Kết luận và hướng phát triển :
Kết luận về những gì tìm hiểu đƣợc và các hạn chế chƣa thể khắc phục Đƣa ra hướng phát triển đề tài
CƠ SỞ LÝ THUYẾT
Các khái niệm và lý thuyết liên quan trong xử lí ảnh
Xử lý ảnh là quá trình xử lý tín hiệu hai chiều, trong đó bức ảnh là tín hiệu đầu vào và kết quả có thể là bức ảnh mới hoặc chuỗi đặc trưng và thông số liên quan Thường thì, quá trình này được xem là một phần của xử lý ảnh số.
Xử lý ảnh nhằm giải quyết các bài toán:
Đo lường đối tượng là quá trình xác định vết nứt trên tường thông qua hình ảnh chụp từ camera Quá trình này bao gồm việc đo kích thước chân ic, khoảng cách từ đối tượng đến camera, cũng như các thông số sinh học như nhịp tim và nhiệt độ.
- Bám đối tượng: Sử dụng máy bay không người lái để bám theo mục tiêu nào đấy, sử dụng camera để giám sát cảnh báo lái xe ngủ gật,
- Nhận dạng: Nhận dạng biển số xe, nhận dạng mặt người, nhận dạng vân tay, nhận dạng chữ viết, nhận dạng đám cháy…
- Phân loại: Phân loại sản phẩm theo màu sắc, kích cỡ; đánh giá chất lƣợng nông sản…
Xây dựng phần mềm xử lý ảnh chuyên nghiệp như Photoshop và Camera 360 đang trở thành xu hướng phổ biến Ngành khoa học "Thị giác máy tính" (Computer Vision) đã phát triển mạnh mẽ trên toàn cầu, nghiên cứu và ứng dụng các công nghệ xử lý ảnh đa dạng.
2.1.2 Ảnh số Ảnh số là tập hợp hữu hạn các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh gần với ảnh thật Số điểm ảnh xác định độ phân giải của ảnh Ảnh có độ phân giải càng cao thì càng thể hiện rõ nét các đặt điểm của tấm hình càng làm cho tấm ảnh trở nên thực và sắc nét hơn [1]
2.1.3 Điểm ảnh Điểm ảnh (Picture Element – Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần nhƣ ảnh thật Mỗi phần tử trong ma trận đƣợc gọi là một phần tử ảnh [1]
2.1.4 Độ phân giải Độ phân giải của ảnh (Resolution)là mật độ điểm ảnh đƣợc ấn định trên một ảnh số đƣợc hiển thị Theo định nghĩa, khoảng cách giữa các điểm ảnh phải đƣợc chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và đƣợc phân bố theo trục x và y trong không gian hai chiều [1]
Mức xám là giá trị độ sáng của một điểm ảnh, thường nằm trong khoảng từ 0 đến 255, phản ánh sự biến đổi tương ứng với giá trị nguyên dương Mỗi điểm ảnh được biểu diễn bằng mức xám khác nhau, tùy thuộc vào giá trị cụ thể của nó.
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256
Mức 256 là mức phổ biến trong kỹ thuật máy tính, vì mỗi pixel được biểu diễn bằng 1 byte (8 bit), cho phép tạo ra 256 mức xám khác nhau, từ 0 đến 255.
Một phương pháp phổ biến trong xử lý ảnh số là xem cường độ sáng của ảnh f(x,y) như một biến ngẫu nhiên với hàm phân bố xác suất p k (f) Hàm phân bố xác suất này cung cấp thông tin toàn cục về nội dung của ảnh Tuy nhiên, hàm phân bố xác suất tổng quát thường không đủ chính xác, do đó, người ta thường sử dụng hàm phân bố xác suất thực nghiệm từ ảnh, được gọi là histogram Histogram của ảnh số có mức xám nằm trong khoảng [0, L-1] được định nghĩa bởi một hàm cụ thể.
𝑘 = 𝑛 𝑘 𝑛 (2.1) Với 𝑓 𝑘 là mức xám thứ k
𝑛 𝑘 là số pixel trong ảnh có mức xám thứ k
𝑛 tổng số pixel trong ảnh
Lƣợc đồ xám là một biểu đồ với trục hoành thể hiện mức xám và trục tung thể hiện số lượng điểm sáng tương ứng Trong ảnh xám thông thường, giá trị trên trục hoành dao động từ 0 đến 255.
Có 4 dạng quan trọng trong ảnh số đƣợc dùng với nhiều mục đích khác nhau là [1] : Ảnh xám (hay còn gọi là ảnh đen trắng): là ảnh đƣợc xây dựng từ nhiều pixel mà tại đó biểu diễn một giá trị nhất định tương ứng với một mức xám Giá trị mức xám nằm trong [0, 255] nhƣ vậy mỗi pixel đƣợc biểu diễn bởi 1 byte
Ảnh màu được tạo thành từ nhiều pixel, trong đó mỗi pixel được biểu diễn bằng ba giá trị tương ứng với các kênh màu đỏ (Red), xanh lá (Green) và xanh dương (Blue) trong không gian màu RGB Các kênh màu này là những màu cơ bản, cho phép tạo ra nhiều màu khác thông qua phương pháp pha trộn.
Ảnh nhị phân sử dụng duy nhất 1 bit để biểu diễn một pixel, cho phép chỉ có 2 trạng thái là 1 và 0, tương ứng với màu trắng và đen Vì đặc điểm này, ảnh nhị phân ít được áp dụng trong thực tế.
Hình 2.7 :Ảnh nhị phân Ảnh chỉ số (indexed): một vài ảnh màu (hay đen trắng) đƣợc tạo thành từ một bảng màu có sẵn bị giới hạn.
Phương pháp Phân tích thành phần chính (PCA)
PCA (Phân tích thành phần chính) là một thuật toán mạnh mẽ được sử dụng để khảo sát, phân loại và phân nhóm dữ liệu Phương pháp này giúp chuyển đổi một số lượng lớn các biến tương quan thành một số lượng nhỏ hơn các biến không tương quan (thành phần chính), đồng thời giữ lại lượng phương sai tối đa Mặc dù PCA mang lại nhiều lợi ích, nhưng nó cũng có những nhược điểm cần được xem xét.
Để nhận dạng một đối tượng, cần xác định các đặc trưng tiêu biểu mà không cần phải xác minh các thành phần và mối quan hệ giữa chúng Việc này giúp tối ưu hóa quá trình nhận diện mà vẫn đảm bảo độ chính xác cao.
Thuật toán PCA có khả năng xử lý các ảnh có độ phân giải cao bằng cách thu nhỏ kích thước ảnh, tạo ra một ảnh mới với kích thước nhỏ hơn.
Phương pháp PCA có thể được kết hợp hiệu quả với các phương pháp nhận dạng khác như máy vector hỗ trợ (SVM) và mạng nơ-ron nhân tạo, nhằm nâng cao hiệu suất nhận diện trong các ứng dụng thực tiễn.
Phương pháp PCA phân loại dữ liệu dựa trên chiều lớn nhất của tập vector, tuy nhiên, chiều phân bố lớn không phải lúc nào cũng tối ưu cho bài toán nhận dạng Điều này là nhược điểm chính của phương pháp PCA.
- Phương pháp PCA rất nhạy với nhiễu
Trích chọn đặc trưng PCA và huấn luyện
Bước 1: Cơ sở dữ liệu
- Đầu tiên chúng ta sẽ đọc cơ sở dữ liệu và nhận vào các ảnh luyện I i Các ảnh luyện ở đây đều có cùng kích thước với nhau
- Giả sử có M ảnh, khi đó I = 1 M Sau đó ta tương ứng mỗi ảnh I i với một vector Γi
Bước 2: Tính giá trị trung bình
Giá trị vector trung bình: 1 M 1 n i
- Với M là số ảnh trong tập luyện, Γ i là vector 1 chiều (N 2 ×1) đại diện cho mỗi ảnh
- Ψ là vector trung bình (kích thước N 2 ×1)của tập tất cả các Γ i trên
- Ψ còn đƣợc gọi là vector trung bình của tập luyện
Bước 3: Tính sai lệch ảnh đầu vào so với giá trị trung bình
- Sai số của các ảnh so với giá trị vector trung bình đƣợc tính toán theo công thức: i i
Trong đó, i là vector sai số ứng với mỗi ảnh, i là vector 1 chiều của ảnh, là vector trung bình
Bước 4: Ma trận hiệp phương sai
Ma trận hiệp biến đƣợc tính theo công thức sau: 1 1
A là ma trận N 2 xM, n là giá trị sai số đƣợc tính ở công thức trên
Bước 5: Tính trị riêng và vector riêng
Để xác định các trị riêng và vector đặc trưng của ma trận hiệp biến, chúng ta cần tính toán với ma trận C, tương đương với việc tính cho ma trận AA T Tuy nhiên, việc này gặp khó khăn do một số lý do nhất định.
Ma trận C có kích thước N² x N², dẫn đến số chiều rất lớn và khối lượng tính toán khổng lồ, đặc biệt khi kích thước ảnh luyện lớn, khiến N trở nên lớn và làm cho N² và N² x N² trở nên cực kỳ lớn.
Hai ma trận AA T và A T A có chung trị riêng và vector đặc trưng, liên hệ với nhau qua biểu thức u i = Av i Do ma trận A T A có số chiều nhỏ hơn (ma trận M×M), chúng ta sẽ chuyển đổi về ma trận A T A để phân tích.
- Sau khi tính toán ta được M vector đặc trưng của AA T (u i = Av i )tương ứng với M giá trị riêng
Chuẩn hóa các vector đặc trƣng u i về vector đơn vị: ||u i || =1
Bước 6: Lựa chọn các thành phần xây dựng vector đặc trưng riêng
Để giảm thiểu số chiều và độ phức tạp tính toán, chúng ta chỉ giữ lại K vector đặc trưng tương ứng với K giá trị riêng lớn nhất Như vậy, mỗi bức ảnh sau khi trừ đi giá trị trung bình sẽ được đại diện bởi K vector đặc trưng này.
Mỗi ảnh trainning i sẽ đƣợc biểu diễn bởi 1 vector:
Trong đó w ( i j j 1 ) K là các trọng số tương ứng với K vector đặc trưng, i là vector đại diện cho ảnh thứ i trong tập luyện [2]
Phân biệt màu da
Việc xây dựng một mô hình màu da tương thích từ nhiều màu da khác nhau sẽ giúp giảm tỷ lệ màu sai đáng kể Bằng cách khai thác thông tin màu da từ khuôn mặt cá nhân, chúng ta có thể tạo ra các mô hình màu da chính xác hơn cho từng người.
12 người sẽ cải thiện hệ thống mạnh mẽ vì số lượng giảm của các biến thể màu sắc trong khuôn mặt và tay của mỗi người
Mô hình màu khuôn mặt thích nghi dựa trên đề xuất của Liou được áp dụng để phát hiện vùng da mặt bằng cách loại bỏ các yếu tố như mắt, mũi và miệng, đồng thời phân tích biểu đồ mức xám Phân bố màu da được giả định là phân bố Gaussian với các giá trị trung bình và độ lệch chuẩn được tính toán để xây dựng mô hình màu da Mô hình này cho phép phát hiện các vùng da khác của người dùng, và kết quả thí nghiệm cho thấy hệ thống có khả năng nhận diện pixel da chính xác ngay cả trong điều kiện ánh sáng kém.
Hệ thống nhận dạng mạng nơ-ron nhân tạo (ANN)
Mạng Nơ-ron nhân tạo (Artificial Neural Networks) đã thu hút sự chú ý trong những năm gần đây và được áp dụng thành công trong nhiều lĩnh vực khác nhau Chúng có khả năng giải quyết các vấn đề liên quan đến dự báo, phân loại và điều khiển Sự thành công nhanh chóng của mạng Nơ-ron nhân tạo có thể được lý giải bởi một số yếu tố chính.
Mạng Nơ-ron nhân tạo là một công nghệ tiên tiến có khả năng mô phỏng các hàm phức tạp với tính phi tuyến Trong nhiều năm qua, mô hình tuyến tính đã được sử dụng phổ biến trong nhiều lĩnh vực, nhưng mạng Nơ-ron nhân tạo đang dần trở thành một lựa chọn tối ưu hơn nhờ vào khả năng xử lý linh hoạt và hiệu quả của nó.
Mạng Nơ-ron nhân tạo dễ sử dụng nhờ khả năng học từ các ví dụ Người dùng chỉ cần thu thập dữ liệu đặc trưng và áp dụng các thuật toán huấn luyện để mạng tự học cấu trúc dữ liệu Tuy nhiên, mặc dù người dùng có thể chuẩn bị dữ liệu và chọn loại mạng phù hợp, nhưng mức độ thành thạo trong việc áp dụng mạng Nơ-ron nhân tạo vẫn thấp hơn so với các phương pháp thống kê truyền thống.
The first artificial neural network (ANN) developed was the Perceptron by Frank Rosenblatt in 1958, followed by Artron, Adaline, and Madaline These four foundational models, particularly the Perceptron, laid the groundwork for the advancement of ANN technology Subsequently, three key types of networks emerged: Back-propagation, Hopfield Network, and Counter-Propagation Network.
2.4.2 Các tính chất của mạng nơ-ron nhân tạo
- Là hệ phi tuyến: Mạng Nơ-ron có khả năng to lớn trong lĩnh vực nhận dạng và điều khiển các đối tƣợng phi tuyến
Mạng Nơ-ron là hệ thống xử lý song song, mang lại khả năng tính toán vượt trội, rất phù hợp cho các ứng dụng trong lĩnh vực nhận dạng và điều khiển.
Mạng là hệ thống học và thích nghi, được đào tạo từ dữ liệu có sẵn và có khả năng tự điều chỉnh khi mất dữ liệu đầu vào, đồng thời có thể điều khiển trực tuyến.
- Là hệ nhiều biến nhiều ngõ vào, nhiều ngõ ra (MIMO), rất tiện dùng khi đối tƣợng điều khiển có nhiều biến số
2.4.3 Mô hình của một mạng nơ-ron nhân tạo
Neural nhân tạo bao gồm nhiều ngõ vào từ dữ liệu gốc hoặc từ các neural khác, với mỗi kết nối mang một cường độ hay trọng số riêng Các ngõ vào này có thể là vô hướng hoặc hữu hướng Mỗi neural được xác định bởi một giá trị ngưỡng, và tín hiệu được truyền qua hàm kích hoạt, tạo ra giá trị ngõ ra cho neural.
Nơ-ron nhiều ngõ vào
Hình 2.8 : Mạng nơ-ron 1 ngõ vào (a) và Mạng nơ-ron nhiều ngõ vào (b)
Hàm tổng yk Đầu ra bk Ngƣỡng Trọng số liên kết x1 x2 xN Đầu vào
Hình 2.9 : Mô hình một nơ-ron nhân tạo đơn giản
Nơ-ron là một đơn vị xử lý thông tin cơ bản cho sự vận hành của mạng Nơ-ron
Mô hình Nơ-ron gồm 3 thành phần:
Một synapse, hay còn gọi là kết nối, được đặc trưng bởi trọng số (weight) của nó Chẳng hạn, khi một tín hiệu tại synapse nhập vào nơ-ron k, nó sẽ được nhân với trọng số của synapse tương ứng trong trạng thái hoạt động, miễn là trọng số này không âm.
Một bộ cộng (adder) thực hiện phép cộng các tín hiệu đầu vào (input) nhân với trọng số tương ứng của synapse trong Nơ-ron Phép toán này được gọi là phép tổ hợp tuyến tính.
- Một hàm số g để hạn chế biên độ tín hiệu ngõ ra (output) của một Nơ-ron
Một Nơ-ron đƣợc diễn ta nhƣ sau:
𝑦 𝑘 = 𝑔(𝑢 𝑘 − 𝜃 𝑘 ) (2.10) Trong đó: x 1,… x n là tín hiệu vào w kj,… w kp trọng số synaptic của Nơ-ron k
𝑢 𝑘 kết hợp tuyến tính xuất
𝑦 𝑘 tín hiệu ngõ ra của Nơ-ron k
2.4.4 Thiết kế một mạng Nơ-ron
Đầu tiên, cần xác định tập dữ liệu, bao gồm nhiều trường hợp với các giá trị đầu vào và đầu ra khác nhau Tiếp theo, xác định các biến sẽ được sử dụng và số lượng trường hợp cần thu thập.
Việc chọn lựa các biến thường dựa trên trực giác và phụ thuộc vào chuyên môn cũng như lĩnh vực ứng dụng của chúng.
Chọn cấu hình ban đầu (thường là 1 lớp ẩn có số neural ẩn bằng nửa tổng số neural ngõ vào và ngõ ra)
Thực hiện lặp đi lặp lại số thí nghiệm của mỗi cấu hình, giữ lại mạng tốt nhất (thường dựa vào sai số)
Trong quá trình thí nghiệm, nếu kết quả không đạt yêu cầu về xác suất do việc học chưa đủ, hãy tăng số lượng neuron trong lớp ẩn Ngược lại, nếu xảy ra hiện tượng học quá mức dẫn đến sai số ban đầu tăng lên, hãy giảm bớt một vài neuron ẩn, thậm chí có thể loại bỏ cả lớp ẩn.
2.4.5 Giải thuật lan truyền ngƣợc
Thuật toán Lan truyền ngược (BP) được giới thiệu bởi Rumelhart vào năm 1986, trong khi Hinton và Williams đã áp dụng trọng số để huấn luyện perceptron đa lớp Sự mở rộng này cho phép sử dụng mạng nơ-ron nhân tạo (ANN) đa lớp mà không có các lớp ẩn không mong muốn ở đầu ra.
Thuật toán BP đóng vai trò quan trọng trong việc tính toán tại lớp ngõ ra, nơi mà kết quả mong muốn cần phải trải qua các lớp trung gian để đạt được.
𝜀 biểu hiện lỗi năng lƣợng ở lớp ngõ ra:
𝜀 ≜ 1 2 (𝑘 𝑘 𝑘 − 𝑦 𝑘 ) 2 = 1 2 𝑒 𝑘 𝑘 2 (2.11) k=1…….N; N số mạng Nơ-ron ở lớp ngõ ra.Vì vậy xét đến gradient of 𝜀 ở lớp ngõ ra, trong đó:
Do sự giảm của của quy trình (gradient), ta có:
Ngõ vào j biểu thị đầu vào thứ j đến mạng Nơ-ron thứ k của lớp ra Ở đó, một lần nữa bởi quy trình giảm gradient :
𝑘𝑗(2.14) Dấu (-) trong công thức (2.14) cho biết hướng giảm về mức nhỏ nhất
Lưu ý perceptron định nghĩa cho perceptron thứ k của của nút ngõ ra cho bởi:
𝑧 𝑘 = 𝜔 𝑗 𝑘𝑗 𝑥 𝑗 (2.15) x j là ngõ vào thứ j của mạng Nơ-ron, và đánh dấu ngõ ra thứ y k :
F là một hàm phi tuyến Và thay thế
𝜕𝜔 𝑘𝑗 = 𝑥 𝑗 𝑝 = 𝑦 𝑗 (𝑝 − 1) (2.18) p biểu thị lớp ra, như vậy phương trình (2.17) trở thành:
𝑘 (𝑝) (2.20) sau đó tiến hành phương trình (2.18)
Và phương trình (2.14) và (2.21) ta có:
Ngõ vào j biểu thị đầu vào thứ j tới mạng Nơ-ron thứ k của lớp ngõ ra (p), ngoài ra từ phương trình,ta có: Φ 𝑘 𝜕𝜀
𝜕𝑦 𝑦 = − 𝑑 𝑘 − 𝑦 𝑘 = 𝑦 𝑘 − 𝑑 𝑘 (2.24) trong khi đó, phi tuyến sigmoid:
Do đó, từ phương trình (2.24), (2.25) và (2.26) ta có: Φ 𝑘 = 𝑦 𝑘 (1 − 𝑦 𝑘 )(𝑑 𝑘 − 𝑦 𝑘 ) (2.27) như vậy, ở ngõ ra từ phương trình (2.14), (2.18) ta được:
𝜕𝑤 𝑘𝑗 (2.28) ở đó, phương trình (2.18) và (2.23) nên:
∆𝑤 𝑘𝑗 𝑝 = 𝜂Φ 𝑘 (𝑝)𝑘 𝑗 (𝑝 − 1 ) (2.29) Φ 𝑘 được tìm ra ở phương trình (2.27), để thiết lập trọng số ở ngõ ra ta lấy đạo hàm
Dùng thuật toán lan truyền ngƣợc cuả lớp ẩn thứ r, nhƣ trên ta có:
Từ thứ i tách ra thứ j của lớp ẩn Nơ-ron thứ r,vì vậy từ phương trình (2.17) ta có:
Từ phương trình (2.18) và định nghĩa của Φ trong phương trình (2.23) ta được:
𝑗𝑦 𝑖 𝑟 − 1 = 𝜂Φ 𝑗 𝑟 𝑦 𝑖 𝑟 − 1 (2.32) Như vậy, từ phương trình (2.23) ta được:
𝑗là khó tính toán đƣợc cũng nhƣ Φ 𝑗 (𝑟) ở trên
Tuy nhiên, 𝜀 chỉ bị ảnh hưởng bởi Nơ-ron khi có hiện tượng lan truyền ngược ở lớp ra, và không có thông tin nào khác có sẵn trong giai đoạn đó.
Nhận dạng cử chỉ bàn tay bằng tính năng tổ hợp
Tiền xử lý hình ảnh bàn tay là bước quan trọng để xác định các tính năng của bàn tay sau khi phát hiện cử chỉ, giúp tạo ra những hình dạng tay chính xác.
Phát hiện cử chỉ bàn tay liên quan đến việc nhận diện hình dạng tay, được phân loại dựa trên màu da Để phân cụm hình ảnh tay, có năm không gian màu phổ biến: RGB, HSV, YCbCr và YUV Nghiên cứu về sự phân bố màu da của con người dưới các điều kiện ánh sáng khác nhau trong bốn không gian màu này cho thấy rằng YCbCr và HSV là những không gian màu hiệu quả hơn RGB trong việc phát hiện màu da.
Cử chỉ bàn tay tiền xử lý là quá trình nghiên cứu nhị phân hình ảnh bàn tay nhằm tăng cường độ tương phản để xác định chính xác hình dạng và các đặc điểm của bàn tay, đồng thời loại bỏ nhiễu Thuật toán chuyển đổi nhị phân bắt đầu bằng việc sử dụng các giá trị màu và điểm ảnh thông qua việc tính toán các giá trị trong ảnh RGB Tiếp theo, các điểm ảnh được gán màu đen nếu thuộc vùng không phải da, trong khi các vùng có giá trị màu da sẽ được gán màu trắng Để giảm thiểu nhiễu, bộ lọc trung bình và bộ làm phẳng được áp dụng.
Nhận dạng cử chỉ là quá trình kết hợp các thông tin từ HU, khu vực cử chỉ bàn tay và mô tả Fourier để tạo thành một vector Các vector đặc trưng của vùng tay bao gồm tỷ lệ diện tích, tỷ lệ nhị phân, diện tích mặt và chu vi bàn tay Trong đó, giá trị tỷ lệ diện tích phản ánh tỷ lệ giữa các khu vực vùng mặt bị chia cắt bởi các cử chỉ tay.
Nghiên cứu diện tích hình chữ nhật liên quan đến việc tính toán các giá trị của bàn tay và cử chỉ của nó Để thực hiện điều này, ta có thể quét các điểm ảnh màu trắng trong ảnh nhị phân và thu được kết quả bằng cách cắt các hình ảnh nhị phân.
Không gian màu
Màu sắc được hình thành từ ánh sáng có bước sóng khác nhau, và mắt người có ba loại tế bào cảm nhận màu, cho phép chúng ta nhìn thấy khoảng bảy triệu màu Tuy nhiên, thực tế chúng ta chỉ cảm nhận được sự khác biệt của vài ngàn màu Mỗi màu có thể được mô tả qua ba thuộc tính chính: sắc thái màu (Hue), độ bão hòa (Saturation) và độ chói (Intensity).
Trong lĩnh vực xử lý ảnh và đồ họa, mô hình màu là một chỉ số kỹ thuật của hệ tọa độ màu ba chiều, cho phép biểu diễn tất cả các màu sắc Chẳng hạn, mô hình màu RGB (Đỏ, Xanh lá, Xanh dương) được cấu trúc dưới dạng một khối lập phương trong hệ trục tọa độ Đề các, giúp phân loại và sắp xếp các màu thành phần một cách hiệu quả.
Mô hình màu được thiết kế để biểu diễn một phần các màu có thể nhìn thấy thông qua các chỉ số kỹ thuật quy ước Dưới đây, chúng ta sẽ khám phá một số mô hình màu phổ biến nhất hiện nay.
Tất cả màu sắc đều được hình thành từ ba màu cơ bản: đỏ (Red - R), lam (Blue - B) và lục (Green - G) Khi các màu cơ bản này được trộn lẫn theo tỷ lệ nhất định, chúng tạo ra các màu thứ cấp.
Hình 2.11: Các màu cơ bản
Trộn ba màu sơ cấp hoặc trộn một màu thứ cấp với màu sơ cấp ngƣợc với nó sẽ tạo ra đƣợc ánh sáng trắng
Hình 2.12 : (a).Không gian màu RGB
Không gian màu RGB chia các màu ra các thành phần màu chính là R (Red-đỏ),
Mô hình màu RGB bao gồm ba màu chính: đỏ (R), xanh lá (G) và xanh dương (B), cho phép phối hợp ánh sáng ở các cường độ khác nhau để tạo ra nhiều màu sắc khác Trong ảnh 24 bit, mỗi màu chính được biểu diễn bằng 8 bit, với giá trị màu đỏ là (255,0,0), xanh dương là (0,0,255) và xanh lá là (0,255,0) Mặc dù mô hình RGB thường được sử dụng trong hệ thống đồ họa, nhưng nó không phải là lựa chọn lý tưởng cho các ứng dụng phát hiện và nhận dạng vật thể, do sự liên kết chặt chẽ giữa các thành phần màu sắc gây khó khăn cho một số thuật toán xử lý ảnh.
Màu đỏ, xanh lá cây và xanh da trời (RGB) là ba màu cơ bản được sử dụng rộng rãi trong hiển thị Các màu này được kết hợp theo tỷ lệ nhất định để tái tạo nhiều màu sắc khác nhau, theo hệ màu phối cộng Tập hợp các màu này được bố trí trong một khối lập phương, trong đó đường chéo chính thể hiện sự phối hợp của ba màu cơ bản với tỷ lệ bằng nhau, tương ứng với các mức độ xám từ đen (0,0,0) đến trắng (1,1,1).
2.6.2 Không gian màu CMY (Cyan, Magenta, Yellow)
Màu cyan, vàng và tím là các màu bù tương ứng cho đỏ, lục và lam, được sử dụng để loại trừ các màu này từ ánh sáng trắng Do đó, hệ màu CMY còn được gọi là các phần bù loại trừ của màu gốc Các màu trong hệ CMY cũng có thể được biểu diễn trong hệ tọa độ Đề-các.
Phương pháp phối màu trừ là một trong 22 kỹ thuật phối màu, trong đó các màu sắc được tạo ra bằng cách loại bỏ hoặc bù đắp từ ánh sáng trắng, thay vì thêm vào vùng tối.
Hình 2.13 : Trộn màu cộng (a) và trộn màu trừ (b)
Khi bề mặt được phủ lớp mực màu xanh tím, tia màu đỏ sẽ không phản chiếu từ bề mặt đó, vì màu xanh tím đã loại bỏ màu đỏ khi có ánh sáng trắng Do đó, màu Cyan có thể được coi là màu trắng trừ đi màu đỏ, tương đương với màu lam cộng màu lục Tương tự, màu đỏ thẫm (magenta) hấp thụ màu lục, nên nó tương đương với màu đỏ cộng màu lam Cuối cùng, màu vàng (yellow) hấp thụ màu lam, do đó nó bằng màu đỏ cộng với màu lục.
Khi bề mặt của thực thể được phủ bởi màu xanh tím và vàng, nó sẽ hấp thụ hoàn toàn các màu đỏ và xanh lam, chỉ để lại màu lục phản xạ từ ánh sáng trắng Nếu bề mặt được bao phủ bởi ba màu xanh tím, vàng và đỏ thẫm, hiện tượng hấp thụ sẽ xảy ra trên cả ba màu đỏ, lục và lam, dẫn đến màu đen sẽ là màu của bề mặt Những mối liên hệ này có thể được mô tả bằng phương trình [3].
Hình 2.14 : Sự biến đổi từ RGB thành CMY
2.6.3 Không gian màu HSV (Hue, Saturation, Value)
Mô hình màu RGB và CMY có khả năng hiển thị đầy đủ các màu sắc cần thiết, nhưng việc phối màu trên hai hệ màu này thường gặp khó khăn Để đơn giản hóa quá trình phối màu, Smith đã định nghĩa mô hình màu HSV (hoặc HSB, trong đó B đại diện cho độ sáng - Brightness).
(độ sáng) hướng người sử dụng dựa trên cơ sở nền tảng trực giác về tông màu, sắc độ và sắc thái mỹ thuật
Hệ thống tọa độ hình trụ và tập màu thành phần của không gian bên trong mô hình màu được xác định dưới dạng hình nón, như minh họa trong hình ảnh bên dưới.
Hình 2.15 : Mô hình màu HSV
Không gian HSV bao gồm ba thành phần Hue (sắc màu), Saturation (bảo hòa màu) và Value (độ sáng, một số trường hợp có thể gọi là Brightness)
Sắc màu (Hue) phản ánh sự tương tác với màu sắc trong thang đo sắc màu, với dải màu chạy từ Đỏ, Vàng, Xanh Lá, Xanh Lam, Xanh Dương, Tím và trở lại Đỏ.
Sắc màu (Hue) hay H được xác định bởi góc quanh trục đứng, trong đó màu đỏ tương ứng với 0°, màu lục là 120° và màu lam là 240° Các màu bù nằm ở vị trí đối diện với các màu gốc.
Giá trị S trong hình chóp sáu cạnh dao động từ 0 trên trục tâm (trục V) đến 1 trên các mặt bên, thể hiện mức độ bão hòa màu sắc Mức độ bão hòa này phản ánh độ tươi sáng của màu, với các màu xám từ đen đến trắng có giá trị S bằng 0 Trong khi đó, giá trị V biểu thị độ sáng của màu, với V bằng 0 tương ứng với màu đen và V bằng 1 thể hiện màu sáng tối đa.
THIẾT KẾ HỆ THỐNG
Phát hiện màu da
- Ý tưởng: da người nằm trong một vùng không gian màu nhất định do đó cần xác định ngƣỡng của vùng này
Phương pháp này thu hút sự chú ý trong nghiên cứu nhờ vào tính đơn giản của nó Một trong những ưu điểm nổi bật là quy tắc nhận biết màu da dễ hiểu, cho phép việc phân lớp diễn ra nhanh chóng và thuận tiện.
- Mô hình màu da chính xác:
Màu da người được nghiên cứu và được xác định bởi các ngưỡng màu thỏa điều kiện sau:
3.1.2 Lưu đồ giải thuật phát hiện màu da
Trích đặc trƣng màu của mỗi điểm ảnh trong không gian màu
So sánh đặc tính màu của từng điểm ảnh qua phương trình màu
Xác định những điểm ảnh có màu da
Hình 3.1 : Lưu đồ giải thuật phát hiện màu da
3.1.3 Phát hiện bàn tay bằng màu da và tách bàn tay Ảnh ban đầu được chụp từ camera là dạng ảnh màu có kích thước 2938 x 2203 được minh họa bởi 5 hình dưới đây
(a) Bàn tay xòe một ngón (b) Bàn tay xòe hai ngón
(c) Bàn tay xòe ba ngón (d) Bàn tay xòe bốn ngón
(e) Bàn tay xòe năm ngón
Hình 3.2: Ảnh chụp các trạng thái bàn tay
Hình 3.3:Phát hiện bàn tay từ hình gốc 3.2(e)
Hình ảnh bàn tay sau khi tách khỏi ảnh gốc sẽ được điều chỉnh kích thước về 50x60 để đồng nhất cho quá trình nhận dạng cử chỉ, đồng thời tăng tốc độ xử lý của chương trình Tuy nhiên, kích thước nhỏ có thể làm tăng sai số, ảnh hưởng đến độ chính xác trong việc nhận dạng cử chỉ bàn tay.
Hình 3.4: Tách bàn tay ra khỏi ảnh gốc
Hình 3.5: Bàn tay sau khi resize kích thước 50x60
Lưu đồ giải thuật huấn luyện cử chỉ bàn tay
Phân tách bàn tay và ảnh chuẩn hóa nhị phân
Trích đặc trƣng dùng PCA
Huấn luyện dùng mạng nơ-ron Bắt đầu
Hình 3.6: Lưu đồ giải thuật huấn luyện cử chỉ bàn tay
- Ảnh mẫu: Những ảnh đã đƣợc chọn làm mẫu
- Phân tách bàn tay và ảnh đƣợc chuẩn hóa nhị phân: Tạo ra một tập ảnh huấn luyện theo yêu cầu có kích thước chuẩn hóa 50x60
- Trích đặc trƣng PCA: tạo ra các ảnh đặc trƣng trong không gian ảnh mới Sau khi trích đặc trƣng thì số chiều của ảnh từ 3000x1 giảm còn 300x1
Hình 3.7: Một phần trong bộ ảnh huấn luyện
Huấn luyện mạng nơ-ron sử dụng các đặc trưng được trích xuất từ phương pháp PCA, với hệ số này được sử dụng làm đầu vào cho mạng nơ-ron Quá trình này giúp xử lý và nhận dạng bàn tay hiệu quả thông qua công nghệ mạng nơ-ron.
Hình 3.8: Mô hình huấn luyện mạng Nơ-ron
Mô hình nhận dạng cử chỉ bàn tay sử dụng mạng Nơ-ron với kiến trúc đa tầng truyền thẳng trên MATLAB thông qua hàm newff Mạng này có 300 ngõ vào, được thiết lập sau khi trích xuất đặc trưng PCA từ hình ảnh bàn tay nhị phân kích thước 50x60 Hệ thống bao gồm một tầng ẩn với 105 nút mạng và một tầng ngõ ra với 5 ngõ ra tương ứng với 5 cử chỉ bàn tay, từ một ngón đến năm ngón.
Việc tính toán số lượng Nơ-ron trong lớp ẩn và lớp ngõ ra được thực hiện bằng cách sử dụng hàm sigmoid, giúp đơn giản hóa quá trình tính toán của mạng Đồng thời, việc áp dụng hàm huấn luyện cũng đóng vai trò quan trọng trong việc tối ưu hóa hiệu suất của mô hình.
This article discusses training techniques for developing a Gradient Descent algorithm that incorporates Momentum and an Adaptive Learning Rate The performance of the network is evaluated using the Mean Squared Error (MSE), which measures the difference between the output and the target values.
Bảng 3.2 trình bày các thông số thiết kế mạng Nơ-ron, bao gồm giá trị epoch tối đa là 5000 để huấn luyện, hiệu suất mong muốn đạt được là 0.001, tần suất hiển thị là 50, hằng số quán tính là 0.95, và hàm tính hiệu suất được sử dụng là mse.
Nhóm xây dựng mạng huấn luyện với 5 mẫu ứng với 5 cử chỉ bàn tay (mỗi mẫu huấn luyện có 60 ảnh)
Hình 3.9: Kết quả huấn luyện mạng Nơ-ron
Mạng huấn luyện sử dụng hình bàn tay nhị phân với kích thước 50x60, chuyển đổi ma trận ảnh thành cột 3000 phần tử Sau đó, áp dụng phương pháp PCA để trích đặc trưng, biến đổi ma trận ảnh thành cột 300 phần tử Mỗi ảnh mẫu huấn luyện được xử lý theo quy trình này.
Best Training Performance is 0.00099838 at epoch 108
Để tạo dữ liệu huấn luyện hiệu quả, 32 thông tin được ghi lại trong một cột của file Excel Sau khi thực hiện thao tác trên 300 ảnh mẫu, chúng tôi thu được một file Excel kích thước 300x100 Việc lưu trữ dữ liệu huấn luyện dưới dạng file Excel không chỉ giúp dễ dàng kiểm tra mà còn thuận tiện cho việc bổ sung thư viện huấn luyện.
Nhóm thiết kế mô hình nhận dạng hình ảnh từ máy tính phát triển công nghệ nhận diện cử chỉ bàn tay từ một đến năm ngón bằng cách sử dụng ảnh 2D làm đầu vào và cung cấp kết quả nhận dạng Mô hình nhận dạng từ Webcam cũng cho phép nhận diện cử chỉ bàn tay thông qua hình ảnh chụp trực tiếp, nhưng tỷ lệ thành công của nó thấp hơn nhiều so với mô hình từ máy tính, do ảnh hưởng của cấu trúc webcam, chất lượng hình ảnh và điều kiện ánh sáng.
Lưu đồ giải thuật nhận dạng cử chỉ bàn tay
Xác định vị trí bàn tay trong ảnh và tách bàn tay
Thành phần đặc trƣng ảnh cần nhận dạng
Nhận dạng cử chỉ Đƣa ra kết luận Bắt đầu
Hình 3.10 : Lưu đồ giải thuật nhận dạng cử chỉ bàn tay
- Ảnh ngõ vào: Ảnh màu cần nhận dạng
Phát hiện bàn tay bao gồm việc nhận dạng màu da sau khi xác định vị trí bàn tay Khu vực bàn tay sẽ được tách ra từ ảnh gốc, sau đó ảnh sẽ được chuyển đổi về định dạng nhị phân và thay đổi kích thước thành 50x60.
Để nhận dạng ảnh, trước tiên cần xác định sai số giữa ảnh cần nhận dạng và ảnh trung bình trong cơ sở dữ liệu Sau đó, chiếu ảnh này lên không gian đặc trưng của các mẫu trong cơ sở dữ liệu để tìm ra các thành phần đặc trưng của ảnh.
Nhận dạng cử chỉ bàn tay được thực hiện bằng cách tách riêng bàn tay và sử dụng mạng Nơ-ron để huấn luyện hình ảnh Nếu hình ảnh bàn tay phù hợp với yêu cầu của mạng, quá trình sẽ xác định chính xác cử chỉ của bàn tay.
- Kết luận: Thông báo cử chỉ bàn tay
KẾT QUẢ MÔ PHỎNG
Kết quả mô phỏng
Sau khi hoàn thiện mô phỏng, nhóm thực hiện thu đƣợc giao diện chính nhƣ Hình
Hình 4.2 : Giao diện chính của chương trình
Giao diện chính của chương trình bao gồm ba nút: Máy Tính, Webcam và Thoát Khi người dùng nhấn vào nút Máy Tính, giao diện nhận dạng bàn tay offline sẽ xuất hiện.
+ Khi nhấn vào nút Webcam thì giao diện nhận dạng bàn tay online hiện ra
+Khi nhấn vào nút Thoát thì thoát khỏi giao diện chính
- Giao diện offline nhƣ Hình 4.3:
Hình 4.3 : Giao diện nhận dạng offline
Giao diện offline của chương trình gồm năm nút nhấn : Chọn Ảnh, Huấn Luyện, Nhận Dạng, Tiếp Tục và Thoát
Khi bạn nhấn vào nút "Chọn Ảnh", một hộp thoại sẽ xuất hiện để bạn chọn vị trí lưu trữ ảnh cần nhận dạng Ảnh được chọn sẽ hiển thị trong khung nhận dạng ảnh.
+ Khi nhấn vào nút Huấn Luyện thì thực hiện huấn luyện tạo cơ sở dữ liệu ban đầu để nhận dạng
+ Khi nhấn vào nút Nhận Dạng thì chương trình thực hiện nhận dạng và đưa ra kết quả nhận dạng
+ Khi nhấn vào nút Tiếp Tục thì sẽ quay lại giao diện chính của chương trình
+ Khi nhấn vào nút Thoát thì thoát khỏi chương trình nhận dạng
- Giao diện online nhƣ Hình 4.4:
Hình 4.4 : Giao diện nhận dạng online
Giao diện trực tuyến của chương trình bao gồm năm nút nhấn: Huấn Luyện, Chụp Hình, Nhận Dạng, Tiếp Tục và Thoát Khi người dùng chọn giao diện trực tuyến, webcam sẽ tự động mở theo chương trình.
+ Khi nhấn vào nút Huấn Luyện thì thực hiện huấn luyện tạo cơ sở dữ liệu ban đầu để nhận dạng
+ Khi nhấn vào nút Chụp Hình thì sẽ chụp ảnh cần đƣợc nhận dạng đã xuất hiện trên màn hình của giao diện
+ Khi nhấn vào nút Nhận Dạng thì chương trình thực hiện nhận dạng và đưa ra kết quả nhận dạng
+ Khi nhấn vào nút Tiếp Tục thì sẽ quay lại giao diện chính của chương trình
+ Khi nhấn vào nút Thoát thì thoát khỏi chương trình nhận dạng
Nhóm thực hiện, thực hiện nhận dạng các cử chỉ và kết quả thu đƣợc nhƣ sau:
- Kết quả nhận dạng từ giao diện offline đƣợc thể hiện qua các Hình 4.5 đếnHình 4.9:
Hình 4.5.Kết quả nhận dạng cử chỉ 5 ngón từ máy tính
Kết quả từ Hình 4.5 cho thấy độ chính xác trong việc nhận dạng cử chỉ 5 ngón tay Trong bộ dữ liệu thực nghiệm với 20 mẫu cử chỉ 5 ngón, hệ thống chỉ nhận dạng thành công 18 ảnh, đạt tỷ lệ 90%.
Hình 4.6.Kết quả nhận dạng cử chỉ 4 ngón từ máy tính
Kết quả từ Hình 4.6 cho thấy độ chính xác trong việc nhận dạng cử chỉ 4 ngón Trong bộ dữ liệu thực nghiệm với 20 mẫu cử chỉ 4 ngón, hệ thống chỉ nhận diện thành công 16 ảnh, tương đương với tỷ lệ chính xác 80%.
Hình 4.7.Kết quả nhận dạng cử chỉ 3 ngón từ máy tính
Kết quả từ Hình 4.7 cho thấy khả năng nhận dạng chính xác cử chỉ 3 ngón Trong tập ảnh thực nghiệm với 20 mẫu cử chỉ 3 ngón, chỉ có 16 ảnh được nhận dạng thành công, đạt tỷ lệ 80%.
Hình 4.8.Kết quả nhận dạng cử chỉ 2 ngón từ máy tính
Qua kết quả Hình 4.8 cho chúng ta thấy kết quả nhận dạng không chính xác cử chỉ
3 ngón Tuy nhiên trong tập ảnh thực nghiệm cùng điều kiện 20 mẫu cho cử chỉ 2 ngón thì chỉ nhận dạng được 16 ảnh tương đương 80%
Hình 4.9.Kết quả nhận dạng cử chỉ 1 ngón từ máy tính
Kết quả từ Hình 4.9 cho thấy độ chính xác trong việc nhận dạng cử chỉ 1 ngón Trong tập ảnh thực nghiệm với 20 mẫu cử chỉ 1 ngón, chỉ có 16 ảnh được nhận dạng thành công, tương đương với tỷ lệ 80%.
- Kết quả nhận dạng từ giao diện online đƣợc thể hiện qua Hình 4.10 và Hình 4.11:
Hình 4.10.Kết quả nhận dạng cử chỉ 5 ngón từ webcam
Kết quả từ Hình 4.10 cho thấy khả năng nhận dạng chính xác cử chỉ 5 ngón từ webcam máy tính Trong một tập ảnh thực nghiệm với 20 mẫu cử chỉ 5 ngón, hệ thống chỉ nhận dạng thành công 14 ảnh, đạt tỷ lệ 70%.
Hình 4.11.Kết quả nhận dạng cử chỉ 4 ngón từ webcam
Qua kết quả Hình 4.11 cho chúng ta thấy kết quả nhận dạng không chính xác cử chỉ
Việc nhận diện cử chỉ 4 ngón tay gặp khó khăn do ánh sáng quá chói và webcam máy tính có độ phân giải thấp, làm cho việc phân biệt màu da và tách bàn tay trở nên khó khăn Trong một thử nghiệm với 20 mẫu cử chỉ 4 ngón, chỉ có 12 ảnh được nhận dạng thành công, tương đương với tỷ lệ 60%.
Nhận xét kết quả
Kết quả thực nghiệm cho thấy, như thể hiện trong Bảng 4.1, máy tính có khả năng nhận dạng cử chỉ với độ chính xác cao hơn so với webcam Đặc biệt, cử chỉ năm ngón đạt tỷ lệ nhận dạng chính xác cao nhất so với các loại cử chỉ khác.
Bảng 4.1: Kết quả nhận dạng cử chỉ bàn tay
Cử chỉ Một ngón Hai ngón Ba ngón Bốn ngón Năm ngón