1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay

69 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 2,39 MB

Cấu trúc

  • Chương 1: TỔNG QUAN (18)
    • 1.1. Giới thiệu tình hình nghiên cứu hiện nay (18)
    • 1.2. Một số ứng dụng thực tế dựa trên cử chỉ bàn tay (19)
    • 1.3. Tính cấp thiết của đề tài (20)
    • 1.4. Mục tiêu nghiên cứu (20)
    • 1.5. Nhiệm vụ nghiên cứu (20)
    • 1.6. Đối tƣợng, phạm vi nghiên cứu và giới hạn đề tài (20)
    • 1.7. Phương pháp nghiên cứu (20)
    • 1.8. Bố cục của đồ án (20)
  • Chương 2: CƠ SỞ LÝ THUYẾT (22)
    • 2.1. Các khái niệm và lý thuyết liên quan trong xử lí ảnh (22)
      • 2.1.1. Xử lí ảnh (22)
      • 2.1.2. Ảnh số (22)
      • 2.1.3. Điểm ảnh (23)
      • 2.1.4. Độ phân giải (23)
      • 2.1.5. Mức xám (24)
      • 2.1.6. Lƣợc đồ ảnh xám (24)
      • 2.1.7. Phân loại ảnh (25)
    • 2.2. Phương pháp Phân tích thành phần chính (PCA) (26)
      • 2.2.1. Khái niệm (26)
      • 2.2.2. Nội dung thuật toán (27)
    • 2.3. Phân biệt màu da (29)
    • 2.4. Hệ thống nhận dạng mạng nơ-ron nhân tạo (ANN) (31)
      • 2.4.1. Khái niệm (31)
      • 2.4.2. Các tính chất của mạng nơ-ron nhân tạo (32)
      • 2.4.3. Mô hình của một mạng nơ-ron nhân tạo (32)
      • 2.4.4. Thiết kế một mạng Nơ-ron (33)
      • 2.4.5. Giải thuật lan truyền ngƣợc (34)
    • 2.5. Nhận dạng cử chỉ bàn tay bằng tính năng tổ hợp (40)
    • 2.6. Không gian màu (41)
      • 2.6.1. Không gian màu RGB (42)
      • 2.6.2. Không gian màu CMY (Cyan, Magenta, Yellow) (42)
      • 2.6.3. Không gian màu HSV (Hue, Saturation, Value) (43)
      • 2.6.4. Không gian màu HSL (44)
      • 2.6.5. Không gian màu YcbCr (45)
  • Chương 3: THIẾT KẾ HỆ THỐNG (47)
    • 3.1. Phát hiện màu da (47)
      • 3.1.1. Giới thiệu (47)
      • 3.1.2. Lưu đồ giải thuật phát hiện màu da (47)
      • 3.1.3. Phát hiện bàn tay bằng màu da và tách bàn tay (48)
    • 3.2. Lưu đồ giải thuật huấn luyện cử chỉ bàn tay (50)
    • 3.3. Lưu đồ giải thuật nhận dạng cử chỉ bàn tay (53)
  • CHƯƠNG 4: KẾT QUẢ MÔ PHỎNG (55)
    • 4.1. Kết quả mô phỏng (55)
    • 4.2. Nhận xét kết quả (65)
  • CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN (66)
    • 5.1. Kết luận (66)
    • 5.2. Hướng phát triển (66)

Nội dung

TỔNG QUAN

Giới thiệu tình hình nghiên cứu hiện nay

Trong những năm gần đây, công nghệ xử lý ảnh đã có những bước tiến vượt bậc, đặc biệt trong lĩnh vực nhận dạng và phân loại ảnh Các hệ thống này không chỉ giúp giảm khối lượng công việc mà còn nâng cao độ chính xác trong việc ra quyết định liên quan đến xử lý hình ảnh Điều này đã mang lại lợi ích cho nhiều lĩnh vực như quân sự, quốc phòng, kinh tế, xã hội và an ninh.

Hiện nay, với sự phát triển của khoa học công nghệ, đặc biệt là trong lĩnh vực xử lý ảnh, nhận dạng con người đã trở thành một ứng dụng quan trọng trong nhiều lĩnh vực như kinh tế, đời sống xã hội và an ninh quốc phòng Nhiều phương pháp nhận dạng con người đã được nghiên cứu và áp dụng rộng rãi, bao gồm nhận dạng vân tay, vân mắt và khuôn mặt Trong số đó, nhận dạng vân tay đã đạt được độ chính xác gần như tuyệt đối và đang được sử dụng phổ biến trong nhiều lĩnh vực khác nhau.

Việc nhận dạng cử chỉ của con người đang ngày càng được chú trọng nhằm cải thiện giao tiếp giữa con người và máy tính Các hệ thống như Samsung SmartTV đã áp dụng công nghệ nhận dạng cử chỉ bàn tay để điều khiển tivi mà không cần remote, trong khi Microsoft phát triển vòng cảm biến đeo tay Digits, cho phép người dùng điều khiển nhiều thiết bị khác thông qua cử chỉ tay.

Hình 1.1 : Vòng cảm biến nhận dạng cử chỉ Digits của Microsoft

Một số ứng dụng thực tế dựa trên cử chỉ bàn tay

Nhận dạng cử chỉ bàn tay có rất nhiều ứng dụng trong thực tế:

Thiết kế 3D là một quá trình phức tạp và tốn thời gian khi thao tác bằng chuột máy tính Để cải thiện trải nghiệm này, Viện Công nghệ Massachusetts đã phát triển công nghệ 3DRAW, sử dụng một cây bút kết hợp với thiết bị Polhemus để theo dõi vị trí và định hướng trong không gian 3 chiều.

Điều khiển từ xa là công nghệ giúp tăng cường khả năng điều khiển máy móc trong các tình huống khẩn cấp hoặc ở những khu vực khó tiếp cận Công nghệ này cho phép con người điều khiển cánh tay robot thông qua các cử chỉ cơ thể, phục vụ cho việc thực hiện các nhiệm vụ cần thiết Bên cạnh đó, điều khiển từ xa còn được ứng dụng rộng rãi trong các lĩnh vực giải trí như tivi và trò chơi điện tử.

Hình 1.2 : Sử dụng bàn tay giống nhƣ hình một khẩu súng để chơi các trò chơi bắn súng

Thực tế ảo là công nghệ mô phỏng thế giới thật thông qua máy tính, tái tạo môi trường vật chất xung quanh Công nghệ này mang đến trải nghiệm giác quan đa dạng, bao gồm thị giác, thính giác, xúc giác, khứu giác và vị giác ảo Thực tế ảo được ứng dụng rộng rãi trong các lĩnh vực giải trí, giáo dục, nghệ thuật và cả trong trị liệu y học.

Ngôn ngữ ký hiệu là hình thức ngôn ngữ tự nhiên và thô sơ nhất, xuất hiện từ những ngày đầu của nền văn minh nhân loại, trước cả khi ngôn ngữ nói ra đời Nó cho phép con người giao tiếp và hiểu nhau mà không cần sử dụng cùng một ngôn ngữ nói, đồng thời hỗ trợ người câm điếc hòa nhập vào xã hội.

Tính cấp thiết của đề tài

Nhóm nghiên cứu đã quyết định tìm hiểu về việc nhận dạng cử chỉ bàn tay con người, dựa trên những thành tựu hiện tại trong lĩnh vực này Đề tài "Ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay" được xây dựng nhằm khám phá những nguyên tắc cơ bản của việc nhận diện cử chỉ, đánh dấu bước đầu quan trọng trong quá trình phát triển và ứng dụng thực tiễn công nghệ này.

Mục tiêu nghiên cứu

- Trích đặc trƣng PCA và kết hợp với phát hiện màu da nhận dạng bàn tay.

- Xây dựng mô hình nhận dạng cử chỉ bằng mạng Nơ-ron trên Matlab.

Nhiệm vụ nghiên cứu

- Tìm hiểu các bước trích đặc trưng PCA

- Thực hiện trích đặc trƣng PCA và phân biệt màu da trên matlab.

- Nghiên cứu tổng quan về mạng Nơ-ron nhân tạo.

- Mô phỏng hệ thống nhận dạng cử chỉ dùng mạng Nơ-ron nhân tạo.

Đối tƣợng, phạm vi nghiên cứu và giới hạn đề tài

Bài viết này tập trung vào việc nhận dạng bàn tay thông qua các cử chỉ cơ bản, bao gồm một ngón, hai ngón, ba ngón, bốn ngón và năm ngón Nhóm nghiên cứu hiện tại chỉ giới hạn đề tài ở việc nhận diện các hình dạng cử chỉ tay cơ bản.

Phương pháp nghiên cứu

- Tìm hiểu các bước thực hiện phương pháp trích đặc trưng PCA.

- Thực hiện phân biệt màu da trên Matlab.

- Nghiên cứu tổng quan về mạng Nơ-ron nhân tạo.

- Mô phỏng mô hình nhận dạng cử chỉ sử dụng mạng Nơ-ron nhân tạo.

Bố cục của đồ án

Hiện nay, nghiên cứu về hệ thống nhận dạng cử chỉ đang phát triển mạnh mẽ với nhiều ứng dụng thực tiễn trong các lĩnh vực như công nghệ thông tin, giáo dục và y tế Tính cấp thiết của đề tài này xuất phát từ nhu cầu ngày càng cao trong việc tương tác tự nhiên giữa con người và máy móc Mục tiêu của nghiên cứu là phát triển một hệ thống nhận dạng cử chỉ hiệu quả, đáp ứng được yêu cầu của người dùng Nhiệm vụ bao gồm việc khảo sát các phương pháp hiện có, thử nghiệm và đánh giá hiệu suất của hệ thống Đối tượng nghiên cứu chủ yếu là các thuật toán nhận dạng cử chỉ, trong khi phạm vi nghiên cứu tập trung vào ứng dụng trong môi trường thực tế Giới hạn của đề tài sẽ được xác định dựa trên các yếu tố như độ chính xác và tốc độ xử lý của hệ thống.

- Chương 2: Cơ sở lí thuyết :

Xử lý ảnh bao gồm nhiều khái niệm và lý thuyết quan trọng, trong đó có phương pháp trích đặc trưng PCA, giúp giảm chiều dữ liệu hiệu quả Phân biệt màu da là một ứng dụng thiết yếu trong nhận diện khuôn mặt, trong khi hệ thống nhận dạng sử dụng mạng nơ-ron nhân tạo để cải thiện độ chính xác Ngoài ra, việc hiểu rõ các không gian màu cũng đóng vai trò quan trọng trong việc tối ưu hóa quá trình xử lý và phân tích hình ảnh.

- Chương 3: Thiết kế hệ thống :

Lưu đồ giải thuật cho quá trình huấn luyện và nhận dạng ảnh sử dụng phương pháp phân biệt màu da và xác định diện tích bàn tay, kết hợp với phân tích thành phần chính (PCA) và mạng nơ-ron, nhằm nâng cao độ chính xác trong nhận diện.

- Chương 4: Kết quả mô phỏng :

Cho biết kết quả mô phỏng,xác suất nhận dạng thành công qua các lần thử nghiệm.

- Chương 5: Kết luận và hướng phát triển :

Kết luận về những gì tìm hiểu đƣợc và các hạn chế chƣa thể khắc phục Đƣa ra hướng phát triển đề tài.

CƠ SỞ LÝ THUYẾT

Các khái niệm và lý thuyết liên quan trong xử lí ảnh

Xử lý ảnh là quá trình xử lý tín hiệu hai chiều, trong đó bức ảnh là tín hiệu đầu vào Kết quả của quá trình này có thể là một bức ảnh mới hoặc một chuỗi đặc trưng và thông số liên quan đến bức ảnh Thường thì, xử lý ảnh được phân loại là xử lý ảnh số.

Xử lý ảnh nhằm giải quyết các bài toán:

Đo lường đối tượng bao gồm việc xác định vết nứt trên tường thông qua hình ảnh từ camera, đo kích thước chân ic, khoảng cách từ đối tượng đến camera, cũng như các chỉ số sinh học như nhịp tim và nhiệt độ.

-Bám đối tượng: Sử dụng máy bay không người lái để bám theo mục tiêu nào đấy, sử dụng camera để giám sát cảnh báo lái xe ngủ gật,

-Nhận dạng: Nhận dạng biển số xe, nhận dạng mặt người, nhận dạng vân tay, nhận dạng chữ viết, nhận dạng đám cháy…

-Phân loại: Phân loại sản phẩm theo màu sắc, kích cỡ; đánh giá chất lƣợng nông sản…

Xây dựng phần mềm xử lý ảnh chuyên nghiệp như Photoshop và Camera 360 đang trở thành xu hướng nổi bật Ứng dụng xử lý ảnh hiện nay rất đa dạng, và lĩnh vực này đã phát triển thành một ngành khoa học toàn cầu mang tên "Thị giác máy tính" (Computer Vision).

2.1.2 Ảnh số Ảnh số là tập hợp hữu hạn các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh gần với ảnh thật Số điểm ảnh xác định độ phân giải của ảnh Ảnh có độ phân giải càng cao thì càng thể hiện rõ nét các đặt điểm của tấm hình càng làm cho tấm ảnh trở nên thực và sắc nét hơn [1]

2.1.3 Điểm ảnh Điểm ảnh (Picture Element – Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần nhƣ ảnh thật Mỗi phần tử trong ma trận đƣợc gọi là một phần tử ảnh [1]

Độ phân giải của ảnh (Resolution) là mật độ điểm ảnh được xác định trên một ảnh số hiển thị, với khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người cảm nhận được sự liên tục của ảnh Việc lựa chọn khoảng cách thích hợp tạo nên mật độ phân bổ, chính là độ phân giải, được phân bố theo trục x và y trong không gian hai chiều.

Mức xám là giá trị độ sáng của một điểm ảnh, được xác định bởi một số nguyên dương trong khoảng từ 0 đến 255, tùy thuộc vào cách mỗi điểm ảnh được biểu diễn.

Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256

Mức 256 là mức phổ biến trong kỹ thuật máy tính, vì một byte (8 bit) có thể biểu diễn 256 mức xám khác nhau, từ 0 đến 255.

Một phương pháp phổ biến trong xử lý ảnh số là xem xét cường độ sáng của ảnh f(x,y) như một biến ngẫu nhiên với hàm phân bố xác suất pk(f) Hàm phân bố xác suất này cung cấp thông tin toàn cục về nội dung của ảnh Tuy nhiên, hàm phân bố xác suất tổng quát thường không đủ chính xác, vì vậy người ta thường sử dụng hàm phân bố xác suất thực nghiệm, được xác định từ ảnh, gọi là hàm histogram Histogram của ảnh số với mức xám nằm trong khoảng [0, L-1] là một công cụ quan trọng trong phân tích và xử lý ảnh.

= (2.1) Với là mức xám thứ k là số pixel trong ảnh có mức xám thứ k tổng số pixel trong ảnh

Lược đồ xám là một biểu đồ với trục hoành thể hiện mức xám từ 0 đến 255 và trục tung thể hiện số lượng điểm sáng tương ứng.

Có 4 dạng quan trọng trong ảnh số đƣợc dùng với nhiều mục đích khác nhau là [1] : Ảnh xám (hay còn gọi là ảnh đen trắng): là ảnh đƣợc xây dựng từ nhiều pixel mà tại đó biểu diễn một giá trị nhất định tương ứng với một mức xám Giá trị mức xám nằm trong [0, 255] nhƣ vậy mỗi pixel đƣợc biểu diễn bởi 1 byte.

Ảnh màu được tạo thành từ nhiều pixel, mỗi pixel được biểu diễn bằng ba giá trị tương ứng với các kênh màu đỏ (Red), xanh lá (Green) và xanh dương (Blue) trong không gian màu RGB Các kênh màu này là những màu cơ bản, từ đó có thể pha trộn để tạo ra nhiều màu sắc khác nhau.

Ảnh nhị phân chỉ sử dụng 1 bit để biểu diễn mỗi pixel, cho phép xác lập 2 trạng thái là 1 và 0, tương ứng với màu trắng và đen Vì đặc điểm này, ảnh nhị phân ít được ứng dụng trong thực tế.

Hình 2.7 :Ảnh nhị phân Ảnh chỉ số (indexed): một vài ảnh màu (hay đen trắng) đƣợc tạo thành từ một bảng màu có sẵn bị giới hạn.

Phương pháp Phân tích thành phần chính (PCA)

PCA (Phân tích thành phần chính) là một thuật toán hữu ích trong việc khảo sát, phân loại và phân nhóm dữ liệu, giúp biến đổi nhiều biến tương quan thành ít biến không tương quan hơn Phương pháp này tối ưu hóa việc giữ lại lượng phương sai tối đa trong dữ liệu Tuy nhiên, PCA cũng có những ưu điểm và nhược điểm cần được xem xét khi áp dụng.

Để nhận dạng đối tượng một cách hiệu quả, cần xác định các đặc trưng tiêu biểu mà không cần phải kiểm tra các thành phần cũng như mối quan hệ giữa chúng.

Thuật toán PCA có khả năng xử lý các ảnh có độ phân giải cao bằng cách giảm kích thước ảnh, chuyển đổi chúng thành những ảnh mới có kích thước nhỏ hơn.

Phương pháp PCA có thể được kết hợp với các kỹ thuật nhận dạng khác như máy vector hỗ trợ (SVM) và mạng nơ-ron nhân tạo, nhằm nâng cao hiệu quả trong việc xử lý và phân tích dữ liệu.

Phương pháp PCA phân loại dữ liệu dựa trên chiều lớn nhất của tập vector, nhưng chiều phân bố lớn không phải lúc nào cũng tối ưu cho bài toán nhận dạng Điều này thể hiện nhược điểm cơ bản của PCA.

- Phương pháp PCA rất nhạy với nhiễu.

Trích chọn đặc trưng PCA và huấn luyện

Bước 1: Cơ sở dữ liệu

-Đầu tiên chúng ta sẽ đọc cơ sở dữ liệu và nhận vào các ảnh luyện Ii Các ảnh luyện ở đây đều có cùng kích thước với nhau.

- Giả sử có M ảnh, khi đó I = 1 M Sau đó ta tương ứng mỗi ảnh Ii với một vector Γ i

Bước 2: Tính giá trị trung bình

Giá trị vector trung bình:

- Với M là số ảnh trong tập luyện, Γi là vector 1 chiều (N 2 ×1) đại diện cho mỗi ảnh.

- Ψ là vector trung bình (kích thước N 2 ×1)của tập tất cả các Γi trên.

- Ψ còn đƣợc gọi là vector trung bình của tập luyện.

Bước 3: Tính sai lệch ảnh đầu vào so với giá trị trung bình

- Sai số của các ảnh so với giá trị vector trung bình đƣợc tính toán theo công thức:

Trong đó, i là vector sai số ứng với mỗi ảnh, i là vector 1 chiều của ảnh, là vector trung bình.

Bước 4: Ma trận hiệp phương sai

Ma trận hiệp biến đƣợc tính theo công thức sau: C

A là ma trận N 2 xM, n là giá trị sai số đƣợc tính ở công thức trên.

Bước 5: Tính trị riêng và vector riêng

Để tính các trị riêng và vector đặc trưng của ma trận hiệp biến, chúng ta cần làm việc với ma trận C, tương đương với việc tính toán ma trận AA T Tuy nhiên, điều này gặp khó khăn vì ma trận C có kích thước N² × N², dẫn đến số chiều quá lớn và khối lượng tính toán khổng lồ, đặc biệt khi kích thước ảnh luyện lớn, khiến N trở nên lớn, làm cho N² và N² × N² trở nên cực kỳ lớn.

Hai ma trận AA T và A T A có chung trị riêng và vector đặc trưng, liên hệ với nhau qua biểu thức ui = Avi Do ma trận A T A có số chiều ít hơn (ma trận M×M), nên chúng ta sẽ chuyển đổi về ma trận A T A.

-Sau khi tính toán ta được M vector đặc trưng của AA T (ui = Avi)tương ứng với M giá trị riêng.

Chuẩn hóa các vector đặc trƣng ui về vector đơn vị: ||ui|| =1

Bước 6: Lựa chọn các thành phần xây dựng vector đặc trưng riêng

-Để giảm thiểu tối đa số chiều cũng nhƣ giảm độ phức tạp tính toán, ta chỉ giữ lại

K vector đặc trưng tương ứng với giá trị riêng lớn nhất K Sau khi trừ đi giá trị trung bình, mỗi ảnh sẽ được đại diện bởi K vector đặc trưng.

Trong đó w i j ( j1 K ) là các trọng số tương ứng với K vector đặc trưng, i là vector đại diện cho ảnh thứ i trong tập luyện [2]

Phân biệt màu da

Do phạm vi màu da bao gồm nhiều màu da giống nhau Nếu chúng ta xây dựng

11 người sẽ cải thiện hệ thống mạnh mẽ vì số lượng giảm của các biến thể màu sắc trong khuôn mặt và tay của mỗi người.

Mô hình màu da khuôn mặt dựa trên đề xuất của Liou được áp dụng để phát hiện vùng da mặt bằng cách loại bỏ các yếu tố như mắt, mũi và miệng, đồng thời phân tích biểu đồ mức xám Phân bố màu đỏ, xanh lá và đỏ ban đầu được giả định là phân bố Gaussian, từ đó tính toán các phương tiện và độ lệch chuẩn để xây dựng mô hình màu da thích nghi Mô hình này sau đó có thể được sử dụng để phát hiện các vùng da khác từ cùng một người Kết quả thí nghiệm cho thấy hệ thống có khả năng phát hiện đúng các pixel da ngay cả trong điều kiện ánh sáng cực kỳ xấu.

Hệ thống nhận dạng mạng nơ-ron nhân tạo (ANN)

Mạng Nơ-ron nhân tạo (Artificial Neural Networks) đã thu hút sự quan tâm lớn trong những năm gần đây và được áp dụng thành công trong nhiều lĩnh vực khác nhau Chúng có khả năng giải quyết hiệu quả các vấn đề về dự báo, phân loại và điều khiển Sự phát triển nhanh chóng của mạng Nơ-ron nhân tạo có thể được lý giải bởi một số yếu tố quan trọng.

Mạng Nơ-ron nhân tạo là các kỹ thuật mô phỏng tinh vi, có khả năng xử lý các hàm phức tạp và hoạt động phi tuyến Trong nhiều năm qua, mô hình tuyến tính đã được sử dụng rộng rãi trong nhiều lĩnh vực, nhờ vào tính chiến lược tối ưu hóa của nó, nhưng mạng Nơ-ron nhân tạo đang dần trở thành một giải pháp ưu việt hơn.

Mạng Nơ-ron nhân tạo dễ sử dụng nhờ khả năng học từ các ví dụ Người dùng chỉ cần thu thập dữ liệu đặc trưng và áp dụng các thuật toán huấn luyện để mạng có thể tự học cấu trúc dữ liệu Tuy nhiên, mặc dù người dùng thực hiện các bước chọn và chuẩn bị dữ liệu cũng như hiểu kết quả, nhưng khả năng áp dụng thành công mạng Nơ-ron nhân tạo vẫn thấp hơn so với các phương pháp thống kê truyền thống.

The first artificial neural network (ANN) developed was the Perceptron by Frank Rosenblatt in 1958, followed by Artron, Adaline, and Madaline These four fundamental types, especially the Perceptron, laid the groundwork for the evolution of ANNs Subsequently, three primary networks were further developed: the Back-propagation network, Hopfield Network, and Counter-Propagation Network.

2.4.2 Các tính chất của mạng nơ-ron nhân tạo

- Là hệ phi tuyến: Mạng Nơ-ron có khả năng to lớn trong lĩnh vực nhận dạng và điều khiển các đối tƣợng phi tuyến.

Mạng Nơ-ron là hệ xử lý song song, mang lại khả năng tính toán cao, rất phù hợp cho các ứng dụng trong lĩnh vực nhận dạng và điều khiển.

Mạng học và thích nghi là một hệ thống có khả năng tự điều chỉnh dựa trên các số liệu có sẵn, cho phép nó hoạt động hiệu quả ngay cả khi một phần dữ liệu đầu vào bị mất Hệ thống này có thể được điều khiển trực tuyến, mang lại sự linh hoạt và hiệu suất cao trong việc xử lý thông tin.

-Là hệ nhiều biến nhiều ngõ vào, nhiều ngõ ra (MIMO), rất tiện dùng khi đối tƣợng điều khiển có nhiều biến số.

2.4.3 Mô hình của một mạng nơ-ron nhân tạo

Neural nhân tạo bao gồm nhiều ngõ vào, nhận dữ liệu từ các nguồn gốc hoặc từ ngõ ra của các neural khác Mỗi kết nối đến ngõ vào có cường độ hay trọng số riêng Các ngõ vào có thể là vô hướng hoặc hữu hướng, và mỗi neural được gán một giá trị ngưỡng Tín hiệu được truyền qua hàm kích hoạt, từ đó tạo ra giá trị ngõ ra cho neural.

Nơ-ron nhiều ngõ vào

Hình 2.8 : Mạng nơ-ron 1 ngõ vào (a) và Mạng nơ-ron nhiều ngõ vào (b) x1 Wk1 x2 Wk2

Hàm tổng xN WkN Đầu vào Trọng số liên kết

Hàm truyền f() bk Ngƣỡng yk Đầu ra

Hình 2.9 : Mô hình một nơ-ron nhân tạo đơn giản

Nơ-ron là một đơn vị xử lý thông tin cơ bản cho sự vận hành của mạng Nơ-ron.

Mô hình Nơ-ron gồm 3 thành phần:

-Một tâp “synapse” hoặc “kết nối ” đƣợc tiêu biểu bằng trọng số(weight) của nó.

Ví dụ một tín hiệu ở synapse nhập j kết nối với Nơ-ron k sẽ nhân với trọng số synapse tương ứng ở trạng thái hoạt động, nếu nó không âm.

Bộ cộng (adder) thực hiện phép cộng các tín hiệu đầu vào (input) được nhân với trọng số tương ứng của synapse trong Nơ-ron, và quá trình này được gọi là phép tổ hợp tuyến tính.

- Một hàm số g để hạn chế biên độ tín hiệu ngõ ra (output) của một Nơ-ron Một Nơ-ron đƣợc diễn ta nhƣ sau:

Trong bài viết này, x1, …, xn đại diện cho các tín hiệu đầu vào, trong khi wkj, …, wkp là các trọng số synaptic của nơ-ron k, có vai trò quan trọng trong việc kết hợp tuyến tính để xác định giá trị ngưỡng của tín hiệu đầu ra từ nơ-ron k.

2.4.4 Thiết kế một mạng Nơ-ron

Đầu tiên, cần xác định tập dữ liệu, bao gồm nhiều trường hợp với các giá trị đầu vào và đầu ra khác nhau Tiếp theo, xác định các biến sẽ sử dụng và số lượng trường hợp cần thu thập.

Việc chọn lựa các biến thường dựa trên trực giác và phụ thuộc vào chuyên môn cũng như lĩnh vực ứng dụng của chúng.

Chọn cấu hình ban đầu (thường là 1 lớp ẩn có số neural ẩn bằng nửa tổng số neural ngõ vào và ngõ ra).

Thực hiện lặp đi lặp lại số thí nghiệm của mỗi cấu hình, giữ lại mạng tốt nhất (thường dựa vào sai số).

Trong quá trình thí nghiệm, nếu kết quả không đạt yêu cầu về xác suất do việc học chưa đủ, bạn nên tăng số lượng nơ-ron trong lớp ẩn Ngược lại, nếu xảy ra tình trạng học quá mức dẫn đến sai số ban đầu tăng, hãy giảm bớt một vài nơ-ron ẩn, thậm chí có thể xem xét bỏ cả lớp ẩn.

2.4.5 Giải thuật lan truyền ngƣợc

Thuật toán Lan truyền ngược (BP) được giới thiệu bởi Rumelhart vào năm 1986, với sự đóng góp của Hinton và Williams trong việc đặt trọng số để huấn luyện perceptron đa lớp Sự mở rộng này nhằm tối ưu hóa việc sử dụng mạng nơ-ron nhân tạo (ANN) đa lớp, đồng thời loại bỏ các lớp ẩn không mong muốn ở đầu ra.

Thuật toán BP đóng vai trò quan trọng trong việc tính toán tại lớp ngõ ra, nơi mà kết quả đầu ra mong muốn phải được thông qua lớp trung gian Điều này dẫn đến việc xuất hiện lỗi năng lượng ở lớp ngõ ra.

≜ 1 2 ( − ) 2 = 1 2 2 (2.11) k=1…….N; N số mạng Nơ-ron ở lớp ngõ ra.Vì vậy xét đến gradient of ở lớp ngõ ra, trong đó:

Do sự giảm của của quy trình (gradient), ta có:

Ngõ vào j biểu thị đầu vào thứ j đến mạng Nơ-ron thứ k của lớp ra Ở đó, một lần nữa bởi quy trình giảm gradient :

Dấu (-) trong công thức (2.14) cho biết hướng giảm về mức nhỏ nhất

Lưu ý perceptron định nghĩa cho perceptron thứ k của của nút ngõ ra cho bởi:

= (2.15) xj là ngõ vào thứ j của mạng Nơ-ron, và đánh dấu ngõ ra thứ yk:

F là một hàm phi tuyến Và thay thế

= p biểu thị lớp ra, như vậy phương trình (2.17) trở thành:

Xác định: sau đó tiến hành phương trình (2.18)

Và phương trình (2.14) và (2.21) ta có:

Ngõ vào j biểu thị đầu vào thứ j tới mạng Nơ-ron thứ k của lớp ngõ ra (p), ngoài ra từ phương trình,ta có:

= − trong khi đó, phi tuyến sigmoid:

= Φ = (1− )( − )(2.27) như vậy, ở ngõ ra từ phương trình (2.14), (2.18) ta được:

∆ = − ở đó, phương trình (2.18) và (2.23) nên:

∆ = Φ ( ) ( −1) (2.29) Φ được tìm ra ở phương trình (2.27), để thiết lập trọng số ở ngõ ra ta lấy đạo hàm.

Dùng thuật toán lan truyền ngƣợc cuả lớp ẩn thứ r, nhƣ trên ta có:

Từ thứ i tách ra thứ j của lớp ẩn Nơ-ron thứ r,vì vậy từ phương trình (2.17) ta có:

Từ phương trình (2.18) và định nghĩa của Φ trong phương trình (2.23) ta được:

Như vậy, từ phương trình (2.23) ta được:

Trong đó: là khó tính toán đƣợc cũng nhƣ Φ ( ) ở trên.

Chỉ có thể bị ảnh hưởng bởi Nơ-ron khi hiện tượng lan truyền ngược xảy ra ở lớp ra, vì không có thông tin khác có sẵn trong giai đoạn này.

Nhận dạng cử chỉ bàn tay bằng tính năng tổ hợp

Tiền xử lý hình ảnh bàn tay là bước quan trọng để trích xuất các đặc điểm của bàn tay sau khi nhận diện cử chỉ Quá trình này giúp xác định và tạo ra những hình dạng tay chính xác, từ đó nâng cao khả năng nhận diện và tương tác trong các ứng dụng công nghệ.

Phát hiện cử chỉ bàn tay liên quan đến việc nhận diện hình dạng tay, được phân loại dựa trên màu da Các hình ảnh tay được phân nhóm theo năm không gian màu phổ biến: RGB, HSV, YCbCr và YUV Nghiên cứu đã chỉ ra sự phân bố màu da của bàn tay con người dưới các điều kiện ánh sáng khác nhau trong bốn không gian màu này Kết quả cho thấy rằng không gian màu YCbCr và HSV hiệu quả hơn RGB trong việc phát hiện màu da.

Cử chỉ bàn tay tiền xử lý là quá trình nghiên cứu nhị phân hình ảnh bàn tay nhằm tăng cường độ tương phản để xác định chính xác hình dạng và các đặc điểm của bàn tay, đồng thời loại bỏ nhiễu trong quá trình chuyển đổi Thuật toán chuyển đổi nhị phân bắt đầu bằng việc sử dụng các giá trị màu và điểm ảnh thông qua việc tính toán các giá trị trong ảnh RGB Tiếp theo, các điểm ảnh được gán màu đen nếu không thuộc vùng da, trong khi những vùng có giá trị màu da sẽ được gán màu trắng Để giảm thiểu nhiễu, bộ lọc trung bình và bộ làm phẳng được áp dụng.

Nhận dạng cử chỉ là quá trình kết hợp các thông tin từ HU, khu vực cử chỉ bàn tay và mô tả Fourier để tạo thành một vector Các vector đặc trưng vùng tay bao gồm tỷ lệ diện tích, tỷ lệ nhị phân, diện tích mặt và chu vi bàn tay Tỷ lệ diện tích phản ánh mức độ chia cắt của các khu vực vùng mặt bởi các cử chỉ tay.

Nghiên cứu về diện tích hình chữ nhật liên quan đến việc tính toán các giá trị của bàn tay và các cử chỉ liên quan Phương pháp tính toán có thể thực hiện bằng cách quét các điểm ảnh màu trắng trong ảnh nhị phân, và thu được kết quả thông qua việc cắt các hình ảnh nhị phân.

Không gian màu

Màu sắc được hình thành từ ánh sáng với các bước sóng khác nhau, và mắt người chứa ba loại tế bào cảm nhận màu, cho phép chúng ta nhìn thấy khoảng bảy triệu màu, nhưng thực tế chỉ cảm nhận được vài ngàn màu khác biệt Mỗi màu sắc có thể được mô tả qua ba thuộc tính chính: sắc thái màu (Hue), độ bão hòa (Saturation) và độ chói (Intensity).

Trong xử lý ảnh và đồ họa, mô hình màu là một hệ tọa độ màu 3 chiều, cho phép biểu diễn tất cả các màu Chẳng hạn, mô hình màu RGB (Đỏ, Xanh lá, Xanh dương) là một tập hợp các màu thành phần được sắp xếp theo hình lập phương trong hệ trục tọa độ Đề các.

Mô hình màu được thiết kế để biểu diễn một phần của các màu nhìn thấy thông qua các chỉ số kỹ thuật quy ước Dưới đây, chúng ta sẽ khám phá một số mô hình màu phổ biến nhất hiện nay.

Tất cả các màu sắc đều được hình thành từ ba màu cơ bản: đỏ (Red - R), lam (Blue - B) và lục (Green - G) Khi các màu cơ bản này được trộn lẫn theo tỷ lệ nhất định, chúng sẽ tạo ra các màu thứ cấp.

Hình 2.11: Các màu cơ bản

Trộn ba màu sơ cấp hoặc trộn một màu thứ cấp với màu sơ cấp ngƣợc với nó sẽ tạo ra đƣợc ánh sáng trắng

Hình 2.12 : (a).Không gian màu RGB

Không gian màu RGB chia các màu ra các thành phần màu chính là R (Red-đỏ),

Mô hình màu RGB bao gồm ba màu chính: đỏ (R), xanh lá (G) và xanh dương (B), cho phép phối hợp ánh sáng ở các cường độ khác nhau để tạo ra nhiều màu sắc khác Trong ảnh 24 bit, mỗi màu chính được biểu diễn bằng 8 bit, với giá trị màu đỏ là (255,0,0), xanh dương là (0,0,255) và xanh lá là (0,255,0) Mặc dù mô hình RGB được sử dụng phổ biến trong các hệ thống đồ họa, nhưng nó không phải là lựa chọn tối ưu cho các ứng dụng phát hiện và nhận dạng vật thể do sự liên kết chặt chẽ giữa các thành phần màu, gây khó khăn cho một số thuật toán xử lý ảnh.

Màu đỏ, xanh lá cây và xanh da trời (RGB) là ba màu cơ bản được sử dụng phổ biến trong hiển thị Hệ màu này hoạt động theo nguyên tắc phối màu cộng, cho phép tổ hợp các màu gốc theo tỷ lệ khác nhau để tái tạo màu sắc Các màu được sắp xếp trong một khối lập phương đơn vị, với đường chéo chính của khối thể hiện sự pha trộn giữa ba màu cơ bản với tỷ lệ tương đương, tương ứng với các mức độ xám từ đen (0,0,0) đến trắng (1,1,1).

2.6.2 Không gian màu CMY (Cyan, Magenta, Yellow)

Màu cyan, vàng và tím trong hệ màu CMY là các phần bù tương ứng cho màu đỏ, lục và lam, cho phép loại trừ những màu này từ ánh sáng trắng Hệ màu CMY, thường được gọi là hệ màu trừ, sử dụng phương pháp phối màu bằng cách loại bỏ ánh sáng thay vì thêm vào, và có thể được biểu diễn trong hệ tọa độ Đề-các.

Hình 2.13 : Trộn màu cộng (a) và trộn màu trừ (b)

Khi bề mặt được phủ lớp mực màu xanh tím, tia màu đỏ sẽ không phản chiếu từ bề mặt đó, vì màu xanh tím đã loại bỏ màu đỏ khi có ánh sáng trắng Màu cyan có thể được hiểu là màu trắng trừ đi màu đỏ, tương đương với màu lam cộng màu lục Tương tự, màu đỏ thẫm (magenta) hấp thụ màu lục, do đó nó tương đương với màu đỏ cộng màu lam Cuối cùng, màu vàng (yellow) hấp thụ màu lam, nên nó bằng màu đỏ cộng với màu lục.

Khi bề mặt của thực thể được bao phủ bởi màu xanh tím và vàng, nó sẽ hấp thụ hoàn toàn các tông màu đỏ và xanh lam, chỉ còn lại màu lục được phản xạ từ ánh sáng trắng Nếu bề mặt có cả ba màu xanh tím, vàng và đỏ thẫm, hiện tượng hấp thụ xảy ra với cả ba màu đỏ, lục và lam, dẫn đến việc bề mặt trở thành màu đen Những mối liên hệ này có thể được diễn tả qua phương trình [3].

Hình 2.14 : Sự biến đổi từ RGB thành CMY 2.6.3 Không gian màu HSV (Hue, Saturation, Value)

Mô hình màu RGB và CMY có khả năng hiển thị đầy đủ các màu sắc cần thiết, nhưng việc phối màu trên hai hệ màu này thường gặp khó khăn Để đơn giản hóa quá trình phối màu, Smith đã định nghĩa mô hình màu HSV (hay HSB), trong đó B đại diện cho độ sáng (Brightness).

(độ sáng) hướng người sử dụng dựa trên cơ sở nền tảng trực giác về tông màu, sắc độ và sắc thái mỹ thuật.

Hệ thống tọa độ hình trụ và màu sắc thành phần của không gian bên trong mô hình màu được xác định dưới dạng hình nón, như thể hiện trong hình dưới đây.

Hình 2.15 : Mô hình màu HSV

Không gian HSV bao gồm ba thành phần Hue (sắc màu), Saturation (bảo hòa màu) và Value (độ sáng, một số trường hợp có thể gọi là Brightness).

Sắc màu (Hue) phản ánh sự tương tác với màu sắc trong thang đo sắc màu, bao gồm các sắc thái từ Đỏ, Vàng, Xanh Lá, Xanh Lam, Xanh Dương, Tím đến Đỏ.

Sắc màu (Hue) hay H được xác định bởi góc quanh trục đứng, trong đó màu đỏ tương ứng với 0°, màu lục với 120°, và màu lam với 240° Các màu bù nằm đối diện với các màu gốc này.

Giá trị S nằm trong khoảng từ 0 đến 1 trên trục tâm (trục V) của hình chóp sáu cạnh, thể hiện mức độ bão hòa màu sắc Mức độ bão hòa này cho biết độ tươi của màu, với các sắc thái xám từ đen đến trắng có giá trị S là 0 Trong khi đó, giá trị V phản ánh độ sáng của màu, với V = 0 tương ứng với màu đen và V = 1 là màu sáng nhất.

Mô hình màu HSL tương tự như HSV, nhưng thay vì sử dụng hình nón, HSL biểu diễn màu sắc dưới dạng không gian hình trụ Sắc màu H (Hue) được xác định bởi góc quanh trục đứng, với màu đỏ tại góc 0 độ HSL có thể được xem như một biến thể của mô hình HSV.

Hình 2.16 : Mô hình màu HSL 2.6.5 Không gian màu YcbCr

THIẾT KẾ HỆ THỐNG

Phát hiện màu da

- Ý tưởng: da người nằm trong một vùng không gian màu nhất định do đó cần xác định ngƣỡng của vùng này.

Phương pháp này thu hút sự chú ý nghiên cứu nhờ tính đơn giản của nó Ưu điểm rõ ràng nhất là quy tắc nhận biết màu da dễ dàng, cho phép phân lớp nhanh chóng và hiệu quả.

- Mô hình màu da chính xác:

Màu da người được nghiên cứu và được xác định bởi các ngưỡng màu thỏa điều kiện sau:

3.1.2 Lưu đồ giải thuật phát hiện màu da

Trích đặc trƣng màu của mỗi điểm ảnh trong không gian màu

So sánh đặc tính màu của từng điểm ảnh qua phương trình màu

Xác định những điểm ảnh có màu da

Hình 3.1 : Lưu đồ giải thuật phát hiện màu da

3.1.3 Phát hiện bàn tay bằng màu da và tách bàn tay Ảnh ban đầu được chụp từ camera là dạng ảnh màu có kích thước 2938 x 2203 được minh họa bởi 5 hình dưới đây.

(a) Bàn tay xòe một ngón (b) Bàn tay xòe hai ngón

(c) Bàn tay xòe ba ngón (d) Bàn tay xòe bốn ngón

(e) Bàn tay xòe năm ngón

Hình 3.2: Ảnh chụp các trạng thái bàn tay

Hình 3.3:Phát hiện bàn tay từ hình gốc 3.2(e)

Hình bàn tay sẽ được tách khỏi ảnh gốc và resize về kích thước 50x60 để đồng nhất cho quá trình nhận dạng cử chỉ, giúp tăng tốc độ xử lý của chương trình Tuy nhiên, kích thước nhỏ có thể dẫn đến sai số lớn, ảnh hưởng đến độ chính xác trong việc nhận dạng cử chỉ của bàn tay.

Hình 3.4: Tách bàn tay ra khỏi ảnh gốc

Hình 3.5: Bàn tay sau khi resize kích thước 50x60

Lưu đồ giải thuật huấn luyện cử chỉ bàn tay

Phân tách bàn tay và ảnh chuẩn hóa nhị phân

Trích đặc trƣng dùng PCA

Huấn luyện dùng mạng nơ-ron

Hình 3.6: Lưu đồ giải thuật huấn luyện cử chỉ bàn tay

- Ảnh mẫu: Những ảnh đã đƣợc chọn làm mẫu.

-Phân tách bàn tay và ảnh đƣợc chuẩn hóa nhị phân: Tạo ra một tập ảnh huấn luyện theo yêu cầu có kích thước chuẩn hóa 50x60.

- Trích đặc trƣng PCA: tạo ra các ảnh đặc trƣng trong không gian ảnh mới Sau khi trích đặc trƣng thì số chiều của ảnh từ 3000x1 giảm còn 300x1.

Hình 3.7: Một phần trong bộ ảnh huấn luyện

Huấn luyện mạng nơ-ron sử dụng các đặc trưng trích xuất từ phương pháp PCA, với hệ số được áp dụng làm đầu vào cho mạng nơ-ron Quá trình này giúp xử lý và nhận dạng bàn tay một cách hiệu quả thông qua công nghệ mạng nơ-ron.

Hình 3.8: Mô hình huấn luyện mạng Nơ-ron

Mô hình nhận dạng cử chỉ bàn tay sử dụng mạng Nơ-ron với kiến trúc đa tầng truyền thẳng trên MATLAB thông qua hàm newff Mạng này có 300 ngõ vào, được trích xuất từ đặc trưng PCA của hình ảnh bàn tay nhị phân kích thước 50x60 Nó bao gồm một tầng ẩn với 105 nút và một tầng ngõ ra với 5 ngõ ra tương ứng với 5 cử chỉ bàn tay, từ một ngón đến năm ngón.

Việc tính toán các nơ-ron trong lớp ẩn và lớp đầu ra sử dụng thuật toán traingdx giúp xây dựng phương pháp Gradient Descent với Momentum và tỷ lệ học thích ứng Hiệu suất của mạng được đánh giá thông qua hàm trung bình bình phương sai số (MSE) giữa đầu ra và giá trị mục tiêu.

Bảng 3.2:Các thông số thiết kế mạng Nơ-ron net.trainParam.epochs net.trainParam.goal net.trainParam.show net.trainParam.mc net.performFcn

Nhóm xây dựng mạng huấn luyện với 5 mẫu ứng với 5 cử chỉ bàn tay (mỗi mẫu huấn luyện có 60 ảnh).

Best Training Performance is 0.00099838 at epoch 108

Hình 3.9: Kết quả huấn luyện mạng Nơ-ron

Mạng huấn luyện sử dụng hình bàn tay nhị phân chuẩn hóa với kích thước 50x60, chuyển đổi ma trận ảnh thành cột 3000 phần tử và áp dụng PCA để rút trích đặc trưng, tạo ra cột 300 phần tử Mỗi ảnh mẫu huấn luyện được lưu vào một cột trong file Excel, với tổng cộng 300 ảnh mẫu, tạo thành file Excel kích thước 300x100 cho dữ liệu huấn luyện Việc lưu trữ dữ liệu này trong file Excel giúp dễ dàng kiểm tra và bổ sung thư viện huấn luyện.

Nhóm thiết kế mô hình nhận dạng hình từ máy tính phát triển công nghệ nhận dạng cử chỉ bàn tay, cho phép nhận diện từ một đến năm ngón bằng cách sử dụng ảnh 2D đầu vào và thông báo kết quả Mô hình nhận dạng từ Webcam cũng hỗ trợ nhận diện cử chỉ bàn tay thông qua hình ảnh chụp trực tiếp, nhưng tỷ lệ nhận dạng thành công thấp hơn nhiều so với mô hình từ máy tính do các yếu tố như cấu trúc webcam, chất lượng hình ảnh và điều kiện ánh sáng.

Lưu đồ giải thuật nhận dạng cử chỉ bàn tay

Bắt đầu Ảnh ngõ vào

Xác định vị trí bàn tay trong ảnh và tách bàn tay

Thành phần đặc trƣng ảnh cần nhận dạng

Nhận dạng cử chỉ Đƣa ra kết luận

- Ảnh ngõ vào: Ảnh màu cần nhận dạng.

Phát hiện bàn tay là bước đầu tiên, sau đó kết hợp nhận dạng màu da để phân tích chính xác hơn Vùng bàn tay sẽ được tách biệt khỏi ảnh gốc, sau đó ảnh này sẽ được chuyển đổi sang định dạng nhị phân và điều chỉnh kích thước thành 50x60 pixel.

Để nhận dạng ảnh, trước tiên cần xác định sai số giữa ảnh cần nhận diện và ảnh trung bình trong cơ sở dữ liệu Sau đó, ta chiếu ảnh này lên không gian đặc trưng của các mẫu trong cơ sở dữ liệu để tìm ra thành phần đặc trưng của ảnh.

Nhận dạng cử chỉ bàn tay được thực hiện thông qua việc tách và huấn luyện ảnh bằng mạng Nơ-ron Phương pháp này giúp xác định cử chỉ của bàn tay nếu ảnh đáp ứng yêu cầu của mạng.

- Kết luận: Thông báo cử chỉ bàn tay.

KẾT QUẢ MÔ PHỎNG

Kết quả mô phỏng

Sau khi hoàn thiện mô phỏng, nhóm thực hiện thu đƣợc giao diện chính nhƣ Hình

Hình 4.2 : Giao diện chính của chương trình

-Giao diện chính của chương trình gồm ba nút nhấn : Máy Tính, Webcam và

Khi nhấn vào nút "Máy Tính", giao diện nhận dạng bàn tay offline sẽ xuất hiện Ngược lại, khi nhấn vào nút "Webcam", giao diện nhận dạng bàn tay online sẽ hiện ra.

+Khi nhấn vào nút Thoát thì thoát khỏi giao diện chính.

- Giao diện offline nhƣ Hình 4.3:

Hình 4.3 : Giao diện nhận dạng offline

Giao diện offline của chương trình gồm năm nút nhấn : Chọn Ảnh, Huấn Luyện, Nhận Dạng, Tiếp Tục và Thoát.

Khi bạn nhấn nút "Chọn Ảnh", một hộp thoại sẽ xuất hiện để bạn chọn nơi lưu trữ ảnh cần nhận dạng Ảnh đã chọn sẽ hiển thị trong khung nhận dạng.

+Khi nhấn vào nút Huấn Luyện thì thực hiện huấn luyện tạo cơ sở dữ liệu ban đầu để nhận dạng.

+Khi nhấn vào nút Nhận Dạng thì chương trình thực hiện nhận dạng và đưa ra kết quả nhận dạng.

+ Khi nhấn vào nút Tiếp Tục thì sẽ quay lại giao diện chính của chương trình. + Khi nhấn vào nút Thoát thì thoát khỏi chương trình nhận dạng.

- Giao diện online nhƣ Hình 4.4:

Hình 4.4 : Giao diện nhận dạng online

Giao diện trực tuyến của chương trình bao gồm năm nút: Huấn Luyện, Chụp Hình, Nhận Dạng, Tiếp Tục và Thoát Khi người dùng chọn giao diện trực tuyến, webcam sẽ tự động mở để phục vụ cho chương trình.

+Khi nhấn vào nút Huấn Luyện thì thực hiện huấn luyện tạo cơ sở dữ liệu ban đầu để nhận dạng.

+ Khi nhấn vào nút Chụp Hình thì sẽ chụp ảnh cần đƣợc nhận dạng đã xuất hiện trên màn hình của giao diện.

+Khi nhấn vào nút Nhận Dạng thì chương trình thực hiện nhận dạng và đưa ra kết quả nhận dạng.

+ Khi nhấn vào nút Tiếp Tục thì sẽ quay lại giao diện chính của chương trình. + Khi nhấn vào nút Thoát thì thoát khỏi chương trình nhận dạng.

Nhóm thực hiện, thực hiện nhận dạng các cử chỉ và kết quả thu đƣợc nhƣ sau:

- Kết quả nhận dạng từ giao diện offline đƣợc thể hiện qua các Hình 4.5 đếnHình

Hình 4.5.Kết quả nhận dạng cử chỉ 5 ngón từ máy tính

Kết quả từ Hình 4.5 cho thấy độ chính xác trong việc nhận dạng cử chỉ 5 ngón Trong tập ảnh thực nghiệm với 20 mẫu cử chỉ 5 ngón, hệ thống chỉ nhận dạng thành công 18 ảnh, đạt tỷ lệ 90%.

Hình 4.6.Kết quả nhận dạng cử chỉ 4 ngón từ máy tính

Kết quả từ Hình 4.6 cho thấy độ chính xác trong việc nhận dạng cử chỉ 4 ngón Trong tập ảnh thực nghiệm với 20 mẫu cử chỉ 4 ngón, hệ thống chỉ nhận dạng thành công 16 ảnh, đạt tỷ lệ 80%.

Hình 4.7.Kết quả nhận dạng cử chỉ 3 ngón từ máy tính

Kết quả từ Hình 4.7 cho thấy độ chính xác trong việc nhận dạng cử chỉ 3 ngón Trong tập ảnh thực nghiệm với 20 mẫu cử chỉ 3 ngón, hệ thống chỉ nhận dạng thành công 16 ảnh, đạt tỷ lệ 80%.

Hình 4.8.Kết quả nhận dạng cử chỉ 2 ngón từ máy tính

Qua kết quả Hình 4.8 cho chúng ta thấy kết quả nhận dạng không chính xác cử chỉ

3 ngón Tuy nhiên trong tập ảnh thực nghiệm cùng điều kiện 20 mẫu cho cử chỉ 2 ngón thì chỉ nhận dạng được 16 ảnh tương đương 80%.

Hình 4.9.Kết quả nhận dạng cử chỉ 1 ngón từ máy tính

Kết quả từ Hình 4.9 cho thấy tỷ lệ nhận dạng chính xác cử chỉ 1 ngón đạt 80%, với 16 trên 20 mẫu ảnh được nhận diện thành công trong điều kiện thử nghiệm.

- Kết quả nhận dạng từ giao diện online đƣợc thể hiện qua Hình 4.10 và Hình 4.11: -

Hình 4.10.Kết quả nhận dạng cử chỉ 5 ngón từ webcam

Kết quả từ Hình 4.10 cho thấy hệ thống đã nhận dạng chính xác cử chỉ 5 ngón tay từ webcam máy tính Trong tập ảnh thực nghiệm với 20 mẫu cử chỉ 5 ngón, chỉ có 14 ảnh được nhận dạng thành công, đạt tỷ lệ 70%.

Hình 4.11.Kết quả nhận dạng cử chỉ 4 ngón từ webcam

Qua kết quả Hình 4.11 cho chúng ta thấy kết quả nhận dạng không chính xác cử chỉ

Việc nhận diện cử chỉ 4 ngón tay gặp khó khăn do ánh sáng chói và webcam có độ phân giải thấp, khiến cho việc phân biệt màu da và tách biệt bàn tay trở nên phức tạp Trong một nghiên cứu thực nghiệm với 20 mẫu cử chỉ 4 ngón, chỉ có 12 ảnh được nhận dạng thành công, đạt tỷ lệ 60%.

Nhận xét kết quả

Kết quả thực nghiệm cho thấy rằng các cử chỉ được nhận dạng từ máy tính có độ chính xác cao hơn so với các cử chỉ được nhận dạng từ webcam Đặc biệt, cử chỉ năm ngón đạt được xác suất nhận dạng chính xác cao nhất trong số các loại cử chỉ được nghiên cứu.

Bảng 4.1: Kết quả nhận dạng cử chỉ bàn tay

Ngày đăng: 20/12/2021, 06:14

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] TS.Nguyễn Thanh Hải (2014), “Giáo trình Xử Lí Ảnh”, Nhà xuất bản ĐHQG, Tp. HCM, ViêṭNam Sách, tạp chí
Tiêu đề: Giáo trình Xử Lí Ảnh”, "Nhà xuất bản ĐHQG
Tác giả: TS.Nguyễn Thanh Hải
Nhà XB: Nhà xuất bản ĐHQG
Năm: 2014
[2]Vũ Mạnh Hùng, “Tóm tắt luận văn Thạc Sĩ:Nhận dạng mặt người sử dụng đặc trưng PCA”, Học Viện Công Nghệ Bưu Chính Viễn Thông.Link web:http://dlib.ptit.edu.vn/bitstream/123456789/1069/1/TTLV%20Vu%20Manh%20Hung.pdf Sách, tạp chí
Tiêu đề: Tóm tắt luận văn Thạc Sĩ:Nhận dạng mặt người sử dụng đặc trưng PCA
[3] PGS.TS.Đỗ Năng Toàn (2013), “Bài giảng môn học Xử lí ảnh”,Học Viện Công Nghệ Bưu Chính Viễn Thông.Link web:http://dlib.ptit.edu.vn/bitstream/123456789/1245/1/BG_Xulyanh.pdfTiếng Anh Sách, tạp chí
Tiêu đề: Bài giảng môn học Xử lí ảnh
Tác giả: PGS.TS.Đỗ Năng Toàn
Năm: 2013
[4] Chenglong Zu, Xuan Wang, Hejion Huang and Jianping Shen, “Vision-Based Hand Gesture Recognition Using Combinational Features”, International Conference on Intelligent Information Hiding and Multimedia Signal Processing, pp. 543-446, 2010 Sách, tạp chí
Tiêu đề: Vision-BasedHand Gesture Recognition Using Combinational Features"”, InternationalConference on Intelligent Information Hiding and Multimedia SignalProcessing
[5]Daniel Graupe, Principles of artificial neural, Univercity of llinois(2 nd Edition), Chicago, USA Sách, tạp chí
Tiêu đề: Principles of artificial neural, Univercity of llinois(2"nd"Edition)

HÌNH ẢNH LIÊN QUAN

Hình 1.1 : Vòng cảm biến nhận dạng cử chỉ Digits của Microsoft - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 1.1 Vòng cảm biến nhận dạng cử chỉ Digits của Microsoft (Trang 18)
Hình 1.2 : Sử dụng bàn tay giống nhƣ hình một khẩu súng để - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 1.2 Sử dụng bàn tay giống nhƣ hình một khẩu súng để (Trang 19)
Hình 2.4 : Lƣợc đồ histogram - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 2.4 Lƣợc đồ histogram (Trang 24)
Hình 2.5 :Ảnh xám - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 2.5 Ảnh xám (Trang 25)
Hình 2.7 :Ảnh nhị phân - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 2.7 Ảnh nhị phân (Trang 26)
Hình 2.8 : Mạng nơ-ron 1 ngõ vào (a) và Mạng nơ-ron nhiều ngõ vào (b) - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 2.8 Mạng nơ-ron 1 ngõ vào (a) và Mạng nơ-ron nhiều ngõ vào (b) (Trang 32)
Hình 2.11: Các màu cơ bản - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 2.11 Các màu cơ bản (Trang 41)
Hình 2.12 : (a).Không gian màu RGB - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 2.12 (a).Không gian màu RGB (Trang 42)
Hình 2.13 : Trộn màu cộng (a) và trộn màu trừ (b) - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 2.13 Trộn màu cộng (a) và trộn màu trừ (b) (Trang 43)
Hình 2.15 : Mô hình màu HSV - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 2.15 Mô hình màu HSV (Trang 44)
Hình 2.16 : Mô hình màu HSL 2.6.5. Không gian màu YcbCr - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 2.16 Mô hình màu HSL 2.6.5. Không gian màu YcbCr (Trang 45)
Hình 2.17 : Không gian màu YcbCr - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 2.17 Không gian màu YcbCr (Trang 45)
Hình 3.1 : Lưu đồ giải thuật phát hiện màu da - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 3.1 Lưu đồ giải thuật phát hiện màu da (Trang 47)
Hình 3.3:Phát hiện bàn tay từ hình gốc 3.2(e) - (Đồ án tốt nghiệp) ứng dụng kỹ thuật PCA trong nhận dạng cử chỉ bàn tay
Hình 3.3 Phát hiện bàn tay từ hình gốc 3.2(e) (Trang 49)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w