1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Thiết kế hệ thống nhận diện chữ viết tay

72 21 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 4,62 MB

Cấu trúc

  • LỜI CẢM ƠN

  • TÓM TẮT

  • MỤC LỤC

  • DANH MỤC TỪ VIẾT TẮT

  • DANH MỤC HÌNH

  • DANH MỤC BẢNG

  • Chương 1: TỔNG QUAN

    • 1.1 Tình hình nghiên cứu

    • 1.2 Mục tiêu

    • 1.3 Giới hạn đề tài

    • 1.4 Bố cục đồ án

  • Chương 2: CỞ SỞ LÝ THUYẾT

    • 2.1 Tổng quan về máy học

    • 2.2 Phương pháp tiền xử lý

    • 2.3 Phương pháp phân đoạn

    • 2.4 Trích đặc trưng [6]

      • 2.4.1 Trích đặc trưng dựa trên hình thái học

      • 2.4.2 Trích đặc trưng bằng Gradient

    • 2.5 Tổng quan mạng nơ-ron tích chập

    • 2.6 Tổng quan về tập dữ liệu UNIPEN

  • Chương 3: THIẾT KẾ HỆ THỐNG NHẬN DIỆN CHỮ VIẾT TAY

    • 3.1 Yêu cầu thiết kế

    • 3.2 Sơ đồ khối và chức năng

    • 3.3 Thiết kế từng khối

      • 3.3.1 Tập dữ liệu

      • 3.3.2 Khối ngõ vào

      • 3.3.3 Tiền xử lý

      • 3.3.4 Khối trích đặc trưng và khối phân loại

      • 3.3.5 Khối kiểm tra chính tả và hiển thị

    • 3.4 Chương trình và lưu đồ giải thuật

  • Chương 4: KẾT QUẢ NHẬN DIỆN CHỮ VIẾT TAY

    • 4.1 Giao diện chương trình và kết quả nhận diện

    • 4.2 Đánh giá kết quả thực tế

  • Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

    • 5.1 Kết luận

    • 5.2 Hướng phát triển

  • DANH MỤC TÀI LIỆU THAM KHẢO

  • PHỤ LỤC

  • Page 1

Nội dung

TỔNG QUAN

Tình hình nghiên cứu

Thế giới đang chuyển mình sang tự động hóa và số hóa, đặc biệt trong lĩnh vực giáo dục, nơi các hệ thống dạy học điện tử được thử nghiệm để nâng cao hứng thú và khả năng tiếp thu của học sinh, sinh viên Các ứng dụng ghi chép số ra đời nhằm thay thế phương pháp ghi chép giấy truyền thống, cho phép lưu trữ, chỉnh sửa và chuyển đổi dữ liệu sang nhiều định dạng khác nhau, giảm chi phí bảo quản Ngoài ra, những ứng dụng này còn tích hợp chức năng đọc văn bản đa ngôn ngữ, hỗ trợ dịch thuật, phát âm và giúp đỡ người khiếm thị.

Dựa trên mô phỏng hệ thống thần kinh của con người, các phương pháp nhận diện chữ viết tay đã được phát triển cùng với máy học và mạng nơ-ron nhân tạo Mới đây, nhóm nghiên cứu của Felipe Petroski từ Mỹ đã giới thiệu thuật toán nhận diện chữ viết tay sử dụng mạng tích chập kết nối đầy đủ cho các ngôn ngữ hệ Latin Đồng thời, nhóm nghiên cứu của Haoran Liu từ Trung Quốc đã tạo ra dữ liệu văn bản dạng hình ảnh tổng hợp cho tập dữ liệu huấn luyện của mạng nơ-ron Việc sử dụng số lượng lớn ảnh tổng hợp giúp giảm thiểu quá trình quá mẫu và cải thiện độ chính xác trong nhận diện văn bản từ hình ảnh Lĩnh vực máy học và học sâu đã không ngừng phát triển trong hơn 60 năm qua.

Nhóm thiết kế hệ thống nhận diện chữ viết tay tiếng Anh với giao diện đơn giản như Paint của Microsoft, dễ cài đặt trên nhiều nền tảng, phục vụ cho cả trẻ em và người lớn học ngoại ngữ chi phí thấp tại nhà mà không bị phân tâm từ Internet Để thực hiện, nhóm đã tiếp cận mô hình mạng nơ-ron, dựa trên nghiên cứu “Ứng dụng mạng nơ-ron đa tầng cho hệ thống nhận diện chữ viết tay online” của tác giả Phạm Việt Dũng, kết hợp với kiến thức tự tìm hiểu.

Hệ thống có mô hình mạng nơ-ron tích chập, được lập trình và mô phỏng trên phần mềm Microsoft Visual C# 2010

Mục tiêu

Bài viết này sẽ nghiên cứu về bài toán phân loại thông qua kiến trúc mạng nơ-ron tích chập Dựa trên lý thuyết đó, chúng tôi thiết kế một hệ thống nhận diện chữ viết tay tiếng Anh, cho phép người dùng viết trực tiếp trên giao diện Chương trình có thể được cài đặt trên nhiều thiết bị máy tính sử dụng hệ điều hành Windows, với giao diện đẹp và thân thiện cho người sử dụng.

Giới hạn đề tài

Hệ thống nhận diện chữ in hoa, chữ thường và số tiếng Anh được nhập trực tiếp vào giao diện tương tác mà không bị giới hạn kích thước, miễn là nằm trong khung cho phép và các ký tự không trùng lắp Nó nhận diện phong cách chữ viết tay tiêu chuẩn của người Mỹ với dạng khối cứng, không sử dụng các yếu tố như móc hay nét thanh đậm theo phong cách thư pháp Cuối cùng, chữ phải đảm bảo có thể đọc được bằng mắt thường.

Hình 1.1: Ví dụ về giới hạn phong cách chữ viết tay

Hình 1.2: Ví dụ các phong cách viết tay không nhận diện

Bố cục đồ án

Trong bài viết này, chúng tôi sẽ trình bày tình hình nghiên cứu toàn cầu về bài toán nhận diện chữ viết, cùng với những cải tiến đáng kể đã đạt được Dựa trên những thông tin này, nhóm sẽ đưa ra định hướng cho đề tài nghiên cứu của mình Chương cũng sẽ làm rõ phương hướng, mục tiêu thực hiện và giới hạn của đề tài lựa chọn.

Chương 2: Cơ sở lý thuyết

Chương này tóm tắt các bước xây dựng hệ thống nhận diện chữ viết tay, đồng thời giới thiệu các khái niệm lý thuyết cơ bản được áp dụng trong hệ thống.

Chương 3: Thiết kế hệ thống nhận diện chữ viết tay

Chương này mô tả sơ đồ khối hoạt động của hệ thống, nguyên lý hoạt động và phương pháp thiết kế cho từng khối Bên cạnh đó, bài viết cũng cung cấp lưu đồ giải thuật chi tiết và kết quả đạt được cho từng phần.

Chương 4: Kết quả nhận diện chữ viết tay

Chương này mô tả giao diện thực tế của ứng dụng và hướng dẫn cách thao tác cũng như sử dụng hệ thống Kết quả nhận diện và tỷ lệ chính xác sẽ được xem xét, thống kê và so sánh qua nhiều trường hợp khác nhau.

Chương 5: Kết luận và hướng phát triển

Dựa trên các kết quả thu được, nhóm đã đưa ra đánh giá tổng quan về đề tài, kết luận các nội dung đã thực hiện cùng với những ưu và nhược điểm của hệ thống Từ những nhận xét này, nhóm đề xuất các hướng cải thiện và phát triển cho đề tài trong tương lai.

CỞ SỞ LÝ THUYẾT

Tổng quan về máy học

Các bài toán máy học chủ yếu liên quan đến việc xử lý dữ liệu và chọn lựa mô hình huấn luyện phù hợp Tùy thuộc vào đặc điểm của dữ liệu và mục tiêu nhận diện, có hai mô hình chính được áp dụng: học không giám sát và học có giám sát Học không giám sát thường được sử dụng trong thống kê và phân cụm dữ liệu, trong khi học giám sát được áp dụng cho các mô hình cần dự đoán kết quả đầu ra.

Thiết kế hệ thống nhận diện chữ viết thực chất là quá trình xây dựng một mô hình máy học với chức năng phân loại Các giai đoạn để xây dựng mô hình này bao gồm:

Xây dựng mô hình huấn luyện ( chọn thuật toán)

Hình 2.1: Các giai đoạn xây dựng mô hình máy học

Trong bài toán phân loại trong học giám sát, việc chọn thuật toán huấn luyện chính xác là rất quan trọng để đạt hiệu quả cao Mỗi thuật toán có các đặc điểm riêng về tốc độ, bộ nhớ sử dụng và độ chính xác, đồng thời cần xem xét loại phân loại là nhị phân hay đa lớp Một số thuật toán phân loại phổ biến bao gồm mạng nơ-ron, hồi quy lô-gíc, kề cận gần nhất (KNN), véc-tơ máy hỗ trợ (SVM), Nạve Bayes, phân tích phân biệt và cây quyết định Các thuật toán hồi quy không được đề cập trong bài viết này.

Phương pháp tiền xử lý

Ảnh để có thể xử lý nhận diện cần quá trình tiền xử lý bao gồm công đoạn khôi phục, tăng cường, nhị phân và chuẩn hóa hình ảnh

Khôi phục ảnh giúp giảm thiểu tác động vật lý như lọc và khử nhiễu, đồng thời tăng cường chất lượng hình ảnh bằng cách làm rõ nét đặc trưng của đối tượng Quá trình này bao gồm các bước như thay đổi độ tương phản, giảm nhiễu, làm trơn biên, khuếch đại ảnh và điều chỉnh các thông số khác để cải thiện độ sắc nét và sự rõ ràng của hình ảnh.

5 mức xám…) Ảnh được nhị phân để gọn nhẹ và đơn giản trong nhận diện

Việc chuẩn hóa kích thước ảnh bắt đầu bằng việc xác định trọng tâm ảnh và khoảng cách lớn nhất từ tâm ảnh đến các cạnh của hình chữ nhật bao quanh Từ khoảng cách này, ta có thể xác định tỉ lệ co giãn của ảnh gốc so với kích thước đã xác định, giúp điều chỉnh kích thước ảnh một cách hợp lý Quy trình chuẩn hóa này đảm bảo tính cân bằng, ngăn chặn việc ảnh bị biến dạng hoặc lệch khi co giãn.

Phương pháp phân đoạn

Phân đoạn ảnh là quá trình tách biệt các thành phần trong ảnh để dễ dàng nhận diện đặc trưng mẫu Mục tiêu chính là xác định biên đối tượng dựa trên các tính chất như màu sắc, giá trị xám, cấu trúc và sự thay đổi cường độ sáng Một số thuật toán phổ biến trong phân đoạn ảnh bao gồm phân đoạn dựa trên đường viền vùng, phân đoạn cụm, phân loại bằng phân hoạch đồ thị, và các phương pháp ngưỡng như ngưỡng toàn cục, ngưỡng thích nghi và ngưỡng cục bộ.

Trích đặc trưng

2.4.1 Trích đặc trưng dựa trên hình thái học

Cấu trúc kí tự có thể biểu diễn bằng các đặc trưng hình học và hình thái và trích xuất bằng các phương pháp sau:

• Trích chọn và đếm cấu trúc hình thái

Phương pháp này tìm kiếm cấu trúc xác định trong từ hoặc ký tự, trích xuất và đếm các đặc trưng hình thái như điểm cực đại, cực tiểu, chóp trên và chóp dưới của ngưỡng, cùng với các điểm trái, phải, trên, dưới, giao điểm, điểm nhánh, điểm cuối đoạn thẳng, điểm cô lập và hướng của nét từ một điểm đặc biệt.

• Đo và xấp xỉ tính chất hình học

Phương pháp này xác định tỉ lệ giữa các thành phần từ và ký tự, bao gồm tỉ số giữa chiều rộng và chiều cao của hộp chứa ký tự, cũng như mối quan hệ khoảng cách giữa hai điểm.

So sánh độ dài giữa hai nét, độ rộng của một nét, và khối lượng chữ hoa so với chữ thường là những yếu tố quan trọng trong thiết kế chữ Một thông số đo tiêu biểu trong việc này là độ cong hoặc sự thay đổi độ cong của các ký tự.

Đồ thị và cây là công cụ phân chia các từ và ký tự thành các đối tượng nguyên thủy như nét và điểm chạc, sau đó thay thế bằng các đồ thị thuộc tính liên quan Có hai loại đặc trưng ảnh được mô tả qua đồ thị: loại đầu tiên dựa trên tọa độ hình dáng ký tự, trong khi loại thứ hai là đặc trưng trừu tượng, với các nút của đồ thị tương ứng với các nét chữ và các cạnh thể hiện mối quan hệ giữa chúng Phương pháp này cũng cho phép biểu diễn các từ và ký tự thông qua một tập hợp các đặc trưng theo quan hệ phân cấp.

Trích đặc trưng thường được thực hiện trên ảnh nhị phân, nhưng việc nhị phân hóa ảnh đa cấp xám có thể làm mất đi thông tin quan trọng của các ký tự Do đó, cần trích chọn đặc trưng trực tiếp từ ảnh đa cấp xám Đặc trưng của ký tự bao gồm các yếu tố nguyên thủy như đoạn thẳng và đường cong Các ký tự có thể được phân biệt thông qua các đại lượng hình học như tỷ lệ giữa chiều rộng và chiều cao của khung chứa ký tự, khoảng cách giữa hai điểm giao nhau, độ dài mỗi nét, và tỷ lệ chữ in hoa và in thường trong một từ Phương pháp trích đặc trưng dựa trên hình thái học áp dụng kỹ thuật quy hoạch vùng, trong đó ký tự được chia thành các vùng m*n và tổng số điểm đen của mỗi vùng được tính để tạo tính đặc trưng.

2.4.2 Trích đặc trưng bằng Gradient

Gradient là một véc-tơ thể hiện tốc độ thay đổi giá trị của điểm ảnh theo hai hướng x và y, đại diện cho sự biến đổi về hướng và độ lớn của một vùng ảnh Các thành phần hoành độ và tung độ của gradient được tính toán dựa trên sự thay đổi trong không gian hình ảnh.

Trong đó, dx và dy đại diện cho khoảng cách giữa hai điểm ảnh, với giá trị bằng 1 khi tính toán cho các điểm ảnh liền kề Tại vị trí điểm ảnh có tọa độ (i,j), chúng ta có thể áp dụng biểu thức tương ứng.

Gradient trong xử lý ảnh thường được áp dụng cùng cặp mặt nạ trực giao Hx,

Để tối giản hóa các phép tính, nếu định nghĩa g1(f’x) và g2(f’y) là véc-tơ Gradient theo hai hướng x và y (G(g1, g2)), thì biên độ g và hướng của biên tại tọa độ điểm (m,n) có thể được tính theo các công thức (2-3) và (2-4), và có thể xấp xỉ bằng công thức (2-5).

Để tính toán g1 và g2, cần tìm cặp mặt nạ phù hợp, thường sử dụng toán tử Sobel Mỗi điểm ảnh lân cận của ảnh đầu vào sẽ được nhân chập với cặp mặt nạ để xác định các thành phần biên độ và hướng của Gradient, từ đó giúp phát hiện biên và tạo ra khung cấu trúc cho ký tự.

Tổng quan mạng nơ-ron tích chập

Mạng nơ-ron là tập hợp các thuật toán mô phỏng kiến trúc não bộ, kết nối dữ liệu đầu vào với đầu ra mong muốn, nhằm nhận diện và phân loại đặc trưng của dữ liệu như hình ảnh, âm thanh, chữ viết và vật thể Chúng đặc biệt hiệu quả trong việc mô hình hóa các hệ thống phi tuyến, nơi dữ liệu cần được cập nhật nhanh chóng Mạng nơ-ron thường được cấu trúc thành nhiều lớp, với mỗi lớp chứa các nút thần kinh (nơ-ron) được kết nối thông qua các trọng số có thể điều chỉnh.

Hình 2.2: Cấu trúc của một nơ-ron

Các thành phần cơ bản của một nơ-ron bao gồm:

• Ngõ vào: dữ liệu ngõ vào được lưu trữ dưới dạng véc-tơ n chiều

Mỗi liên kết trong mạng nơ-ron được biểu diễn bằng một trọng số liên kết w, trong đó trọng số giữa tín hiệu đầu vào thứ j và nơ-ron k được ký hiệu là wkj Trọng số này được khởi tạo ngẫu nhiên và được cập nhật liên tục trong suốt quá trình huấn luyện.

• Hàm tổng: tính tổng của tích các ngõ vào với trọng số liên kết tương ứng

Hàm truyền, hay còn gọi là hàm kích hoạt, đóng vai trò quan trọng trong việc giới hạn phạm vi ngõ ra của mỗi nơ-ron Hàm này nhận đầu vào là hiệu của hàm tổng và hệ số chênh lệch bk, trong đó bk thể hiện độ lệch giữa giá trị trung bình mà mô hình dự đoán và giá trị thực tế của dữ liệu, thường được gọi là ngưỡng chênh lệch.

• Ngõ ra: tín hiệu ngõ ra của nơ-ron, mỗi nơ-ron có tối đa một ngõ ra

Biểu diễn dưới dạng toán học, cấu trúc của một nơ-ron k được mô tả bằng cặp biểu thức sau:

Trong đó xn là các tín hiệu ngõ vào, wkj là trọng số liên kết của nơ-ron thứ k, uk là hàm tổng, bk là hệ số chênh lệch

Bảng 2.1: Một số hàm truyền thông dụng

Hàm truyền Công thức Hàm truyền Công thức

Tuyến tính f(x) = ax ReLu f(x) = max⁡(0, x)

Các nơ-ron trong mạng có thể kết nối toàn bộ với nhau hoặc chỉ kết nối cục bộ với các nơ-ron ở các tầng khác nhau Kiến trúc truyền dữ liệu trong mạng nơ-ron được chia thành hai loại.

Mạng truyền thẳng là loại mạng chỉ cho phép tín hiệu truyền theo một chiều mà không có vòng lặp, thường được sử dụng trong việc nhận diện mẫu Kiến trúc của mạng này bao gồm một tầng ngõ vào, một tầng ngõ ra, và có thể có nhiều hoặc không có tầng ẩn Một ví dụ điển hình của kiến trúc này là mạng nhận thức đa tầng (MLP).

Mạng phản hồi sử dụng bộ nhớ trong để xử lý tín hiệu đầu vào tuần tự, cho phép tín hiệu di chuyển theo cả hai hướng và lặp lại trong mạng Các kiến trúc điển hình của mạng phản hồi bao gồm mạng Hopfield, LSTM máy Boltzmann và mạng tự tổ chức.

Mạng nơ-ron tích chập CNN bao gồm nhiều lớp chập kết hợp với hàm kích hoạt phi tuyến, giúp tạo ra thông tin trừu tượng cho các lớp tiếp theo Quá trình tính tích chập được thực hiện bằng cách áp dụng một cửa sổ trượt, hay còn gọi là mặt nạ, bộ lọc hoặc kernel, lên ma trận ảnh.

Trong mô hình mạng nơ-ron truyền thẳng, các lớp mạng kết nối trực tiếp với nhau thông qua trọng số liên kết, được gọi là các lớp mạng kết nối đầy đủ Ngược lại, trong mô hình mạng nơ-ron tích chập, các lớp mạng liên kết với nhau theo cách khác.

10 thông qua cơ chế tích chập, với ngõ vào lớp tiếp theo là kết quả chập của lớp trước đó, được gọi là các kết nối cục bộ

Trong mạng tích chập, mỗi lớp chập dò tìm các đặc trưng như góc, cạnh, màu sắc và kết cấu của ảnh Khi mặt nạ quét qua những đặc trưng này, giá trị lớn sẽ được tạo ra Điều đặc biệt là các đặc trưng này có thể xuất hiện ở bất kỳ vị trí nào trong bức ảnh, và ngay cả khi ảnh bị xoay ngược, chúng vẫn có thể được phát hiện.

Mạng nơ-ron tích chập được xây dựng từ 3 ý tưởng cơ bản sau:

• Trường tiếp nhận cục bộ:

Trong mô hình mạng nơ-ron truyền thống, toàn bộ ma trận ảnh được đưa vào mạng nơ-ron, dẫn đến việc tất cả nơ-ron lớp trước kết nối với nơ-ron lớp sau, gây ra quá khớp và tăng thời gian huấn luyện do số lượng tham số lớn Ngược lại, mạng tích chập sử dụng bộ lọc kích thước nhỏ để chập ma trận ảnh đầu vào qua hàm kích hoạt, tạo ra các bản đồ đặc trưng Mỗi vùng mà bộ lọc áp dụng lên ma trận đầu vào được gọi là trường tiếp nhận, giúp giảm số lượng tham số huấn luyện mà vẫn duy trì trật tự không gian của ảnh.

Mỗi tầng ẩn trong mạng nơ-ron có số bản đồ đặc trưng tương ứng với số bộ lọc và trọng số liên kết được xác định bởi kích thước bộ lọc, chỉ có một hệ số chênh lệch Các giá trị tham số này được sử dụng chung cho các bản đồ đặc trưng, giúp giảm thiểu số lượng tham số cần học trong quá trình huấn luyện.

• Lớp tổng hợp - Lớp lấy mẫu phụ:

Lớp tổng hợp thường được sử dụng sau lớp chập để đơn giản hóa đầu ra và giảm số lượng nơ-ron Phương pháp phổ biến là tổng hợp tối đa, chọn giá trị lớn nhất trong vùng ngõ vào 2x2, giúp tìm ra đặc trưng nổi bật nhất và giảm kích thước đầu ra đi một nửa.

Kiến trúc mạng tích chập LeNet5 gồm 7 lớp, được phát triển để phân loại chữ số viết tay từ tập dữ liệu MNIST (1998) Đầu vào của mạng là hình ảnh kích thước 32×32, tương ứng với ma trận 32x32, trong đó mỗi điểm ảnh là một ô trong ma trận Hàm kích hoạt được sử dụng trong kiến trúc này là hàm ReLu.

Kiến trúc mạng LeNet5 bao gồm nhiều lớp chập và lớp kết nối, bắt đầu với ảnh ngõ vào kích thước 32x32x3 được xử lý qua 6 bộ lọc 5x5x3, tạo ra ma trận đầu ra 28x28x6 Lớp lấy mẫu phụ với kích thước 2x2 và khoảng dịch 2 giảm kích thước xuống còn 14x14x6 Lớp chập thứ ba có kích thước 10x10x16, tiếp theo là lớp lấy mẫu phụ tương tự, giảm kích thước xuống còn 5x5 Lớp kết nối đầy đủ thứ năm liên kết 400 kết nối từ lớp trước với 120 nốt mạng, trong khi lớp thứ sáu chuyển đổi đầu ra thành 84 nốt mạng Cuối cùng, lớp thứ bảy phân loại đầu ra thành 10 phân lớp tương ứng với các chữ số từ 0-9.

Nhiều mạng nơ-ron tích chập lần được được cải tiến và ra đời như AlexNet

(2012), ZFNet (2013), VGGNet (2014), ResNets (2015), Densenet (2016)…dù cho hiệu suất cao nhưng phức tạp và khó xây dựng cho người mới tiếp cận.

THIẾT KẾ HỆ THỐNG NHẬN DIỆN CHỮ VIẾT TAY

Yêu cầu thiết kế

Hệ thống nhận diện chữ viết tay sử dụng mạng nơ-ron tích chập để nhận diện chữ viết thu thập trực tiếp từ giao diện Nó được huấn luyện trước để nhận diện các phong cách chữ viết tay tương tự như trong tập dữ liệu mẫu, đáp ứng các giới hạn đã được đề ra trong nghiên cứu.

Sơ đồ khối và chức năng

Kiểm tra chính tả và hiển thị

Hình 3.1: Sơ đồ khối hệ thống: a) Huấn luyện mạng nơ-ron b) Nhận diện Tập dữ liệu: Chứa dữ liệu viết tay UNIPEN dùng để huấn luyện mạng nơ-ron

Về hình thức, dữ liệu UNIPEN cung cấp dưới dạng tập dữ liệu thô với đuôi mở rộng dat

Khối ngõ vào trong Visual C# 2010 cho phép người dùng nhập chữ viết tay bằng chuột hoặc màn hình cảm ứng, với dữ liệu được lưu trữ dưới dạng tập nhị phân và chuyển đổi thành ảnh bitmap Kích thước của ngõ vào không bị giới hạn, mang lại sự linh hoạt cho người sử dụng.

Tiền xử lý là bước quan trọng trong quy trình xử lý ảnh, bao gồm việc chuyển đổi ảnh sang định dạng xám, tạo đường bao xác định đối tượng và điều chỉnh kích thước đối tượng về chuẩn 29x29.

Khối trích đặc trưng và khối phân loại là hai phần chính của mạng nơ-ron tích chập đa tầng Phần trích đặc trưng bao gồm các lớp ẩn, nơi thực hiện các phép tích chập và tổng hợp để làm nổi bật đặc trưng của mẫu kí tự Trong khi đó, lớp phân loại, với cấu trúc kết nối đầy đủ, đóng vai trò là bộ phân lớp cho các đặc trưng đã được trích xuất, cung cấp xác suất nhận diện cho mẫu.

Hệ thống kiểm tra chính tả và hiển thị bao gồm ba mạng nơ-ron tích chập hoạt động song song để huấn luyện và nhận diện Đầu ra từ ba mạng này được chuyển đến một mô-đun hiển thị và kiểm tra chính tả, có nhiệm vụ chọn lọc và ghép nối các kết quả nhận diện từ.

Chương trình và lưu đồ giải thuật

Trong bài viết này, chúng tôi sẽ trình bày tình hình nghiên cứu toàn cầu về nhận diện chữ viết và những tiến bộ đã đạt được Bên cạnh đó, chúng tôi sẽ xác định định hướng nghiên cứu của nhóm, nêu rõ phương hướng, mục tiêu thực hiện và giới hạn của đề tài lựa chọn.

Chương 2: Cơ sở lý thuyết

Chương này cung cấp cái nhìn tổng quan về quy trình xây dựng hệ thống nhận diện chữ viết tay, đồng thời giải thích các khái niệm lý thuyết cơ bản được áp dụng trong hệ thống.

Chương 3: Thiết kế hệ thống nhận diện chữ viết tay

Chương này mô tả sơ đồ khối hoạt động của hệ thống, nguyên lý hoạt động và phương pháp thiết kế cho từng khối Nó cũng bao gồm lưu đồ giải thuật chi tiết và kết quả đạt được cho từng phần.

KẾT QUẢ NHẬN DIỆN CHỮ VIẾT TAY

Đánh giá kết quả thực tế

Việc sử dụng đồng thời ba mạng nơ-ron tích chập để nhận diện ký tự song song giúp đảm bảo kiến trúc hệ thống đơn giản và dễ mở rộng, nhưng lại làm tăng tỷ lệ nhận diện sai các ký tự Mỗi mạng nơ-ron đơn lẻ có khả năng nhận diện tốt, nhưng khi có nhiều kết quả, đầu ra của hệ thống phụ thuộc vào hoạt động của mô-đun nhận diện từ Sự sai sót trong nhận diện thường xuất phát từ việc mạng nơ-ron phân loại chưa chính xác và thuật toán của mô-đun nhận diện từ chưa được tối ưu Thêm vào đó, chữ viết tay thường có nhiều đặc trưng tương đồng, gây khó khăn trong việc phân tích từng ký tự khi tách rời khỏi từ.

Bảng 4.2: Thống kê kết quả nhận diện của hệ thống

Mẫu Mô tả Số kí tự Số kí tự nhận diện đúng

Bảng 4.3: Bảng kiểm định độ chính xác

Số mẫu nhận diện Số kí tự nhận diện Số kí tự nhận diện chính xác

8 106 81 Độ chính xác của chương trình: P = 81

Ngày đăng: 27/11/2021, 15:51

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] F. P. Such, D. Peri, F. Brockler, H. Paul, and R. Ptucha (2018), “Fully convolutional networks for handwriting recognition”, Proc. Int. Conf. Front.Handwrit. Recognition, ICFHR, vol. 2018-Augus, pp. 86–91 Sách, tạp chí
Tiêu đề: Fully convolutional networks for handwriting recognition
Tác giả: F. P. Such, D. Peri, F. Brockler, H. Paul, and R. Ptucha
Năm: 2018
[2] H. Liu and A. Zhu (2019), “Synthesizing Scene Text Images for Recognition with Style Transfer”, 2019 Int. Conf. Doc. Anal. Recognit. Work., vol. 5, pp.8–13 Sách, tạp chí
Tiêu đề: Synthesizing Scene Text Images for Recognition with Style Transfer
Tác giả: H. Liu and A. Zhu
Năm: 2019
[3] Phạm Việt Dũng (2014), “Multiple Convolution Neural Networks for an Online Handwriting Recognition System”, SIMUL 2014, vol. 5, no.c, pp. 108–112 Sách, tạp chí
Tiêu đề: Multiple Convolution Neural Networks for an Online Handwriting Recognition System
Tác giả: Phạm Việt Dũng
Năm: 2014
[4] S. M. Chelly, and C. Denis (2016), “Getting Started with Machine Learning 2”, The MathWorks Inc., Mach. Learn. with MATLAB, Section 2 Sách, tạp chí
Tiêu đề: Getting Started with Machine Learning 2
Tác giả: S. M. Chelly, and C. Denis
Năm: 2016
[5] T. Mathworks and MATLAB (2016), “Applying supervised learning”, The MathWorks Inc., vol. 33, no. 2, pp. 326–333 Sách, tạp chí
Tiêu đề: Applying supervised learning
Tác giả: T. Mathworks and MATLAB
Năm: 2016
[6] N. Assiwal and N. Sharma (2016), “A Geometric Feature Extraction Technique for Hindi Handwritten Character Recognition”, Int. J. Sci. Technol. Eng.(IJSTE ), vol. 2, no. 12, pp. 295–302 Sách, tạp chí
Tiêu đề: A Geometric Feature Extraction Technique for Hindi Handwritten Character Recognition
Tác giả: N. Assiwal and N. Sharma
Năm: 2016
[7] Chris Nicholson (2019), “A Beginner’s Guide to Neural Networks and Deep Learning”, Journal of Chemical Information and Modeling, vol. 53, no. 9. pp.1689–1699 Sách, tạp chí
Tiêu đề: A Beginner’s Guide to Neural Networks and Deep Learning
Tác giả: Chris Nicholson
Năm: 2019
[8] Y. LeCun (1998), “Gradient-Based Learning Applied to Document Recognition”, pp. 6–7 Sách, tạp chí
Tiêu đề: Gradient-Based Learning Applied to Document Recognition
Tác giả: Y. LeCun
Năm: 1998
[9] Trần Cao Đệ (2011), “Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng”, Đại học Cần Thơ, p. 54 Sách, tạp chí
Tiêu đề: Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng
Tác giả: Trần Cao Đệ
Năm: 2011
[10] I. Guyon and R. M. Haralick (1996), “Data Sets For OCR And Document Image Understanding Research”, Handb. Character Recognit. Doc. Image Anal., pp 779–799 Sách, tạp chí
Tiêu đề: Data Sets For OCR And Document Image Understanding Research
Tác giả: I. Guyon and R. M. Haralick
Năm: 1996
[11] P. Y. Simard, D. Steinkraus, and J. C. Platt (2013), “Best Practices for Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Ví dụ về giới hạn phong cách chữ viết tay - Thiết kế hệ thống nhận diện chữ viết tay
Hình 1.1 Ví dụ về giới hạn phong cách chữ viết tay (Trang 15)
Hình 2.2: Cấu trúc của một nơ-ron Các thành phần cơ bản của một nơ-ron bao gồm:   - Thiết kế hệ thống nhận diện chữ viết tay
Hình 2.2 Cấu trúc của một nơ-ron Các thành phần cơ bản của một nơ-ron bao gồm: (Trang 21)
Bảng 2.1: Một số hàm truyền thơng dụng - Thiết kế hệ thống nhận diện chữ viết tay
Bảng 2.1 Một số hàm truyền thơng dụng (Trang 22)
Hình 2.3: Kiến trúc mạng LeNet5 chi tiết [8] - Thiết kế hệ thống nhận diện chữ viết tay
Hình 2.3 Kiến trúc mạng LeNet5 chi tiết [8] (Trang 24)
Bảng 2.2: Số lượng mẫu trong tập UNIPEN Train-R01/V07 - Thiết kế hệ thống nhận diện chữ viết tay
Bảng 2.2 Số lượng mẫu trong tập UNIPEN Train-R01/V07 (Trang 25)
Hình 3.1: Sơ đồ khối hệ thống: a) Huấn luyện mạng nơ-ron b) Nhận diện - Thiết kế hệ thống nhận diện chữ viết tay
Hình 3.1 Sơ đồ khối hệ thống: a) Huấn luyện mạng nơ-ron b) Nhận diện (Trang 27)
Bảng 3.3: Ví dụ kiểu viết chữ thường trong tập mẫu - Thiết kế hệ thống nhận diện chữ viết tay
Bảng 3.3 Ví dụ kiểu viết chữ thường trong tập mẫu (Trang 29)
Bảng 3.2: Ví dụ kiểu viết chữ số trong tập mẫu - Thiết kế hệ thống nhận diện chữ viết tay
Bảng 3.2 Ví dụ kiểu viết chữ số trong tập mẫu (Trang 29)
Hình 3.5: Kiến trúc mạng nơ-ron tích chập đa tầng - Thiết kế hệ thống nhận diện chữ viết tay
Hình 3.5 Kiến trúc mạng nơ-ron tích chập đa tầng (Trang 32)
Bảng 3.5: Bảng thơng số kiến trúc mạng phân loại số - Thiết kế hệ thống nhận diện chữ viết tay
Bảng 3.5 Bảng thơng số kiến trúc mạng phân loại số (Trang 33)
Bảng 3.6: Bảng thơng số kiến trúc mạng phân loại chữ thường và in hoa - Thiết kế hệ thống nhận diện chữ viết tay
Bảng 3.6 Bảng thơng số kiến trúc mạng phân loại chữ thường và in hoa (Trang 34)
Bảng 3.11: Tỉ lệ nhận diện kiểm thử chữ in hoa - Thiết kế hệ thống nhận diện chữ viết tay
Bảng 3.11 Tỉ lệ nhận diện kiểm thử chữ in hoa (Trang 37)
Bảng 3.14: Các kí tự đã dán nhãn cho kết quả nhận diện sai - Thiết kế hệ thống nhận diện chữ viết tay
Bảng 3.14 Các kí tự đã dán nhãn cho kết quả nhận diện sai (Trang 39)
Hình 3.7: Lưu đồ giải thuật khối ngõ vào - Thiết kế hệ thống nhận diện chữ viết tay
Hình 3.7 Lưu đồ giải thuật khối ngõ vào (Trang 42)
Hình 3.8: Lưu đồ giải thuật chuyển đổi ảnh xám - Thiết kế hệ thống nhận diện chữ viết tay
Hình 3.8 Lưu đồ giải thuật chuyển đổi ảnh xám (Trang 43)
Hình 3.9: Lưu đồ giải thuật tạo đường bao tách kí tự - Thiết kế hệ thống nhận diện chữ viết tay
Hình 3.9 Lưu đồ giải thuật tạo đường bao tách kí tự (Trang 45)
Hình 3.10: Lưu đồ huấn luyện mạng nơ-ron tích chập - Thiết kế hệ thống nhận diện chữ viết tay
Hình 3.10 Lưu đồ huấn luyện mạng nơ-ron tích chập (Trang 46)
Hình 3.11: Lưu đồ nhận diện - Thiết kế hệ thống nhận diện chữ viết tay
Hình 3.11 Lưu đồ nhận diện (Trang 47)
Hình 4.2: Giao diện nhận diện chính của hệ thốngVùng viết  - Thiết kế hệ thống nhận diện chữ viết tay
Hình 4.2 Giao diện nhận diện chính của hệ thốngVùng viết (Trang 48)
Hình 4.1: Giao diện giới thiệu - Thiết kế hệ thống nhận diện chữ viết tay
Hình 4.1 Giao diện giới thiệu (Trang 48)
Bảng 4.1: Các nút chức năng của giao diện ngõ vào - Thiết kế hệ thống nhận diện chữ viết tay
Bảng 4.1 Các nút chức năng của giao diện ngõ vào (Trang 49)
Hình 4.3: Mẫu số 1– Chữ số - Thiết kế hệ thống nhận diện chữ viết tay
Hình 4.3 Mẫu số 1– Chữ số (Trang 50)
Hình 4.4: Mẫu số 2– Chữ thường và số hỗn hợp - Thiết kế hệ thống nhận diện chữ viết tay
Hình 4.4 Mẫu số 2– Chữ thường và số hỗn hợp (Trang 51)
Hình 4.5: Mẫu số 3– Chữ in hoa - Thiết kế hệ thống nhận diện chữ viết tay
Hình 4.5 Mẫu số 3– Chữ in hoa (Trang 52)
Hình 4.6: Mẫu số 4– Chữ in hoa và chữ thường hỗn hợp - Thiết kế hệ thống nhận diện chữ viết tay
Hình 4.6 Mẫu số 4– Chữ in hoa và chữ thường hỗn hợp (Trang 53)
Hình 4.7: Mẫu số 5– Chữ in hoa và chữ thường hỗn hợp - Thiết kế hệ thống nhận diện chữ viết tay
Hình 4.7 Mẫu số 5– Chữ in hoa và chữ thường hỗn hợp (Trang 54)
Hình 4.9: Mẫu số 7– Chữ số - Thiết kế hệ thống nhận diện chữ viết tay
Hình 4.9 Mẫu số 7– Chữ số (Trang 55)
Trường hợp hình 4.9, sinh viên số 2 tải thêm một mạng huấn luyện kí tự chữ thường. Hệ thống bị nhận diện sai ngay ở kí tự số “0” thành kí tự chữ “o”. - Thiết kế hệ thống nhận diện chữ viết tay
r ường hợp hình 4.9, sinh viên số 2 tải thêm một mạng huấn luyện kí tự chữ thường. Hệ thống bị nhận diện sai ngay ở kí tự số “0” thành kí tự chữ “o” (Trang 55)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w