TỔNG QUAN
Tình hình nghiên cứu
Thế giới đang chuyển mình sang tự động hóa và số hóa, đặc biệt trong lĩnh vực giáo dục, nơi các hệ thống dạy học điện tử được thử nghiệm để nâng cao hứng thú và khả năng tiếp thu của học sinh, sinh viên Các ứng dụng ghi chép số ra đời nhằm thay thế phương pháp ghi chép giấy truyền thống, cho phép lưu trữ, chỉnh sửa và chuyển đổi dữ liệu sang nhiều định dạng khác nhau, giảm chi phí bảo quản Ngoài ra, những ứng dụng này còn tích hợp chức năng đọc văn bản đa ngôn ngữ, hỗ trợ dịch thuật, phát âm và giúp đỡ người khiếm thị.
Dựa trên mô phỏng hệ thống thần kinh của con người, các phương pháp nhận diện chữ viết tay đã được phát triển cùng với máy học và mạng nơ-ron nhân tạo Mới đây, nhóm nghiên cứu của Felipe Petroski từ Mỹ đã giới thiệu thuật toán nhận diện chữ viết tay sử dụng mạng tích chập kết nối đầy đủ cho các ngôn ngữ hệ Latin Đồng thời, nhóm nghiên cứu của Haoran Liu từ Trung Quốc đã tạo ra dữ liệu văn bản dạng hình ảnh tổng hợp cho tập dữ liệu huấn luyện của mạng nơ-ron Việc sử dụng số lượng lớn ảnh tổng hợp giúp giảm thiểu quá trình quá mẫu và cải thiện độ chính xác trong nhận diện văn bản từ hình ảnh Lĩnh vực máy học và học sâu đã không ngừng phát triển trong hơn 60 năm qua.
Nhóm thiết kế hệ thống nhận diện chữ viết tay tiếng Anh với giao diện đơn giản như Paint của Microsoft, dễ cài đặt trên nhiều nền tảng, phục vụ cho cả trẻ em và người lớn học ngoại ngữ chi phí thấp tại nhà mà không bị phân tâm từ Internet Để thực hiện, nhóm đã tiếp cận mô hình mạng nơ-ron, dựa trên nghiên cứu “Ứng dụng mạng nơ-ron đa tầng cho hệ thống nhận diện chữ viết tay online” của tác giả Phạm Việt Dũng, kết hợp với kiến thức tự tìm hiểu.
Hệ thống có mô hình mạng nơ-ron tích chập, được lập trình và mô phỏng trên phần mềm Microsoft Visual C# 2010
Mục tiêu
Bài viết này sẽ nghiên cứu về bài toán phân loại thông qua kiến trúc mạng nơ-ron tích chập Dựa trên lý thuyết đó, chúng tôi thiết kế một hệ thống nhận diện chữ viết tay tiếng Anh, cho phép người dùng viết trực tiếp trên giao diện Chương trình có thể được cài đặt trên nhiều thiết bị máy tính sử dụng hệ điều hành Windows, với giao diện đẹp và thân thiện cho người sử dụng.
Giới hạn đề tài
Hệ thống nhận diện chữ in hoa, chữ thường và số tiếng Anh được nhập trực tiếp vào giao diện tương tác mà không bị giới hạn kích thước, miễn là nằm trong khung cho phép và các ký tự không trùng lắp Nó nhận diện phong cách chữ viết tay tiêu chuẩn của người Mỹ với dạng khối cứng, không sử dụng các yếu tố như móc hay nét thanh đậm theo phong cách thư pháp Cuối cùng, chữ phải đảm bảo có thể đọc được bằng mắt thường.
Hình 1.1: Ví dụ về giới hạn phong cách chữ viết tay
Hình 1.2: Ví dụ các phong cách viết tay không nhận diện
Bố cục đồ án
Trong bài viết này, chúng tôi sẽ trình bày tình hình nghiên cứu toàn cầu về bài toán nhận diện chữ viết, cùng với những cải tiến đáng kể đã đạt được Dựa trên những thông tin này, nhóm sẽ đưa ra định hướng cho đề tài nghiên cứu của mình Chương cũng sẽ làm rõ phương hướng, mục tiêu thực hiện và giới hạn của đề tài lựa chọn.
Chương 2: Cơ sở lý thuyết
Chương này tóm tắt các bước xây dựng hệ thống nhận diện chữ viết tay, đồng thời giới thiệu các khái niệm lý thuyết cơ bản được áp dụng trong hệ thống.
Chương 3: Thiết kế hệ thống nhận diện chữ viết tay
Chương này mô tả sơ đồ khối hoạt động của hệ thống, nguyên lý hoạt động và phương pháp thiết kế cho từng khối Bên cạnh đó, bài viết cũng cung cấp lưu đồ giải thuật chi tiết và kết quả đạt được cho từng phần.
Chương 4: Kết quả nhận diện chữ viết tay
Chương này mô tả giao diện thực tế của ứng dụng và hướng dẫn cách thao tác cũng như sử dụng hệ thống Kết quả nhận diện và tỷ lệ chính xác sẽ được xem xét, thống kê và so sánh qua nhiều trường hợp khác nhau.
Chương 5: Kết luận và hướng phát triển
Dựa trên các kết quả thu được, nhóm đã đưa ra đánh giá tổng quan về đề tài, kết luận các nội dung đã thực hiện cùng với những ưu và nhược điểm của hệ thống Từ những nhận xét này, nhóm đề xuất các hướng cải thiện và phát triển cho đề tài trong tương lai.
CỞ SỞ LÝ THUYẾT
Tổng quan về máy học
Các bài toán máy học chủ yếu liên quan đến việc xử lý dữ liệu và chọn lựa mô hình huấn luyện phù hợp Tùy thuộc vào đặc điểm của dữ liệu và mục tiêu nhận diện, có hai mô hình chính được áp dụng: học không giám sát và học có giám sát Học không giám sát thường được sử dụng trong thống kê và phân cụm dữ liệu, trong khi học giám sát được áp dụng cho các mô hình cần dự đoán kết quả đầu ra.
Thiết kế hệ thống nhận diện chữ viết thực chất là quá trình xây dựng một mô hình máy học với chức năng phân loại Các giai đoạn để xây dựng mô hình này bao gồm:
Xây dựng mô hình huấn luyện ( chọn thuật toán)
Hình 2.1: Các giai đoạn xây dựng mô hình máy học
Trong bài toán phân loại trong học giám sát, việc chọn thuật toán huấn luyện chính xác là rất quan trọng để đạt hiệu quả cao Mỗi thuật toán có các đặc điểm riêng về tốc độ, bộ nhớ sử dụng và độ chính xác, đồng thời cần xem xét loại phân loại là nhị phân hay đa lớp Một số thuật toán phân loại phổ biến bao gồm mạng nơ-ron, hồi quy lô-gíc, kề cận gần nhất (KNN), véc-tơ máy hỗ trợ (SVM), Nạve Bayes, phân tích phân biệt và cây quyết định Các thuật toán hồi quy không được đề cập trong bài viết này.
Phương pháp tiền xử lý
Ảnh để có thể xử lý nhận diện cần quá trình tiền xử lý bao gồm công đoạn khôi phục, tăng cường, nhị phân và chuẩn hóa hình ảnh
Khôi phục ảnh giúp giảm thiểu tác động vật lý như lọc và khử nhiễu, đồng thời tăng cường chất lượng hình ảnh bằng cách làm rõ nét đặc trưng của đối tượng Quá trình này bao gồm các bước như thay đổi độ tương phản, giảm nhiễu, làm trơn biên, khuếch đại ảnh và điều chỉnh các thông số khác để cải thiện độ sắc nét và sự rõ ràng của hình ảnh.
5 mức xám…) Ảnh được nhị phân để gọn nhẹ và đơn giản trong nhận diện
Việc chuẩn hóa kích thước ảnh bắt đầu bằng việc xác định trọng tâm ảnh và khoảng cách lớn nhất từ tâm ảnh đến các cạnh của hình chữ nhật bao quanh Từ khoảng cách này, ta có thể xác định tỉ lệ co giãn của ảnh gốc so với kích thước đã xác định, giúp điều chỉnh kích thước ảnh một cách hợp lý Quy trình chuẩn hóa này đảm bảo tính cân bằng, ngăn chặn việc ảnh bị biến dạng hoặc lệch khi co giãn.
Phương pháp phân đoạn
Phân đoạn ảnh là quá trình tách biệt các thành phần trong ảnh để dễ dàng nhận diện đặc trưng mẫu Mục tiêu chính là xác định biên đối tượng dựa trên các tính chất như màu sắc, giá trị xám, cấu trúc và sự thay đổi cường độ sáng Một số thuật toán phổ biến trong phân đoạn ảnh bao gồm phân đoạn dựa trên đường viền vùng, phân đoạn cụm, phân loại bằng phân hoạch đồ thị, và các phương pháp ngưỡng như ngưỡng toàn cục, ngưỡng thích nghi và ngưỡng cục bộ.
Trích đặc trưng
2.4.1 Trích đặc trưng dựa trên hình thái học
Cấu trúc kí tự có thể biểu diễn bằng các đặc trưng hình học và hình thái và trích xuất bằng các phương pháp sau:
• Trích chọn và đếm cấu trúc hình thái
Phương pháp này tìm kiếm cấu trúc xác định trong từ hoặc ký tự, trích xuất và đếm các đặc trưng hình thái như điểm cực đại, cực tiểu, chóp trên và chóp dưới của ngưỡng, cùng với các điểm trái, phải, trên, dưới, giao điểm, điểm nhánh, điểm cuối đoạn thẳng, điểm cô lập và hướng của nét từ một điểm đặc biệt.
• Đo và xấp xỉ tính chất hình học
Phương pháp này xác định tỉ lệ giữa các thành phần từ và ký tự, bao gồm tỉ số giữa chiều rộng và chiều cao của hộp chứa ký tự, cũng như mối quan hệ khoảng cách giữa hai điểm.
So sánh độ dài giữa hai nét, độ rộng của một nét, và khối lượng chữ hoa so với chữ thường là những yếu tố quan trọng trong thiết kế chữ Một thông số đo tiêu biểu trong việc này là độ cong hoặc sự thay đổi độ cong của các ký tự.
Đồ thị và cây là công cụ phân chia các từ và ký tự thành các đối tượng nguyên thủy như nét và điểm chạc, sau đó thay thế bằng các đồ thị thuộc tính liên quan Có hai loại đặc trưng ảnh được mô tả qua đồ thị: loại đầu tiên dựa trên tọa độ hình dáng ký tự, trong khi loại thứ hai là đặc trưng trừu tượng, với các nút của đồ thị tương ứng với các nét chữ và các cạnh thể hiện mối quan hệ giữa chúng Phương pháp này cũng cho phép biểu diễn các từ và ký tự thông qua một tập hợp các đặc trưng theo quan hệ phân cấp.
Trích đặc trưng thường được thực hiện trên ảnh nhị phân, nhưng việc nhị phân hóa ảnh đa cấp xám có thể làm mất đi thông tin quan trọng của các ký tự Do đó, cần trích chọn đặc trưng trực tiếp từ ảnh đa cấp xám Đặc trưng của ký tự bao gồm các yếu tố nguyên thủy như đoạn thẳng và đường cong Các ký tự có thể được phân biệt thông qua các đại lượng hình học như tỷ lệ giữa chiều rộng và chiều cao của khung chứa ký tự, khoảng cách giữa hai điểm giao nhau, độ dài mỗi nét, và tỷ lệ chữ in hoa và in thường trong một từ Phương pháp trích đặc trưng dựa trên hình thái học áp dụng kỹ thuật quy hoạch vùng, trong đó ký tự được chia thành các vùng m*n và tổng số điểm đen của mỗi vùng được tính để tạo tính đặc trưng.
2.4.2 Trích đặc trưng bằng Gradient
Gradient là một véc-tơ thể hiện tốc độ thay đổi giá trị của điểm ảnh theo hai hướng x và y, đại diện cho sự biến đổi về hướng và độ lớn của một vùng ảnh Các thành phần hoành độ và tung độ của gradient được tính toán dựa trên sự thay đổi trong không gian hình ảnh.
Trong đó, dx và dy đại diện cho khoảng cách giữa hai điểm ảnh, với giá trị bằng 1 khi tính toán cho các điểm ảnh liền kề Tại vị trí điểm ảnh có tọa độ (i,j), chúng ta có thể áp dụng biểu thức tương ứng.
Gradient trong xử lý ảnh thường được áp dụng cùng cặp mặt nạ trực giao Hx,
Để tối giản hóa các phép tính, nếu định nghĩa g1(f’x) và g2(f’y) là véc-tơ Gradient theo hai hướng x và y (G(g1, g2)), thì biên độ g và hướng của biên tại tọa độ điểm (m,n) có thể được tính theo các công thức (2-3) và (2-4), và có thể xấp xỉ bằng công thức (2-5).
Để tính toán g1 và g2, cần tìm cặp mặt nạ phù hợp, thường sử dụng toán tử Sobel Mỗi điểm ảnh lân cận của ảnh đầu vào sẽ được nhân chập với cặp mặt nạ để xác định các thành phần biên độ và hướng của Gradient, từ đó giúp phát hiện biên và tạo ra khung cấu trúc cho ký tự.
Tổng quan mạng nơ-ron tích chập
Mạng nơ-ron là tập hợp các thuật toán mô phỏng kiến trúc não bộ, kết nối dữ liệu đầu vào với đầu ra mong muốn, nhằm nhận diện và phân loại đặc trưng của dữ liệu như hình ảnh, âm thanh, chữ viết và vật thể Chúng đặc biệt hiệu quả trong việc mô hình hóa các hệ thống phi tuyến, nơi dữ liệu cần được cập nhật nhanh chóng Mạng nơ-ron thường được cấu trúc thành nhiều lớp, với mỗi lớp chứa các nút thần kinh (nơ-ron) được kết nối thông qua các trọng số có thể điều chỉnh.
Hình 2.2: Cấu trúc của một nơ-ron
Các thành phần cơ bản của một nơ-ron bao gồm:
• Ngõ vào: dữ liệu ngõ vào được lưu trữ dưới dạng véc-tơ n chiều
Mỗi liên kết trong mạng nơ-ron được biểu diễn bằng một trọng số liên kết w, trong đó trọng số giữa tín hiệu đầu vào thứ j và nơ-ron k được ký hiệu là wkj Trọng số này được khởi tạo ngẫu nhiên và được cập nhật liên tục trong suốt quá trình huấn luyện.
• Hàm tổng: tính tổng của tích các ngõ vào với trọng số liên kết tương ứng
Hàm truyền, hay còn gọi là hàm kích hoạt, đóng vai trò quan trọng trong việc giới hạn phạm vi ngõ ra của mỗi nơ-ron Hàm này nhận đầu vào là hiệu của hàm tổng và hệ số chênh lệch bk, trong đó bk thể hiện độ lệch giữa giá trị trung bình mà mô hình dự đoán và giá trị thực tế của dữ liệu, thường được gọi là ngưỡng chênh lệch.
• Ngõ ra: tín hiệu ngõ ra của nơ-ron, mỗi nơ-ron có tối đa một ngõ ra
Biểu diễn dưới dạng toán học, cấu trúc của một nơ-ron k được mô tả bằng cặp biểu thức sau:
Trong đó xn là các tín hiệu ngõ vào, wkj là trọng số liên kết của nơ-ron thứ k, uk là hàm tổng, bk là hệ số chênh lệch
Bảng 2.1: Một số hàm truyền thông dụng
Hàm truyền Công thức Hàm truyền Công thức
Tuyến tính f(x) = ax ReLu f(x) = max(0, x)
Các nơ-ron trong mạng có thể kết nối toàn bộ với nhau hoặc chỉ kết nối cục bộ với các nơ-ron ở các tầng khác nhau Kiến trúc truyền dữ liệu trong mạng nơ-ron được chia thành hai loại.
Mạng truyền thẳng là loại mạng chỉ cho phép tín hiệu truyền theo một chiều mà không có vòng lặp, thường được sử dụng trong việc nhận diện mẫu Kiến trúc của mạng này bao gồm một tầng ngõ vào, một tầng ngõ ra, và có thể có nhiều hoặc không có tầng ẩn Một ví dụ điển hình của kiến trúc này là mạng nhận thức đa tầng (MLP).
Mạng phản hồi sử dụng bộ nhớ trong để xử lý tín hiệu đầu vào tuần tự, cho phép tín hiệu di chuyển theo cả hai hướng và lặp lại trong mạng Các kiến trúc điển hình của mạng phản hồi bao gồm mạng Hopfield, LSTM máy Boltzmann và mạng tự tổ chức.
Mạng nơ-ron tích chập CNN bao gồm nhiều lớp chập kết hợp với hàm kích hoạt phi tuyến, giúp tạo ra thông tin trừu tượng cho các lớp tiếp theo Quá trình tính tích chập được thực hiện bằng cách áp dụng một cửa sổ trượt, hay còn gọi là mặt nạ, bộ lọc hoặc kernel, lên ma trận ảnh.
Trong mô hình mạng nơ-ron truyền thẳng, các lớp mạng kết nối trực tiếp với nhau thông qua trọng số liên kết, được gọi là các lớp mạng kết nối đầy đủ Ngược lại, trong mô hình mạng nơ-ron tích chập, các lớp mạng liên kết với nhau theo cách khác.
10 thông qua cơ chế tích chập, với ngõ vào lớp tiếp theo là kết quả chập của lớp trước đó, được gọi là các kết nối cục bộ
Trong mạng tích chập, mỗi lớp chập dò tìm các đặc trưng như góc, cạnh, màu sắc và kết cấu của ảnh Khi mặt nạ quét qua những đặc trưng này, giá trị lớn sẽ được tạo ra Điều đặc biệt là các đặc trưng này có thể xuất hiện ở bất kỳ vị trí nào trong bức ảnh, và ngay cả khi ảnh bị xoay ngược, chúng vẫn có thể được phát hiện.
Mạng nơ-ron tích chập được xây dựng từ 3 ý tưởng cơ bản sau:
• Trường tiếp nhận cục bộ:
Trong mô hình mạng nơ-ron truyền thống, toàn bộ ma trận ảnh được đưa vào mạng nơ-ron, dẫn đến việc tất cả nơ-ron lớp trước kết nối với nơ-ron lớp sau, gây ra quá khớp và tăng thời gian huấn luyện do số lượng tham số lớn Ngược lại, mạng tích chập sử dụng bộ lọc kích thước nhỏ để chập ma trận ảnh đầu vào qua hàm kích hoạt, tạo ra các bản đồ đặc trưng Mỗi vùng mà bộ lọc áp dụng lên ma trận đầu vào được gọi là trường tiếp nhận, giúp giảm số lượng tham số huấn luyện mà vẫn duy trì trật tự không gian của ảnh.
Mỗi tầng ẩn trong mạng nơ-ron có số bản đồ đặc trưng tương ứng với số bộ lọc và trọng số liên kết được xác định bởi kích thước bộ lọc, chỉ có một hệ số chênh lệch Các giá trị tham số này được sử dụng chung cho các bản đồ đặc trưng, giúp giảm thiểu số lượng tham số cần học trong quá trình huấn luyện.
• Lớp tổng hợp - Lớp lấy mẫu phụ:
Lớp tổng hợp thường được sử dụng sau lớp chập để đơn giản hóa đầu ra và giảm số lượng nơ-ron Phương pháp phổ biến là tổng hợp tối đa, chọn giá trị lớn nhất trong vùng ngõ vào 2x2, giúp tìm ra đặc trưng nổi bật nhất và giảm kích thước đầu ra đi một nửa.
Kiến trúc mạng tích chập LeNet5 gồm 7 lớp, được phát triển để phân loại chữ số viết tay từ tập dữ liệu MNIST (1998) Đầu vào của mạng là hình ảnh kích thước 32×32, tương ứng với ma trận 32x32, trong đó mỗi điểm ảnh là một ô trong ma trận Hàm kích hoạt được sử dụng trong kiến trúc này là hàm ReLu.
Kiến trúc mạng LeNet5 bao gồm nhiều lớp chập và lớp kết nối, bắt đầu với ảnh ngõ vào kích thước 32x32x3 được xử lý qua 6 bộ lọc 5x5x3, tạo ra ma trận đầu ra 28x28x6 Lớp lấy mẫu phụ với kích thước 2x2 và khoảng dịch 2 giảm kích thước xuống còn 14x14x6 Lớp chập thứ ba có kích thước 10x10x16, tiếp theo là lớp lấy mẫu phụ tương tự, giảm kích thước xuống còn 5x5 Lớp kết nối đầy đủ thứ năm liên kết 400 kết nối từ lớp trước với 120 nốt mạng, trong khi lớp thứ sáu chuyển đổi đầu ra thành 84 nốt mạng Cuối cùng, lớp thứ bảy phân loại đầu ra thành 10 phân lớp tương ứng với các chữ số từ 0-9.
Nhiều mạng nơ-ron tích chập lần được được cải tiến và ra đời như AlexNet
(2012), ZFNet (2013), VGGNet (2014), ResNets (2015), Densenet (2016)…dù cho hiệu suất cao nhưng phức tạp và khó xây dựng cho người mới tiếp cận.
THIẾT KẾ HỆ THỐNG NHẬN DIỆN CHỮ VIẾT TAY
Yêu cầu thiết kế
Hệ thống nhận diện chữ viết tay sử dụng mạng nơ-ron tích chập để nhận diện chữ viết thu thập trực tiếp từ giao diện Nó được huấn luyện trước để nhận diện các phong cách chữ viết tay tương tự như trong tập dữ liệu mẫu, đáp ứng các giới hạn đã được đề ra trong nghiên cứu.
Sơ đồ khối và chức năng
Kiểm tra chính tả và hiển thị
Hình 3.1: Sơ đồ khối hệ thống: a) Huấn luyện mạng nơ-ron b) Nhận diện Tập dữ liệu: Chứa dữ liệu viết tay UNIPEN dùng để huấn luyện mạng nơ-ron
Về hình thức, dữ liệu UNIPEN cung cấp dưới dạng tập dữ liệu thô với đuôi mở rộng dat
Khối ngõ vào trong Visual C# 2010 cho phép người dùng nhập chữ viết tay bằng chuột hoặc màn hình cảm ứng, với dữ liệu được lưu trữ dưới dạng tập nhị phân và chuyển đổi thành ảnh bitmap Kích thước của ngõ vào không bị giới hạn, mang lại sự linh hoạt cho người sử dụng.
Tiền xử lý là bước quan trọng trong quy trình xử lý ảnh, bao gồm việc chuyển đổi ảnh sang định dạng xám, tạo đường bao xác định đối tượng và điều chỉnh kích thước đối tượng về chuẩn 29x29.
Khối trích đặc trưng và khối phân loại là hai phần chính của mạng nơ-ron tích chập đa tầng Phần trích đặc trưng bao gồm các lớp ẩn, nơi thực hiện các phép tích chập và tổng hợp để làm nổi bật đặc trưng của mẫu kí tự Trong khi đó, lớp phân loại, với cấu trúc kết nối đầy đủ, đóng vai trò là bộ phân lớp cho các đặc trưng đã được trích xuất, cung cấp xác suất nhận diện cho mẫu.
Hệ thống kiểm tra chính tả và hiển thị bao gồm ba mạng nơ-ron tích chập hoạt động song song để huấn luyện và nhận diện Đầu ra từ ba mạng này được chuyển đến một mô-đun hiển thị và kiểm tra chính tả, có nhiệm vụ chọn lọc và ghép nối các kết quả nhận diện từ.
Chương trình và lưu đồ giải thuật
Trong bài viết này, chúng tôi sẽ trình bày tình hình nghiên cứu toàn cầu về nhận diện chữ viết và những tiến bộ đã đạt được Bên cạnh đó, chúng tôi sẽ xác định định hướng nghiên cứu của nhóm, nêu rõ phương hướng, mục tiêu thực hiện và giới hạn của đề tài lựa chọn.
Chương 2: Cơ sở lý thuyết
Chương này cung cấp cái nhìn tổng quan về quy trình xây dựng hệ thống nhận diện chữ viết tay, đồng thời giải thích các khái niệm lý thuyết cơ bản được áp dụng trong hệ thống.
Chương 3: Thiết kế hệ thống nhận diện chữ viết tay
Chương này mô tả sơ đồ khối hoạt động của hệ thống, nguyên lý hoạt động và phương pháp thiết kế cho từng khối Nó cũng bao gồm lưu đồ giải thuật chi tiết và kết quả đạt được cho từng phần.
KẾT QUẢ NHẬN DIỆN CHỮ VIẾT TAY
Đánh giá kết quả thực tế
Việc sử dụng đồng thời ba mạng nơ-ron tích chập để nhận diện ký tự song song giúp đảm bảo kiến trúc hệ thống đơn giản và dễ mở rộng, nhưng lại làm tăng tỷ lệ nhận diện sai các ký tự Mỗi mạng nơ-ron đơn lẻ có khả năng nhận diện tốt, nhưng khi có nhiều kết quả, đầu ra của hệ thống phụ thuộc vào hoạt động của mô-đun nhận diện từ Sự sai sót trong nhận diện thường xuất phát từ việc mạng nơ-ron phân loại chưa chính xác và thuật toán của mô-đun nhận diện từ chưa được tối ưu Thêm vào đó, chữ viết tay thường có nhiều đặc trưng tương đồng, gây khó khăn trong việc phân tích từng ký tự khi tách rời khỏi từ.
Bảng 4.2: Thống kê kết quả nhận diện của hệ thống
Mẫu Mô tả Số kí tự Số kí tự nhận diện đúng
Bảng 4.3: Bảng kiểm định độ chính xác
Số mẫu nhận diện Số kí tự nhận diện Số kí tự nhận diện chính xác
8 106 81 Độ chính xác của chương trình: P = 81