1. Trang chủ
  2. » Thể loại khác

Luận văn tìm hiểu một số phương pháp trích chọn đặc trưng cho nhận dạng chữ viết

53 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận Văn Tìm Hiểu Một Số Phương Pháp Trích Chọn Đặc Trưng Cho Nhận Dạng Chữ Viết
Trường học Trường Đại Học Dân Lập Hải Phòng
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ Án Tốt Nghiệp
Năm xuất bản 2013
Thành phố Hải Phòng
Định dạng
Số trang 53
Dung lượng 1,43 MB

Cấu trúc

  • CHƯƠNG 1. TỔNG QUAN VỀ CHỮ VIẾT VÀ LÝ THUYẾT NHẬN DẠNG 8 1.1. GIỚI THIỆU (17)
    • 1.2. MÔ HÌNH TỔNG QUÁT CỦA MỘT HỆ NHẬN DẠNG CHỮ VIẾT TAY 8 1. Tiền xử lý (17)
      • 1.2.2. Khối tách chữ (22)
      • 1.2.3. Trích chọn đặc trƣng (23)
      • 1.2.4. Huấn luyện và nhận dạng (23)
      • 1.2.5. Hậu xử lý (23)
    • 1.3. CÁC PHƯƠNG PHÁP NHẬN DẠNG CHỮ VIẾT TAY (24)
      • 1.3.1. Đối sánh mẫu (24)
      • 1.3.2. Phương pháp tiếp cận cấu trúc (25)
      • 1.3.3. Mạng nơ ron (26)
      • 1.3.4. Mô hình Markov ẩn (HMM - Hidden Markov Model) (29)
      • 1.3.5. Máy véc tơ tựa (SVM) (30)
      • 1.3.6. Kết hợp các kỹ thuật nhận dạng (32)
      • 1.3.7. Kết luận (33)
  • CHƯƠNG 2: TỔNG QUAN VỀ TRÍCH CHỌN ĐẶC TRƯNG VÀ MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG TRONG NHẬN DẠNG CHỮ VIẾT (34)
    • 2.1. Trích chọn đặc trƣng (34)
      • 2.1.1. Biến đổi toàn cục và khai triển chuỗi (34)
      • 2.1.2. Đặc trƣng thống kê (35)
      • 2.1.3. Đặc trƣng hình học và hình thái (36)
    • 2.2. Đặc trƣng bất biến (37)
    • 2.3. Khả năng khôi phục (38)
    • 2.4. Trích chọn đặc trƣng từ ảnh đa cấp xám (38)
      • 2.4.1. Giới thiệu (38)
      • 2.4.2. Đối sánh mẫu (39)
      • 2.4.3. Mẫu biến dạng (39)
      • 2.4.4. Biến đổi ảnh Unitar (39)
      • 2.4.5. Bất biến Zenite (40)
    • 2.5. Trích chọn đặc trƣng từ ảnh nhị phân (40)
      • 2.5.1. Giới thiệu (40)
      • 2.5.2. Biến đổi ảnh Unitar (41)
      • 2.5.3. Bất biến hình học (41)
    • 2.6. Trích chọn đặc trƣng từ biên ảnh (41)
      • 2.6.1. Giới thiệu (41)
      • 2.6.2. Tách vùng (41)
      • 2.6.3. Xấp xỉ đường cong (42)
      • 2.6.4. Mô tả Fourier (42)
    • 2.7. Trích chọn đặc trƣng từ biểu diễn véc tơ (42)
      • 2.7.1. Giới thiệu (42)
      • 2.7.2. Đối sánh mẫu (43)
      • 2.7.3. Mẫu biến dạng (43)
      • 2.7.4. Đặc trƣng rời rạc (43)
      • 2.7.5. Biểu diễn Fourier (43)
  • CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM (45)
    • 3.1. Giới thiệu (45)
    • 3.2. Xây dựng giao diện vẽ (0)
    • 3.3. Xử lý dữ liệu (phân tích ảnh) (46)
    • 3.4. Kết quả nhận dạng (48)
    • 3.5. Đánh giá, nhận xét (48)
  • KẾT LUẬN (15)
  • TÀI LIỆU THAM KHẢO (53)

Nội dung

TỔNG QUAN VỀ CHỮ VIẾT VÀ LÝ THUYẾT NHẬN DẠNG 8 1.1 GIỚI THIỆU

MÔ HÌNH TỔNG QUÁT CỦA MỘT HỆ NHẬN DẠNG CHỮ VIẾT TAY 8 1 Tiền xử lý

1.2.1 Tiền xử lý máy quét tốt thì có thể bỏ qua giai đoạn này Khối tiền xử lý bao gồm một số chức năng:

Nhị phân hóa ảnh, lọc nhiễu, chuẩn hóa kích thước ảnh, làm trơn biên chữ, làm đầy chữ, làm mảnh chữ và xoay văn bản

Nhị phân hóa ảnh là kỹ thuật chuyển đổi ảnh đa cấp xám thành ảnh nhị phân, rất cần thiết trong phân tích và nâng cao chất lượng ảnh để xác định các đối tượng quan trọng Quá trình này chia ảnh thành hai phần bằng cách chọn một ngưỡng phù hợp dựa trên cường độ sáng, sau đó chuyển tất cả giá trị độ sáng lớn hơn ngưỡng đó thành một giá trị độ sáng nhất định.

“trắng”) và tất cả các giá trị bé hơn ngƣỡng thành một giá trị độ sáng khác (“đen”)

Hình 1.2 Nhị phân hóa ảnh

Nhiễu là tập hợp các điểm sáng thừa xuất hiện trên ảnh và việc khử nhiễu là một thách thức phổ biến trong lĩnh vực nhận dạng hình ảnh Có nhiều loại nhiễu khác nhau, bao gồm nhiễu đốm, nhiễu vệt và nhiễu đứt nét, mỗi loại đều cần phương pháp xử lý riêng để cải thiện chất lượng hình ảnh.

Để khử nhiễu đốm (nhiễu kích thước nhỏ), có thể áp dụng các phương pháp lọc như lọc trung bình và lọc trung vị Tuy nhiên, đối với nhiễu vệt (nhiễu kích thước lớn), các phương pháp lọc thường không hiệu quả Trong những trường hợp này, việc sử dụng phương pháp khử các vùng liên thông nhỏ sẽ mang lại hiệu quả tốt hơn.

1.2.1.3 Chuẩn hóa kích thước ảnh

Hình 1.4 Chuẩn hóa kích thước ảnh các ký tự “A” và “P”

Việc chuẩn hóa kích thước ảnh được thực hiện bằng cách xác định trọng tâm của ảnh và khoảng cách lớn nhất từ trọng tâm đến các cạnh của hình chữ nhật bao quanh Từ khoảng cách này, ta có thể tính toán tỷ lệ co giãn của ảnh gốc so với kích thước đã xác định, giúp hiệu chỉnh kích thước ảnh một cách chính xác Thuật toán này đảm bảo tính cân bằng khi co giãn, giúp ảnh không bị biến dạng hay lệch lạc.

1.2.1.4 Làm trơn biên chữ: Đôi khi do chất lượng quét ảnh quá xấu, các đường biên của chữ không còn giữ được dáng điệu trơn tru ban đầu mà hình thành các đường răng cưa giả tạo Trong các trường hợp này, phải dùng các thuật toán làm trơn biên để khắc phục

Hình 1.5 (a) Ảnh gốc, (b) Ảnh sau khi được làm trơn biên

Chức năng này được thiết kế để xử lý các ký tự bị đứt nét ngẫu nhiên Ảnh bị đứt nét có thể gây khó khăn trong việc tách chữ, dẫn đến việc nhầm lẫn giữa hai phần liên thông của ký tự thành hai ký tự riêng biệt, gây ra sai sót trong quá trình nhận dạng.

1.2.1.6 Làm mảnh chữ Đây là một bước quan trọng nhằm phát hiện khung xương của ký tự bằng cách loại bỏ dần các điểm biên ngoài của các nét Tuy nhiên, quá trình làm mảnh chữ rất nhạy cảm với việc khử nhiễu

1.2.1.7 Điều chỉnh độ nghiêng của văn bản

Do việc quét tài liệu không cẩn thận hoặc sự cố in ấn, các hàng chữ có thể bị lệch so với lề chuẩn một góc α, gây khó khăn trong việc tách chữ Trong những trường hợp này, cần phải tính lại tọa độ điểm ảnh của các chữ bị sai lệch để đảm bảo quá trình xử lý văn bản được chính xác.

Có nhiều kỹ thuật điều chỉnh độ nghiêng của ảnh tài liệu, trong đó phương pháp phổ biến nhất dựa trên biểu đồ chiếu (projection profile) Ngoài ra, một số kỹ thuật khác sử dụng các phép biến đổi Hough và Fourier để đạt được hiệu quả cao trong việc xử lý ảnh.

Khối này có nhiệm vụ tách từng ký tự ra khỏi văn bản, đảm bảo rằng hệ thống chỉ có thể nhận dạng chính xác ký tự khi chúng được cô lập đúng cách Dưới đây là một số phương pháp tách chữ thông dụng.

1.2.2.1 Tách chữ theo chiều nằm ngang và thẳng đứng

Phương pháp này thường áp dụng cho chữ in, với kích thước và kiểu chữ cố định, tuân theo quy định in ấn Các ký tự phải nằm gọn trong một khung, do đó, việc cô lập một ký tự đơn đồng nghĩa với việc xác định khung bao của ký tự đó trong văn bản Tách chữ theo chiều nằm ngang và thẳng đứng là tìm một hình chữ nhật có cạnh thẳng đứng và nằm ngang chứa trọn một ký tự bên trong.

1.2.2.2 Tách chữ dùng lƣợc đồ sáng

Việc tách dòng chữ trong văn bản viết tay dựa trên histogram theo chiều ngang thường gặp khó khăn do không thể xác định đường phân cách theo cách thông thường Thay vào đó, cần tìm đường phân cách với số điểm cắt giữa các dòng là ít nhất Để thực hiện điều này, cần xây dựng lược đồ sáng cho các dòng chữ, từ đó xác định các đoạn thấp nhất trên lược đồ, chính là đường phân cách cần tìm.

Hình 1.9 Xác định khoảng cách giữa hai kí tự và giữa hai từ dựa trên histogram theo chiều thẳng đứng của dòng chữ

Trích chọn đặc trưng là yếu tố quan trọng trong hệ thống nhận dạng, giúp cải thiện độ chính xác và giảm độ phức tạp của thuật toán phân lớp Trong các ứng dụng đơn giản, ảnh đa cấp xám hoặc nhị phân thường được sử dụng Tuy nhiên, để tối ưu hóa hiệu suất, các đặc trưng cần được rút gọn trong khi vẫn đảm bảo thông tin của ký tự, nhằm phân biệt rõ ràng giữa các lớp khác nhau.

1.2.4 Huấn luyện và nhận dạng : Đây là giai đoạn quan trọng nhất, giai đoạn này quyết định độ chính xác của hệ thống nhận dạng Có nhiều phương pháp phân lớp khác nhau được áp dụng cho các hệ thống nhận dạng chữ viết tay

1.2.5 Hậu xử lý : Đây là công đoạn cuối cùng của quá trình nhận dạng Có thể hiểu hậu xử lý là bước ghép nối các kí tự đã nhận dạng thành các từ, các câu, các đoạn văn nhằm tái hiện lại văn bản đồng thời phát hiện ra các lỗi nhận dạng sai bằng cách kiểm tra chính tả dựa trên cấu trúc và ngữ nghĩa của các từ, các câu hoặc các đoạn văn Việc phát hiện ra các lỗi, các sai sót trong nhận dạng ở bước này góp phần đáng kể vào

CÁC PHƯƠNG PHÁP NHẬN DẠNG CHỮ VIẾT TAY

Có nhiều phương pháp nhận dạng mẫu được sử dụng phổ biến trong hệ thống nhận dạng chữ viết tay, bao gồm các phương pháp như đối sánh mẫu, thống kê, cấu trúc, mạng nơ ron và SVM Những phương pháp này có thể được tích hợp trong các chiến lược khác nhau để nâng cao hiệu quả nhận diện.

Kỹ thuật nhận dạng chữ đơn giản nhất dựa trên việc so sánh các nguyên mẫu (prototype) để nhận diện ký tự hoặc từ Toán tử đối sánh xác định mức độ giống nhau giữa hai vé tơ trong không gian đặc trưng Các phương pháp đối sánh được nghiên cứu theo ba hướng, trong đó đối sánh trực tiếp là một phương pháp phổ biến Ký tự đầu vào, dưới dạng ảnh đa cấp xám hoặc ảnh nhị phân, được so sánh với tập mẫu chuẩn đã lưu trữ thông qua các độ đo tương đồng như độ đo Euclide Mặc dù phương pháp này có cơ sở toán học vững chắc và dễ thực hiện, nhưng kết quả nhận dạng lại nhạy cảm với nhiễu.

Các mẫu biến dạng và đối sánh mềm là phương pháp đối sánh hình ảnh hiệu quả, trong đó phép biến dạng được áp dụng để so sánh ảnh chưa biết với cơ sở dữ liệu ảnh đã biết Ý tưởng chính của đối sánh mềm là tối ưu hóa việc so sánh mẫu chưa biết với tất cả các mẫu có thể, cho phép các mẫu này co giãn Một không gian đặc trưng được thiết lập, trong đó các véc tơ chưa biết được đối sánh thông qua quy hoạch động và hàm biến dạng Đối sánh giảm nhẹ là kỹ thuật đối sánh ảnh ở mức độ trừu tượng, sử dụng hình dáng đặc trưng của ảnh ký tự Quá trình bắt đầu bằng việc nhận diện các vùng đối sánh, sau đó so sánh các phần tử của ảnh với những vùng đã được đánh giá tốt Kỹ thuật này yêu cầu tìm kiếm trong không gian đa chiều để xác định cực đại toàn cục của các hàm.

Các kỹ thuật đối sánh mẫu rất hiệu quả trong việc nhận dạng chữ in, nhưng lại kém hiệu quả khi áp dụng cho chữ viết tay.

1.3.2 Phương pháp tiếp cận cấu trúc:

Phương pháp này tiếp cận bằng cách mô tả đối tượng thông qua các khái niệm cơ bản trong ngôn ngữ tự nhiên Đối tượng được diễn tả bằng các hình dạng nguyên thủy như đoạn thẳng và cung, với mỗi đối tượng là sự kết hợp của những hình dạng này.

Quá trình nhận dạng các dạng nguyên thủy tương tự như nghiên cứu ngữ pháp trong ngôn ngữ, với việc xác định nhận dạng được thực hiện qua phân tích cú pháp Dù đã có những tiến bộ, nhiều vấn đề về hệ thống nhận dạng cú pháp vẫn chưa được giải quyết, và các thuật toán phổ dụng vẫn còn thiếu Hiện tại, nhận dạng theo cấu trúc tập trung vào việc trích xuất đặc trưng mẫu học và phân hoạch bảng ký tự dựa trên những đặc trưng này Đối với nhận dạng chữ viết tay rời rạc, việc xây dựng các đặc trưng như điểm uốn và điểm gấp khúc là rất quan trọng Sau khi tiền xử lý, quá trình tách nét diễn ra qua các điểm chạc, và đặc trưng cấu trúc xương của chữ được trích xuất từ các chỉ số đầu và cuối Cuối cùng, cây tìm kiếm được xây dựng dựa trên đặc trưng cấu trúc xương và cấu trúc biên, với quá trình tìm kiếm phân lớp thực hiện qua hai bước: xác định lớp tương ứng và tìm kiếm mẫu gần giống nhất trong lớp đó.

Các phương pháp cấu trúc áp dụng cho các bài toán nhận dạng chữ được phát triển theo hai hướng sau:

1.3.2.1 Phương pháp ngữ pháp (Grammatical Methods) thức ngữ pháp nguyên thủy Các luật sinh này có thể kết nối bất kỳ kiểu đặc trƣng thống kê và đặc trưng hình thái nào dưới một số cú pháp hoặc các luật ngữ nghĩa Giống nhƣ lý thuyết ngôn ngữ, các luật sinh cho phép mô tả các cấu trúc câu có thể chấp nhận đƣợc và trích chọn thông tin theo ngữ cảnh về chữ viết bằng cách sử dụng các kiểu ngữ pháp khác nhau

Trong các phương pháp huấn luyện, mỗi ký tự được mô tả bằng một văn phạm Gi Trong giai đoạn nhận dạng, chuỗi, cây hoặc đồ thị của đơn vị viết như ký tự, từ hoặc câu được phân tích để xác định văn phạm của mẫu thuộc lớp nào Các phương pháp ngữ pháp thường được áp dụng trong giai đoạn hậu xử lý nhằm sửa chữa các lỗi do khối nhận dạng gây ra.

1.3.2.2 Phương pháp đồ thị (Graphical Methods)

Các đơn vị chữ viết được mô tả thông qua cây hoặc đồ thị, với các dạng nguyên thủy của ký tự được xác định theo cách cấu trúc Trong quá trình huấn luyện, một đồ thị hoặc cây sẽ được tạo ra cho mỗi lớp để mô tả các nét, ký tự hoặc từ Giai đoạn nhận dạng sẽ gán một đồ thị chưa biết vào lớp phù hợp bằng cách sử dụng các phép đo để so sánh các đặc điểm tương đồng giữa các đồ thị.

Phương pháp đồ thị có nhiều cách tiếp cận khác nhau, trong đó nổi bật là đồ thị phân cấp, được ứng dụng hiệu quả trong việc nhận dạng chữ viết tay Trung Quốc và Hàn Quốc.

Mạng nơ ron là một cấu trúc tính toán bao gồm nhiều bộ xử lý nơ ron kết nối song song, cho phép thực hiện các tính toán nhanh hơn so với các kỹ thuật phân lớp khác Trong mạng nơ ron, nhiều nút tương tác với nhau, với đầu ra của một nút được sử dụng làm đầu vào cho nút khác, tạo ra một hàm quyết định phụ thuộc vào sự tương tác phức tạp giữa các nút Mặc dù có nguyên lý khác nhau, hầu hết các kiến trúc mạng nơ ron tương đương với các phương pháp nhận dạng mẫu thống kê.

Các kiến trúc mạng nơ ron được chia thành hai nhóm chính: mạng truyền thẳng và mạng lan truyền ngược Trong lĩnh vực nhận dạng chữ, mạng perceptron đa lớp là mạng phổ biến thuộc nhóm truyền thẳng, trong khi mạng SOM (Self Organizing Map) của Kohonen thuộc nhóm lan truyền ngược.

Mạng perceptron đa lớp, được đề xuất bởi Rosenblatt, đã được nhiều tác giả ứng dụng trong hệ thống nhận dạng chữ viết tay Hiện nay, hầu hết các nghiên cứu về nhận dạng chữ viết tay đều chú trọng vào mạng SOM, kết hợp giữa trích xuất đặc trưng và nhận dạng trên một tập lớn các ký tự huấn luyện Mạng SOM đã chứng minh rằng nó tương đương với thuật toán phân cụm k-means.

Mạng nơ ron, với thuật toán đơn giản nhưng hiệu quả, đang trở thành một trong những hướng nghiên cứu quan trọng trong lĩnh vực học máy nhờ vào thành công của nó trong các ứng dụng thực tiễn Mạng nơ ron phù hợp với nhiều bài toán như đối sánh, phân loại mẫu, xấp xỉ hàm, tối ưu hóa, lượng tử hóa véc tơ và phân hoạch không gian dữ liệu, trong khi các phương pháp truyền thống không thể giải quyết hiệu quả các vấn đề này Đặc biệt, trong các hệ thống nhận dạng, mạng nơ ron đã đạt được tỉ lệ nhận dạng chính xác, có thể so sánh với các phương pháp nhận dạng cấu trúc và thống kê.

1.3.3.1 Đặc trƣng của mạng nơron

Một nơron có khả năng tính toán theo cách tuyến tính hoặc phi tuyến Khi một mạng nơron được cấu thành từ các nơron phi tuyến, mạng đó cũng sẽ mang tính phi tuyến Đặc biệt, tính phi tuyến này được phân tán trên toàn bộ mạng, điều này rất quan trọng, đặc biệt trong các cơ chế vật lý tạo ra tín hiệu đầu vào như tín hiệu tiếng nói, vốn có tính phi tuyến.

1.3.3.1.1 Tính chất tương ứng đầu vào, đầu ra

TỔNG QUAN VỀ TRÍCH CHỌN ĐẶC TRƯNG VÀ MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG TRONG NHẬN DẠNG CHỮ VIẾT

Trích chọn đặc trƣng

Trích chọn đặc trưng là yếu tố quan trọng trong hệ thống nhận dạng, đặc biệt khi sử dụng ảnh đa cấp xám hoặc ảnh nhị phân Để giảm độ phức tạp và tăng độ chính xác của các thuật toán phân lớp, các đặc trưng cần được rút gọn nhưng vẫn đảm bảo thông tin ký tự Mục tiêu là tạo ra một tập hợp đặc trưng cho mỗi lớp có khả năng phân biệt rõ ràng với các lớp khác Hiện có hàng trăm phương pháp trích chọn đặc trưng cho ảnh văn bản, nhưng chúng thường được phân loại thành ba nhóm chính.

2.1.1 Biến đổi toàn cục và khai triển chuỗi

Một tín hiệu liên tục chứa nhiều thông tin có thể được sử dụng làm đặc trưng cho phân lớp Các đặc trưng này cũng có thể áp dụng để xấp xỉ tín hiệu liên tục thành tín hiệu rời rạc Một cách để biểu diễn tín hiệu là sử dụng tổ hợp tuyến tính của các hàm đơn giản hơn, với các hệ số cung cấp tri thức giải mã cần thiết Một số biến dạng như phép dịch chuyển và phép quay vẫn giữ nguyên dưới các phép biến đổi toàn cục và khai triển chuỗi Dưới đây là một số phương pháp biến đổi và khai triển chuỗi phổ biến trong lĩnh vực nhận dạng chữ.

Biến đổi Fourier: Một trong những tính chất nổi bật nhất của phép biến đổi

Fourier có khả năng nhận dạng các ký tự dù chúng có thay đổi về tư thế Các phép biến đổi Fourier đã được áp dụng để nhận diện ký tự theo nhiều phương pháp khác nhau.

Biến đổi Wavelet là một tập hợp các kỹ thuật khai triển dùng để mô tả đặc trưng của ảnh ở nhiều mức độ khác nhau Quá trình tách chữ thành các ký tự hoặc từ được thực hiện thông qua các hệ số wavelet, mỗi hệ số tương ứng với một mức độ cụ thể cho từng giải pháp Cuối cùng, các hệ số này được đưa vào một máy phân lớp để phục vụ cho việc nhận dạng.

Phương pháp mô men là một kỹ thuật trong nhận dạng đối tượng, trong đó ảnh gốc được thay thế bằng một tập hợp các đặc trưng tối thiểu để nhận diện các đối tượng bất biến trước các phép biến đổi như tỷ lệ, tịnh tiến hoặc quay Các mô men được coi là các dãy khai triển đặc trưng, cho phép tái tạo đầy đủ ảnh gốc từ các hệ số mô men.

Khai triển Karhunent-Loeve là phương pháp phân tích véc tơ riêng nhằm rút gọn số chiều của tập đặc trưng thông qua việc tạo ra các đặc trưng mới là tổ hợp tuyến tính của các đặc trưng gốc Phương pháp này được áp dụng trong nhiều bài toán nhận dạng mẫu, bao gồm nhận dạng khuôn mặt và hệ thống OCR của Viện Công nghệ và Tiêu chuẩn Quốc gia Hoa Kỳ (NIST) Mặc dù yêu cầu tính toán lớn khiến việc sử dụng đặc trưng Karhunent-Loeve trong nhận dạng chữ không phổ biến, nhưng gần đây, để tăng tốc độ tính toán cho các máy phân lớp, các đặc trưng này đã trở nên thiết thực hơn trong các hệ thống nhận dạng chữ.

Các đặc trưng thống kê của ảnh văn bản giúp bảo toàn nhiều kiểu biến đổi hình dáng của chữ, mặc dù không thể tái tạo ảnh gốc Những đặc trưng này được sử dụng để giảm số chiều của tập đặc trưng, từ đó tăng tốc độ xử lý và giảm thiểu độ phức tạp tính toán Dưới đây là một số đặc trưng thống kê phổ biến để biểu diễn ảnh ký tự.

Phân vùng (zoning): Khung chứa ký tự đƣợc chia thành một vài vùng chồng

Các giao điểm và khoảng cách là một đặc trưng thống kê quan trọng, thể hiện số lượng giao điểm giữa chu tuyến của chữ và một đường thẳng theo một hướng cụ thể.

Các phép chiếu cho phép biểu diễn ký tự bằng cách chiếu giá trị mức xám của từng điểm lên các dòng theo hướng khác nhau, tạo ra tín hiệu một chiều từ ảnh hai chiều Đặc trưng hướng của ký tự, bao gồm các nét chữ, là các đoạn thẳng có hướng, cung và đường cong, đóng vai trò quan trọng trong việc so sánh sự khác nhau giữa các ký tự Các ký tự được mô tả như véc tơ với các giá trị thống kê về hướng Để trích xuất đặc trưng này, góc định hướng của nét chữ được chia thành các vùng cố định, và số đoạn của nét chữ trong mỗi vùng được chọn làm giá trị đặc trưng, từ đó tạo thành biểu đồ hướng Các ảnh ký tự được phân rã thành mặt phẳng định hướng và khoảng cách được tính giữa các mặt phẳng với mẫu của mỗi lớp Hướng nét chữ cục bộ có thể xác định qua nhiều phương pháp như hướng của xương, phân đoạn nét chữ, mã hóa chu tuyến và hướng đạo hàm Hiện nay, mã hóa chu tuyến và hướng đạo hàm được ưa chuộng vì dễ cài đặt và xấp xỉ bất biến với biến đổi của nét chữ.

2.1.3 Đặc trƣng hình học và hình thái

Các tính chất cục bộ và toàn cục của ký tự được biểu diễn qua đặc trưng hình học và hình thái, giúp giải mã tri thức về cấu trúc của đối tượng ảnh Những đặc trưng này cung cấp thông tin về cách sắp xếp các thành phần để tạo ra đối tượng Các loại đặc trưng này có thể được phân thành nhiều nhóm khác nhau.

Trong nghiên cứu về cấu trúc hình thái, việc trích chọn và đếm các đặc trưng hình thái là rất quan trọng Các cấu trúc nguyên thủy như đoạn thẳng và cung tạo nên các ký tự, và số lượng vị trí của chúng hình thành các đặc trưng biểu diễn ký tự Các ký tự và từ có thể được mô tả thông qua việc đếm các đặc trưng như điểm cực đại, điểm chóp và các giao điểm Đo và xấp xỉ các tính chất hình học cũng đóng vai trò quan trọng, với các đại lượng như tỷ lệ chiều rộng và chiều cao, khoảng cách giữa các điểm, và độ cong của nét chữ Đồ thị và cây được sử dụng để phân tích các ký tự và từ, trong đó các đối tượng nguyên thủy được thay thế bằng các thuộc tính hoặc đồ thị liên quan Hai loại đặc trưng được mô tả bằng đồ thị: một loại dựa trên tọa độ hình dáng ký tự và loại còn lại là đặc trưng trừu tượng với các nút và cạnh thể hiện mối quan hệ giữa các nét chữ Cây cũng có thể biểu diễn các từ và ký tự theo một quan hệ phân cấp.

Trích chọn đặc trưng thường được thực hiện trên ảnh nhị phân, nhưng việc nhị phân hóa ảnh đa cấp xám có thể làm mất một số thông tin quan trọng của ký tự Do đó, một số nghiên cứu đã được tiến hành để trích chọn các đặc trưng trực tiếp từ ảnh đa cấp xám.

Mục tiêu chính của việc trích chọn đặc trưng là xác định một tập hợp các đặc trưng nhằm phân lớp hiệu quả, đảm bảo hệ thống nhận dạng đạt độ chính xác cao nhất với số lượng phần tử được trích chọn tối thiểu.

Luận án chỉ tập trung nghiên cứu một số đặc trƣng thống kê và đặc trƣng wavelet cho bài toán nhận dạng chữ Việt viết tay rời rạc.

Đặc trƣng bất biến

Để nhận diện nhiều biến thể của một đối tượng, cần sử dụng các tính năng bất biến, giúp xác định đặc điểm cá nhân và ước lượng kích thước, vị trí Tuy nhiên, các phương pháp khai thác tính năng thường mang lại ước lượng chính xác hơn.

Quay bất biến là yếu tố quan trọng khi các đối tượng có thể xuất hiện trong nhiều định hướng khác nhau Khi tất cả các đối tượng có cùng luân chuyển, tính năng quay biến thể nên được áp dụng để phân biệt các ký tự như "6" và "9", cũng như "n" và "u" Một lựa chọn khác là sử dụng tính năng bất biến, kết hợp với các phát hiện rota-góc hóa, đặc biệt khi góc quay bị giới hạn.

Các đối tượng ở góc 45° và 45° có thể được phân biệt dựa trên nguyên tắc quay 180° Nguyên tắc này cũng áp dụng cho các tính năng kích thước bất biến, giúp phân biệt các ký tự như dấu chấm câu, ví dụ "o" và "O", cũng như "," và "9".

Khả năng khôi phục

Đối với một số phương pháp khôi phục hình ảnh, việc đạt được độ chính xác cao có thể yêu cầu nhiều tính năng, nhưng thường có thể đạt được hình dạng đối tượng ban đầu chỉ với một lượng nhỏ tính năng thông tin Những tính năng này cần có khả năng phân biệt cao Việc khôi phục hình ảnh thông qua trích xuất tính năng cho phép kiểm tra cấu trúc cơ bản của các đối tượng Ngoài ra, khôi phục cũng có thể được sử dụng để xác nhận tính chính xác của quá trình thực hiện.

Trích chọn đặc trƣng từ ảnh đa cấp xám

Một thách thức lớn trong phương pháp xác định vị trí đối tượng là việc xác định chính xác địa điểm của nó Một giải pháp là sử dụng phương pháp thích ứng để tạo ra hình ảnh nhị phân chất lượng cao, kết hợp với việc xác định kích thước đối tượng dự kiến thông qua kết nối thành phần Tuy nhiên, phương pháp này thường chỉ hiệu quả với hình ảnh nhị phân rõ ràng, chưa giải quyết được vấn đề với những hình ảnh phức tạp hơn Để khắc phục, cần phải xem xét tất cả các địa điểm khả thi trong hình ảnh, nhưng điều này đòi hỏi phải giả định một kích thước tiêu chuẩn cho đối tượng, dựa trên sự kết hợp của các kích thước khác nhau Phương pháp này không khả thi nếu kích thước của đối tượng cần xác định có sự biến đổi.

Hệ thống OCR thường không nhận thức được mẫu phù hợp với hình ảnh xám, nhưng mẫu này lại là một phần quan trọng trong kỹ thuật xử lý hình ảnh Chúng tôi đã hoàn thiện quy trình này, mặc dù các bước tính năng khai thác có thể bị bỏ qua Hình ảnh chính được sử dụng như một yếu tố cốt lõi trong mẫu phù hợp.

Trong giai đoạn công nhận, biện pháp giữa các mẫu TJ và hình ảnh Z được tính toán để xác định các thông số Tk, trong đó có các biện pháp tương tự cao nhất Nếu sự tương đồng này vượt qua ngưỡng quy định, các hình ảnh sẽ được gán nhãn lớp k, trong khi các nhân vật còn lại sẽ không được phân loại Đối với biện pháp đồng dạng, mẫu Tk có biện pháp đồng dạng thấp nhất sẽ được xác định, và nếu dưới mức quy định, các đối tượng sẽ được dán nhãn lớp k.

Mẫu biến dạng đã được ứng dụng phổ biến trong nhiều lĩnh vực nhận diện đối tượng, đặc biệt là trong bộ xương nhân vật Tuy nhiên, việc xác định vị trí ban đầu của các mẫu này không phải lúc nào cũng rõ ràng Nếu tất cả các vị trí khả thi trong hình ảnh được xem xét, thời gian tính toán sẽ trở nên quá lớn và không khả thi.

Trong mẫu phù hợp, tất cả các điểm ảnh trong hình ảnh xám được sử dụng như một biến đổi Unitar để giảm số lượng tính năng trong khi vẫn bảo quản hầu hết thông tin về hình dạng Trong quá trình chuyển đổi, các điểm ảnh được sắp xếp và những điểm ảnh có mức cao nhất được chọn làm tính năng Biến đổi Unitar cần được áp dụng để ước tính phương sai của các điểm ảnh trong không gian chuyển đổi.

Các tính năng từ biến đổi Unitar không ổn định, vì vậy hình ảnh đầu vào cần được chuẩn hóa về định hướng để tránh xoay ký tự Ngoài ra, các hình ảnh đầu vào cũng phải có kích thước đồng nhất; do đó, việc mở rộng hoặc tái lấy mẫu là cần thiết nếu kích thước khác nhau Các biến đổi đơn nhất không bảo toàn ánh sáng, trong khi biến đổi Fourier cho thấy giá trị tại gốc tỷ lệ thuận với giá trị điểm ảnh trung bình của hình ảnh đầu vào, do đó tính năng này có thể bị loại bỏ để đạt được độ sáng mong muốn.

Zernike khoảnh khắc đã đƣợc sử dụng bởi một số tác giả cho nhận dạng ký tự nhị phân rắn ký tự.

Trích chọn đặc trƣng từ ảnh nhị phân

Một ảnh raster nhị phân được tạo ra thông qua binarization địa phương thích nghi của hình ảnh xám Trong nhiều trường hợp, việc phân đoạn đối tượng chỉ đơn giản là cách ly các thành phần kết nối Tuy nhiên, với những hình ảnh phức tạp, các đối tượng có thể chồng chéo hoặc tiếp xúc với nhau, dẫn đến việc phân mảnh thành nhiều thành phần kết nối Mặc dù việc chọn phương pháp binarization tốt hơn có thể giảm thiểu vấn đề này, nhưng ngay cả phương pháp tốt nhất cũng không đảm bảo cô lập hoàn toàn đối tượng Các phương pháp phân đoạn động, như của Westall và Narasimha, giả định rằng các đối tượng có cùng nội dung và định hướng nhất định Trong các bản đồ thủy văn, các đối tượng có thể chồng chéo lên nhau hoặc giao thoa với các ký tự trong văn bản Một phương pháp tích hợp dựa trên xám đã được phát triển, mang lại hiệu suất tốt hơn nhờ vào việc sử dụng thông tin từ phân tích topo-đồ họa để phân chia ảnh nhị phân Phương pháp này cũng xử lý các đối tượng bị xoay và chồng chéo từ các văn bản khác nhau Đại diện raster nhị phân là sự đơn giản hóa của đại diện xám, với hai giá trị (0 và 1) thay vì 256 giá trị màu xám, cho phép áp dụng các phương pháp phát triển cho đại diện màu xám vào đại diện nhị phân Mặc dù bất biến với ánh sáng không còn phù hợp, nhưng các invariances khác vẫn có thể áp dụng Một ảnh nhị phân có thể được chuyển đổi sang các đại diện khác, như đường viền hoặc bộ xương, và các tính năng có thể được chiết xuất từ các đại diện này.

Hệ thống OCR được triển khai với mục tiêu bảo vệ thông tin liên quan đến các hình ảnh và loại bỏ những thông tin không cần thiết.

NIST đã phát triển một hệ thống nhận dạng dấu vân tay dựa trên chuyển đổi Karhunen-Loeve để trích xuất các đặc trưng từ hình ảnh raster nhị phân Hệ thống này được công nhận có hiệu quả cao và hiện đang được cung cấp công khai.

Hình ảnh nhị phân là một trường hợp đặc biệt của hình ảnh màu xám, trong đó các điểm ảnh được xác định bởi Z(x, y) = 1, còn các điểm ảnh nền có giá trị Z(zi, yl) = 0.

Trích chọn đặc trƣng từ biên ảnh

2.6.1 Giới thiệu Đường cong đường viền bên ngoài khép kín của một ảnh là một đường cong tuyến tính piecewise khép kín đi qua trung tâm của tất cả các điểm ảnh mà bốn kết nối đến bên ngoài nền và không có điểm ảnh khác Sau đường cong, các điểm ảnh được truy cập trong, nói, ngược kim đồng hồ trật tự và đường cong có thể truy cập vào một điểm ảnh cạnh hai lần địa điểm mà đối tƣợng là rộng một điểm ảnh mỗi dòng bộ phận là một đường thẳng từ tâm điểm ảnh tới 8 láng giêng

Kimura và Shridhar áp dụng phân vùng trên đường viền của đường cong Trong mỗi khu vực, các phân đoạn đường đồng mức giữa các pixel lân cận được nhóm lại theo bốn hướng: ngang (0 °), thẳng đứng (90 °) và hai đường chéo (45 °, 135 °) Số lượng đoạn đường cho mỗi hướng được tính toán kỹ lưỡng.

Takahashi sử dụng biểu đồ định hướng từ khu vực theo chiều dọc, ngang và đường chéo, mở rộng thêm khu vực bên ngoài đường viền trong quá trình thực hiện các biểu đồ Ông xác định điểm cong cao dọc theo hai đường viền bên ngoài và bên trong, từ đó trích xuất giá trị độ cong, tiếp tuyến đường viền và vị trí của khu vực Các điểm này được xác định thông qua giá trị thành viên mờ cho hai hoặc bốn khu vực, cùng với giá trị số tiền thành viên mờ tương ứng.

Trên các đường viền nhân vật bên ngoài, áp dụng gần đúng đường cong giữa hai điểm dừng với một chức năng Cả hai đường cong và các thông số đường cong sẽ được sử dụng như các tính năng quan trọng.

Xấp xỉ đường cong viền bên ngoài bằng một đường cong spline, sau đó thực hiện quá trình làm nhẵn Các đường cong spline được chia thành các phần bằng nhau để đảm bảo tính đồng nhất và chính xác.

Chiều dài đường cong M được xác định bằng cách tính độ cong trung bình cho mỗi phần theo công thức cụ thể Khoảng cách từ điểm uốn cong đến các điểm N được đo bằng khoảng cách đều nhau trên các đường viền Để đánh giá tính năng, cần nhân rộng spline đường cong xấp xỉ của nhân vật đến kích thước Sở NN & PTNT, từ đó các tính năng sẽ trở thành kích thước bất biến Các tính năng này mặc dù đã được dịch bất biến từ tự nhiên nhưng vẫn phụ thuộc vào sự quay.

Trước khi Kuhl, Giardina, Lin và Hwang mô tả, một biến thể khác của phép biến đổi Fourier đã được phát triển bởi Zahn, Roskies và Granlund Trong nghiên cứu của Zahn và Roskies, các góc cạnh khác nhau được xem như là một nghiệm quan trọng.

Trích chọn đặc trƣng từ biểu diễn véc tơ

Nhiều thuật toán mỏng hiện có và các nghiên cứu gần đây đã chỉ ra giá trị và bất lợi của chúng Một trong những thách thức chính là sự thỏa hiệp giữa việc mở rộng điểm ảnh và việc kết nối với các chi nhánh giả hoặc các nút di dời Mặc dù các thuật toán mỏng có khả năng xử lý mạnh mẽ và giảm tiếng ồn, việc thực hiện chúng vẫn là một nhiệm vụ phức tạp.

Biểu đồ đối tượng có thể được xây dựng từ các bộ xương, nhờ vào việc xấp xỉ các đường thẳng phân đoạn và các điểm giao nhau Đối với phần cong của bộ xương, vòng cung sẽ được sử dụng để thể hiện một cách chính xác.

Phương pháp này rất hữu ích khi thậm chí tốt nhất có sẵn phương pháp không thể bảo toàn hình dạng bộ phận làm việc trong các hình ảnh

Mẫu phù hợp ở dạng tinh khiết của nó rất không phù hợp cho bộ xương đối tƣợngvật, vì rất có thể là nhỏ

Mẫu biến dạng được Burr và Wakahara sử dụng để nhận diện nhân vật skel-etons Trong phương pháp của Wakahara, mỗi mẫu được biến đổi qua một loạt các bước nhỏ, gọi là biến đổi affine địa phương (LAT), nhằm phù hợp với mô hình đầu vào ứng cử viên.

Số lượng và kiểu chuyển đổi trước khi trận đấu có thể được sử dụng như một biện pháp để so sánh giữa các mẫu và các đầu vào khác nhau.

Từ các nhân vật mỏng, có thể trích xuất nhiều tính năng quan trọng như số lượng vòng, T-khớp, X-khớp, điểm uốn cong, chiều rộng và chiều cao của hình chữ nhật, cùng với sự hiện diện của dấu chấm cô lập Ngoài ra, tổng số thiết bị đầu cuối và số lượng thiết bị trong bốn hướng N, S, W và E cũng được ghi nhận, cùng với số lượng bán vòng tròn và các giao cắt theo chiều dọc và ngang Mặc dù việc sử dụng giao cắt với nhiều chồng dòng đã được áp dụng trong hệ thống OCR, nhưng các tính năng này một mình không đủ để tạo ra một hệ thống nhận dạng mạnh mẽ, đặc biệt khi số lượng dòng chồng tăng lên và các phông chữ cũng như hình dạng văn bản thay đổi.

Các phương pháp mô tả Fourier cho đường nét nhân vật cũng có thể sử dụng

Các đặc tính cho phép quay và kích thước bất biến đã được phát hiện, cho thấy rằng cùng một nhân vật có thể có các vector tính năng khác nhau tùy thuộc vào loại hình Giải pháp là phân loại các đồ thị ký tự vào ba loại khác nhau trước, sau đó áp dụng một phân loại riêng cho từng loại.

CHƯƠNG TRÌNH THỬ NGHIỆM

Xây dựng giao diện vẽ

- Tìm hiểu khái quát về chữ viết và lý thuyết nhận dạng

- Tìm hiểu về trích chọn đặc trƣng cho nhận dạng chữ viết

- Cài đặt thử nghiệm chương trình đã tìm hiểu được

Bài báo cáo được trình bày trong 3 chương:

- Chương 1: Trình bày tổng quan về chữ viết và lý thuyết nhận dạng

- Chương 2: Tổng quan về trích chọn đặc trưng và một số phương pháp trích chọn đặc trƣng cho nhận dạng chữ viết

- Chương 3:Chương trình thử nghiệm

- Kết luận: Tóm tắt những vấn đề tìm hiểu đƣợc trong bài, các vấn đề liên quan và đưa ra hướng phát triển trong tương lai

Bài báo cáo đồ án tốt nghiệp của tôi nghiên cứu về "Một số phương pháp trích chọn đặc trưng cho nhận dạng chữ viết" Nội dung nghiên cứu được chia thành 3 chương chính, mỗi chương sẽ tập trung vào các phương pháp và kỹ thuật khác nhau trong việc nhận dạng chữ viết.

- CHƯƠNG 1: Tổng quan về chữ viết và lý thuyết nhận dạng

Chương này tổng quan về chữ viết và lý thuyết nhận dạng, nhấn mạnh sự quan tâm của nhiều nhà nghiên cứu đối với lĩnh vực nhận dạng chữ Đến nay, lĩnh vực này đã đạt được nhiều thành tựu quan trọng cả về lý thuyết lẫn ứng dụng thực tế Bài viết cũng trình bày mô hình tổng quát của một hệ thống nhận dạng chữ viết.

- CHƯƠNG 2: Tổng quan về trích chọn đặc trưng và một số phương pháp trích chọn đặc trƣng cho nhận dạng chữ viết

Chương này tổng quan về trích chọn đặc trưng và các phương pháp liên quan đến nhận dạng chữ viết Trích chọn đặc trưng bao gồm các yếu tố như đặc trưng bất biến và khả năng khôi phục Các phương pháp trích chọn đặc trưng từ ảnh đa cấp xám bao gồm đối sánh mẫu, mẫu biến dạng, biến đổi ảnh Unitar, bất biến hình học và bất biến Zenite Đối với ảnh nhị phân, các phương pháp tương tự cũng được áp dụng Ngoài ra, trích chọn đặc trưng từ biên ảnh sử dụng các kỹ thuật như chiếu nghiêng, tách vùng, xấp xỉ đường cong và mô tả Fourier Cuối cùng, trích chọn đặc trưng từ biểu diễn vectơ bao gồm đối sánh mẫu, mẫu biến dạng, đặc trưng rời rạc, biểu diễn đồ thị và biểu diễn Fourier.

- CHƯƠNG 3 :Chương trình thử nghiệm

CHƯƠNG 1 TỔNG QUAN VỀ CHỮ VIẾT VÀ LÝ THUYẾT

Nhận dạng chữ là lĩnh vực nghiên cứu quan trọng, đã đạt được nhiều thành tựu lớn cả về lý thuyết lẫn ứng dụng thực tiễn Lĩnh vực này được chia thành hai loại: nhận dạng chữ in và nhận dạng chữ viết tay Hiện tại, nhận dạng chữ in đã gần như được giải quyết hoàn toàn, trong khi nhận dạng chữ viết tay vẫn là một thách thức lớn cho các nhà nghiên cứu Nhận dạng chữ viết tay được phân thành hai loại: on-line (trực tuyến) và off-line (ngoại tuyến).

Nhận dạng chữ viết tay online dựa vào việc ghi lại thông tin về nét chữ như thứ tự, hướng và tốc độ viết, giúp máy tính dễ dàng nhận diện các chữ cái Ngược lại, nhận dạng chữ viết tay offline sử dụng ảnh văn bản quét vào, dẫn đến độ khó cao hơn nhiều so với nhận dạng online Do đó, nhận dạng chữ viết tay offline và nhận dạng chữ in thường được gọi chung là nhận dạng chữ quang học (OCR - Optical Character Recognition).

Khó khăn lớn nhất trong nghiên cứu nhận dạng chữ viết tay là sự đa dạng trong cách viết của từng người Ngay cả trong cùng một cá nhân, chữ viết cũng có thể khác biệt tùy thuộc vào ngữ cảnh và có thể thay đổi theo thời gian hoặc thói quen Điều này tạo ra nhiều trở ngại trong việc trích chọn đặc trưng và lựa chọn mô hình nhận dạng phù hợp.

1.2 MÔ HÌNH TỔNG QUÁT CỦA MỘT HỆ NHẬN DẠNG CHỮ VIẾT TAY

1.2.1 Tiền xử lý máy quét tốt thì có thể bỏ qua giai đoạn này Khối tiền xử lý bao gồm một số chức năng:

Nhị phân hóa ảnh, lọc nhiễu, chuẩn hóa kích thước ảnh, làm trơn biên chữ, làm đầy chữ, làm mảnh chữ và xoay văn bản

Nhị phân hóa ảnh là kỹ thuật chuyển đổi ảnh đa cấp xám thành ảnh nhị phân, giúp xác định các đối tượng quan trọng trong phân tích và nâng cao chất lượng ảnh Quá trình này chia ảnh thành hai phần bằng cách lựa chọn một ngưỡng thích hợp dựa trên cường độ sáng, chuyển đổi tất cả giá trị độ sáng lớn hơn ngưỡng thành một giá trị nhất định.

“trắng”) và tất cả các giá trị bé hơn ngƣỡng thành một giá trị độ sáng khác (“đen”)

Hình 1.2 Nhị phân hóa ảnh

Nhiễu là tập hợp các điểm sáng thừa xuất hiện trên hình ảnh, gây khó khăn trong quá trình nhận dạng Việc khử nhiễu là một thách thức phổ biến, bởi vì nhiễu có nhiều loại khác nhau như nhiễu đốm, nhiễu vệt và nhiễu đứt nét.

Để khử nhiễu đốm với kích thước nhỏ, có thể áp dụng các phương pháp lọc như lọc trung bình hoặc lọc trung vị Tuy nhiên, đối với nhiễu vệt hoặc nhiễu có kích thước lớn, các phương pháp lọc thường không hiệu quả Trong những trường hợp này, việc sử dụng phương pháp khử các vùng liên thông nhỏ sẽ mang lại hiệu quả tốt hơn.

1.2.1.3 Chuẩn hóa kích thước ảnh

Hình 1.4 Chuẩn hóa kích thước ảnh các ký tự “A” và “P”

Việc chuẩn hóa kích thước ảnh được thực hiện bằng cách xác định trọng tâm ảnh và khoảng cách lớn nhất từ tâm đến các cạnh của hình chữ nhật bao quanh Từ khoảng cách này, ta có thể tính toán tỷ lệ co, giãn của ảnh gốc so với kích thước đã xác định, giúp hiệu chỉnh kích thước ảnh một cách chính xác Thuật toán này đảm bảo tính cân bằng khi co giãn, ngăn ngừa tình trạng biến dạng hoặc lệch lạc của ảnh.

1.2.1.4 Làm trơn biên chữ: Đôi khi do chất lượng quét ảnh quá xấu, các đường biên của chữ không còn giữ được dáng điệu trơn tru ban đầu mà hình thành các đường răng cưa giả tạo Trong các trường hợp này, phải dùng các thuật toán làm trơn biên để khắc phục

Hình 1.5 (a) Ảnh gốc, (b) Ảnh sau khi được làm trơn biên

Chức năng này giúp xử lý các ký tự bị đứt nét ngẫu nhiên, vì ảnh đứt nét có thể gây khó khăn trong việc nhận diện chữ, dễ dẫn đến việc nhầm lẫn giữa hai phần liên thông của ký tự thành hai ký tự riêng biệt, từ đó gây ra sai sót trong quá trình nhận dạng.

1.2.1.6 Làm mảnh chữ Đây là một bước quan trọng nhằm phát hiện khung xương của ký tự bằng cách loại bỏ dần các điểm biên ngoài của các nét Tuy nhiên, quá trình làm mảnh chữ rất nhạy cảm với việc khử nhiễu

1.2.1.7 Điều chỉnh độ nghiêng của văn bản

Khi tài liệu được quét không chính xác hoặc gặp sự cố in ấn, các hàng chữ có thể bị lệch so với lề chuẩn một góc α, gây khó khăn trong việc tách chữ, thậm chí có thể không tách được Trong những tình huống này, cần phải tính lại tọa độ điểm ảnh của các chữ bị sai lệch để đảm bảo quá trình xử lý văn bản diễn ra hiệu quả.

Có nhiều kỹ thuật điều chỉnh độ nghiêng của ảnh tài liệu, trong đó phương pháp phổ biến nhất dựa trên biểu đồ chiếu (projection profile) Ngoài ra, một số kỹ thuật khác sử dụng các phép biến đổi Hough và Fourier để đạt được kết quả chính xác.

Xử lý dữ liệu (phân tích ảnh)

Quá trình phân tích ảnh nhằm xác định đặc tính của ký tự thông qua việc nhận diện các điểm ảnh, với giá trị đầu vào là các pixel trong quá trình huấn luyện và kiểm tra Phân tích này sử dụng phương pháp tìm kiếm các điểm đen RGB(0,0,0) và điểm trắng RGB(255,255,255) từ hình ảnh do người dùng vẽ Kết quả thu được là ma trận điểm ảnh, sau đó được chuyển đổi thành vector đầu vào có kích thước 100 phần tử Trước khi đưa vào mạng, vector này được xử lý để làm nổi bật các điểm ảnh, chuyển đổi thành các phần tử 0.5 và -0.5.

Hình 2.4 Quá trình ánh xạ từ ma trận điểm sang ma trận giá trị

- Ký tự: Chứa các chữ mẫu dùng để trích chọn

- Giá trị: Lưu trữ giá trị các chữ mẫu dùng để trích chọn

- Nhận dạng: Vùng để vẽ chữ lên

- Tập mẫu: Chứa các chữ mẫu dùng để trích chọn

- Tải mẫu: Tải tập chữ mẫu đã tạo sẵn trong file: TapMau.xml

- Thêm chữ: Ghi lại tập chữ mẫu vào file: TapMau.xml

- Trích chọn đặc trƣng:Trích chọn đặc trƣng trọng số vùng chữ viết

- Xóa chữ: Xóa một chữ mẫu đƣợc chọn ra khỏi file TapMau.xml

- Nhận dạng: Nhận dạng chữ vẽ vào

- Thông tin: Giới thiệu sơ bộ về chương trình

Chúng ta có thể tải tập chữ ra từ file tạo sẵn TapMau.xml bằng cách nhấn nút

Sau khi hoàn thành việc nhập liệu mẫu, hãy nhấn nút “Trích chọn đặc trƣng” Khi quá trình trích chọn hoàn tất, bạn có thể tiến hành nhận dạng chữ bằng cách vẽ chữ và nhấn nút.

“Nhận dạng” Khi đó chữ được hiển thị trên lưới kích thước 10*10

Có thể xóa chữ hoặc xóa mẫu trong tập mẫu bằng cách chọn chữ cần xóa rồi nhấn nút “Xóa chữ”.

Kết quả nhận dạng

- Để nhận dạng chữ ta vẽ chữ cần nhận dạng vào vùng vẽ chữ (vùng chữ nhật màu trắng, ngay bên dưới phần “Nhận dạng”)

- Ký tự đồng thời được hiển thị trên lưới kích 10*10 (vùng ô vuông màu xanh, bên phải giao diện chương trình)

- Chữ nhận dạng tương ứng với chữ cần nhận dạng đã được vẽ sẽ được hiển thị ra màn hình.

Ngày đăng: 05/08/2021, 21:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hoàng Kiếm, Nguyễn Hồng Sơn, Đào Minh Sơn, “Ứng dụng mạng nơron nhân tạo trong hệ thống xử lý biểu mẫu tự động”, Kỷ yếu hội nghị kỷ niệm 25 năm thành lập Viện Công nghệ Thông tin, 2001, tr. 560-567 Sách, tạp chí
Tiêu đề: Ứng dụng mạng nơron nhân tạo trong hệ thống xử lý biểu mẫu tự động
[2] Bùi Minh Trí, “Quy hoạch toán học”, Nhà xuất bản Khoa học và kỹ thuật, Hà nội, 2006 Sách, tạp chí
Tiêu đề: Quy hoạch toán học
Nhà XB: Nhà xuất bản Khoa học và kỹ thuật
[3] Lê Hoài Bắc, Lê Hoàng Thái, “Neural Network & Genetic Algorithm in Application to Handwritten Character Recognition”, Tạp chí Tin học và Điều khiển học, Tập 17, số 4, 2001, tr. 57-65 Sách, tạp chí
Tiêu đề: Neural Network & Genetic Algorithm in Application to Handwritten Character Recognition
[4] Nguyễn Thị Thanh Tân, Ngô Quốc Tạo, “Một cấu trúc mạng nơ ron thích hợp cho việc nhận dạng chữ số viết tay”, Kỷ yếu hội thảo FAIR03, NXB KH&KT Hà Nội, 2004, tr. 200-210 Sách, tạp chí
Tiêu đề: Một cấu trúc mạng nơ ron thích hợp cho việc nhận dạng chữ số viết tay
Nhà XB: NXB KH&KT Hà Nội
[5] Nguyễn Thị Thanh Tân, Lương Chi Mai, “Phương pháp nhận dạng từ viết tay dựa trên mô hình mạng nơ ron kết hợp với thống kê từ vựng”, Tạp chí Tin học và Điều khiển học, Tập 22, số 2, 2006, tr. 141-154 Sách, tạp chí
Tiêu đề: Phương pháp nhận dạng từ viết tay dựa trên mô hình mạng nơ ron kết hợp với thống kê từ vựng
[5.4]. Nguyễn Thị Thanh Tân, Lương Chi Mai, “Phương pháp nhận dạng từ viết tay dựa trên mô hình mạng nơ ron kết hợp với thống kê từ vựng”, Tạp chí Tin học và Điều khiển học, Tập 22, số 2, 2006, tr. 141-154.Tiếng Anh Sách, tạp chí
Tiêu đề: Phương pháp nhận dạng từ viết tay dựa trên mô hình mạng nơ ron kết hợp với thống kê từ vựng”, "Tạp chí Tin học và Điều khiển học

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN