Nghiên cứu liên quan
Trong bài toán nhận dạng văn bản, có hai cách tiếp cận chính: nhận dạng dựa trên ký tự và nhận dạng dựa trên đối tượng văn bản Nhận dạng ký tự phát hiện từng ký tự và sử dụng CNN làm bộ phân loại, nhưng thường gặp khó khăn trong việc phân biệt các ký tự và không tận dụng hiệu quả thông tin ngữ cảnh Ngược lại, nhận dạng đối tượng văn bản xem xét bài toán như một mô hình hóa chuỗi, trực tiếp tạo ra chuỗi đầu ra bằng cách trích xuất thông tin từ đầu vào, sử dụng mạng nơ-ron hồi tiếp với CTC hoặc cơ chế chú ý, từ đó nâng cao độ chính xác Các mạng nơ-ron hồi tiếp như LSTM được áp dụng rộng rãi trong nhận dạng văn bản, và sự phát triển của cơ chế chú ý cùng LSTM hai chiều đã cải thiện khả năng chú ý đến thông tin ngữ cảnh, góp phần nâng cao hiệu suất chung.
Trong bài viết này, chúng tôi phân tích phương pháp mạng nơ-ron bộ mã hóa - bộ giải mã dựa trên cơ chế chú ý truyền thống do Bahdanau và cộng sự giới thiệu, coi đây là phương pháp cơ sở cho các phân tích và thử nghiệm của mình.
Hạn chế của phương pháp cơ sở
Trong bài toán nhận dạng văn bản, chất lượng hình ảnh đầu vào bị ảnh hưởng đáng kể bởi các điều kiện thực tế, như hình ảnh bị biến dạng, chồng lấp, hoặc có nền phức tạp Đối với những hình ảnh thách thức này, các phương pháp chú ý truyền thống thường không đạt hiệu quả cao Phân tích cho thấy rằng chất lượng hình ảnh kém làm hỏng các liên kết giữa các vector đặc trưng và mục tiêu trong ảnh, dẫn đến hiện tượng sai lệch chú ý Hiện tượng này yêu cầu phát triển các kỹ thuật mới để khắc phục vấn đề căn chỉnh và cải thiện độ chính xác trong nhận dạng văn bản.
Hình 1.1 a) minh họa sự sai lệch chú ý trong cơ chế chú ý truyền thống qua một ví dụ từ thử nghiệm đánh giá Khi hình ảnh đầu vào được nhập, mô hình dự kiến trả về chuỗi văn bản “Telur”, nhưng thực tế lại cho ra “Tetur”, do ký tự ‘l’ bị nhận dạng sai thành ‘t’ Nhiều ví dụ khác cũng cho thấy sự sai lệch trong kết quả nhận dạng Để minh họa rõ hơn, chúng tôi đã tính toán các bản đồ chú ý cho năm ký tự trong hình ảnh, chọn vùng có điểm chú ý cao nhất cho mỗi bản đồ.
Hình 1.1 minh họa sự sai lệch chú ý trong hai phương pháp: a) phương pháp truyền thống và b) phương pháp đề xuất của chúng tôi Tâm của bản đồ chú ý, được biểu thị bằng ký hiệu ‘+’ màu vàng, cho thấy sự lệch lạc khi nhận diện ký tự ‘l’, dẫn đến dự đoán sai thành ‘t’ Mặc dù các ký tự khác được nhận dạng chính xác, tâm chú ý của chúng vẫn bị lệch so với vị trí thực tế Theo tác giả, nguyên nhân là do cơ chế chú ý truyền thống chỉ xử lý các vector đặc trưng 1D mà không giữ thông tin không gian, khiến việc căn chỉnh giữa đặc trưng và mục tiêu không chính xác.
Đóng góp
Để giải quyết vấn đề nhận dạng văn bản, tác giả đề xuất một phương pháp mới cải thiện cơ chế chú ý truyền thống bằng cách sử dụng kiến trúc chú ý trực quan hai nhánh Phương pháp này tạo ra các bản đồ chú ý từ bản đồ đặc trưng 2D, giúp định vị vị trí các ký tự trong hình ảnh thông qua mô-đun căn chỉnh với kiến trúc mạng nơ-ron phân tầng đa quy mô Cơ chế chú ý sử dụng các bản đồ nhiệt và bản đồ đặc trưng 2D để tạo ra các vector ngữ cảnh phong phú, sau đó giải mã để tạo ra phân phối dự đoán theo từng bước thời gian Kết quả cho thấy phương pháp đề xuất đã trả về chuỗi văn bản chính xác “Telur” với các tâm chú ý được căn chỉnh chính xác hơn so với cơ chế chú ý truyền thống Mô hình cũng được củng cố bởi bộ trích chọn đặc trưng EfficientNet, được chỉnh sửa để nâng cao hiệu suất nhận dạng văn bản.
Những đóng góp chính của chúng tôi trong luận văn này có thể được tóm tắt như sau:
• Chúng tôi đề xuất mạng nơ-ron giống EfficientNet và sử dụng nó như một mô-đun trích chọn đặc trưng trước bộ giải mã.
Chúng tôi giới thiệu một cơ chế chú ý phân tầng đa quy mô nhằm nâng cao khả năng định vị ký tự trong hình ảnh văn bản.
Chúng tôi tiến hành các thử nghiệm chi tiết để đánh giá hiệu quả của phương pháp đề xuất trên ba tập dữ liệu SROIE 2019, B-MOD và CORD Kết quả cho thấy phương pháp của chúng tôi đạt được hiệu suất cạnh tranh so với các phương pháp hiện đại khác.
CHƯƠNG2 TỔNG QUAN LÝ THUYẾT
Trong chương này, tác giả giới thiệu kiến thức tổng quan về học sâu và mạng nơ-ron sâu, những thông tin này rất quan trọng trong việc xây dựng nền tảng cho bài toán nhận dạng văn bản.
Mô tả chung về mạng nơ-ron sâu (DNN)
DNN có thể được phân loại thành nhiều kiểu lớp mạng khác nhau, chủ yếu dựa trên cách thức kết nối giữa đầu vào và đầu ra của các lớp Hai thuộc tính cơ bản của các kết nối trong một lớp mạng là cấu trúc và cách thức hoạt động của chúng.
Lớp kết nối hoàn toàn (lớp FC) là lớp mà mọi đầu vào đều kết nối với đầu ra, trong khi lớp kết nối thưa chỉ có một tập con các đầu vào kết nối với đầu ra Lớp kết nối thưa cho phép đầu ra kết nối với tất cả các đầu vào (toàn cục) hoặc chỉ với một vùng lân cận trong đầu vào (cục bộ) Điều này dẫn đến sự hình thành của một cửa sổ trượt, xác định vùng lân cận được sử dụng để tính toán đầu ra, được gọi là trường tiếp thụ (receptive field).
Giá trị trọng số liên quan đến mỗi kết nối có thể nhận bất kỳ giá trị nào, cho phép mỗi trọng số có một giá trị duy nhất Ngoài ra, có thể có trường hợp nhiều trọng số chia sẻ cùng một giá trị, được gọi là cơ chế chia sẻ trọng số.
Các lớp kết nối hoàn toàn, hay còn gọi là lớp FC, có khả năng kết nối mọi nút với nhau Trong khi đó, lớp tích chập (lớp Conv) là một kiểu lớp kết nối thưa cục bộ, sử dụng trọng số chia sẻ để tối ưu hóa tính toán.
Trong lớp Fully Connected (FC) và lớp Convolutional (Conv), phép tính tổng trọng số đóng vai trò chính, bên cạnh đó còn có thể thực hiện một số phép toán khác.
Các kiểu lớp phổ biến
Lớp tích chập (Conv)
Các lớp Conv chủ yếu thực hiện các phép tích chập nhiều chiều, với đầu vào được cấu trúc dưới dạng bản đồ đặc trưng 3D, bao gồm chiều cao (H), chiều rộng (W) và số kênh (C) Trọng số của lớp Conv được thiết kế như một bộ lọc 3D, với các chiều là chiều cao (R), chiều rộng (S) và số kênh (C), trong đó số kênh của bản đồ đặc trưng và bộ lọc là giống nhau Mỗi kênh của bản đồ đặc trưng sẽ là đầu vào cho phép tích chập 2D tương ứng với từng kênh của bộ lọc Kết quả từ phép tích chập sẽ được tính tổng trên tất cả các kênh đầu vào để tạo ra điểm trên từng kênh của bản đồ đặc trưng đầu ra Nhiều bộ lọc 3D có thể được áp dụng cho cùng một đầu vào để tạo ra nhiều kênh đầu ra, và nhiều bản đồ đặc trưng đầu vào (N) có thể được xử lý đồng thời trong một lô (batch) để nâng cao hiệu quả tính toán và tái sử dụng trọng số bộ lọc.
Hình 2.2: Minh họa phép tính tích chập [1]
Tính toán của lớp Conv được định nghĩa như sau:
Trong bài viết này, I, O, F lần lượt đại diện cho bản đồ đặc trưng đầu vào, bản đồ đặc trưng đầu ra và bộ lọc của lớp Conv, với U là kích thước bước nhảy đã biết Công thức 2.1 tính giá trị từng điểm (n, p, q, m) thông qua tích vô hướng với các biến chỉ mục r, s và c tương ứng với phần tử của bộ lọc và bản đồ đầu vào Để khắc phục hạn chế về chi phí tính toán cao trong các mạng sâu, phép tích chập phân tách theo chiều sâu (depth-wise separable convolution) đã được giới thiệu, giúp giảm số lượng tham số mạng nơ-ron và cải thiện tốc độ tính toán Phép tích chập này bao gồm tích chập theo chiều sâu, áp dụng cho từng kênh bộ lọc độc lập, và tích chập theo từng điểm với kích thước bộ lọc 1 × 1.
Hình 2.3: Minh họa phép tính tích chập phân tách theo chiều sâu.
Lớp được kết nối hoàn toàn (FC)
Trong lớp Fully Connected (FC), mỗi giá trị trong bản đồ đặc trưng đầu ra được tính toán từ tổng trọng số của tất cả các giá trị trong bản đồ đặc trưng đầu vào, điều này có nghĩa là đầu ra phụ thuộc vào toàn bộ đầu vào Tuy nhiên, các lớp FC thường không chia sẻ trọng số, dẫn đến sự gia tăng nhanh chóng về số lượng tham số trong mạng nơ-ron, đồng thời làm tăng yêu cầu về bộ nhớ cho quá trình tính toán.
Hàm kích hoạt phi tuyến
Một hàm kích hoạt phi tuyến thường được áp dụng sau mỗi lớp Conv hoặc
Các hàm kích hoạt phi tuyến đóng vai trò quan trọng trong việc đưa tính phi tuyến vào mạng nơ-ron sâu (DNN) Những hàm phổ biến như sigmoid và tanh thường được sử dụng vì thuận tiện cho phân tích toán học Gần đây, hàm ReLU đã trở nên phổ biến nhờ vào tính đơn giản và khả năng huấn luyện nhanh chóng, giúp mô hình đạt hiệu suất cao Ngoài ReLU, các biến thể như leaky ReLU, parametric ReLU, exponential LU và Swish cũng được giới thiệu nhằm nâng cao hiệu quả của mạng nơ-ron.
Hình 2.4: Các dạng kích hoạt phi tuyến khác nhau [1]
Lớp gộp (pooling)
Có nhiều phép tính để thay đổi kích thước không gian của bản đồ đặc trưng, như giảm kích thước H và W hoặc P và Q Quá trình này, được gọi là phép gộp hoặc giảm mẫu, giúp mạng nơ-ron trở nên mạnh mẽ và bất biến trước những thay đổi nhỏ Phép gộp được áp dụng cho từng kênh riêng biệt, với các giá trị trong trường tiếp thụ của lớp gộp được ánh xạ thành số lượng nhỏ hơn, thường với các trường tiếp thụ không chồng lấp, tức là bước nhảy của lớp gộp tương đương với kích thước bộ lọc.
GAP (Global Average Pooling) là một lớp gộp phổ biến gần đây, được sử dụng thay thế cho lớp FC trong các kiến trúc mạng nơ-ron hoặc để định vị hóa đối tượng trong hình ảnh Các lớp Conv trong GAP thực hiện việc trích chọn đặc trưng mang thông tin bối cảnh toàn cục, trong khi lớp FC ánh xạ đặc trưng sang các miền cụ thể cho nhiệm vụ phân loại hay nhận dạng đối tượng Lớp FC có thể tốn kém và dễ dẫn đến hiện tượng overfitting khi mạng nơ-ron mở rộng về kích thước và độ sâu Ngược lại, GAP không làm tăng số lượng tham số của mạng, giảm chi phí tính toán và nâng cao khả năng khái quát hóa GAP có thể được sử dụng độc lập hoặc kết hợp với lớp FC, theo sau là một lớp kích hoạt phi tuyến tính.
Hình 2.5: Minh họa hoạt động của lớp GAP.
Lớp dropout
Để khắc phục hiện tượng overfitting, một giải pháp hiệu quả là sử dụng lớp dropout trong quá trình huấn luyện mạng nơ-ron Lớp dropout cho phép ngẫu nhiên bỏ qua một số đặc trưng đầu ra với tỉ lệ p, giúp giảm thiểu sự phụ thuộc vào các đặc trưng có giá trị lớn Nhờ đó, mạng nơ-ron không chỉ tập trung vào thông tin quan trọng mà còn cải thiện khả năng tổng quát, tránh việc ghi nhớ các ví dụ cụ thể và giảm thiểu ảnh hưởng của nhiễu.
Lớp chuẩn hóa theo loạt (BN)
Kiểm soát phân phối đầu vào giữa các lớp mạng nơ-ron có thể cải thiện đáng kể tốc độ huấn luyện và hiệu suất tổng thể Để đạt được điều này, phân phối đầu vào của lớp được chuẩn hóa sao cho giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1 Trong lớp chuẩn hóa theo nhóm (BN), giá trị chuẩn hóa được điều chỉnh với một phép dịch, sử dụng các tham số (γ, β) mà mạng sẽ học trong quá trình huấn luyện, được biểu diễn qua công thức: y = BN (x) = x − à.
Lớp BN, với một hằng số nhỏ để tránh các vấn đề về số, hiện được coi là tiêu chuẩn trong thiết kế mạng nơ-ron sâu Lớp này thường được triển khai giữa lớp Conv hoặc lớp FC và hàm kích hoạt phi tuyến tính.
Tối ưu hóa
Quá trình học của mạng nơ-ron diễn ra thông qua tối ưu hóa, với mục tiêu tìm kiếm bộ trọng số tối ưu của các nơ-ron, ký hiệu là θ ∗, nhằm giảm thiểu hàm mục tiêu.
Hàm ánh xạ f(x) = ˆy ≈ y đại diện cho mạng nơ-ron, với mục tiêu chính là giảm thiểu sự khác biệt giữa nhãn mục tiêu y và dự đoán y ˆ từ mạng nơ-ron.
Gradient descent là thuật toán tối ưu hóa phổ biến nhất để huấn luyện mạng nơ-ron, dựa trên nguyên tắc rằng nếu một hàm đa biến có thể được cải thiện bằng cách điều chỉnh các tham số theo hướng giảm dần.
F : R d 7→ R được xác định và khả vi trong một vùng lân cận của một điểm x t , thì F(x) giảm nhanh nhất nếu đi từ x t theo hướng của gradient âm của
F(x) tại x t Từ quan sát đó, thuật toán có thể được phát biểu như sau:
• Bước 1: Khởi tạo bộ trọng số θ 0 Bộ trọng số của một mạng nơ-ron có thể được khởi tạo ngẫu nhiên từ phân phối chuẩn.
• Bước 2: Tính gradient của F tại bộ trọng số hiện tại θ t : g = ∇L θ t (2.7)
• Bước 3: Cập nhật bộ trọng số hiện tại theo hướng gradient âm đã tính: θ t+1 = θ t − η ã g (2.8)
Tốc độ học, hay learning rate, là yếu tố quyết định biên độ điều chỉnh trọng số trong mạng, ảnh hưởng đến tốc độ học từ tập dữ liệu Thực tế, giá trị tốc độ học thường được giảm dần cho đến khi tiệm cận 0 sau mỗi chu kỳ huấn luyện, nhằm tối ưu hóa giá trị hàm mục tiêu.
• Bước 4: Lặp lại từ bước 2 đến bước 3 cho đến khi đạt mức cực tiểu hoặc
Gradient chỉ định hướng giảm nhanh nhất của hàm, nhưng không xác định khoảng cách cần đi Do đó, việc lựa chọn tốc độ học là một trong những siêu tham số quan trọng trong quá trình huấn luyện mạng nơ-ron.
Mạng nơ-ron tích chập (CNN)
CNN là một kiến trúc DNN phổ biến với nhiều lớp Conv, nơi mỗi lớp tạo ra các bản đồ đặc trưng, mang lại những trừu tượng cấp cao hơn từ dữ liệu đầu vào Kiến trúc phân tầng sâu của CNN hiện đại cho phép đạt hiệu suất vượt trội trong nhiều tác vụ, đặc biệt trong lĩnh vực thị giác máy tính Các kiến trúc CNN hiện nay thường có từ 5 đến hơn 1000 lớp Conv, giúp cải thiện khả năng nhận diện và phân tích hình ảnh.
VGG là một kiến trúc CNN đơn giản và hiệu quả, bao gồm 19 lớp mạng, nhằm mô phỏng mối quan hệ giữa độ sâu và khả năng trích chọn đặc trưng Kiến trúc này sử dụng các bộ lọc kích thước 3 × 3, cho thấy rằng việc xếp chồng các bộ lọc nhỏ có thể tạo ra hiệu ứng tương tự như bộ lọc lớn hơn, đồng thời giảm độ phức tạp tính toán nhờ vào việc giảm số lượng tham số Phát hiện này đã thúc đẩy xu hướng nghiên cứu xây dựng CNN từ các bộ lọc nhỏ Để tối ưu hóa mạng, lớp gộp cực đại (max-pooling) được sử dụng sau lớp Conv cùng với hoạt động đệm giá trị để duy trì độ phân giải không gian Độ sâu của mạng nơ-ron là yếu tố quan trọng trong thành công của phương pháp học có giám sát, như được thể hiện qua kiến trúc ResNet.
Hình 2.6 minh họa cách tạo hỗ trợ 5 × 5 từ bộ lọc kích thước 3 × 3 trong VGG, đánh dấu sự bùng nổ trong thiết kế mạng nơ-ron tích chập (CNN) hiệu quả ResNet với 152 lớp đã giành chiến thắng tại cuộc thi ILSVRC 2015, khẳng định tầm quan trọng của độ sâu mạng nơ-ron trong các tác vụ thị giác máy tính.
Một trong những thách thức lớn trong huấn luyện mạng nơ-ron sâu là hiện tượng gradient biến mất, làm giảm hiệu quả cập nhật trọng số Để khắc phục vấn đề này, ResNet đã áp dụng ánh xạ định danh, kết nối đầu ra của lớp mạng hiện tại với đầu vào của lớp trước đó thông qua phép cộng từng cặp phần tử Các kết nối định danh này giúp hạn chế gradient biến mất, tăng tốc độ học của mạng nơ-ron sâu và cải thiện hiệu suất trong nhiều tác vụ khác nhau.
Từ AlexNet cho đến ResNet, CNN đã phát triển nhanh chóng Vào năm
Năm 2019, Google đã giới thiệu EfficientNet, một mô hình đạt hiệu suất vượt trội so với các mạng CNN truyền thống EfficientNet nổi bật nhờ vào phương pháp mở rộng quy mô hợp nhất (compound scaling), cho phép tối ưu hóa tài nguyên tính toán bằng cách điều chỉnh ba yếu tố quan trọng: chiều sâu (số lượng lớp), chiều rộng (số kênh) và độ phân giải không gian.
Hình 2.7: Minh họa tính toán trong ResNet [5]
Kích thước của mẫu đầu vào, chiều sâu, chiều rộng và độ phân giải không gian đều là các siêu tham số có thể dễ dàng điều chỉnh Việc tăng cường các yếu tố này sẽ cải thiện hiệu suất của mạng nơ-ron, nhưng hiệu suất sẽ bắt đầu bão hòa khi đạt đến một mức nhất định, trong khi chi phí tính toán vẫn tăng nếu tiếp tục mở rộng.
Thay vì mở rộng từng siêu tham số một cách riêng lẻ, các siêu tham số được mở rộng đồng thời theo một tỉ lệ nhất định Cách tiếp cận này mang lại hiệu quả cao, vì khi các siêu tham số được tăng cường đồng bộ, hiệu suất và hiệu quả tính toán sẽ tăng đáng kể mà không gặp phải tình trạng bão hòa sớm.
Hình 2.8 minh họa các phương pháp mở rộng mạng nơ-ron, bao gồm mở rộng theo chiều sâu, chiều rộng và độ phân giải không gian so với mạng nơ-ron cơ sở Phương pháp mở rộng quy mô hợp nhất thực hiện việc mở rộng đồng nhất tất cả các yếu tố theo một tỉ lệ nhất định.
Mở rộng quy mô hợp nhất dựa trên ba siêu tham số w, d, r, tương ứng với chiều rộng, chiều sâu và độ phân giải không gian, nhằm thiết lập giá trị cho các tham số này theo công thức: d = α φ, w = β φ, r = γ φ, với điều kiện α ≥ 1, β ≥ 1, γ ≥ 1 và α, β, γ ≈ 2.
Trong đó, α, β và γ là các hằng số đại diện cho tỉ lệ mở rộng theo từng siêu tham số riêng lẻ, còn φ là biến đại diện cho lượng tài nguyên tính toán bổ sung có thể sử dụng để mở rộng quy mô mạng nơ-ron Việc mở rộng quy mô với biến φ theo quy tắc trong Công thức 2.9 sẽ dẫn đến một mạng nơ-ron mới có chi phí tính toán gấp khoảng 2 φ, giúp dễ dàng đo lường chi phí và mở rộng quy mô mạng nơ-ron một cách hợp lý EfficientNet áp dụng phương pháp mở rộng quy mô hợp nhất, giới thiệu kiến trúc có hiệu suất tốt với chi phí tính toán hợp lý, như minh họa trong Hình 2.9 Khối xây dựng chính của nó, MBConv, được phát triển từ mạng MobileNetV2, và EfficientNet sử dụng hàm kích hoạt phi tuyến Swish thay vì ReLU Quá trình mở rộng quy mô tạo ra một họ các mạng EfficientNet từ B0 đến B7, trong đó phiên bản B1 có chi phí tính toán gần gấp đôi phiên bản B0, và các phiên bản tiếp theo cũng tương tự.
Hình 2.9: Minh họa kiến trúc EfficientNet-B0 [8].
Mạng nơ-ron hồi tiếp (RNN)
Trong những năm gần đây, các kỹ thuật học sâu đã được phát triển để xử lý nhiều loại dữ liệu khác nhau, tuy nhiên, CNN không phù hợp cho dữ liệu đầu vào dạng chuỗi Trong lĩnh vực xử lý chuỗi như văn bản, âm thanh và video, RNN vẫn chiếm ưu thế nhờ vào khả năng kết nối hồi tiếp, cho phép cập nhật trạng thái hiện tại dựa trên đầu vào và các trạng thái quá khứ Các lớp hồi tiếp, hay còn gọi là lớp ẩn, bao gồm các phần tử hồi tiếp sigma (hoặc tanh) và có thể được tổ chức theo nhiều cấu hình khác nhau, dẫn đến việc RNN chủ yếu được phân loại dựa trên kiến trúc mạng và phần tử hồi tiếp Định nghĩa về phần tử hồi tiếp sigma tiêu chuẩn là: h t = σ(W h h t−1 +W x x t +b) và y t = h t.
Trong mô hình này, x t, h t và y t đại diện cho đầu vào, trạng thái ẩn và đầu ra tại bước thời gian t Các trọng số W h và W x tương ứng với trạng thái ẩn trước đó h t−1 và đầu vào x t, trong khi b là độ dịch (bias) của mô hình.
Khi khoảng cách giữa các đầu vào trong chuỗi trở nên lớn, RNN gặp khó khăn trong việc kết nối thông tin ngữ cảnh liên quan, dẫn đến hiện tượng gradient biến mất Điều này làm cho RNN khó khăn trong việc thu hẹp khoảng cách giữa đầu vào và mục tiêu Để khắc phục vấn đề này, kiến trúc LSTM đã được giới thiệu, giúp cải thiện khả năng ghi nhớ của RNN thông qua cổng quên LSTM đã nhanh chóng trở thành trung tâm nghiên cứu trong học sâu nhờ vào khả năng học mạnh mẽ và hiệu quả trong nhiều ứng dụng, bao gồm cả nhận dạng văn bản Các công thức định nghĩa phần tử LSTM bao gồm các cổng và trạng thái, cho phép mô hình xử lý thông tin theo cách tốt hơn.
Cổng quên trong LSTM, được ký hiệu là f t, có vai trò quan trọng trong việc quyết định thông tin nào sẽ bị loại bỏ khỏi trạng thái phần tử, ký hiệu là ct Các trọng số W i, W ˜ c và W o đại diện cho phép nhân từng cặp phần tử giữa hai vector Khi f t bằng 1, cổng quên giữ lại thông tin, trong khi giá trị 0 có nghĩa là thông tin đó sẽ bị loại bỏ hoàn toàn.
Hình 2.10: Minh họa phần tử LSTM.
Khả năng học của phần tử LSTM vượt trội hơn so với phần tử hồi tiếp truyền thống, nhưng các tham số bổ sung làm tăng chi phí tính toán Để khắc phục điều này, phần tử GRU đã được giới thiệu, với các công thức tính toán như sau: r t = σ(W rh h t−1 +W rx x t +b r ), z t = σ(W zh h t−1 +W zx x t +b z ), h˜ t = tanh(W˜ hh (rt h t−1 ) +W˜ hxxt +b˜ h ), và h t = (1 −z t ) h t−1 +z t h˜ t.
Phần tử GRU, như minh họa trong Hình 2.11, được thiết kế để giảm chi phí tính toán bằng cách tích hợp cổng quên và cổng đầu vào của LSTM thành cổng cập nhật GRU chỉ bao gồm hai cổng chính: cổng cập nhật và cổng thiết đặt lại.
Phần tử GRU có khả năng lưu trữ tín hiệu kiểm soát và các tham số liên quan, tuy nhiên, do thiếu một cổng, nó thường không mạnh hơn LSTM Tùy thuộc vào yêu cầu của bài toán và thiết kế, cả hai loại phần tử hồi tiếp này có thể được sử dụng linh hoạt.
Mô hình ánh xạ chuỗi sang chuỗi
Định nghĩa
Mô hình ánh xạ chuỗi sang chuỗi (sequence-to-sequence) được áp dụng trong các bài toán mô hình hóa chuỗi, cho phép chuyển đổi từ chuỗi đầu vào có độ dài cố định sang chuỗi đầu ra tương ứng Mô hình này giải quyết nhiều nhiệm vụ trong các lĩnh vực khác nhau, bao gồm nhận dạng văn bản Kiến trúc mạng nơ-ron hồi tiếp, như LSTM, có khả năng duy trì nhớ với trạng thái ẩn, giúp học đại diện từ chuỗi đầu vào, đặc biệt hữu ích cho những bài toán mà DNN không đáp ứng được Cấu trúc của mô hình ánh xạ chuỗi sang chuỗi bao gồm hai mạng LSTM: một mạng tạo ra vector đại diện có chiều cố định từ chuỗi đầu vào và một mạng khác thực hiện quá trình giải mã thành chuỗi đầu ra tương ứng.
Mô hình ánh xạ chuỗi sang chuỗi chuyển đổi chuỗi đầu vào (x₁, x₂, , xₜ) thành chuỗi đầu ra (y₁, y₂, , yₜ₀) Đầu tiên, một mạng LSTM hoạt động như bộ mã hóa để tính toán vector đại diện có chiều cố định v từ chuỗi đầu vào Sau đó, vector v được cung cấp cho một mạng LSTM thứ hai, được gọi là bộ giải mã, nhằm mục tiêu học phân phối xác suất có điều kiện cho chuỗi đầu ra (y₁, y₂, , yₜ₀), theo công thức p(y₁, y₂, , yₜ₀ | x₁, x₂, , xₜ).
Phân phối p(y t |v, y 1 , y 2 , , y t−1 ) được biểu diễn bằng hàm softmax trên chiều của tập từ điển Mỗi chuỗi đầu vào và đầu ra kết thúc bằng ký tự
cho phép mạng học phân phối trên tất cả các độ dài có thể.
Vector đại diện v đã trở thành một “nút cổ chai” trong bài toán mô hình hóa chuỗi, gây khó khăn cho việc ánh xạ từ chuỗi dài Để khắc phục vấn đề này, kỹ thuật “cơ chế chú ý” đã được phát triển, giúp cải thiện khả năng học chuỗi dài của mạng nơ-ron Cơ chế chú ý cho phép mô hình tập trung vào những phần quan trọng trong chuỗi đầu vào khi thực hiện ánh xạ sang các thành phần của chuỗi đầu ra.
Cơ chế chú ý
Trong bài toán nhận dạng văn bản, cơ chế chú ý thường được tích hợp với kiến trúc hồi tiếp để tạo thành một mô-đun dự đoán hiệu quả Cơ chế này học cách căn chỉnh giữa đầu vào và chuỗi mục tiêu bằng cách tham chiếu lịch sử của ký tự mục tiêu với các vector đặc trưng đã được mã hóa.
Hình 2.12 minh họa cơ chế chú ý trong việc tạo thành phần y t của chuỗi đầu ra từ chuỗi đầu vào (x 1 , x 2 , , x T ) Ở bước thời gian thứ t, phân phối dự đoán đầu ra p t được tính bằng công thức: p t = sof tmax(W o s t +b o ).
Trong mô hình RNN, st là trạng thái ẩn tại bước thời gian thứ t GRU là kiến trúc hồi tiếp thường được sử dụng để cập nhật trạng thái st, đồng thời giải mã thông tin từ chuỗi vector đầu vào đã được mã hóa tại bước thời gian t.
Do đó, s t được tính bởi: s t = GRU ([e t−1 ,g t ],s t−1 ) (2.24)
Trong đó, s t−1 và e t−1 lần lượt đại diện cho trạng thái ẩn và vector nhúng từ bước thời gian trước trong chuỗi đầu ra Ký hiệu [] biểu thị cho toán tử ghép nối Thêm vào đó, g t, hay còn gọi là glimpse vector, được tính toán như tổng trọng số giữa các trạng thái ẩn h = (h 1 ,h 2 , ,h T ) và trọng số tương ứng α t.
X j=1 α tjhj (2.25) Ở đây, α t là trọng số trong cơ chế chú ý, được tính bởi các công thức sau: α tj = exp(ε t,j )
Trong đó ε t,j là điểm căn chỉnh, thể hiện mức độ tương quan giữa các vector đại diện đầu vào và thành phần đầu ra thứ t hiện tại W o , b o , W s ,
W h , b ε là các tham số có thể huấn luyện trong mạng nơ-ron.
Cơ chế chú ý tham số hóa α cho phép huấn luyện đồng thời với các thành phần khác trong mạng, với α tj thể hiện tầm quan trọng của j trong việc xác định trạng thái ẩn tiếp theo s t và cuối cùng ánh xạ sang phân phối p t Việc áp dụng cơ chế chú ý trong bộ giải mã giúp bộ mã hóa giảm bớt gánh nặng khi mã hóa toàn bộ thông tin ngữ cảnh từ chuỗi đầu vào thành một vector có chiều cố định, tránh hiện tượng "nút cổ chai" Thông tin được truyền tải qua các trạng thái ẩn và được bộ giải mã truy xuất một cách có chọn lọc.
CHƯƠNG3 PHƯƠNG PHÁP ĐỀ XUẤT
Trong chương này, tác giả phân tích chi tiết phương pháp đề xuất, được tổ chức thành các mô-đun với vai trò tính toán cụ thể Mục 3.1 sẽ trình bày kiến trúc tổng thể, trong khi các mục tiếp theo sẽ làm rõ cấu trúc và vai trò của từng mô-đun trong phương pháp này.
Kiến trúc tổng thể
Phương pháp đề xuất của chúng tôi nhằm khắc phục hiện tượng sai lệch chú ý trong các phương pháp cơ sở truyền thống Kiến trúc tổng thể của phương pháp này được thể hiện trong Hình 3.1, bao gồm ba mô-đun chính.
• Một CNN được sử dụng như một công cụ trích chọn đặc trưng trực quan từ hình ảnh đầu vào.
Mô-đun căn chỉnh sử dụng bản đồ đặc trưng để tạo ra các bản đồ nhiệt, mỗi bản đồ này tập trung vào một khu vực chứa ký tự tương ứng trong hình ảnh.
Cơ chế chú ý sử dụng bản đồ nhiệt và bản đồ đặc trưng 2D để tạo ra tập hợp vector chứa thông tin ngữ cảnh phong phú.
• Bộ giải mã để ánh xạ vector ngữ cảnh thành chuỗi đầu ra.
Hình 3.1 mô tả quá trình mà hình ảnh đầu vào Xi được xử lý qua bộ trích chọn đặc trưng F, tạo ra bản đồ đặc trưng F = F(Xi) Sau đó, bản đồ đặc trưng này được đưa vào một kiến trúc hai nhánh, trong đó một nhánh sử dụng mô-đun căn chỉnh với các khối phân tầng xếp chồng, nhằm tạo ra tập bản đồ nhiệt.
Nhánh còn lại sử dụng cơ chế chú ý kết hợp giữa bản đồ đặc trưng và tập bản đồ nhiệt để tạo ra các vector ngữ cảnh Những vector này sau đó được xử lý qua bộ giải mã nhằm dự đoán chuỗi đầu ra Thông tin chi tiết về hiệu suất được trình bày trong Phần 4.4.
Mô tả chi tiết sẽ được giới thiệu ở các mục dưới đây.
Hình 3.1: Minh họa kiến trúc tổng thể của phương pháp đề xuất.
Bộ trích chọn đặc trưng
Trích chọn đặc trưng là một bước quan trọng trong hệ thống nhận dạng văn bản, và hiệu suất của bài toán này phụ thuộc vào việc thực hiện trích chọn đặc trưng một cách hiệu quả Bộ trích chọn đặc trưng F có vai trò mã hóa hình ảnh đầu vào, góp phần nâng cao độ chính xác trong nhận dạng.
X i ∈R H 0 ×W 0 ×3 thành bản đồ đặc trưng F ∈R H ×W ×C :
H, W và C đại diện cho chiều cao, chiều rộng và số kênh đầu ra của bản đồ đặc trưng F, với H = H 0 /r h và W = W 0 /r w, trong đó r h và r w là tỷ lệ giảm mẫu theo chiều cao và chiều rộng Chúng tôi sử dụng bản đồ đặc trưng trực quan 2D để giữ lại thông tin không gian, thay vì áp dụng vector đặc trưng 1D như trong các nghiên cứu trước.
Chúng tôi xây dựng bộ trích chọn đặc trưng bằng cách sửa đổi kiến trúc
EfficientNet là một kiến trúc CNN tiên tiến, cải thiện hiệu suất so với các CNN truyền thống trong lĩnh vực thị giác máy tính Phương pháp mở rộng quy mô hợp nhất (compound scaling) được áp dụng cho tất cả các kích thước của CNN, bao gồm chiều sâu, chiều rộng và độ phân giải không gian đầu vào, với tỉ lệ mở rộng cố định Kết quả là một loạt các kiến trúc EfficientNet từ B0 đến B7, cho phép cân bằng hợp lý giữa độ chính xác và chi phí tính toán Kiến trúc này được xây dựng dựa trên khối tính toán mang tên MBBlock.
Trong MBBlock, mạng nơ-ron tích chập theo từng điểm mở rộng kích thước kênh của bản đồ đặc trưng đầu vào với hệ số cố định, sau đó áp dụng mạng nơ-ron tích chập theo chiều sâu cho bản đồ đã mở rộng Tiếp theo, lớp squeeze-and-excitation được sử dụng, và cuối cùng, một mạng nơ-ron tích chập theo từng điểm khác được áp dụng để giảm kích thước kênh của bản đồ đặc trưng về kích thước nhỏ hơn, thường giống với kích thước kênh đầu vào, nhằm cho phép sử dụng ánh xạ định danh.
Bảng 3.1: Cấu hình của bộ trích chọn đặc trưng được sửa đổi từ EfficientNet
Tầng Tên gọi #Bộ lọc #Bước nhảy #Kênh #Khối
Chúng tôi đã đặt tên khối MBBlock6 để chỉ ra rằng khối này mở rộng kích thước kênh đầu vào lên gấp 6 lần Trong nghiên cứu này, kiến trúc EfficientNet B2 được chọn làm mô hình cơ sở và được điều chỉnh cho bài toán nhận dạng văn bản, với tổng cộng 23 khối MBBlock, mỗi khối sử dụng bộ lọc kích thước 3 × 3 Hình ảnh đầu vào được giảm mẫu theo tỉ lệ 1/8 ở mỗi kích thước không gian (H = H0/8 và W = W0/8) Chúng tôi cũng đã loại bỏ lớp GAP và lớp FC ở trên cùng trong EfficientNet, nhằm tạo ra đầu ra của bộ trích chọn đặc trưng dưới dạng bản đồ đặc trưng 2D Cấu hình kiến trúc mạng của chúng tôi được mô tả trong Bảng 3.1.
Mô-đun căn chỉnh
Tích chập phân tách theo chiều sâu
Cấu trúc mạng nơ-ron sâu sử dụng phép tích chập tiêu chuẩn có thể làm tăng số lượng tham số, dẫn đến thời gian huấn luyện và suy luận cao hơn Ngược lại, phép tích chập phân tách theo chiều sâu đã chứng minh hiệu quả vượt trội về chi phí tính toán, đồng thời duy trì hiệu suất tương đương với phép tích chập tiêu chuẩn.
Hình 3.3 minh họa chi tiết kiến trúc mạng nơ-ron phân tầng đa quy mô, trong đó các mũi tên màu đỏ, vàng và lục thể hiện lớp tích chập, lớp gộp cực đại và hoạt động tăng mẫu tương ứng Đồng thời, các mũi tên nét đứt màu lam đại diện cho các ánh xạ định danh.
Phép tích chập phân tách theo chiều sâu bao gồm một phép tích chập theo chiều sâu và một phép tích chập theo từng điểm Phép chập theo chiều sâu được thực hiện bằng cách áp dụng tích chập với từng kênh bộ lọc độc lập tương ứng với kích thước kênh của bản đồ đặc trưng Với độ sâu tăng lên trong mô-đun căn chỉnh, số lượng tham số mạng nơ-ron tăng tuyến tính với biên độ nhỏ, cải thiện tốc độ đào tạo và suy luận Hình 3.3 minh họa kiến trúc mạng nơ-ron phân tầng đa quy mô.
Cổng chú ý kênh
Cổng chú ý kênh cung cấp trọng số cho từng kênh của bản đồ đặc trưng, nhằm nâng cao đóng góp của các kênh cụ thể vào quá trình học và cải thiện hiệu quả mô hình Các kênh là ma trận đặc trưng chồng lên nhau, với các bộ lọc giúp học các dạng đặc trưng khác nhau, như cạnh hoặc kết cấu cụ thể trong hình ảnh Cổng chú ý kênh tinh chỉnh bản đồ đặc trưng để nhấn mạnh các đặc trưng quan trọng Trong cấu trúc mô-đun căn chỉnh, ánh xạ định danh có thể sử dụng dư thừa thông tin từ nhánh thu nhỏ Do đó, việc tích hợp cổng chú ý kênh vào sau bản đồ đặc trưng từ nhánh thu nhỏ và trước phép cộng các phần tử tương ứng giúp sử dụng thông tin hiệu quả hơn, từ đó cải thiện việc định vị hóa đối tượng.
Hình 3.4: Minh họa chi tiết cổng chú ý kênh, trong đó σ và tương ứng là ký hiệu của hàm sigmoid và phép nhân từng cặp phần tử tương ứng.
Để tính toán chú ý kênh, chúng tôi tổng hợp thông tin không gian từ bản đồ đặc trưng bằng cách sử dụng lớp gộp trung bình toàn cục và lớp gộp cực đại toàn cục, tạo ra hai bộ mô tả ngữ cảnh p max và p avg Gộp toàn cục ánh xạ các chiều không gian thành một điểm ảnh duy nhất, cho phép biểu diễn p max và p avg dưới dạng vector Những vector này sau đó được đưa vào mạng MLP, trong đó có một “nút cổ chai” với số lượng nơ-ron được xác định bởi hệ số giảm cố định Sau khi áp dụng MLP cho mỗi bộ mô tả ngữ cảnh, chúng tôi hợp nhất các vector đầu ra bằng phép cộng từng cặp phần tử tương ứng Vector hợp nhất này được chuyển đến lớp kích hoạt sigmoid để ánh xạ các giá trị trong khoảng 0 và 1, tạo ra vector chú ý kênh.
Bản đồ đặc trưng C ∈ R H×W ×T từ nhánh thu nhỏ được sử dụng làm đầu vào, sau đó cổng chú ý kênh sẽ suy ra vector chú ý kênh M (C) ∈ R 1×1×T Cuối cùng, bản đồ đặc trưng tinh chỉnh C ˆ ∈ R H×W ×T được tạo ra từ quá trình này.
Ký hiệu của phép nhân giữa từng cặp phần tử tương ứng rất quan trọng Khi thực hiện phép nhân, vector chú ý cần được sao chép dọc theo các chiều không gian của bản đồ đặc trưng đầu vào để đảm bảo tính chính xác trong quá trình xử lý.
Xếp chồng các khối phân tầng
Chúng tôi đã phát triển mô-đun căn chỉnh bằng cách xếp chồng các khối phân tầng, với đầu ra của mỗi khối làm đầu vào cho khối tiếp theo, cho phép xử lý các đặc trưng ở cả ngữ cảnh cục bộ và toàn cục Các khối phân tầng tiếp theo tiếp tục tái xử lý các đặc trưng cấp cao để đánh giá mối quan hệ không gian ở mức độ cao hơn Chúng tôi không áp dụng phương pháp giám sát trung gian do quá trình tạo nhãn điểm ảnh tốn công sức, dẫn đến giới hạn hiệu suất của cơ chế xếp chồng trong việc mở rộng kích thước không gian của bản đồ đặc trưng Các thử nghiệm về lựa chọn số lượng khối phân tầng trong mô-đun căn chỉnh sẽ được trình bày trong phần tiếp theo.
Hình 3.5: Minh họa việc xếp chồng các khối phân tầng.
Cuối cùng, đầu ra từ các khối phân tầng sẽ được chuyển đến lớp kích hoạt softmax và lớp chuẩn hóa không gian, tạo ra tập bản đồ nhiệt A ∈ R H×W ×T, mỗi bản đồ tập trung vào vùng chứa ký tự trong hình ảnh Hình 3.6 minh họa một số ví dụ về bản đồ nhiệt sinh ra từ mô-đun căn chỉnh, cho thấy kiến trúc mạng nơ-ron phân tầng hiệu quả trong việc chú ý vào các vùng chứa ký tự.
Hình 3.6: Một số ví dụ về bản đồ nhiệt (bản đồ chú ý).
Bộ giải mã
Một cơ chế chú ý tính toán tập các vector ngữ cảnh V ∈R T ×C như sau:
Mô hình hóa sự phụ thuộc dài hạn đối với tập các vector ngữ cảnh V thông qua LSTM hai chiều [20]: h t = biLST M (V t ) (3.5)
Trạng thái ẩn đầu ra của LSTM hai chiều được sử dụng trong một vòng lặp giải mã với T bước thời gian, trong đó mỗi bước tạo ra một phân phối xác suất p t cho các ký tự trong tập ký tự L Kết quả giải mã phụ thuộc vào đầu ra h t của LSTM hai chiều, trạng thái ẩn s t−1 ở bước trước và vector nhúng e t−1 của ký tự được giải mã trước đó Tại mỗi bước thời gian, trạng thái ẩn được tính toán thông qua GRU với công thức s t = GRU ([h t ,e t−1 ],s t−1 ) và phân phối xác suất được tính bằng p t = sof tmax(W s t +b).
Trong đó [] là ký hiệu cho toán tử ghép nối.
Hàm mục tiêu
Chúng tôi ký hiệu y(y t ∈ L, 0 ≤ t < T) là chuỗi mục tiêu tương ứng với hình ảnh đầu vào X t Trong quá trình huấn luyện, hàm mục tiêu nhằm tối đa hóa xác suất dự đoán được xác định bằng hàm cross-entropy.
Xác suất dự đoán y t trong phân phối p t, được biểu diễn theo Công thức 3.7, phụ thuộc vào các ký tự mục tiêu trước đó từ y t−1 đến y 1, với θ đại diện cho tất cả các tham số có thể huấn luyện trong mô hình.
CHƯƠNG4 KẾT QUẢ VÀ ĐÁNH GIÁ
Trong chương này, tác giả đánh giá tính hiệu quả của phương pháp đề xuất thông qua các thử nghiệm so sánh với phương pháp cơ sở Bài viết cung cấp cái nhìn sâu sắc về cơ chế chú ý phân tầng và đánh giá hiệu suất của phương pháp so với các phương pháp hiện đại khác.
Tập dữ liệu
In our experiments, we assessed the effectiveness of our model using three datasets for text recognition: the ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction (SROIE 2019), the Brno Mobile OCR Dataset (B-MOD), and the Consolidated Receipt Dataset (CORD) These datasets are well-suited for testing the problem in real-world conditions.
SROIE 2019 bao gồm hình ảnh biên lai với các hộp chú thích xung quanh văn bản và nhãn tương ứng Nội dung văn bản chủ yếu là các chữ số và ký tự tiếng Anh Chúng tôi đã thực hiện việc trích xuất thủ công các đối tượng văn bản từ tập huấn luyện và tập thử nghiệm để phục vụ cho tác vụ nhận dạng văn bản Để tối ưu hóa các giá trị siêu tham số, chúng tôi đã chọn ngẫu nhiên 20% đối tượng văn bản từ tập huấn luyện làm tập xác thực.
B-MOD bao gồm 19,725 hình ảnh chụp từ các thiết bị di động khác nhau, thu thập từ các trang báo khoa học trong điều kiện không ràng buộc, đảm bảo sự đa dạng về độ mờ và độ sáng Tập dữ liệu này đi kèm với hơn 500,000 dòng văn bản được gán nhãn chính xác và được phân chia thành ba tập con: huấn luyện, xác nhận và thử nghiệm.
• CORD [27] bao gồm các hình ảnh biên lai được quét tương tự như SROIE
2019 Chúng tôi xử lý tập dữ liệu này tương tự như hai tập dữ liệu ở trên.
Tiền xử lý dữ liệu
Để cải thiện hiệu suất của mạng nơ-ron, chúng tôi thực hiện chuẩn hóa dữ liệu cho mỗi lớp màu (RGB) của hình ảnh đầu vào bằng cách trừ giá trị trung bình và chia cho độ lệch chuẩn Đồng thời, chúng tôi cũng tăng cường sự đa dạng của các ví dụ đầu vào huấn luyện thông qua các biến đổi từ hình ảnh gốc, bao gồm thêm nhiễu nền, làm mờ, và áp dụng các phép biến đổi hình học như phép xoay, biến đổi affine và biến đổi elastic, như được minh họa trong Hình 4.1.
Hình 4.1 minh họa một số biến đổi tăng cường dữ liệu, bao gồm: a) hình ảnh đầu vào, b) kỹ thuật làm mờ, c) biến đổi affine, d) biến đổi elastic, e) thêm nhiễu nền và f) phép xoay Những biến đổi này giúp cải thiện chất lượng và độ đa dạng của dữ liệu hình ảnh trong các mô hình học máy.
Chi tiết triển khai
Chúng tôi đã sử dụng tập huấn luyện với các mẫu toàn dòng ban đầu để huấn luyện mạng trên cả ba tập dữ liệu, với các cài đặt mạng cụ thể được trình bày trong Bảng 4.1 Mô hình của chúng tôi được đánh giá qua nhiều thiết lập, bao gồm phương pháp cơ sở dựa trên cơ chế chú ý truyền thống và phương pháp đề xuất dựa trên cơ chế chú ý phân tầng, cùng với các phương pháp hiện đại khác Chúng tôi thử nghiệm với tối đa 3 khối chú ý phân tầng xếp chồng lên nhau Bên cạnh EfficientNet, chúng tôi cũng sử dụng kiến trúc VGG-16 và ResNet-34 để trích xuất đặc trưng từ hình ảnh đầu vào và so sánh hiệu suất của chúng Mô hình được huấn luyện bằng bộ tối ưu hóa Adam với tỷ lệ phân rã theo cấp số nhân là 0.9 và 0.999 cho ước tính thứ nhất và thứ hai, tương ứng, cùng với tốc độ học ban đầu 1e-3 và giảm theo tỉ lệ 0.1 sau mỗi 50 chu kỳ huấn luyện Trong quá trình thử nghiệm, không có mô hình ngôn ngữ nào được sử dụng.
Hình 4.2 minh họa quá trình tối ưu hóa hàm mục tiêu trên tập huấn luyện và xác nhận hiệu suất (điểm F1) trên tập xác nhận của dữ liệu CORD Để đánh giá, chúng tôi tách các chuỗi thành tập từ bằng cách sử dụng dấu cách, ví dụ chuỗi “CLOSED BILL: 20/11/2017 04:01:23 PM” được tách thành các từ “CLOSED”, “BILL:”, “20/11/2017”, “04:01:23”, “PM” Độ đo hiệu suất được tính toán qua phần trăm độ chính xác (precision), độ thu hồi (recall) và điểm F1 (F1-score).
Bảng 4.1: Một số thông số cài đặt mô hình cho từng tập dữ liệu
Tập dữ liệu Đầu vào (H × W ) T 1 |L 2 |
1 T : Chiều dài nhãn văn bản lớn nhất trong tập dữ liệu,
Chúng tôi tính toán độ phức tạp tính toán của mô hình bằng cách sử dụng chỉ số FLOPS, đại diện cho số lượng phép toán dấu phẩy động cần thiết Để thực hiện điều này, chúng tôi áp dụng các quy ước phổ biến về FLOPS cho các phép toán đại số.
• Đối với lớp FC có đầu vào I chiều và đầu ra J chiều:
• Đối với lớp Conv có kích thước bộ lọc K × K, đầu vào có chiều H in ×
W in × C in và đầu ra có chiều H out × W out × C out :
F LOP S = 2 ã K ã K ã C in ã H out ã W out ã C out (4.5)
Các lớp còn lại như kích hoạt phi tuyến và chuẩn hóa theo loạt thường chỉ chiếm một tỷ lệ nhỏ trong các phép tính dấu phẩy động Chúng không có ảnh hưởng đáng kể đến độ phức tạp tính toán, vì vậy có thể xem nhẹ trong quá trình xử lý.
Kết quả
Bộ trích chọn đặc trưng
Chúng tôi đã đánh giá hiệu quả của bộ trích chọn đặc trưng được sửa đổi từ EfficientNet trên ba tập dữ liệu SROIE 2019, B-MOD, và CORD Kết quả cho thấy, với cùng cơ chế chú ý truyền thống, ResNet-34 đạt điểm F1 cao hơn VGG-16 (tăng 1.35, 1.41, 1.30 tương ứng với SROIE 2019, B-MOD, CORD), nhưng vẫn thấp hơn EfficientNet của chúng tôi trên cả ba bộ dữ liệu (thấp hơn 0.83, 0.84, 0.88 tương ứng với SROIE 2019, B-MOD, CORD).
Năm 2019, nghiên cứu cho thấy EfficientNet vượt trội hơn các kiến trúc CNN truyền thống trong việc trích chọn đặc trưng Việc cải thiện hiệu suất nhận dạng có thể thực hiện dễ dàng bằng cách sử dụng bộ trích chọn đặc trưng hiệu quả hơn, đồng thời vẫn duy trì cơ chế chú ý truyền thống Điều này nhấn mạnh tầm quan trọng của các đặc trưng trực quan trong nhận dạng văn bản Do đó, chúng tôi đã cải thiện cơ chế chú ý truyền thống bằng cách cho phép nó xử lý các đặc trưng mang thông tin trực quan thông qua kiến trúc chú ý phân tầng Chúng tôi sẽ áp dụng bộ trích chọn đặc trưng được sửa đổi từ EfficientNet cho các thử nghiệm về mô hình chú ý trong phần tiếp theo.
Bảng 4.2: Kết quả thử nghiệm trên từng bộ trích chọn đặc trưng
1 P: Độ chính xác, 2 R: Độ thu hồi, 3 F1: Điểm F1, 4 BA: Cơ chế chú ý truyền thống, 5 EN: Kiến trúc EfficientNet của chúng tôi.
Mô hình chú ý
Chúng tôi đã tiến hành thử nghiệm hiệu suất giữa mô hình chú ý truyền thống và mô hình chú ý phân tầng dựa trên EfficientNet với các cấu hình khác nhau Kết quả cho thấy mô hình chú ý phân tầng của chúng tôi đạt điểm F1 cao nhất lần lượt là 95.04, 97.10 và 94.51 cho các bộ dữ liệu SROIE 2019, B-MOD và CORD, vượt trội so với mô hình chú ý truyền thống với các điểm F1 là 93.74, 95.91 và 92.56 Điều này chứng tỏ rằng thiết kế mô-đun căn chỉnh của chúng tôi có khả năng khắc phục hạn chế của cơ chế chú ý truyền thống, cho phép xử lý hiệu quả hơn các đặc trưng không gian, từ đó cải thiện đáng kể hiệu suất của mô hình.
Bảng 4.3: Kết quả thử nghiệm trên từng mô hình chú ý khác nhau
Trong mô-đun căn chỉnh, việc sử dụng các khối chú ý phân tầng có vai trò quan trọng Cụ thể, việc xếp chồng hai hoặc ba khối chú ý phân tầng mang lại hiệu quả tốt hơn so với chỉ sử dụng một khối Theo Bảng 4.3, cả hai trường hợp có và không có cổng chú ý kênh đều cho thấy sự cải thiện rõ rệt Khối phân tầng đầu tiên có khả năng xử lý các đặc trưng thông tin từ cả ngữ cảnh cục bộ và toàn cục, trong khi các khối tiếp theo giúp tái xử lý các đặc trưng cấp cao để đánh giá các mối quan hệ không gian ở bậc cao hơn Tuy nhiên, điểm F1 có xu hướng bão hòa trên SROIE 2019 và B-MOD, và giảm trên CORD khi xếp chồng ba khối chú ý phân tầng, điều này có thể do cơ chế lặp lại trong quá trình thu nhỏ.
Mở rộng kích thước không gian có thể làm giảm thông tin trong bản đồ đặc trưng Việc áp dụng cổng chú ý kênh trong thiết kế mô-đun căn chỉnh đã cho thấy hiệu quả rõ rệt, với mô hình sử dụng khối chú ý phân tầng kết hợp cổng chú ý kênh đạt điểm F1 tương đương với mô hình ba khối chú ý phân tầng không có cổng, trên cả ba tập dữ liệu Điều này cho thấy cổng chú ý kênh có khả năng cải thiện hiệu suất mà không làm tăng đáng kể chi phí tính toán Kết quả thử nghiệm cho thấy mô hình tốt nhất của chúng tôi là EfficientNet kết hợp ba khối chú ý phân tầng và cổng chú ý kênh, mang lại kết quả vượt trội trong nhận dạng văn bản Hình 4.3 minh họa sự khác biệt giữa mô hình chú ý truyền thống và mô hình chú ý phân tầng của chúng tôi, cho thấy khả năng nhận diện chính xác nhiều ký tự hơn.
Giới hạn của phương pháp đề xuất
Chúng tôi đã chọn một số ví dụ điển hình để minh họa giới hạn của mô hình nhận dạng lỗi, như thể hiện trong Hình 4.4 Qua phân tích trực quan, chúng tôi giải thích rằng trong Hình 4.4 a), dự đoán mong đợi là “IVANGGO”, nhưng kết quả thực tế nhận được lại là “MANGGO”, nguyên nhân là do “IV” nằm ở vị trí sát nhau.
(Hot/Iced) (Hot/Cedo (Hot/Iced)
Hình 4.3 trình bày hình ảnh đầu vào cùng với nhãn văn bản tương ứng, kết quả dự đoán của mô hình chú ý truyền thống và mô hình chú ý phân tầng của chúng tôi, với văn bản dự đoán hiển thị dưới hình ảnh Các tâm bản đồ chú ý được đánh dấu bằng ký hiệu ‘+’ màu vàng, trong khi các ký tự màu lục và đỏ cho biết sự chính xác trong nhận dạng Một số ký tự có hình dạng tương tự như ‘M’ (mất một nét) dẫn đến sự nhầm lẫn trong dự đoán của mô hình Hình 4.4 b) cho thấy nhãn văn bản “240,000” với dự đoán từ mô hình là “240.000” Chúng tôi nhận thấy trường hợp này xuất hiện thường xuyên trong các thử nghiệm, có thể do thiết kế mô hình chú ý Cấu trúc chú ý phân tầng giúp các tâm bản đồ chú ý tập trung ở những vị trí nhất định, đặc biệt là khu vực giữa của hình ảnh.
Mô hình của chúng tôi nhận dạng lỗi thông qua các ví dụ minh họa như trong Hình 4.4, với các quy ước tương tự Hình 4.3 Cấu trúc chú ý phân tầng chủ yếu tập trung vào các đặc trưng nằm dọc trung tâm hình ảnh văn bản, góp phần vào việc dự đoán đầu ra Điều này cho thấy rằng các ký tự càng xa vùng trung tâm, đặc biệt là các ký tự dấu như ‘,’ sẽ ảnh hưởng đến độ chính xác trong nhận dạng.
Khi kích thước và hình dạng của các ký tự không có nhiều khác biệt, việc nhận dạng chính xác trở nên khó khăn hơn Ví dụ, mô hình của chúng tôi dự đoán “PHO TAI” trong khi nhãn văn bản là “PHOTAI” do khoảng cách giữa ‘O’ và ‘T’ có thể được hiểu nhầm thành một ký tự khoảng trắng Hơn nữa, tác động chủ quan trong việc gán nhãn dữ liệu của con người cũng ảnh hưởng đến quá trình huấn luyện mạng nơ-ron Cuối cùng, lỗi nhận dạng như việc ký tự ‘0’ bị nhầm thành ‘O’ là khó tránh khỏi, ngay cả đối với sự quan sát của con người.
Phương pháp đề xuất của chúng tôi gặp hạn chế ở mô-đun căn chỉnh, khi chỉ sử dụng thông tin trực quan cho hoạt động này, khác với các cơ chế chú ý truyền thống sử dụng thông tin lịch sử từ trạng thái ẩn của bộ giải mã để tạo bản đồ chú ý Ngoài ra, một số lỗi cũng có thể xảy ra phổ biến với hầu hết các cơ chế chú ý hiện tại.
Độ phức tạp tính toán
BA SCA(#1) SCA(#2) SCA(#3) SCA(#1)+CAG SCA(#2)+CAG SCA(#3)+CAG
Hình 4.5: Biểu đồ thời gian chạy (mili giây/hình ảnh) so với điểm F1 giữa các mô hình chú ý khác nhau trên tập dữ liệu CORD.
Chúng tôi đã tiến hành so sánh độ phức tạp tính toán giữa phương pháp đề xuất và phương pháp cơ sở bằng cách ước tính số lượng phép tính dấu phẩy động (FLOPS) cho từng mô hình, như trình bày trong Bảng 4.4 Mô hình nhỏ nhất của chúng tôi có độ phức tạp tính toán nhỉnh hơn một chút so với mô hình chú ý truyền thống, khoảng 0.12 GFLOPS, trong khi mô hình lớn nhất vượt hơn khoảng 0.3 GFLOPS Dựa vào biểu đồ trong Hình 4.5, chúng tôi nhận thấy rằng có thể đánh đổi một phần chi phí tính toán để đạt được độ chính xác tốt hơn Hơn nữa, do điểm F1 giữa SCA(#2) và SCA(#3) không có sự khác biệt đáng kể, việc sử dụng CAG giúp cải thiện mô hình mà không làm tăng đáng kể thời gian suy luận, cho thấy rằng SCA(#2)+CAG sẽ mang lại sự cân bằng tối ưu nhất.
Phương pháp #tham số GFLOPS