Công trình liên quan 4
Rút trích đặc trung ảnh
Với HMER, việc rút trích và biểu diễn dữ liệu ảnh một cách hiệu quả và thông minh là rất quan trọng để giải quyết bài toán.
Trong 30 năm qua, kỹ thuật và kiến trúc hệ thống để rút trích đặc trưng từ ảnh đã phát triển mạnh mẽ, nổi bật nhất là sự bùng nổ của học sâu (deep learning - DL) và các kiến trúc mạng nơ-ron tích chập (CNN), với CNN là nền tảng chính.
LeNet của Y LeCun và cộng sự là một trong những kiến trúc mạng nơ-ron đầu tiên sử dụng CNN, đóng vai trò quan trọng trong sự phát triển của học sâu Công trình này đã thiết lập quy chuẩn cho việc thiết kế các kiến trúc mạng nơ-ron nhằm rút trích đặc trưng của ảnh thông qua việc xếp chồng các lớp CNN.
Hình 1: Kiến trúc mạng nơ-ron LeNet[1]
AlexNet của Alex Krizhevsky và các cộng sự đã tiên phong trong việc ứng dụng CNN vào kiến trúc mạng nơ-ron, giới thiệu hàm kích hoạt ReLU và lớp DropOut, những kỹ thuật này đã trở thành chuẩn mực trong thiết kế mạng nơ-ron.
VGG-16, được phát triển bởi Karen Simonyan và các cộng sự, đã thử nghiệm việc tăng số lượng lớp trong mạng nơ-ron tích chập (CNN), đánh dấu bước chuyển mình quan trọng từ mạng nơ-ron truyền thống sang mạng nơ-ron học sâu.
Vào năm 2014, nhóm nghiên cứu của Google đã giới thiệu GoogLeNet, hay còn gọi là Inception V1, bằng cách kết hợp nhiều lớp CNN với kích thước kernel khác nhau Mô đun các lớp CNN trong mạng Inception được thể hiện rõ ràng trong hình ảnh Đặc biệt, phiên bản cải tiến Inception V2 đã giới thiệu cơ chế Batch Normalization, giúp tăng tốc quá trình huấn luyện cho các mạng nơ-ron học sâu.
Để khắc phục vấn đề gradient bùng nổ hoặc tiêu biến trong thiết kế mạng nơ-ron sâu, Kaiming He và cộng sự đã phát triển ResNet với việc áp dụng kết nối residual/skip, giúp việc huấn luyện mô hình dễ dàng hơn và cho phép xây dựng các mạng nơ-ron sâu hơn Một block trong mô hình này bao gồm hai lớp CNN, được gọi là "weight layer", cùng với kết nối residual giữa đầu vào và đầu ra của lớp CNN thứ hai.
Dựa trên ý tưởng của ResNet, Gao Huang và các cộng sự đã phát triển DenseNet, trong đó tăng cường số lượng kết nối residual, từ đó mở rộng số lớp và số lượng tham số của mạng.
Các mạng nơ-ron học sâu, đặc biệt là CNN, có đặc trưng là khi xuống các lớp sâu hơn, đặc trưng biểu diễn cho vùng ảnh sẽ lớn hơn và độ phân giải sẽ khác nhau Điều này dẫn đến việc thông tin của các đặc điểm nhỏ trong ảnh gốc dễ bị mất Để khắc phục vấn đề này, nhiều nghiên cứu đã đề xuất các thiết kế mạng học sâu nhằm dung hợp các đặc trưng ở nhiều mức phân giải khác nhau, tạo ra bộ đặc trưng đa phân giải, điển hình như UNet và Features Pyramid Network Các thiết kế này thường sử dụng phép tích chập ngược (DeConvolution) hoặc phép nội suy để cải thiện khả năng phân tích ảnh.
DenseBlock với 5 lớp CNN sử dụng phương pháp suy (interpolation) để chuyển đổi đặc trưng từ phân giải thấp lên phân giải cao hơn, sau đó kết hợp các đặc trưng cùng mức phân giải thông qua phép nối (concatenation).
Hình 5: Kiến trúc Features Pyramid rút trích đặc trưng đa phân giải[9]
Cơ chế tập trung (Attention mechanism)
Cơ chế tập trung mô phỏng nhận thức con người bằng cách sử dụng nhiều thông tin với trọng số khác nhau Trong 10 năm qua, cơ chế này ngày càng phổ biến, đặc biệt trong lĩnh vực Xử lý ngôn ngữ tự nhiên và dịch máy Hình [6] minh họa ứng dụng của cơ chế tập trung trong mô hình dịch máy, cho thấy cách xác định mức độ đóng góp của từng thông tin đầu vào (x x) thông qua các bộ trọng số (αt, 1 αt,T) để tạo ra ký tự đầu ra thứ t.
Hình 6: Mô hình dịch máy sử dụng cơ chế tập trung[12]
Cơ chế tập trung đã chứng minh hiệu quả trong việc giải quyết các bài toán có đầu ra là chuỗi ký tự Đặc biệt, bài toán HMER cũng cho kết quả đầu ra là chuỗi ký tự theo mã cú pháp LaTeX, do đó, việc nghiên cứu và ứng dụng cơ chế tập trung là rất cần thiết.
2 Bài toán nhận dạng biểu thức toán học viết tay
Tổng quan
HMER thường được chia thành hai bài toán chính: nhận dạng ký tự và phân tích cấu trúc ngữ pháp Tùy thuộc vào việc giải quyết hai bài toán này một cách tuần tự hay kết hợp, HMER sẽ có hai hướng tiếp cận khác nhau Với phương pháp tuần tự, ảnh đầu vào được phân tách thành các ký tự và vị trí của chúng, sau đó thông tin này sẽ được bộ phân tích cấu trúc ngữ pháp tiếp nhận và phân tích để dự đoán biểu thức trong ảnh Phương pháp này thường được áp dụng trong các công trình ở giai đoạn sơ khởi và tập trung vào việc giải quyết từng bài toán con một cách độc lập Bảng [1] liệt kê một số công trình theo hướng tuần tự được trích xuất từ [16].
Cột "Nhận dạng ký tự" phân loại các phương pháp mà các tác giả đã áp dụng để giải quyết bài toán nhận diện ký tự, trong khi cột "Phân tích cấu trúc" phân loại các phương pháp được sử dụng để xây dựng bộ phân tích cấu trúc ngữ pháp cho biểu thức.
Bảng [1] cho ta cái nhìn khái quát về những phương pháp được nghiên cứu và bức tranh tổng thể về hướng tiếp cận này trong giai đoạn trước năm 2000.
Hướng tiếp cận tuần tự thường gặp phải lỗi tích lũy, khi mô đun nhận dạng ký tự dự đoán sai sẽ ảnh hưởng đến mô đun phân tích cấu trúc ngữ pháp Việc giải quyết các bài toán con độc lập dẫn đến việc bỏ qua thông tin ngữ cảnh và tính không chắc chắn của bộ nhận dạng ký tự, chỉ tập trung vào vị trí của các ký tự Hơn nữa, thiết kế bộ phân tích cấu trúc ngữ pháp cần một kho kiến thức lớn về phân tích ngữ pháp, trong khi có thể tìm cách để hệ thống học từ dữ liệu sẵn có.
Tác giả Nhận dạng ký tự Phân tích cấu trúc
P.A.Chou Template matching Stochastic context- free grammar
M.Okamoto Recursive projection và Template matching Tree-based: xây dựng cây quan hệ
J.Ha X-Y cut và mạng nơ-ron Tree-based: xây dựng cây biểu thức R.J.Fateman Template matching dựa trên khoảng cách Hausdorff Recursive descent parser H.-J.Lee và J.-S.Wang Kỹ thuật rút trích đặc trưng và giải thuật nearest-neighborhood Expression Tree
Bảng 1: Một số công trình tiêu biểu về nhận dạng biệu thức toán học trước năm 2000 và các phương pháp được sử dụng.
Để giảm thiểu lỗi tích lũy và mất thông tin ngữ cảnh trong phân tích cấu trúc ngữ pháp, các phương pháp hiện đại thường áp dụng hướng tiếp cận kết hợp Hướng tiếp cận này cho phép các nhà nghiên cứu xây dựng hệ thống đầu cuối, có khả năng rút trích đặc trưng từ ảnh đầu vào và thực hiện phân tích cấu trúc một cách đồng bộ Một số công trình tiêu biểu về hướng tiếp cận này sẽ được trình bày trong phần 2.2.
Trong 10 năm gần đây, Cuộc thi Nhận dạng biểu thức toán học viết tay, CROHME, tạo sân chơi cũng như thúc đẩy sự phát triển các kỹ thuật, đề xuất nhằm mục tiêu giải quyết HMER Kết quả của các đội được đánh giá dựa trên tỉ lệ nhận dạng đúng hoàn toàn biểu thức trên tổng số biểu thức của cuộc thi Bảng [2] tổng hợp và phân loại các phương pháp dự thi của các đội nhóm Bảng gồm 3 cột, ngoài cột "Tác giả" thì có cột "Hướng tiếp cận" nhằm phân loại phương pháp theo 2 hướng tiếp cận đã nói ở trên, và cuối cùng là cột "Phương pháp" tóm tắt về phương pháp đội nhóm sử dụng Qua đó ta có thể thấy rằng hướng tiếp cận Kết hợp dần trở nên phổ biến và được xử dụng thường xuyên hơn.
Tác giả Hướng tiếp cận Phương pháp
Univ Tuần tự Template matching-
Expression tree with defined 2D structural grammar Nakagawa
Lab Tuần tự CNN and LSTM-
Univ Kết hợp Template-based classifier- recursively extracting baselines Valencia
RIT Tuần tự Adaboost+SVM-
My Script Kết hợp RNN- statiscal language model.
Trong giai đoạn 2013-2016, tổ chức CROHME đã ghi nhận nhiều công trình tiêu biểu về nhận dạng biểu thức toán học cùng với các phương pháp được sử dụng Bảng 2 trình bày một số công trình đáng chú ý trong lĩnh vực này.
Hướng tiếp cận xây dựng mô hình đầu cuối
Các hệ thống đầu-cuối được phát triển nhằm giải quyết HMER thông qua cách tiếp cận đồng thời giải quyết hai bài toán con.
Trong 5 năm gần đây đã có nhiều công trình nghiên cứu tạo ra các hệ thống với kết quả ấn tượng, tạo nhiều đột phá trong giải quyết HMER.
The study titled "Watch, Attend and Parse: An End-to-end Neural Network Based Approach to Handwritten Mathematical Expression Recognition (WAP)" by Zang and colleagues introduces a novel system for recognizing handwritten mathematical expressions Utilizing an Encoder-Decoder architecture, the system is innovatively named Watcher and Parser, demonstrating a comprehensive approach to enhancing recognition accuracy in mathematical notation.
Watcher áp dụng kiến trúc mạng nơ-ron VGG-16 để rút trích đặc trưng từ ảnh biểu thức Mô hình này nhận vào hình ảnh và tạo ra bản đồ đặc trưng tương ứng, giúp phân tích và hiểu rõ hơn về các biểu thức trong ảnh.
Parser sử dụng kiến trúc mạng GRU để nhận bản đồ đặc trưng từ Watcher và tuần tự sinh ra các ký tự của chuỗi L A TEX Trong quá trình này, Parser áp dụng cơ chế attention để xác định các vùng ảnh quan trọng, giúp dự đoán ký tự L A TEX ở từng bước Attention không chỉ giúp phân mảnh vùng ảnh mà còn cung cấp thông tin hữu ích cho GRU trong việc dự đoán ký tự tiếp theo Đặc biệt, các tác giả đã đề xuất một biến thể của attention gọi là coverage-based attention, nhằm cải thiện việc học các bản đồ attention.
In their continued research on handwritten mathematical expression recognition, the authors build upon the foundation established in their previous work, proposing enhancements through a multi-scale attention mechanism combined with a dense encoder They address the challenge that deeper layers tend to exhibit lower resolution features, emphasizing the importance of maintaining clarity and detail in the recognition process.
Hệ thống được minh họa qua phương pháp Watch, Attend and Parse gặp khó khăn trong việc nhận diện các ký tự nhỏ, dẫn đến mất thông tin quan trọng Để cải thiện khả năng học cho các ký tự nhỏ trong ảnh biểu thức, nhóm tác giả đề xuất hai phương pháp cải tiến chính.
WatcherThay đã chuyển giao kiến trúc rút trích đặc trưng từ VGG-16 sang DenseNet nhờ vào khả năng rút trích đặc trưng mạnh mẽ hơn Ngoài ra, nhóm tác giả còn phát triển thêm nhánh B với độ phân giải cao hơn bằng cách bỏ qua một lớp pooling, nhằm tạo ra hai bản đồ đặc trưng với độ phân giải khác nhau.
• Parser Sử dụng 2 mô đun attention cho 2 bản đồ đặc trưng riêng biệt, qua đó tạo ra 2 biểu diễn đặc trưng attention với độ phân giải khác nhau.
Nhờ vào những cải tiến đã được thực hiện, nhóm tác giả đã thu được nhiều kết quả thí nghiệm tích cực, đạt tiêu chuẩn state-of-the-art vào thời điểm đó.
Hình 8: Kiến trúc mạng rút trích đặc trưng Watcher kế thừa DenseNet[7] và thêm nhánh B ở công trình[14]
Hướng tiếp cận làm giàu dữ liệu
Ngoài việc cải tiến kiến trúc hệ thống và mô hình, nhiều nghiên cứu cũng tập trung vào việc giải quyết vấn đề HMER thông qua việc làm giàu dữ liệu.
Bài viết "Training an End-to-End System for Handwritten Mathematical Expression Recognition by Generated Patterns" của A D Le và các cộng sự trình bày phương pháp làm giàu dữ liệu từ tập dữ liệu CROHME Nhóm tác giả đã phát triển một quy trình biến đổi ảnh biểu thức thông qua hai loại biến đổi hình học: biến đổi cục bộ và biến đổi toàn cục Cụ thể, mỗi ảnh đầu vào sẽ trải qua biến đổi cục bộ bằng cách sử dụng các bộ biến đổi đã được xác định, sau đó tiếp tục được biến đổi toàn cục với các phép scale và xoay Kết quả thu được sẽ được bổ sung vào tập huấn luyện, giúp tăng cường dữ liệu cho hệ thống nhận dạng biểu thức toán học viết tay Mặc dù hệ thống chưa đạt tiêu chuẩn state-of-the-art, nhưng nghiên cứu này đã đóng góp quan trọng trong việc mở rộng tập dữ liệu, từ đó cải thiện kết quả nhận dạng.
Hình 9: Qui trình biến đổi ảnh biểu thức toán học bằng các phép biến đổi cục bộ và toàn cục[21]
Nhận diện biểu thức toán học viết tay: Một phương pháp làm giàu dữ liệu K.-N Bui và cộng sự đã tiến hành làm giàu dữ liệu không chỉ qua các phép biến đổi hình học mà còn phát triển bộ sinh biểu thức toán học để cân bằng tập dữ liệu Nhóm tác giả sử dụng bộ dữ liệu CROHME để xây dựng hệ thống sinh các biểu thức toán học từ việc kết hợp các ký tự đơn lẻ Qua phân tích dữ liệu, họ phát hiện sự mất cân bằng trong phân phối ký tự và đã thực hiện làm giàu dữ liệu nhằm cải thiện sự cân bằng này Nhóm đã định nghĩa 10 loại biểu thức toán học và mỗi biểu thức mới được tạo ra từ sự kết hợp ngẫu nhiên của hai loại biểu thức Kết quả từ việc làm giàu dữ liệu đã cho thấy sự cải thiện đáng kể trong nhận diện ký tự toán học, đặc biệt là ở các ký tự có tần suất xuất hiện thấp.
Hình 10: Các loại biểu thức toán học được định nghĩa[22]
Phương pháp luận nghiên cứu 14
Kiến trúc nền tảng
Trong bài toán nhận diện biểu thức viết tay, mô hình nhận đầu vào là ảnh chứa một biểu thức toán học duy nhất Dữ liệu đầu ra của mô hình là chuỗi ký hiệu theo chuẩn mã LaTeX Ví dụ, với ảnh đầu vào như trong Hình [12], dữ liệu đầu ra sẽ là chuỗi ký hiệu: y^{4} + y + 1 = 0, với các ký hiệu được phân cách bởi khoảng trắng.
Hình 12: Một mẫu ảnh đầu vào cho bài toán với biểu thức y 4 +y+ 1 = 0 trích xuất từ tập dữ liệu CROHME 2019.
Kiến trúc giải quyết bài toán nhận dạng biểu thức toán học viết tay dựa trên mô hình Mã hóa-Giải mã, được chia thành hai khối chương trình chính: Bộ mã hóa và Bộ giải mã.
8 Thuật ngữ tiếng Anh: Encode-Decode
9 Thuật ngữ tiếng Anh: Encoder
10 Thuật ngữ tiếng Anh: Decoder
Bộ mã hóa thực hiện nhiệm vụ mã hóa và rút trích đặc trưng từ ảnh đầu vào, với kiến trúc mạng học sâu sử dụng các lớp CNN làm chủ đạo Mạng học sâu này sẽ rút trích các đặc trưng từ ảnh và tổng hợp thành các bản đồ đặc trưng dưới dạng tensor 3 chiều C×H′×W′, trong đó C là số loại đặc trưng rút trích được, còn H′ và W′ là kích thước của bản đồ đặc trưng.
Bộ giải mã sử dụng thông tin và đặc trưng ảnh từ bộ mã hóa để nhận dạng chuỗi ký tự và công thức cần dự đoán Tác giả đã tổng quát hóa kiến trúc thành một chương trình khung bao gồm hai khối Encoder và Decoder, giúp việc nghiên cứu và thử nghiệm cải tiến từng khối trở nên thuận tiện Việc này cho phép thay thế phương pháp hiện thực của khối mong muốn và tích hợp vào chương trình khung, hoàn thiện kiến trúc mạng.
WAP
Hình 13: Sơ đồ thiết kế mô hình WAP.
Công trình WAP được phát triển dựa trên kiến trúc nền tảng đã được trình bày trước đó Encoder trong WAP được thực hiện bằng cách sử dụng bộ rút trích đặc trưng từ mạng VGG-16, với việc loại bỏ lớp phân loại của mô hình gốc.
Trong nghiên cứu này, nhóm tác giả đã phát triển một Decoder phức tạp, khác với Encoder đơn giản Decoder được xây dựng dựa trên mạng hồi quy RNN, cụ thể là biến thể GRU.
Nhóm tác giả đã phát triển lớp tập trung (Attention Layer) để kết hợp thông tin đặc trưng của ảnh với ngữ cảnh trong quá trình giải mã ký tự Lớp này sử dụng thông tin lịch sử giải mã của toàn biểu thức đến thời điểm hiện tại để xác định trọng số cho từng vùng trên bản đồ đặc trưng Kết quả là lớp tập trung tổng hợp bản đồ đặc trưng thành một vec-tơ đặc trưng duy nhất, được gọi là vec-tơ ngữ cảnh, thông qua phương pháp lấy trung bình có trọng số.
Vec-tơ ngữ cảnh sau đó được mạng RNN giải mã và lớp xuất biểu diễn thành kí tự tương ứng.
Hình [13] mô tả khái quát quá trình nhận dạng biểu thức b−a theo kiến trúc đề xuất của công trình WAP[13].
MultiScale WAP
Hình 14: Sơ đồ thiết kế mô hình MultiScale WAP.
Multiscale WAP là một công trình kế thừa từ WAP, sử dụng kiến trúc nền tảng đã được trình bày trước đó Nhóm tác giả đã đề xuất cải tiến để giải quyết vấn đề đa dạng về kích thước ký tự trong biểu thức thông qua mô hình cơ chế tập trung đa phân giải Thay vì sử dụng một lớp tập trung như trong WAP, công trình này áp dụng hai lớp tập trung với hai đặc trưng ảnh riêng biệt có độ phân giải khác nhau Để thực hiện điều này, nhóm tác giả đã cắt bỏ lớp phân loại cuối cùng trong kiến trúc mạng rút trích đặc trưng ảnh và thêm một nhánh rút trích đặc trưng với độ phân giải cao hơn, được gọi là nhánh B, tương tự như nhánh A nhưng không có lớp pooling, giúp cải thiện độ phân giải của đặc trưng rút trích.
A Ta có thể xem lại kiến trúc mạng rút trích đặc trưng được sử dụng làm Encoder cho MultiScale WAP ở Hình [8].
Khó khăn trong việc tái hiện và tái lập các công trình là cần hiểu rõ dòng chảy dữ liệu và biểu đồ tính toán của mô hình Thông tin trong bài báo gốc thường ngắn gọn, vì vậy việc đọc kỹ và hệ thống hóa các công thức toán học là rất quan trọng Điều này giúp xây dựng mô hình chính xác nhất với nguyên gốc Ngoài ra, việc nắm vững các cơ chế mà các tác giả sử dụng cũng hỗ trợ đáng kể trong quá trình tái hiện mô hình.
Nghiên cứu về các bộ siêu tham số là một thách thức lớn do số lượng siêu tham số thực tế trong một kiến trúc mô hình thường vượt xa những gì được đề cập trong các bài báo gốc Trong công trình WAP, mặc dù mã nguồn đã cũ, nhưng việc khai thác dữ liệu từ mã nguồn này đã cung cấp thêm thông tin hữu ích về cài đặt siêu tham số cho mô hình Ngược lại, đối với công trình MultiScale WAP, chúng ta chỉ có thể dựa vào thông tin từ bài báo và kinh nghiệm thực tế mà cộng đồng chia sẻ trực tuyến về các kỹ thuật áp dụng.
Để huấn luyện hiệu quả hai mô hình WAP và MultiScale WAP, kỹ thuật Thầy ép 11 được áp dụng, giúp cải thiện thời gian hội tụ và giảm thời gian huấn luyện cho mô hình, đặc biệt trong các bài toán có dữ liệu đầu ra dạng chuỗi kí tự.
Để giải quyết vấn đề về kích thước kí tự bất đồng nhất, tác giả đề xuất kết hợp đặc trưng đa phân giải với kiến trúc nền tảng từ hai công trình WAP và MultiScale WAP Việc rút trích đặc trưng đa phân giải được thực hiện bằng cách kết hợp các đặc trưng toàn cục và cục bộ, dựa trên ý tưởng của một nghiên cứu trước đó, thông qua việc biến đổi kiến trúc mạng InceptionV2 Nhóm tác giả đã dung hợp các đặc trưng với độ phân giải thấp và vùng quan sát lớn cùng với các đặc trưng phân giải cao và vùng quan sát nhỏ Phương pháp kết hợp này sử dụng phép nối theo phương sâu, và để đồng nhất kích thước giữa hai loại đặc trưng, phép nội suy được áp dụng cho các đặc trưng có độ phân giải thấp Khái quát về ý tưởng này được thể hiện trong hình minh họa.
Hình [15] cho thấy ba bộ đặc trưng được bộ rút trích đặc trưng trả về, được đặt tên là x1, x2 và x3 Mỗi đặc trưng có độ phân giải và mức độ kết hợp giữa cục bộ và toàn cục giảm dần, trong đó x3 gần như không chứa thông tin biểu diễn đặc trưng ảnh với sự kết hợp cục bộ.
11 Thuật ngữ tiếng Anh: Teacher forcing
12 Thuật ngữ tiếng Anh: Receptive field
13 Thuật ngữ tiếng Anh: concatenation
14 Thuật ngữ tiếng Anh: interpolation
Hình 15: Bộ rút trích đặc trưng đa phân giải được đề xuất bởi [10] Ảnh được rút trích từ bài báo gốc của các tác giả.
Mỗi mũi tên trong mô hình biểu thị việc rút trích đặc trưng trung gian tại các bước khác nhau Cụ thể, có ba mốc rút trích đặc trưng trung gian tại x1, x2, x3, được gọi lần lượt là 3b, 4d và 5b, thể hiện thứ tự lớp trong toàn bộ mạng mà các đặc trưng này được trích xuất.
InceptionNet là một mạng được xây dựng từ việc xếp chồng các khối Inception, chia thành 5 bậc Mỗi bậc bao gồm một số khối Inception xếp chồng lên nhau, được đặt tên theo số, với lớp gần đầu vào có số nhỏ hơn Các khối Inception được đánh số theo thứ tự bảng chữ cái, bắt đầu từ a cho lớp gần đầu vào nhất Do đó, đặc trưng x1 là đầu ra của block Inception thứ 2 trong bậc thứ 3.
Để hiểu rõ về quy cách gọi tên và ý nghĩa của chúng, chúng ta thống nhất gọi các biến thể của mạng rút trích đặc trưng đa phân giải cùng với các ứng dụng của chúng bằng các tên 3b, 4d và 5b.
Bài viết trình bày ý tưởng xây dựng bộ rút trích đặc trưng đa phân giải mang tên InceptionFusion (IF), nhằm ứng dụng vào nhận dạng biểu thức toán học viết tay Mạng rút trích đặc trưng đa phân giải được xem như một mạng độc lập, cho phép thiết kế chương trình khung theo kiến trúc nền tảng một cách linh hoạt Việc kết hợp InceptionFusion với WAP hoặc MultiScale WAP trở nên dễ dàng hơn khi chỉ cần thay thế mô-đun Encoder bằng biến thể InceptionFusion Kết quả là sự ra đời của WAP + IF với các biến thể 3b, 4d, 5b, tương ứng với các biến thể của InceptionFusion đã được đề cập.
Tương tự, kết hợp ý tưởng InceptionFusion và MultiScale WAP tạo ra MultiScale WAP + IF với các biến thể 5b+4d, 5b+3b và 4d+3b.
Phương pháp nghiên cứu và đánh giá trong luận văn này nhằm cải tiến hai công trình WAP và MultiScale WAP bằng cách kết hợp các đặc trưng đa phân giải thông qua mạng InceptionFusion.
Kết quả thực nghiệm 22
Tái lập các công trình tham khảo
Công trình CROHME 2019 CROHME 2014 CROHME 2016 MultiScale WAP 65.73 41.36 41.76
Bảng 5: Kết quả huấn luyện, đánh giá từ việc tái lập các công trình tham khảo[13], [14].
Bảng [5] trình bày đánh giá dựa theo độ đo ExpRate của hai công trình WAP và MultiScale WAP, được thực hiện trên các tập dữ liệu Valid (CROHME 2019) và Test (CROHME 2014, CROHME 2016) Kết quả cho thấy sự cải thiện rõ rệt về điểm số giữa hai công trình; mặc dù khoảng cách điểm số trên tập Valid chỉ là 10 điểm ExpRate, nhưng trên tập Valid, khoảng cách này tăng lên thành 20 điểm Điều này cho thấy cơ chế tập trung đa phân giải 16 đã góp phần đáng kể vào việc cải thiện hiệu năng của mô hình.
Sự chênh lệch điểm số giữa việc đánh giá trên tập Valid và tập Test là rất lớn, với khoảng 24 điểm ở MultiScale WAP và 33 điểm ở WAP Điều này chỉ ra rằng có sự khác biệt rõ rệt trong phân phối của các dữ liệu này.
CROHME là một cuộc thi về Khoa học Dữ liệu, nơi sự khác biệt giữa 2 tập dữ liệu được tạo ra để tăng tính cạnh tranh và độ khó Việc nghiên cứu chi tiết về sự khác biệt này là cần thiết, nhằm đánh giá mức độ khác nhau giữa 2 tập dữ liệu và hiệu quả của việc chia dữ liệu thành các tập Train-Valid-Test.
CROHME 2014 CROHME 2016 Công trình Tái lập Công bố Tái lập Công bố
Bảng 6:Kết quả đánh giá các công trình tham khảo[13], [14] được tái lập so với kết quả đã được công bố ở bài báo gốc.
Bảng [6] trình bày kết quả tái lập trong bối cảnh so sánh với các công bố từ các nghiên cứu gốc [13], [14] trên hai tập dữ liệu test CROHME 2014 và CROHME 2016 Mỗi hàng trong bảng thể hiện đánh giá của từng công trình, với cặp cột tương ứng cho từng tập dữ liệu là CROHME 2014 và CROHME 2016 Hai tập dữ liệu này cũng được sử dụng để đánh giá trong các bài báo gốc của mỗi công trình Mỗi cặp cột bao gồm cột "Tái lập" thể hiện đánh giá mô hình tái lập và cột "Công bố" hiển thị điểm số được công bố trong bài báo gốc.
Ta có thể thấy được từ Bảng [6] rằng dù ở tập dữ liệu CROHME 2014 hay CROHME
2016 thì kết quả được công bố ở paper gốc đều cao hơn rõ rệt so với đánh giá khi tái lập
MultiScale Attention là một thuật ngữ quan trọng trong lĩnh vực nghiên cứu hiện nay Để hiểu rõ sự khác biệt giữa quá trình tái lập và các công trình gốc, cần xem xét một số yếu tố như mục đích nghiên cứu, phương pháp áp dụng và kết quả đạt được Những yếu tố này không chỉ ảnh hưởng đến chất lượng của nghiên cứu mà còn quyết định tính ứng dụng trong thực tiễn.
Kích cỡ dữ liệu ảnh đầu vào đã được quy định chính thức trong cuộc thi CROHME từ năm 2019, ảnh hưởng đến cách trực quan hóa dữ liệu cho các mô hình Các công trình WAP và MultiScale WAP đã áp dụng phương pháp trực quan hóa với kích thước không cố định, dựa trên kích thước của các kí tự trong biểu thức Tuy nhiên, phương pháp này có thể làm giảm độ khó của bài toán, đặc biệt đối với các biểu thức chứa nhiều kí tự, khi các kí tự có thể bị thu nhỏ đến mức khó nhận diện.
Dữ liệu thường được thu thập từ các thiết bị như máy ảnh và máy quét, vì vậy kích thước ảnh đầu vào cho các mô hình và hệ thống thường có những kích thước cụ thể Việc cố định kích thước ảnh trong quá trình trực quan hóa giúp bài toán trở nên gần gũi hơn với thực tế khách quan.
Mô hình tổ hợp 17 được áp dụng trong hai công trình nghiên cứu, nơi các tác giả kết hợp 5 mô hình để đạt được điểm số cao Kỹ thuật này thường được sử dụng trong các cuộc thi Khoa học Dữ liệu nhằm nâng cao tính tổng quát hóa và điểm số cuối cùng Tuy nhiên, để tập trung vào việc nghiên cứu và phân tích các phương pháp cũng như kiến trúc mạng, tôi cho rằng việc ứng dụng kỹ thuật tổ hợp này là không cần thiết.
Mặc dù kỹ thuật này thường được áp dụng trong các cuộc thi, nhưng việc triển khai thực tế gặp khó khăn do yêu cầu cần nhiều bản thể mô hình hoạt động đồng thời, dẫn đến thách thức về phần cứng và tốc độ dự đoán.
Mặc dù có những lý do khách quan, vẫn tồn tại yếu tố chủ quan liên quan đến khả năng huấn luyện mô hình của người thực hiện, có thể còn nhiều thiếu sót Tuy nhiên, với việc tái lập công bằng cả hai mô hình, chúng ta có thể khẳng định rằng cơ chế MultiScale Attention mang lại tác động tích cực và có thể kiểm chứng, đồng thời hỗ trợ giải quyết vấn đề về các ký tự có kích thước đa dạng trong ảnh biểu thức, đặc biệt là những ký tự nhỏ.
Quá trình tái lập và đánh giá các công trình tham khảo được thực hiện theo một quy trình công bằng, mặc dù không đạt được điểm số như trong các công bố gốc Tuy nhiên, quy trình này vẫn có thể được áp dụng để đánh giá các phương pháp đề xuất và so sánh với các công trình tham khảo, từ đó nghiên cứu và thảo luận về các kết quả đánh giá một cách công bằng.
17 Thuật ngữ tiếng Anh: Ensemble Model
Phương pháp đề xuất
Chúng tôi sẽ đánh giá ý tưởng đề xuất thông qua việc cải tiến công trình WAP và MultiScale WAP, sử dụng mạng rút trích đặc trưng đa phân giải cùng với các biến thể của chúng, như đã trình bày trong Chương 3 Mục 3.
Phiên bản CROHME 2019 CROHME 2014 CROHME 2016
Bảng 7: Kết quả đánh giá các phiên bản của phương pháp đề xuất cải tiến WAP[13].
Bảng [7] trình bày kết quả đánh giá các phiên bản của phương pháp cải tiến WAP[13] trên các tập dữ liệu Valid (CROHME 2019) và Test (CROHME 2014, CROHME 2016) Theo Chương 3 Mục 3, nghiên cứu tập trung vào ba phiên bản đặc trưng đa phân giải với mức độ dung hợp toàn cục và cục bộ tăng dần là 5b, 4d và 3b Kết quả từ Bảng [7] cho thấy việc tăng cường mức độ dung hợp toàn cục và cục bộ giúp cải thiện hiệu suất của mô hình, được thể hiện rõ qua điểm ExpRate theo từng phiên bản.
Cụ thể là phiên bản 5bthì chỉ đạt điểm số khiêm tốn ở mức 57.18trên tập CROHME
Năm 2019, phiên bản đơn giản nhất của tập CROHME 2014 đạt 24.90 và tập CROHME 2016 đạt 25.46 Phiên bản này không thực sự kết hợp giữa các đặc trưng toàn cục và cục bộ, đồng thời có mức độ phân giải thấp nhất trong các biến thể.
Phiên bản 4d đã thể hiện sự cải thiện đáng kể về điểm số ExpRate so với phiên bản 5b, đạt 60.88 trên tập CROHME 2019, 32.11 trên tập CROHME 2014 và 33.39 trên tập CROHME 2016 Cụ thể, phiên bản 4d đã tăng 3.81 điểm trên CROHME 2019, 7.21 điểm trên CROHME 2014 và 7.93 điểm trên CROHME 2016 Điều này cho thấy việc ứng dụng kết hợp đặc trưng cục bộ đã mang lại hiệu quả rõ rệt.
Phiên bản 3b là phiên bản tối ưu nhất với mức độ kết hợp giữa đặc trưng toàn cục và cục bộ lớn, tạo ra bộ đặc trưng đa phân giải có kích thước cao nhất Mặc dù sự khác biệt với phiên bản 4d trên tập CROHME 2019 không lớn (61.63, tăng 0.75), nhưng phiên bản 3b đã cải thiện đáng kể trên các tập Test CROHME 2014 (34.35, tăng 2.24) và CROHME 2016 (37.14, tăng 3.75) Sự cải thiện này đến từ việc kết hợp nhiều mức độ cục bộ hơn, nâng cao kích thước bản đồ đặc trưng, giúp các cơ chế tập trung phân tích chi tiết hơn Khi so sánh với phiên bản 5b không có đặc trưng đa phân giải, phiên bản 3b cho thấy sự vượt trội rõ rệt với khoảng cách lần lượt là 9.45 và 11.68 điểm ExpRate trên các tập test CROHME 2014 và 2016 Do đó, phiên bản 3b, dựa trên công trình WAP và các ý tưởng đề xuất, được xác định là phiên bản tốt nhất với đặc trưng đa phân giải cao nhất.
MultiScale WAP + IF 5b+4d 59.43 30.89 30.95 MultiScale WAP + IF 5b+3b 62.33 34.76 38.53 MultiScale WAP + IF 4d+3b 62.83 38.41 39.49 Bảng 8: Kết quả đánh giá các phiên bản của phương pháp đề xuất cải tiến MultiScale WAP[14].
Bảng [8] trình bày kết quả đánh giá các đề xuất cải tiến dựa trên nền tảng MultiScale WAP[14], sử dụng các tập dữ liệu valid CROHME 2019, test CROHME 2014 và CROHME 2016, được thể hiện lần lượt ở các cột "2019", "2014" và "2016".
Việc sử dụng đặc trưng đa phân giải với mức kết hợp cao giúp cải thiện đáng kể điểm đánh giá, đặc biệt là đặc trưng 3b, đóng vai trò quan trọng trong việc cung cấp thông tin và hỗ trợ mô hình hoạt động hiệu quả hơn Cụ thể, khi thay thế đặc trưng 4d bằng 3b trong phiên bản 5b+4d, chúng ta ghi nhận sự cải thiện rõ rệt với điểm số tăng 2.9 và 3.87, 7.58 lần lượt ở các tập test CROHME 2014 và 2016 Ngược lại, việc thay thế đặc trưng 5b bằng 4d trong phiên bản 4d+3b chỉ mang lại cải thiện không đáng kể với khoảng cách điểm là 0.5, 3.65 và 0.96, ngoại trừ tập CROHME 2014 Điều này cho thấy rằng việc tối ưu hóa mức kết hợp để tạo ra đặc trưng đa phân giải không chỉ nâng cao điểm đánh giá mà còn khẳng định phiên bản 4d+3b là phiên bản mạnh nhất trong đề xuất này khi áp dụng trên nền tảng kiến trúc MultiScale WAP.
WAP + IF 3b 61.63 34.35 37.14 MultiScale WAP + IF 4d+3b 62.83 38.41 39.49
Bảng 9: Kết quả đánh giá phương pháp đề xuất cải tiến dựa trên WAP[13] so với MultiScale WAP[14] trên tập dữ liệu valid CROHME 2019, tập test CROHME 2014 và CROHME 2016.
Bảng [9] so sánh 2 phiên bản tốt nhất của các phương pháp đề xuất dựa trên cải tiến
Việc chuyển đổi từ kiến trúc WAP sang MultiScale WAP đã mang lại sự cải thiện đáng kể về điểm số trên ba tập dữ liệu CROHME 2019 (valid), 2014 và 2016, với các mức tăng lần lượt là 1.2, 4.06 và 2.35 Mặc dù khoảng cách giữa các điểm số không còn lớn như so với hai công trình gốc được trình bày ở Mục 4.1, nhưng sự thay đổi này vẫn cho thấy tiềm năng phát triển của MultiScale WAP.
Từ các thí nghiệm, có thể thấy rằng việc nâng cao mức độ kết hợp cục bộ và toàn cục trong việc xây dựng đặc trưng đa phân giải giúp cải thiện rõ rệt hiệu quả của mô hình.
So sánh với các công trình tham khảo
Trong Mục 4.2, chúng tôi đã so sánh các phiên bản khác nhau của phương pháp đề xuất nhằm cải thiện WAP và MultiScale WAP Tiếp theo, trong Mục 4.3, chúng tôi sẽ đặt các phương pháp này vào ngữ cảnh so sánh với các công trình tham khảo đã được tái lập Việc so sánh sẽ dựa trên đánh giá điểm ExpRate trên tập valid CROHME 2019 và hai tập dữ liệu test CROHME.
Mô hình CROHME 2019 CROHME 2014 CROHME 2016
Bảng 10: So sánh phương pháp đề xuất cải tiến và công trình gốc WAP[14].
Bảng [10] so sánh phương pháp đề xuất cải tiến kiến trúc WAP[13] với công trình gốc.
Mô hình phương pháp đề xuất đã cải thiện đáng kể kết quả đánh giá so với công trình gốc, với các chỉ số ExpRate lần lượt đạt 7.7, 13.52 và 16.56 trên ba tập dữ liệu CROHME 2019, 2014, 2016 Đặc biệt, ở hai tập test, mức tăng vượt trội lên đến hơn 10 điểm.
Việc giới thiệu và ứng dụng đặc trưng đa phân giải đã giúp nâng cao hiệu quả mô hình một cách rõ rệt và đáng kể.
MultiScale WAP 65.73 41.36 41.76 MultiScale WAP + IF 4d+3b 62.83 38.41 39.49 Bảng 11:So sánh phương pháp đề xuất cải tiến và công trình gốc MultiScale WAP[14].
Kết quả so sánh giữa công trình MultiScale WAP và phiên bản ứng dụng đa phân giải cho thấy phương pháp đề xuất không đạt được sự cải thiện như mong đợi Cụ thể, kết quả của phương pháp này thấp hơn công trình MultiScale WAP ở cả ba tập dữ liệu CROHME 2019, CROHME 2014 và CROHME 2016, với các mức chênh lệch lần lượt là 2.9, 2.95 và 2.27 Mặc dù phương pháp sử dụng hai lớp cơ chế tập trung 18 cho thấy khả năng giải quyết vấn đề kí tự nhỏ hiệu quả, kết hợp với kiến trúc mạng DenseNet vẫn chưa mang lại kết quả vượt trội trong việc nhận dạng biểu thức toán học viết tay Do đó, mặc dù có sự cải thiện khi áp dụng vào công trình WAP, nhưng khi so sánh với công trình tham khảo tốt nhất, kết quả vẫn chưa đạt yêu cầu.
18 Thuật ngữ tiếng Anh: Attention Layer
19 thuật ngữ tiếng Anh liên quan đến công nghệ State-of-the-art phân giải trong MultiScale WAP cho thấy rằng phương pháp đề xuất hiện tại vẫn chưa đạt được đột phá về hiệu quả.
Tổng kết 31
Ưu điểm
• Đề xuất được một chương trình khung đánh giá các công trình tham khảo cũng như ý tưởng đề xuất một cách công bằng và khách quan.
Luận văn đã hiện thực hóa và tái lập các công trình tham khảo như WAP và MultiScale WAP Mặc dù không đạt được kết quả như trong bài báo gốc, nhưng nghiên cứu vẫn đưa ra những nhận xét và phân tích về nguyên nhân của sự khác biệt này.
Đề xuất một phương pháp kết hợp đặc trưng đa phân giải với WAP và MultiScale WAP đã cho thấy sự cải thiện đáng kể về điểm số ExpRate trên các tập dữ liệu đánh giá Kết quả thực nghiệm chứng minh hiệu quả của phương pháp này trong việc nâng cao mô hình nền tảng WAP.
Nhược điểm
• Việc tái lập lại các công trình tham khảo vẫn chưa đạt được kết quả ngang tầm với công bố ở bài báo gốc.
• Tuy đạt được kết quả khả quan trên cải tiến WAP nhưng với phiên bản cải tiến MultiScale WAP thì không có kết quả tương tự.
3 Hướng phát triển tương lai
Dựa trên những ưu và nhược điểm đã nêu ở trên, tôi đề ra một số ý tưởng, hướng tiếp cận có thể theo đuổi trong tương lai như
• Thay thế kiến trúc nền tảng của khối rút trích đặc trưng đa phân giải bằng một kiến trúc khác mạnh mẽ hơn, thay thế cho InceptionNet.
Nghiên cứu và thử nghiệm các phương pháp nền tảng thay thế cho mạng nơ-ron hồi quy là cần thiết, tương tự như những gì đã được thực hiện trong lĩnh vực nghiên cứu ngôn ngữ tự nhiên với kiến trúc Transformer.
Kết hợp giữa phương pháp tiếp cận dữ liệu và kiến trúc mô hình là giải pháp hiệu quả để giải quyết bài toán nhận dạng biểu thức toán học Việc áp dụng đồng thời hai phương pháp này giúp cải thiện độ chính xác và hiệu suất trong việc nhận diện các biểu thức toán học phức tạp.
• Ứng dụng các kỹ thuật mới hơn của cơ chế tập trung như Tự tập trung 20 [11] cũng như Tập trung đa đầu 21 [11].
20 Thuật ngữ tiếng Anh: Self-Attention
21 Thuật ngữ tiếng Anh: Multi-head Attention
Trong quá trình thực hiện luận văn, tôi đã tích lũy được nhiều kiến thức mới và nhận thức sâu sắc hơn về những khó khăn trong nghiên cứu và thử nghiệm các phương pháp Việc xây dựng hệ thống huấn luyện và đánh giá các phương pháp này sẽ là hành trang quý báu cho tương lai của tôi Cuối cùng, tôi xin gửi lời cảm ơn chân thành đến quý thầy cô tại Đại học Bách Khoa Thành phố Hồ Chí Minh, đặc biệt là Tiến sĩ Lê Thành Sách, người đã đồng hành và hướng dẫn tôi trong suốt giai đoạn thực hiện luận văn, giúp tôi đạt được mục tiêu hoàn thành ngày hôm nay.
Xin chân thành cảm ơn.
[1] Y LeCun, B Boser, J S Denker, et al., “Backpropagation Applied to Handwritten Zip Code Recognition,” Neural Computation, vol 1, no 4, pp 541–551, Dec 1989. [Online] Available: https://doi.org/10.1162/neco.1989.1.4.541 [Accessed Aug 23, 2022].
In their groundbreaking paper, "ImageNet classification with deep convolutional neural networks," A Krizhevsky, I Sutskever, and G E Hinton presented significant advancements in image classification techniques This work was showcased at the 26th Annual Conference on Neural Information Processing Systems (NIPS 2012) held in Lake Tahoe, Nevada, from December 3 to 6, 2012 Their research has played a pivotal role in the evolution of deep learning and computer vision.
P L Bartlett, F C N Pereira, C J C Burges, L Bottou, and K Q Weinberger, Eds., 2012, pp 1106–1114 [Online] Available: https://proceedings.neurips. cc/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html [Ac- cessed Aug 23, 2022].
In their 2015 paper, "Very Deep Convolutional Networks for Large-Scale Image Recognition," K Simonyan and A Zisserman presented groundbreaking research at the 3rd International Conference on Learning Representations (ICLR) held in San Diego, CA This work, edited by prominent figures Y Bengio and Y LeCun, explores the effectiveness of deep convolutional networks in enhancing image recognition capabilities The full paper is accessible online at http://arxiv.org/abs/1409.1556, with the last access recorded on August 23, 2022.
In their groundbreaking paper presented at the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2015), Szegedy et al explore the advancements in convolutional neural networks by delving deeper into their architecture This research, which took place in Boston, MA, from June 7 to 12, 2015, highlights the significant improvements in image recognition tasks achieved through deeper convolutional layers The full paper is accessible online and serves as a pivotal resource for understanding the evolution of deep learning in computer vision.
Batch normalization is a technique that accelerates the training of deep neural networks by minimizing internal covariate shift This method was introduced by S Ioffe and C Szegedy at the 32nd International Conference on Machine Learning (ICML) in 2015, held in Lille, France.
11, 2015, F R Bach and D M Blei, Eds., ser JMLR Workshop and Conference Proceedings, vol 37, JMLR.org, 2015, pp 448–456 [Online] Available: http : //proceedings.mlr.press/v37/ioffe15.html [Accessed Aug 23, 2022].
In their groundbreaking work presented at the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), K He, X Zhang, S Ren, and J Sun introduced deep residual learning as a novel approach for image recognition This innovative method addresses challenges in training deep neural networks, significantly enhancing performance in visual recognition tasks The conference took place in Las Vegas, NV, from June 27 to 30, 2016, under the auspices of the IEEE Computer Society.
2016, pp 770–778 [Online] Available: https://doi.org/10.1109/CVPR.2016.90 [Accessed Aug 23, 2022].
In their 2017 paper presented at the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) in Honolulu, G Huang, Z Liu, L van der Maaten, and K Q Weinberger introduced the concept of Densely Connected Convolutional Networks This innovative approach enhances feature propagation and encourages feature reuse, significantly improving the performance of deep learning models The full paper can be accessed online via IEEE at https://doi.org/10.1109/CVPR.2017.243, with the publication details available on pages 2261 to 2269.
The U-Net architecture, developed by O Ronneberger, P Fischer, and T Brox, is a powerful convolutional network specifically designed for biomedical image segmentation This innovative model was presented at the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI 2015) held in Munich, Germany, from October 5 to 9, 2015.
A F Frangi, Eds., ser Lecture Notes in Computer Science, vol 9351, Springer,
2015, pp 234–241 [Online] Available: https://doi.org/10.1007/978-3-319- 24574-4_28 [Accessed Aug 23, 2022].
[9] T Lin, P Dollár, R B Girshick, K He, B Hariharan, and S J Belongie, “Feature pyramid networks for object detection,” presented at the 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, Honolulu, HI, USA, Jul 21–
26, 2017, IEEE Computer Society, 2017, pp 936–944 [Online] Available: https: //doi.org/10.1109/CVPR.2017.106 [Accessed Aug 23, 2022].
[10] C Tang, L Sheng, Z Zhang, and X Hu, “Improving pedestrian attribute recognition with weakly-supervised multi-scale attribute-specific localization,” presented at the
2019 IEEE/CVF International Conference on Computer Vision, ICCV 2019, Seoul, Korea (South), Oct 27–Nov 2, 2019, IEEE, 2019, pp 4996–5005 [Online] Available: https://doi.org/10.1109/ICCV.2019.00510 [Accessed Aug 23, 2022].
In their groundbreaking paper "Attention is All You Need," presented at the 2017 Advances in Neural Information Processing Systems conference, Vaswani et al introduced a novel architecture that revolutionizes natural language processing by relying solely on attention mechanisms, eliminating the need for recurrent layers This innovative approach enhances the efficiency and effectiveness of machine learning models, paving the way for significant advancements in the field.
9, 2017, I Guyon, U von Luxburg, S Bengio, et al., Eds., 2017, pp 5998–
6008 [Online] Available: https://proceedings.neurips.cc/paper/2017/hash/ 3f5ee243547dee91fbd053c1c4a845aa-Abstract.html [Accessed Aug 23, 2022].
In their 2015 paper presented at the 3rd International Conference on Learning Representations, Bahdanau, Cho, and Bengio introduced a novel approach to neural machine translation that involves jointly learning to align and translate This research, which has significant implications for improving translation accuracy, can be accessed online at http://arxiv.org/abs/1409.0473, with the paper being edited by Bengio and LeCun The study highlights the importance of alignment in enhancing the translation process.
In their 2017 study, Zhang et al introduced an innovative end-to-end neural network approach for recognizing handwritten mathematical expressions, titled "Watch, Attend and Parse." Published in the journal Pattern Recognition, this research addresses the challenges of accurately interpreting complex mathematical notations through advanced machine learning techniques The full article can be accessed online for further insights into their methodology and findings.
In their 2018 paper presented at the 24th International Conference on Pattern Recognition in Beijing, Zhang, Du, and Dai introduced a novel approach for handwritten mathematical expression recognition, utilizing a multi-scale attention mechanism with a dense encoder This research, published by the IEEE Computer Society, contributes significantly to the field by enhancing the accuracy and efficiency of recognizing complex mathematical notations For further details, the full paper can be accessed online at https://doi.org/10.1109/ICPR.2018.8546031.
In their 2020 paper presented at the 25th International Conference on Pattern Recognition (ICPR) held virtually in Milan, Z Yan, X Zhang, L Gao, K Yuan, and Z Tang introduced "ConvMath," a convolutional sequence network designed for mathematical expression recognition This innovative approach aims to enhance the accuracy and efficiency of recognizing complex mathematical formulas The full paper can be accessed online through IEEE, providing valuable insights into the advancements in this field.
[16] K Chan and D Yeung, “Mathematical expression recognition: A survey,” Interna- tional Journal on Document Analysis and Recognition, vol 3, no 1, pp 3–15, 2000. [Online] Available: https://doi.org/10.1007/PL00013549 [Accessed Aug 23, 2022].
[17] H Mouchère, C Viard-Gaudin, R Zanibbi, U Garain, and D H Kim, “ICDAR
2013 CROHME: third international competition on recognition of online handwrit- ten mathematical expressions,” presented at the 12th International Conference on Document Analysis and Recognition, ICDAR 2013, Washington, DC, USA, Aug 25–
28, 2013, IEEE Computer Society, 2013, pp 1428–1432 [Online] Available:https: //doi.org/10.1109/ICDAR.2013.288 [Accessed Aug 23, 2022].