Hình ảnh có chứa văn bán được dùng đề phát hiện văn bán Hình ảnh có chứa chữ viết tay được dùng để phát hiện văn bán Hình ảnh được xử lý để phát hiện văn bản trong anh Kỹ thuật OCR được
Trang 1
TRUONG DAI HOC CONG NGHE THONG TIN &
TRUYEN THONG VIET HAN
Khoa Khoa Hoc May Tinh
VU
BAO CAO GIU'A KY DEEP LEARNING
XAY DUNG UNG DUNG PHAT HIEN VAN BAN TRONG ANH
Sinh vién thuc hién:
Lop:
Giảng viên hướng dân:
Trang 2Da Nang, 20 thang 10 năm 2023
TRUONG DAI HOC CONG NGHE THONG TIN &
TRUYEN THONG VIET HAN
Khoa Khoa Hoc May Tinh
VKU
—_————~-—= B_
BAO CAO GIU'A KY DEEP LEARNING
XAY DUNG UNG DUNG
PHAT HIEN VAN BAN TRONG ANH
Sinh viên thực hiện:
Lớp:
Giảng viên hướng dân:
Trang 3Da Nang, 05 thang 05 nim 2023
NHAN XET CUA GIAO VIEN HUONG DAN
Trang 4LOI CAM ON Trước tiên, chúng em xin bay tỏ lòng biết ơn chân thành đến Trường Đại học
Công nghệ Thông tin và Truyền thông Việt - Hàn đã bao gồm môn học Deep Learning
vào chương trình giảng dạy của trường Đặc biệt, chúng em muốn gửi lời cảm ơn sâu sắc đến giảng viên bộ môn -, vì đã hết lòng truyền đạt kiến thức quý báu và hướng dẫn chúng em trong quá trình học tập và nghiên cứu Kinh nghiệm này sẽ giúp chúng em vững bước trên con đường sự nghiệp trong tương lai,
Môn học Deep Learning là một môn học thực sự thú vị, hữu ích và có tính ứng
dụng cao Nó đảm báo cung cấp đầy đủ kiến thức và gắn liền với nhu cầu thực tế của sinh viên Tuy nhiên, vì khả năng tiếp thu kiến thức của chúng em còn hạn ché, đôi
khi gặp nhiều khó khăn trong quá trình học tập và nghiên cứu Dù đã có gắng hết sức,
nhưng bài tiêu luận của chúng tôi vẫn còn nhiều thiếu sót và chưa chính xác Vì vậy, chúng em kính mong nhận được những góp ý và đánh giá từ thầy cô để hoàn thiện bài
tiêu luận của mình
Một lần nữa, chúng em xin chân thành cảm ơn!
Sinh viên
MỤC LỤ
Trang 5DANH MUC CAC TU VIET TAT
1.3 OCR (Optical Character Recognition)
1.5 Convolutional Neural Network (CNN)
2.1 Cac thuat toan hoc may
2.2 Các phương pháp dựa trên quy luật
2.3 Các phương pháp dựa trên mô hình
CHƯƠNG 2 - PHAN TÍCH VÀ THIẾT KE HE THONG
1
N Thiết kế kiến trúc hệ thống
Phân tích yêu cầu
15 1ó
Trang 7DANH MUC CAC TU VIET TAT
Trang 8Hình ảnh có chứa văn bán được dùng đề phát hiện văn bán
Hình ảnh có chứa chữ viết tay được dùng để phát hiện văn bán
Hình ảnh được xử lý để phát hiện văn bản trong anh
Kỹ thuật OCR được dùng để phát hiện văn bán
Một ví dụ về Bounding Box được sử dụng cho ký tự được phát hiện trong ánh Convolutional Neural Network (CNN)
Thuật toán Support Vector Machine (SVM)
Thuat toan K-Means
Giao điện khi mới bắt đầu khởi chạy ứng đụng
Giao diện nút đề tải ảnh và xử lý sau khi ảnh được tải lên
Thu mục mở lên khi ấn vào nút tải ảnh và hiển thư mục ở chọn ảnh xử ly
Một bức ảnh có chữ đề phát hiện được tải lên ứng dụng
Sau khi nhắn nút Bắt đầu xử lý thì sẽ hiển thị ra ánh gốc và ánh được các Bounding
Box phát hiện chữ có trong ảnh
Trang 9MO DAU
1 Giới thiệu —
Công nghệ đang phát triển rất nhanh chóng, và Trí tuệ nhân tạo (AI) đang là một
trong những lĩnh vực được quan tâm đặc biệt Với khả năng học và tự động hóa các tác
vụ, AI đang trở thành một công cụ hỗ trợ đắc lực cho con người trong nhiều lĩnh vực
khác nhau
Với sự phát triển của AI, ta có thể dự đoán rằng trong tương lai, AI sẽ trở thành
một ngành công nghiệp quan trọng và hỗ trợ đắc lực cho con người Nó sẽ giúp chúng ta tăng năng suất, giảm chỉ phí và tăng cường sự hiệu quá trong nhiều lĩnh vực như y tế,
giáo dục, sản xuất, kinh đoanh và nhiều lĩnh vực khác
Tuy nhiên, việc áp dụng AI cũng đòi hỏi chúng ta phải đưa ra các quy định và chính sách để đám bảo rằng AI được sử đụng đúng cách và an toàn cho con người Việc đào tạo và phát triển các chuyên gia về AI cũng rất quan trọng để đảm bao rang chúng
ta có đủ nhân lực để thúc day su phat triển của AI và sử dụng nó đúng cách
Với sự phát triển ngày càng mạnh mẽ của công nghệ, AI sẽ trở thành một phần không thê thiếu trong cuộc sống và người ta sẽ đễ dàng nhận thấy tam quan trọng của nó
đối với sự phát triển của xã hội.Và việc sử dụng các ứng dụng AI trở thành một lựa chọn lý tưởng, một công cụ hỗ trợ hữu ích
Đề tài "Xây dựng ứng dụng phát hiện văn bản trong ánh" là một trong những lĩnh vực nghiên cứu phô biến trong trí tuệ nhân tạo hiện nay Đây là một bài toán khó và có
nhiều ứng dụng thực tiễn trong các lĩnh vực như xử lý ảnh, nhận dạng ký tự, chữ viết
tay, v.v Để tài này tập trung vào việc xây đựng một ứng dụng phát hiện văn bản trong ảnh, sử đụng các kỹ thuật xử lý ánh và mô hình học máy để phát hiện và trích xuất văn
bản từ các ảnh có chứa văn bản Ứng dụng này có thể được sử dụng để tự động nhận
dạng và chuyến đổi thông tin từ các tài liệu ảnh, giúp tiết kiệm thời gian và nâng cao hiệu quả công việc
Ứng dụng phát hiện văn bản trong ảnh là một trong những ứng dụng phổ biến của trí tuệ nhân tạo ngày nay Được sử dụng trong nhiều lĩnh vực khác nhau như quản lý tài liệu, công nghiệp sản xuất, bảo vệ thông tin, hoặc thậm chí giúp người dùng dé đàng chụp ánh các tài liệu để quét vào hệ thống Trong đề tài này, chúng ta sẽ tìm hiểu cách xây dựng một ứng dụng phát hiện văn bản trong ảnh đơn giản sử dụng các thư viện mã
Trang 10dụng công cu OCR (Optical Character Recognition) cua Tesseract Voi wng dung nay, chúng ta có thể tự động phát hiện và chuyển đổi các tài liệu được chụp ảnh thành văn ban co thé str dung trong các hệ thống khác nhau
2 Mục tiêu, nhiệm vu của đề tài
Mục tiêu chính của đề tài là phát triển một hệ thống tự động có khả năng phát hiện
và trích xuất văn bản từ ảnh Cụ thể, hệ thông này sẽ nhận đầu vào là một ảnh chứa văn
ban bất kỳ, sau đó sẽ xử lý ánh và trích xuất các vùng chứa văn bán Kết quả đâu ra là
một tập hợp các văn bản được trích xuất từ ảnh đó
r oA Ẩ 2 A uxe aA
* Cac nhiém vu cu thé cua dé tai bao gom:
> Tim hiéu các phương pháp, thuật toán phát hiện văn bản trong ánh hiện có trên thị trường và các công nghệ có liên quan
> Xây dựng mô hình phát hiện văn bản trong ảnh dựa trên các phương pháp, thuật toán
đã tìm hiểu
> Cài đặt và triển khai mô hình phát hiện văn bản trong ảnh thành một ứng dụng thực
tế có thể sử dụng trên các thiết bị đi động và máy tính
> Tối ưu và cải thiện độ chính xác của hệ thống băng cách thử nghiệm và đánh giá hiệu suất của các phương pháp, thuật toán được sử dụng
3 Đối tượng, phạm vi và phương pháp tiếp cận
> Phạm vi của để tài là xây dựng một ứng dụng phát hiện van ban trong ảnh sử dụng
các kỹ thuật thị giác máy tính và xử lý ảnh
> Đối tượng ảnh đầu vào là ảnh chụp từ camera hoặc từ các tập tin hình ảnh
* Phương pháp tiếp cận:
Trang 11> Dé đạt được mục tiêu, đề tài sẽ sử dụng các kỹ thuật và công nghệ thị giác máy tính
và xử lý ảnh như việc sử dụng mô hình nhận dạng ký tự (OCR) dé phát hiện văn bản
trong ảnh, các kỹ thuật xử lý ảnh như làm mịn ảnh và giảm nhiễu, phép giãn sáng, phép nhân, phép lật ảnh, và các thuật toán phân vùng ảnh Các kỹ thuật này sẽ được thực hiện thông qua việc sử dụng các thư viện và công cụ hỗ trợ trong Python và
OpenC V,
4 Đóng góp của đề tài
Ứng dụng này đóng góp trong việc cải thiện hiệu quả và tốc độ phát hiện văn bản trong ánh, đặc biệt là khi phải xử lý một lượng lớn ánh hoặc trong các ứng dụng thực tế như nhận dang biến số xe, giám sát an ninh, quản lý tài liệu Băng cách sử dụng các phương pháp và công nghệ mới nhất trong lĩnh vực thị giác máy tính và học sâu, để tài
đã cải thiện độ chính xác và hiệu suất phát hiện văn bán trong ảnh Ngoài ra, để tài cũng cung cấp một ứng dụng phát hiện văn bản trong ánh thân thiện với người dùng, giúp người đùng để dàng sử dụng và tích hợp vào các hệ thống hiện có
Trang 12CHUONG 1 — TONG QUAN VE DE TAI
1 Các khái niệm cơ bản
1.1 Văn bản
Văn bản là các ký tự được viết bằng ngôn ngữ như tiếng Anh, tiếng Việt, tiếng Pháp, tiếng Trung, v.v Trong phát hiện văn bản trong ảnh, văn bản được định nghĩa là
bắt kỳ ký tự nào có thể được đọc bởi con người và xuất hiện trên các hình anh
Van ban là một phần quan trọng trong các hình ảnh, bao gồm các chữ viết tay, in
ấn hoặc các ký hiệu khác như biến báo giao thông, nhãn hàng hoá, tên công ty Tuy
nhiên, đối với máy tính, việc phân biệt các ký tự trong hình ảnh và các thành phần khác như phông chữ, kích thước, màu sắc, hướng, độ nghiêng, nền, v.v là một thách thức
Các phương pháp phát hiện văn bản trong ánh thường phải xử lý và phân tích nhiều yếu
tố khác nhau để xác định và phân loại các ký tự trong hình ảnh một cách chính xác
Hình 1.1 Hình ảnh có chứa văn bản được dùng để phát hiện văn bản
Trang 13
lotw- by Hu wi Drb - berignt
T | ~ felt yaulat
2da-+ da) GARY
Hình 1.2 Hình ảnh có chứa chữ viết tay được dùng để phát hiện van ban 1.2 Phát hiện văn bản
Phát hiện văn bản là quá trình quan trọng đề trích xuất thông tin từ hình ảnh Phát
hiện văn bản được định nghĩa là quá trình tìm kiếm và phát hiện vị trí của các ký tự văn bản trên một hình ảnh Quá trình này bao gồm nhiều bước như xác định khu vực chứa
văn bản trên ảnh, phân đoạn văn bán thành các ký tự riêng lẻ, rồi đưa ra kết quả phát hiện văn ban Các phương pháp phát hiện văn bán phổ biến hiện nay bao gồm các kỹ
thuật như xử lý ảnh, học máy và các mô hình deep learning
"“".".áw 7 TEXT
DETECTION OPENCV
Hình 1.3 Hình ảnh được xử lý đề phát hiện văn bản trong ảnh
Trang 141.3 OCR (Optical Character Recognition)
OCR (Optical Character Recognition) là một kỹ thuật được sử dụng đề chuyên đôi
văn bản được viết bằng tay hoặc được In ra thành dạng số có thể được xử lý bởi máy
tính Quá trình OCR bao gồm việc quét tài liệu, nhận đạng và biểu diễn các ký tự trong
tài liệu dưới dang ma số Các ký tự này sau đó có thể được lưu trữ, tìm kiếm hoặc sử dụng cho các mục đích khác
Trong việc phát hiện van ban trong ánh, kỹ thuật OCR có thể được sử dụng dé chuyên đổi các ký tự trên hình ảnh thành dạng số đề đễ dàng xử lý và đọc được bởi may tính Kỹ thuật này đóng vai trò quan trọng trong việc xử lý và trích xuất thông tin từ các tài liệu ánh như giấy tờ, hóa đơn, bảng chấm công
Optical Character Recognition
Hinh l4 Kỹ thuật OCN được dùng để phát hiện văn bản
1.4 Bounding Box
Bounding box là một khái niệm quan trọng trong phát hiện văn bản trong ảnh Nó được sử dụng để xác định vị trí của các ký tự văn bản trên hình ảnh Một bounding box được định nghĩa là một hình chữ nhật bao quanh một vật thể trên một hình ảnh Trong
trường hợp này, vật thê đó là văn ban Bounding box có thê được sử dụng để giới hạn
khu vực chứa ký tự và phân đoạn văn bản từ hình ảnh Các thông tin về bounding box
cũng có thê được sử dụng để huấn luyện các mô hình phát hiện văn bản và cải thiện độ chính xác của chúng
Trang 15
anh
1.5 Convolutional Neural Network (CNN)
Convolutional Neural Networks (CNNs) la mét loai mang than kinh nhân tạo được
sử dụng rộng rãi trong phát hiện văn bản trong ảnh CNNs được thiết kế để học cách trích xuất các đặc trưng từ hình ánh và sử dụng chúng để phân loại và phát hiện vật thế
trên hình ảnh Điều này được thực hiện bằng cách sử dụng các lớp convolutlonal,
pooling và fully connected để học các tính năng cấp cao của hình ảnh CNNs thường
được đảo tạo trên các tập dữ liệu lớn và đa dạng dé dam bao tinh tông quát và hiệu quả
của chúng trong việc phát hiện văn bản trên ảnh Các mô hình CNNs phố biến được sử dung trong phat hién van ban bao g6m: YOLO, SSD va Faster R-CNN
Convolution Neural Network (CNN)
Input
layer
- Feature Maps >
Feature Extraction Classification —
Hinh 1.6 Convolutional Neural Network (CNN)
Trang 162 Cac phwong phap trong viéc phat hién van ban
2.1 Các thuật toán học máy
Các thuật toán được sử dụng cho việc phát hiện văn bản trong gôm có SVM
(Support Vector Machine), CNN (Convolutional Neural Network), va cac thuat toán phân cụm (clustering) như K-means Mô hình học máy có thể được huấn luyện trên các
tập đữ liệu lớn dé nhận biết các đặc điểm của văn bán trên hình ảnh, từ đó dự đoán vị trí
và nội đung của văn bản trên hình ánh Ưu điểm của phương pháp này là khả năng xử lý các hình ảnh phức tạp và đa dạng, tuy nhiên, hạn chế của phương pháp này là cần có số
lượng lớn dữ liệu huấn luyện dé đạt được kết quả tốt
* ƯM điểm: Có khả năng xử lý các hình ảnh phức tạp và đa dạng, tự động học hỏi từ dữ liệu huấn luyện đề tối ưu hóa kết quả phát hiện văn bản
* Hạn chế: Cần có số lượng lớn đữ liệu huấn luyện để đạt được kết quả tốt Điều này đòi hỏi chỉ phí lớn để thu thập và xử lý dữ liệu, đồng thời cũng có thể gây ra hiện tượng overfitting khi mô hình được huấn luyện trên quá nhiều đữ liệu
Hình l7 Thuật toán Support Vector Machine (SVM)
Trang 17\ VY / ví j
Dim1 (73%) Hình l8 Thuật toan K-Means
2.2 Các phương pháp dựa trên quy luật ¬
Các phương pháp này sử dụng các quy luật và nguyên tắc đề phát hiện văn bản trong anh Ví dụ, phương pháp dựa trên đối sánh màu sắc và độ tương phan của ký tự với một tập các mẫu ký tự đã biết trước Ưu điểm của phương pháp này là độ chính xác cao và không cần nhiều dữ liệu huấn luyện, nhưng hạn chế của phương pháp này là không thê xử lý các hình ảnh phức tạp và đa dạng
* Ưu điểm: Được xây dựng trên các quy tắc và logic cụ thể, giúp cho việc hiểu và giải thích kết quá phát hiện văn bán một cach dé dàng Đông thời, không yêu cầu số lượng
lớn đữ liệu huấn luyện như các thuật toán máy học
* Hạn chế: Có thé không đủ linh hoạt để xử lý các trường hợp phức tạp và đa dang Đồng thời, phải có sự hiểu biết chuyên môn và kinh nghiệm để xây dựng các quy luật chính xác và đáng tin cậy
2.3 Các phương pháp dựa trên mồ hình
Các phương pháp này sử dụng các mô hình được xây dựng dựa trên các đặc trưng
của văn bản trên hình ảnh để phát hiện văn bản Ví dụ, mô hình phân loại đối tượng
(object detection model) cé thé được sử dụng để phát hiện văn bản trên hình anh Ưu điểm của phương pháp này là độ chính xác cao và có thế xử lý các hình ảnh phức tạp và
đa dạng, nhưng hạn chế của phương pháp này là cần có sự đầu tư về mặt kỹ thuật và tính toán đề xây dựng và huấn luyện các mô hình
* Ưu điểm: Sử dụng các mô hình đã được đảo tạo trước đó và có thể được tính chỉnh dé
phù hợp với các bài toán cụ thể Có khá năng xử lý các hình ảnh phức tạp và đa dạng