Ứng Dụng Phát Hiện Văn Bản Trong Ảnh.pdf

Hình ảnh có chứa văn bán được dùng đề phát hiện văn bán Hình ảnh có chứa chữ viết tay được dùng để phát hiện văn bán Hình ảnh được xử lý để phát hiện văn bản trong anh Kỹ thuật OCR được

Trang 1

TRUONG DAI HOC CONG NGHE THONG TIN &

TRUYEN THONG VIET HAN

Khoa Khoa Hoc May Tinh

VU

BAO CAO GIU'A KY DEEP LEARNING

XAY DUNG UNG DUNG PHAT HIEN VAN BAN TRONG ANH

Sinh vién thuc hién:

Lop:

Giảng viên hướng dân:

Trang 2

Da Nang, 20 thang 10 năm 2023

TRUONG DAI HOC CONG NGHE THONG TIN &

TRUYEN THONG VIET HAN

Khoa Khoa Hoc May Tinh

VKU

—_————~-—= B_

BAO CAO GIU'A KY DEEP LEARNING

XAY DUNG UNG DUNG

PHAT HIEN VAN BAN TRONG ANH

Sinh viên thực hiện:

Lớp:

Giảng viên hướng dân:

Trang 3

Da Nang, 05 thang 05 nim 2023

NHAN XET CUA GIAO VIEN HUONG DAN

Trang 4

LOI CAM ON Trước tiên, chúng em xin bay tỏ lòng biết ơn chân thành đến Trường Đại học

Công nghệ Thông tin và Truyền thông Việt - Hàn đã bao gồm môn học Deep Learning

vào chương trình giảng dạy của trường Đặc biệt, chúng em muốn gửi lời cảm ơn sâu sắc đến giảng viên bộ môn -, vì đã hết lòng truyền đạt kiến thức quý báu và hướng dẫn chúng em trong quá trình học tập và nghiên cứu Kinh nghiệm này sẽ giúp chúng em vững bước trên con đường sự nghiệp trong tương lai,

Môn học Deep Learning là một môn học thực sự thú vị, hữu ích và có tính ứng

dụng cao Nó đảm báo cung cấp đầy đủ kiến thức và gắn liền với nhu cầu thực tế của sinh viên Tuy nhiên, vì khả năng tiếp thu kiến thức của chúng em còn hạn ché, đôi

khi gặp nhiều khó khăn trong quá trình học tập và nghiên cứu Dù đã có gắng hết sức,

nhưng bài tiêu luận của chúng tôi vẫn còn nhiều thiếu sót và chưa chính xác Vì vậy, chúng em kính mong nhận được những góp ý và đánh giá từ thầy cô để hoàn thiện bài

tiêu luận của mình

Một lần nữa, chúng em xin chân thành cảm ơn!

Sinh viên

MỤC LỤ

Trang 5

DANH MUC CAC TU VIET TAT

1.3 OCR (Optical Character Recognition)

1.5 Convolutional Neural Network (CNN)

2.1 Cac thuat toan hoc may

2.2 Các phương pháp dựa trên quy luật

2.3 Các phương pháp dựa trên mô hình

CHƯƠNG 2 - PHAN TÍCH VÀ THIẾT KE HE THONG

1

N Thiết kế kiến trúc hệ thống

Phân tích yêu cầu

15 1ó

Trang 7

DANH MUC CAC TU VIET TAT

Trang 8

Hình ảnh có chứa văn bán được dùng đề phát hiện văn bán

Hình ảnh có chứa chữ viết tay được dùng để phát hiện văn bán

Hình ảnh được xử lý để phát hiện văn bản trong anh

Kỹ thuật OCR được dùng để phát hiện văn bán

Một ví dụ về Bounding Box được sử dụng cho ký tự được phát hiện trong ánh Convolutional Neural Network (CNN)

Thuật toán Support Vector Machine (SVM)

Thuat toan K-Means

Giao điện khi mới bắt đầu khởi chạy ứng đụng

Giao diện nút đề tải ảnh và xử lý sau khi ảnh được tải lên

Thu mục mở lên khi ấn vào nút tải ảnh và hiển thư mục ở chọn ảnh xử ly

Một bức ảnh có chữ đề phát hiện được tải lên ứng dụng

Sau khi nhắn nút Bắt đầu xử lý thì sẽ hiển thị ra ánh gốc và ánh được các Bounding

Box phát hiện chữ có trong ảnh

Trang 9

MO DAU

1 Giới thiệu —

Công nghệ đang phát triển rất nhanh chóng, và Trí tuệ nhân tạo (AI) đang là một

trong những lĩnh vực được quan tâm đặc biệt Với khả năng học và tự động hóa các tác

vụ, AI đang trở thành một công cụ hỗ trợ đắc lực cho con người trong nhiều lĩnh vực

khác nhau

Với sự phát triển của AI, ta có thể dự đoán rằng trong tương lai, AI sẽ trở thành

một ngành công nghiệp quan trọng và hỗ trợ đắc lực cho con người Nó sẽ giúp chúng ta tăng năng suất, giảm chỉ phí và tăng cường sự hiệu quá trong nhiều lĩnh vực như y tế,

giáo dục, sản xuất, kinh đoanh và nhiều lĩnh vực khác

Tuy nhiên, việc áp dụng AI cũng đòi hỏi chúng ta phải đưa ra các quy định và chính sách để đám bảo rằng AI được sử đụng đúng cách và an toàn cho con người Việc đào tạo và phát triển các chuyên gia về AI cũng rất quan trọng để đảm bao rang chúng

ta có đủ nhân lực để thúc day su phat triển của AI và sử dụng nó đúng cách

Với sự phát triển ngày càng mạnh mẽ của công nghệ, AI sẽ trở thành một phần không thê thiếu trong cuộc sống và người ta sẽ đễ dàng nhận thấy tam quan trọng của nó

đối với sự phát triển của xã hội.Và việc sử dụng các ứng dụng AI trở thành một lựa chọn lý tưởng, một công cụ hỗ trợ hữu ích

Đề tài "Xây dựng ứng dụng phát hiện văn bản trong ánh" là một trong những lĩnh vực nghiên cứu phô biến trong trí tuệ nhân tạo hiện nay Đây là một bài toán khó và có

nhiều ứng dụng thực tiễn trong các lĩnh vực như xử lý ảnh, nhận dạng ký tự, chữ viết

tay, v.v Để tài này tập trung vào việc xây đựng một ứng dụng phát hiện văn bản trong ảnh, sử đụng các kỹ thuật xử lý ánh và mô hình học máy để phát hiện và trích xuất văn

bản từ các ảnh có chứa văn bản Ứng dụng này có thể được sử dụng để tự động nhận

dạng và chuyến đổi thông tin từ các tài liệu ảnh, giúp tiết kiệm thời gian và nâng cao hiệu quả công việc

Ứng dụng phát hiện văn bản trong ảnh là một trong những ứng dụng phổ biến của trí tuệ nhân tạo ngày nay Được sử dụng trong nhiều lĩnh vực khác nhau như quản lý tài liệu, công nghiệp sản xuất, bảo vệ thông tin, hoặc thậm chí giúp người dùng dé đàng chụp ánh các tài liệu để quét vào hệ thống Trong đề tài này, chúng ta sẽ tìm hiểu cách xây dựng một ứng dụng phát hiện văn bản trong ảnh đơn giản sử dụng các thư viện mã

Trang 10

dụng công cu OCR (Optical Character Recognition) cua Tesseract Voi wng dung nay, chúng ta có thể tự động phát hiện và chuyển đổi các tài liệu được chụp ảnh thành văn ban co thé str dung trong các hệ thống khác nhau

2 Mục tiêu, nhiệm vu của đề tài

Mục tiêu chính của đề tài là phát triển một hệ thống tự động có khả năng phát hiện

và trích xuất văn bản từ ảnh Cụ thể, hệ thông này sẽ nhận đầu vào là một ảnh chứa văn

ban bất kỳ, sau đó sẽ xử lý ánh và trích xuất các vùng chứa văn bán Kết quả đâu ra là

một tập hợp các văn bản được trích xuất từ ảnh đó

r oA Ẩ 2 A uxe aA

* Cac nhiém vu cu thé cua dé tai bao gom:

> Tim hiéu các phương pháp, thuật toán phát hiện văn bản trong ánh hiện có trên thị trường và các công nghệ có liên quan

> Xây dựng mô hình phát hiện văn bản trong ảnh dựa trên các phương pháp, thuật toán

đã tìm hiểu

> Cài đặt và triển khai mô hình phát hiện văn bản trong ảnh thành một ứng dụng thực

tế có thể sử dụng trên các thiết bị đi động và máy tính

> Tối ưu và cải thiện độ chính xác của hệ thống băng cách thử nghiệm và đánh giá hiệu suất của các phương pháp, thuật toán được sử dụng

3 Đối tượng, phạm vi và phương pháp tiếp cận

> Phạm vi của để tài là xây dựng một ứng dụng phát hiện van ban trong ảnh sử dụng

các kỹ thuật thị giác máy tính và xử lý ảnh

> Đối tượng ảnh đầu vào là ảnh chụp từ camera hoặc từ các tập tin hình ảnh

* Phương pháp tiếp cận:

Trang 11

> Dé đạt được mục tiêu, đề tài sẽ sử dụng các kỹ thuật và công nghệ thị giác máy tính

và xử lý ảnh như việc sử dụng mô hình nhận dạng ký tự (OCR) dé phát hiện văn bản

trong ảnh, các kỹ thuật xử lý ảnh như làm mịn ảnh và giảm nhiễu, phép giãn sáng, phép nhân, phép lật ảnh, và các thuật toán phân vùng ảnh Các kỹ thuật này sẽ được thực hiện thông qua việc sử dụng các thư viện và công cụ hỗ trợ trong Python và

OpenC V,

4 Đóng góp của đề tài

Ứng dụng này đóng góp trong việc cải thiện hiệu quả và tốc độ phát hiện văn bản trong ánh, đặc biệt là khi phải xử lý một lượng lớn ánh hoặc trong các ứng dụng thực tế như nhận dang biến số xe, giám sát an ninh, quản lý tài liệu Băng cách sử dụng các phương pháp và công nghệ mới nhất trong lĩnh vực thị giác máy tính và học sâu, để tài

đã cải thiện độ chính xác và hiệu suất phát hiện văn bán trong ảnh Ngoài ra, để tài cũng cung cấp một ứng dụng phát hiện văn bản trong ánh thân thiện với người dùng, giúp người đùng để dàng sử dụng và tích hợp vào các hệ thống hiện có

Trang 12

CHUONG 1 — TONG QUAN VE DE TAI

1 Các khái niệm cơ bản

1.1 Văn bản

Văn bản là các ký tự được viết bằng ngôn ngữ như tiếng Anh, tiếng Việt, tiếng Pháp, tiếng Trung, v.v Trong phát hiện văn bản trong ảnh, văn bản được định nghĩa là

bắt kỳ ký tự nào có thể được đọc bởi con người và xuất hiện trên các hình anh

Van ban là một phần quan trọng trong các hình ảnh, bao gồm các chữ viết tay, in

ấn hoặc các ký hiệu khác như biến báo giao thông, nhãn hàng hoá, tên công ty Tuy

nhiên, đối với máy tính, việc phân biệt các ký tự trong hình ảnh và các thành phần khác như phông chữ, kích thước, màu sắc, hướng, độ nghiêng, nền, v.v là một thách thức

Các phương pháp phát hiện văn bản trong ánh thường phải xử lý và phân tích nhiều yếu

tố khác nhau để xác định và phân loại các ký tự trong hình ảnh một cách chính xác

Hình 1.1 Hình ảnh có chứa văn bản được dùng để phát hiện văn bản

Trang 13

lotw- by Hu wi Drb - berignt

T | ~ felt yaulat

2da-+ da) GARY

Hình 1.2 Hình ảnh có chứa chữ viết tay được dùng để phát hiện van ban 1.2 Phát hiện văn bản

Phát hiện văn bản là quá trình quan trọng đề trích xuất thông tin từ hình ảnh Phát

hiện văn bản được định nghĩa là quá trình tìm kiếm và phát hiện vị trí của các ký tự văn bản trên một hình ảnh Quá trình này bao gồm nhiều bước như xác định khu vực chứa

văn bản trên ảnh, phân đoạn văn bán thành các ký tự riêng lẻ, rồi đưa ra kết quả phát hiện văn ban Các phương pháp phát hiện văn bán phổ biến hiện nay bao gồm các kỹ

thuật như xử lý ảnh, học máy và các mô hình deep learning

"“".".áw 7 TEXT

DETECTION OPENCV

Hình 1.3 Hình ảnh được xử lý đề phát hiện văn bản trong ảnh

Trang 14

1.3 OCR (Optical Character Recognition)

OCR (Optical Character Recognition) là một kỹ thuật được sử dụng đề chuyên đôi

văn bản được viết bằng tay hoặc được In ra thành dạng số có thể được xử lý bởi máy

tính Quá trình OCR bao gồm việc quét tài liệu, nhận đạng và biểu diễn các ký tự trong

tài liệu dưới dang ma số Các ký tự này sau đó có thể được lưu trữ, tìm kiếm hoặc sử dụng cho các mục đích khác

Trong việc phát hiện van ban trong ánh, kỹ thuật OCR có thể được sử dụng dé chuyên đổi các ký tự trên hình ảnh thành dạng số đề đễ dàng xử lý và đọc được bởi may tính Kỹ thuật này đóng vai trò quan trọng trong việc xử lý và trích xuất thông tin từ các tài liệu ánh như giấy tờ, hóa đơn, bảng chấm công

Optical Character Recognition

Hinh l4 Kỹ thuật OCN được dùng để phát hiện văn bản

1.4 Bounding Box

Bounding box là một khái niệm quan trọng trong phát hiện văn bản trong ảnh Nó được sử dụng để xác định vị trí của các ký tự văn bản trên hình ảnh Một bounding box được định nghĩa là một hình chữ nhật bao quanh một vật thể trên một hình ảnh Trong

trường hợp này, vật thê đó là văn ban Bounding box có thê được sử dụng để giới hạn

khu vực chứa ký tự và phân đoạn văn bản từ hình ảnh Các thông tin về bounding box

cũng có thê được sử dụng để huấn luyện các mô hình phát hiện văn bản và cải thiện độ chính xác của chúng

Trang 15

anh

1.5 Convolutional Neural Network (CNN)

Convolutional Neural Networks (CNNs) la mét loai mang than kinh nhân tạo được

sử dụng rộng rãi trong phát hiện văn bản trong ảnh CNNs được thiết kế để học cách trích xuất các đặc trưng từ hình ánh và sử dụng chúng để phân loại và phát hiện vật thế

trên hình ảnh Điều này được thực hiện bằng cách sử dụng các lớp convolutlonal,

pooling và fully connected để học các tính năng cấp cao của hình ảnh CNNs thường

được đảo tạo trên các tập dữ liệu lớn và đa dạng dé dam bao tinh tông quát và hiệu quả

của chúng trong việc phát hiện văn bản trên ảnh Các mô hình CNNs phố biến được sử dung trong phat hién van ban bao g6m: YOLO, SSD va Faster R-CNN

Convolution Neural Network (CNN)

Input

layer

- Feature Maps >

Feature Extraction Classification —

Hinh 1.6 Convolutional Neural Network (CNN)

Trang 16

2 Cac phwong phap trong viéc phat hién van ban

2.1 Các thuật toán học máy

Các thuật toán được sử dụng cho việc phát hiện văn bản trong gôm có SVM

(Support Vector Machine), CNN (Convolutional Neural Network), va cac thuat toán phân cụm (clustering) như K-means Mô hình học máy có thể được huấn luyện trên các

tập đữ liệu lớn dé nhận biết các đặc điểm của văn bán trên hình ảnh, từ đó dự đoán vị trí

và nội đung của văn bản trên hình ánh Ưu điểm của phương pháp này là khả năng xử lý các hình ảnh phức tạp và đa dạng, tuy nhiên, hạn chế của phương pháp này là cần có số

lượng lớn dữ liệu huấn luyện dé đạt được kết quả tốt

* ƯM điểm: Có khả năng xử lý các hình ảnh phức tạp và đa dạng, tự động học hỏi từ dữ liệu huấn luyện đề tối ưu hóa kết quả phát hiện văn bản

* Hạn chế: Cần có số lượng lớn đữ liệu huấn luyện để đạt được kết quả tốt Điều này đòi hỏi chỉ phí lớn để thu thập và xử lý dữ liệu, đồng thời cũng có thể gây ra hiện tượng overfitting khi mô hình được huấn luyện trên quá nhiều đữ liệu

Hình l7 Thuật toán Support Vector Machine (SVM)

Trang 17

\ VY / ví j

Dim1 (73%) Hình l8 Thuật toan K-Means

2.2 Các phương pháp dựa trên quy luật ¬

Các phương pháp này sử dụng các quy luật và nguyên tắc đề phát hiện văn bản trong anh Ví dụ, phương pháp dựa trên đối sánh màu sắc và độ tương phan của ký tự với một tập các mẫu ký tự đã biết trước Ưu điểm của phương pháp này là độ chính xác cao và không cần nhiều dữ liệu huấn luyện, nhưng hạn chế của phương pháp này là không thê xử lý các hình ảnh phức tạp và đa dạng

* Ưu điểm: Được xây dựng trên các quy tắc và logic cụ thể, giúp cho việc hiểu và giải thích kết quá phát hiện văn bán một cach dé dàng Đông thời, không yêu cầu số lượng

lớn đữ liệu huấn luyện như các thuật toán máy học

* Hạn chế: Có thé không đủ linh hoạt để xử lý các trường hợp phức tạp và đa dang Đồng thời, phải có sự hiểu biết chuyên môn và kinh nghiệm để xây dựng các quy luật chính xác và đáng tin cậy

2.3 Các phương pháp dựa trên mồ hình

Các phương pháp này sử dụng các mô hình được xây dựng dựa trên các đặc trưng

của văn bản trên hình ảnh để phát hiện văn bản Ví dụ, mô hình phân loại đối tượng

(object detection model) cé thé được sử dụng để phát hiện văn bản trên hình anh Ưu điểm của phương pháp này là độ chính xác cao và có thế xử lý các hình ảnh phức tạp và

đa dạng, nhưng hạn chế của phương pháp này là cần có sự đầu tư về mặt kỹ thuật và tính toán đề xây dựng và huấn luyện các mô hình

* Ưu điểm: Sử dụng các mô hình đã được đảo tạo trước đó và có thể được tính chỉnh dé

phù hợp với các bài toán cụ thể Có khá năng xử lý các hình ảnh phức tạp và đa dạng

Tiêu đề	Xây Dựng Ứng Dụng Phát Hiện Văn Bản Trong Ảnh
Trường học	Trường Đại Học Công Nghệ Thông Tin & Truyền Thông Việt - Hàn
Chuyên ngành	Khoa Khoa Học Máy Tính
Thể loại	báo cáo giữa kỳ
Năm xuất bản	2023
Thành phố	Đà Nẵng

Định dạng
Số trang	32
Dung lượng	7,62 MB