Báo cáo đầy đủ chuẩn, có app. Chỉ cần nộp cho gv PHỤ LỤC: MÔ TẢ YÊU CẦU KỸ THUẬT CỦA MÔ HÌNH MẠNG NƠ RON NHÂN TẠO NHẬN DẠNG KÍ TỰ 1. Các tính năng: - Nhận dạng các kí tự chữ viết và số viết tay - Độ chính xác nhận dạng đáp ứng yêu cầu hệ thống - Kiểm tra độ chính xác khi nhận dạng các chữ viết tay với độ chính xác là bao nhiêu phần trăm. 2. Thông số kỹ thuật - Độ chính xác nhận dạng đạt tối thiểu 70% 3. Yêu cầu cụ thể - Thiết kế mô hình mạng nơ-ron nhân tạo: + Vẽ mô hình mạng neuron + Thiết lập các tham số mô hình + Phân tích thuật toán nhận dạng - Thiết kế mô hình phần mềm: + Thiết lập cơ sở dữ liệu + Phân tách tập dữ liệu train và test + Đưa dữ liệu vào test +Thực hiện nhận dạng các kí tự theo yêu cầu.
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
Trang 3DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT
Ký hiệu Tên đầy đủ Ý nghĩa
Network Mạng neuron nhân tạo
Network Mạng neuron hồi quy
ResNet Residual Network Kiến trúc mạng dư
Descent
Thuật toán giảm độ dốc
dữ liệu
Trang 4DANH MỤC BẢNG BIỂU
Bảng 3.1: Bảng kết quả thực nghiệm sản phẩm
Trang 5Hình 1.2.e Mạng nơron nhiều lớp truyền thẳng hồi quy.
Hình 1.2.f Mạng nơron phản hồi với đầu ra của mỗi nơron được quay trở lại nối với đầu vào của các nơron cùng lớp được gọi là mạng Lateral
Hình 1.3: Mạng lưới kết nối dữ liệu
Hình 2.1: Vanishing Gradient 1
Hình 2.2: Vanishing Gradient 2
Hình 2.3: Kiến trúc mạng Resnet
Hình 2.4: Mô hình
Hình 3.1: Giá trị mất mát của mô hình sau khi huấn luyện
Hình 3.2: Giao diện của ứng dụng
Trang 6LỜI MỞ ĐẦU
1 Lý do lựa chọn đề tài
Với những ứng dụng của khoa học kỹ thuật tiên tiến, thế giới của chúng ta đã
và đang ngày một thay đổi, văn minh và hiện đại hơn Đặc biệt là công nghiệp4.0 nhằm thông minh hóa quá trình sản xuất và quản lý trong ngành côngnghiệp chế tạo với yếu tố cốt lõi của kỹ thuật số trong công nghiệp 4.0 đó là trítuệ nhân tạo (Artificial Intelligence– AI) Trong những năm gần đây AI đượcứng dụng rộng rãi trong nhiều lĩnh vực của cuộc sống: y học, giáo dục, côngnghiệp Tuy nhiên việc ứng dụng trong lĩnh vực giao thông còn hạn chế Chính
vì vậy, nhóm em đề xuất đề tài: “Thiết kế mô hình mạng noron nhân tạo nhậndiện chữ viết” Với chuyên ngành công nghệ kĩ thuật máy tính mà chúng emđang theo học, việc thực hiện đề tài này giúp chúng em có kiến thức về việc sửdụng AI trong các lĩnh vực chuyên ngành, cụ thể hơn là trong lĩnh vực học
máy
2 Mục tiêu nghiên cứu
- Khi thực hiện đề tài này, chúng em mong muốn việc huấn luyện AI để nhậndiện ký tự Ví dụ như áp dụng vào quét tài liệu chuyển đổi văn bản, thuận lợi choviệc tìm kiếm và xử lý các biểu mẫu hồ sơ,…
3 Đối tượng nghiên cứu
- Mạng nơ-ron nhân tạo.
Các ký tự viết tay có thể nhận diện được bao gồm 62 ký tự: 26 ký tự latinh
Trang 7viết hoa (A-Z), 26 ký tự latinh viết thường (a-z), 10 ký tự số (0-9).
5 Phương pháp nghiên cứu
- Để thực hiện luận văn này, chúng em đã sử dụng các phương pháp nghiên cứu
sau:
+ Phương pháp phân tích và tổng hợp lý thuyết: Tìm kiếm, tổng hợp và
nghiên cứu các tài liệu về Mạng nơ-ron tích chập (Convolutional NeuralNetwork – CNN); Phương pháp nhận diện ký tự, các tài liệu thuật toán máy họcchọn lọc hình ảnh, nhận dạng ký tự Tìm hiểu các kiến thức liên quan đến kỹthuật lập trình
+ Phương pháp thực nghiệm: Sau khi nghiên cứu lý thuyết, xác định vấn đề
bài toán, đề xuất mô hình, dựa trên kết quả của các nghiên cứu trước đó chúng
em sẽ thực nghiệm mô hình trên một phương pháp học sâu lại là một kết hợpgiữa những lợi thế của mô hình CNN tự tạo, kết hợp các thư viện thích hợp hỗtrợ cho việc xây dựng một hệ thống máy học nhận diện ký tự
6 Ý nghĩa khoa học và thực tiễn
- Ý nghĩa khoa học: Bổ sung cho lý thuyết của bộ môn Mạng nơ-ron nhân tạo,
làm rõ một số vấn đề trong cấu trúc mạng CNN, các phương pháp huấn luyệnmạng nơ-ron, …
- Ý nghĩa thực tiễn: Đóng góp vào ứng dụng xử lý ảnh vào thực tiễn đời sống
đặc biệt trong các ứng dụng công nghệ cao ngày càng được ưu tiên
7 Cấu trúc của báo cáo
Bài báo cáo của chúng em gồm có 3 nội dung chính đó là:
- Chương 1: Tổng quan về nhận dạng kí tự
- Chương 2: Xây dựng mạng neural nhận dạng kí tự
- Chương 3: Thử nghiệm và đánh giá
Trang 8CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DIỆN KÝ TỰ
1.1 Vấn đề chung
1.1.1 Giới thiệu về nhận dạng ký tự
Phần mềm nhận dạng ký tự là công cụ máy tính được thiết kế để chuyển đổi hình ảnh của chữ viết tay hoặc chữ in (thường được quét bằng máy quét) thành văn bản số Công nghệ OCR bắt nguồn từ các lĩnh vực như nhận dạng mẫu, trí tuệ nhân tạo và thị giác máy tính Mặc dù nghiên cứu học thuật vẫn đang tiếp diễn, một phần của OCR đã được áp dụng thực tế với những kỹ thuật đã được chứng minh hiệu quả
Ban đầu, nhận dạng ký tự (sử dụng kỹ thuật quang học như gương và ống kính) và nhận dạng ký tự số (dùng máy quét và thuật toán máy tính) được xem như hai lĩnh vực riêng biệt Do có rất ít ứng dụng thực tế cho kỹ thuật quang học, thuật ngữ Nhận dạng ký tự quang học đã được mở rộng để bao gồm cả nhận dạng ký tự số
Các hệ thống nhận dạng đầu tiên yêu cầu huấn luyện với các mẫu ký tự cụ thể Ngày nay, các hệ thống "thông minh" với độ chính xác cao cho hầu hết các phông chữ đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo định dạng tài liệu gần giống bản gốc, bao gồm hình ảnh, cột, bảng biểu và cácthành phần phi văn bản
Hiện nay, đối với tiếng Việt, phần mềm VnDOCR 4.0 có khả năng nhận dạng trực tiếp tài liệu được quét mà không cần lưu dưới dạng tệp ảnh trung gian Các trang tài liệu có thể được quét và lưu dưới dạng tệp tin nhiều trang Kết quả nhận dạng được lưu ở định dạng Microsoft Word, Excel , đáp ứng rất tốtnhu cầu số hóa dữ liệu
1.1.2 Xử lý ảnh trong bài toán nhận diện ký tự
1.1.2 Xử lý ảnh trong bài toán nhận diện ký tự
- Chuẩn bị dữ liệu
+ Thu thập ảnh: Thu thập bộ dữ liệu ảnh chứa các ký tự cần nhận diện,bao gồm cả ảnh huấn luyện và ảnh kiểm tra
Trang 9+ Gán nhãn: Gán nhãn cho từng ảnh để mô hình có thể học từ dữ liệu đãđược chú thích.
- Tiền xử lý
Trong bài toán nhận diện ký tự, tiền xử lý ảnh là một phần quan trọng đểchuẩn bị dữ liệu hình ảnh trước khi đưa vào mô hình nhận diện Chuẩn hóa ảnh ,đưa tất cả các ảnh về kích thước cố định để đảm bảo rằng mô hình có thể xử lýđược Xác định và cắt các khu vực quan trọng chứa ký tự trong ảnh Áp dụngcác biến đổi như xoay, lật, thay đổi độ sáng, để tạo thêm dữ liệu huấn luyện vàtăng khả năng tổng quát hóa của mô hình
- Trích chọn đặc trưng
Trích chọn đặc trưng trong bài toán nhận diện ký tự có nhiệm vụ chuyểnđổi dữ liệu ảnh thành một tập hợp các đặc trưng có thể được sử dụng để mô tảđặc tính quan trọng của ký tự Điều này giúp giảm chiều dữ liệu và tăng khảnăng phân loại của mô hình Ta có thể kể đến một số phương pháp như HOG,Gabor filter, LBP, …
+ HOG để mô tả hình dạng và cạnh trong ảnh Nó tính toán độ chệch
hướng của cạnh trong các ô (cell) nhỏ của ảnh và xây dựng histogram của các độchệch này để tạo thành một vectơ đặc trưng
+ Gabor filter để phát hiện các đặc trưng hình dạng và cấu trúc trong
ảnh Việc áp dụng Gabor filter cho ảnh sẽ tạo ra các đặc trưng mà mô hình có thể
sử dụng để nhận diện các đường nét và chi tiết trong ký tự
+ LBP để trích chọn đặc trưng textural Nó đo sự biến đổi của mức xám
trong các vùng nhỏ của ảnh bằng cách so sánh giá trị của các điểm ảnh lân cậnvới giá trị của điểm ảnh trung tâm
+ Edge Detection Các thuật toán phát hiện cạnh có thể được sử dụng để
tạo ra các đặc trưng liên quan đến cạnh của ký tự, giúp mô hình nhận diện biêncủa chữ một cách hiệu quả
Trang 10Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đốitượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảmxuống.
1.2 Giới thiệu về mạng Neural nhân tạo
1.2.1 Mạng Neural và các đặc trưng cơ bản
- Mạng nơ-ron nhân tạo (Artificial Neural Networks) là mô hình mô phỏng
mạng neuron sinh học, được cấu thành từ các đơn vị tính toán đơn giản kết nối chặt chẽ với nhau Chính các liên kết giữa các neuron này quyết định chứcnăng và khả năng của mạng
- Tương tự như bộ não con người, mạng nơ-ron kết nối các nút đơn giản để tạo thành một mạng lưới phức tạp Do đó, nó được xem như một hệ thống củacác tế bào thần kinh nhân tạo Trong mạng nơ-ron, một loạt các thuật toán được áp dụng để xác định và nhận dạng mọi mối quan hệ trong tập dữ liệu
- Phương pháp này tạo ra một hệ thống thích ứng, cho phép máy tính học hỏi
từ những sai lầm và liên tục cải thiện hiệu suất Vì vậy, mạng nơ-ron nhân tạohướng tới việc giải quyết các vấn đề phức tạp như tóm tắt tài liệu, nhận dạng chữ viết tay, hình ảnh và âm thanh với độ chính xác cao hơn
* Các đặc trưng cơ bản của mạng nơron
- Gồm một tập các đơn vị xử lý (các noron nhân tạo)
- Trạng thái kích hoạt hay đầu ra của đơn vị xử lý
- Liên kết giữa các đơn vị Xét tổng quát, mỗi liên kết được định nghĩa bởi mộttrọng số W jkcho ta biết hiệu ứng mà tín hiệu của đơn vị j có trên đơn vị k.
- Một luật lan truyền quyết định cách tính tín hiệu ra của từng đơn vị từ đầu vàocủa nó
- Một hàm kích hoạt, hay hàm chuyển (activation function, transfer function),xác định mức độ kích hoạt khác dựa trên mức độ kích hoạt hiện tại
- Một đơn vị điều chỉnh (độ lệch) (bias, offset) của mỗi đơn vị
- Phương pháp thu thập thông tin (luật học - learning rule)
- Môi trường hệ thống có thể hoạt động
Trang 111.2.2 Kiến trúc mạng neural
Hình 1.1: Kiến trục mạng noron
Trong đó:
x i : các đầu vào
w i : các trọng số tương ứng với các đầu vào
z: đầu ra của nơron
y=sgn(z): hàm chuyển (hàm kích hoạt)
-Lớp nơron thực hiện tiếp nhận các tín hiệu vào gọi là lớp vào (Input Layer)
-Lớp nơron thực hiện đưa tín hiệu ra gọi là lớp ra (Output Layer)
-Giữa hai lớp nơron vào và ra có một hoặc nhiều lớp nơron không liên hệ trựctiếp với môi trường bên ngoài được gọi là các lớp ẩn (Hidden Layer) Mạngnơron truyền thẳng nhiều lớp có thể có 1 hoặc nhiều lớp nơron ẩn
-Mạng nơron được gọi là liên kết đầy đủ nếu từng đầu ra của mỗi lớp được liênkết với đủ các nơron ở các lớp tiếp theo
Trang 12Hình 1.2 Sơ đồ cấu trúc một số mạng neural
Hình 1.2.e Mạng nơron nhiều lớp truyền thẳng hồi quy
Hình 1.2.f Mạng nơron phản hồi với đầu ra của mỗi nơron được quay trở lạinối với đầu vào của các nơron cùng lớp được gọi là mạng Lateral
- Mạng nơron một lớp và nhiều lớp được gọi là truyền thẳng (FeedforwardNetwork) nếu đầu ra của mỗi nơron được nối với các đầu vào của các nơroncùng lớp đó hoặc đầu vào của các nơron của các lớp trước đó Trong mạngkhông tồn tại bất kỳ một mạch hồi tiếp nào kể cả hồi tiếp nội lẫn hồi tiếp từ đầu
ra trở về đầu vào
- Mạng nơron bao gồm một hay nhiều lớp trung gian gọi là mạng MLP(Multilayer perceptrons Networks)
Trang 13- Mạng nơron phản hồi có thể thực hiện đóng vòng được gọi là mạng nơron hồiquy (Recurrent Networks).
1.3 Deep Learning
1.3.1 Deep Learning là gì?
- Deep Learning bắt nguồn từ thuật toán mạng nơ-ron nhân tạo (Neural
Network), vốn chỉ là một lĩnh vực nhỏ trong Học máy (Machine Learning) Deep Learning là một nhánh của học máy, dựa trên tập hợp các thuật toán cố gắng mô hình hóa dữ liệu ở mức độ trừu tượng cao bằng cách sử dụng nhiều lớp xử lý có cấu trúc phức tạp, hoặc thông qua nhiều biến đổi phi tuyến tính Tương tự như cách chúng ta học hỏi từ kinh nghiệm, các thuật toán Deep Learning thực hiện một nhiệm vụ nhiều lần, mỗi lần tinh chỉnh một chút để cải thiện kết quả Nói một cách đơn giản, Deep Learning kết nối dữ liệu giữa tất cả các tế bào thần kinh nhân tạo và điều chỉnh chúng dựa trên dữ liệu mẫu
Hình 1.3: Mạng lưới kết nối dữ liệu
- Khi số lượng tế bào thần kinh được tăng thêm, kích thước dữ liệu cũng tăng lêntương ứng Mạng nơ-ron nhân tạo tự động học ở nhiều mức độ trừu tượng khácnhau, cho phép hệ thống học các hàm ánh xạ phức tạp mà không cần dựa vàomột thuật toán cụ thể Chúng ta không thực sự biết điều gì diễn ra bên trong mộtmạng nơ-ron nhân tạo, nên Deep Learning thường được coi như một "hộp đen".Công nghệ này đã giúp máy tính thực hiện những nhiệm vụ mà 15 năm trướctưởng chừng không thể, như phân loại hàng ngàn vật thể trong hình ảnh, tự động
Trang 14tạo chú thích cho ảnh, mô phỏng giọng nói và chữ viết tay của con người, tươngtác với con người và thậm chí sáng tác văn học, phim ảnh, âm nhạc.
1.3.2 Cách thức hoạt động
- Thông tin được truyền qua nhiều lớp khác nhau cho đến khi đạt đến lớp cuốicùng Lấy quá trình học tập của con người làm ví dụ: các lớp đầu tiên tập trungvào việc tiếp thu các khái niệm cụ thể hơn, trong khi các lớp sâu hơn sử dụngthông tin đã học để nghiên cứu và phân tích sâu hơn các khái niệm trừu tượng
Quá trình xây dựng biểu diễn dữ liệu này được gọi là trích xuất đặc trưng.
Ví dụ:
Để hình dung cách một hệ thống Deep Learning hoạt động, hãy xem xét quátrình nhận dạng khuôn mặt người Đầu tiên, hệ thống sẽ xác định xem tronghình ảnh có khuôn mặt hay không bằng cách tìm kiếm các đặc điểm cơ bản nhưhình dạng đầu và cấu trúc tổng thể Nếu có, nó sẽ tiến hành nhận diện các bộphận cụ thể hơn như mắt, mũi và miệng Tiếp theo, nó phân tích các chi tiết nhưkhoảng cách giữa các bộ phận, hình dạng lông mày, đường viền môi, v.v Cuốicùng, dựa trên tất cả các thông tin thu thập được, hệ thống sẽ kết luận xem đó làkhuôn mặt của ai
Như vậy, quá trình nhận dạng khuôn mặt được chia thành các nhiệm vụ nhỏ vàđơn giản hơn, tương tự như cách chúng ta xác định một hình vuông bằng cách
kiểm tra các đặc điểm cụ thể Deep Learning hoạt động theo cách tương tự
nhưng ở quy mô lớn hơn và phức tạp hơn, sử dụng nhiều lớp để trích xuất vàphân tích các đặc trưng từ dữ liệu, giúp hệ thống học hỏi và đưa ra kết quả chínhxác hơn
Trang 151.4 Ứng dụng và thách thức
1.4.1 Ứng dụng
Số Hóa Văn Bản và Lưu Trữ:
Chuyển Đổi Văn Bản: Chuyển đổi hình ảnh chứa chữ viết tay hoặc chữ inthành văn bản số có thể chỉnh sửa và tìm kiếm trên máy tính Điều nàygiúp tiết kiệm thời gian và công sức so với việc nhập liệu thủ công, đồngthời tăng độ chính xác và hiệu quả trong quản lý tài liệu
Số Hóa Tài Liệu: Số hóa sách, tài liệu lịch sử và các văn bản giấy khác đểlưu trữ và truy cập dễ dàng Việc này không chỉ giúp bảo tồn các tài liệuquan trọng mà còn giảm thiểu không gian lưu trữ vật lý và chi phí bảoquản
Trong Giao Thông và An Ninh:
Nhận Diện Biển Số Xe: Ứng dụng trong hệ thống giao thông để nhận
diện và ghi nhớ biển số xe, hỗ trợ quản lý giao thông, giám sát an ninh vàphát hiện vi phạm Công nghệ này được sử dụng rộng rãi trong các trạmthu phí tự động, bãi đỗ xe và hệ thống camera giám sát
Trong Y Tế:
Số Hóa Hồ Sơ Bệnh Án: Chuyển đổi hồ sơ bệnh án và đơn thuốc từ dạnggiấy sang dạng số, giúp quản lý thông tin bệnh nhân hiệu quả hơn Việcnày cải thiện khả năng truy cập thông tin, giảm thiểu sai sót y khoa và hỗtrợ chia sẻ dữ liệu giữa các cơ sở y tế một cách an toàn
Hỗ Trợ Người Khuyết Tật:
Đọc Văn Bản Cho Người Khiếm Thị: Ứng dụng công nghệ nhận dạng ký
tự kết hợp với chuyển văn bản thành giọng nói, giúp người khiếm thị tiếpcận thông tin văn bản một cách dễ dàng Điều này nâng cao chất lượngcuộc sống và khả năng hòa nhập xã hội cho người khuyết tật
Ứng Dụng Di Động và Tiện Ích:
Trang 16 Dịch Văn Bản Trực Tiếp: Sử dụng nhận dạng ký tự trên thiết bị di động
để dịch văn bản trong hình ảnh ngay lập tức, hỗ trợ du lịch, học tập vàgiao tiếp đa ngôn ngữ Ứng dụng này giúp người dùng hiểu được biểnbáo, thực đơn và các văn bản nước ngoài mà không cần kiến thức ngônngữ sâu rộng
1.4.2 Thách thức
Vấn đề chính của công nghệ OCR là nó chưa hoàn thiện Nếu bạn tưởng tượngviệc sử dụng máy ảnh để đọc văn bản trên trang này và sau đó chuyển nhữnghình ảnh đó thành chữ viết, bạn sẽ hiểu tại sao OCR có thể gặp khó khăn Một sốthách thức đối với OCR bao gồm:
Xử lý hình ảnh phức tạp: Hình ảnh chứa ký tự thường gặp nhiễu, ánh
sáng không đồng đều và chi tiết phức tạp, ảnh hưởng đến độ chính xáctrong nhận dạng
Sự đa dạng về ngôn ngữ và ký tự: Mỗi ngôn ngữ và hệ thống ký tự có
cấu trúc và đặc điểm riêng biệt, làm tăng độ phức tạp khi phát triển môhình chung có thể nhận dạng nhiều ngôn ngữ
Biến dạng và góc nhìn khác nhau: Khi hình ảnh chứa ký tự được chụp
từ các góc độ khác nhau hoặc bị biến dạng, khả năng nhận dạng của OCR
bị giảm
Nhận dạng trong điều kiện ánh sáng yếu: Việc nhận dạng ký tự trong
môi trường ánh sáng kém là một thách thức đáng kể, ảnh hưởng đến hiệusuất của hệ thống
Đa dạng nguồn dữ liệu: Sự phong phú và đa dạng của nguồn dữ liệu đòi
hỏi mô hình phải linh hoạt để nhận dạng ký tự từ nhiều nguồn khác nhau.Các mô hình phức tạp thường yêu cầu nhiều tài nguyên tính toán và bộnhớ, đặc biệt khi triển khai trên thiết bị có hạn chế về tài nguyên
Sự khác biệt về phông chữ và kích thước: Các loại phông chữ và kích
thước khác nhau có thể gây khó khăn trong việc nhận dạng, do sự đa dạng
về kiểu dáng và tỷ lệ của chúng
Trang 171.5 Kết luận chương 1
Chương 1 đã cung cấp tổng quan về mô hình mạng nơ-ron nhân tạo và ứng dụng của chúng trong nhận dạng ký tự Nhóm đã trình bày các khái niệm cơ bản về mạng nơ-ron, học sâu (Deep Learning) và cách chúng mô phỏng quá trình học tập của con người để xử lý và phân tích dữ liệu hình ảnh Bên cạnh
đó, chúng em cũng đã thảo luận về các ứng dụng thực tế của công nghệ nhận dạng ký tự trong nhiều lĩnh vực như số hóa văn bản, giao thông, y tế và nhữngthách thức hiện tại của công nghệ này Những kiến thức nền tảng này sẽ là cơ
sở để nhóm xây dựng phương pháp và xác định mục tiêu cho đề tài, hướng tớiviệc hoàn thiện nghiên cứu một cách hiệu quả nhất
Trang 18CHƯƠNG 2: THIẾT KẾ MẠNG NEURAL NHẬN DIỆN KÝ TỰ
2.1 Phân tích yêu cầu bài toán
2.1.1 Mục tiêu thiết kế
- Thiết kế mô hình mạng nơ-ron nhân tạo:
+ Hiệu quả, có độ nhận dạng chính xác cao
- Thiết kế mô hình phần mềm:
+ Thiết lập cơ sở dữ liệu
+ Phân tách tập dữ liệu train và test
+ Đưa dữ liệu vào test
+ Thực hiện nhận dạng các kí tự theo yêu cầu
2.1.2 Điều kiện ràng buộc của thiết kế
- Mô hình mạng noron phải đáp ứng các thành phần của một mạng nơ-ron nhântạo
- Input (ảnh đầu vào) chứa các kí tự nằm trong cơ sở dữ liệu đã training
2.1.3 Thông số kỹ thuật
- Độ chính xác nhận dạng đạt tối thiểu 70%
2.1.4 Tiêu chí đánh giá sản phẩm
- Input: hình ảnh về chữ viết tay
- Output: Giao diện + Kết quả phân tách nhận diện là kí tự nào, độ chính xác in
ra là bao nhiêu phần trăm
2.2 Thiết kế ý tưởng
2.2.1 Kiến trúc mạng Resnet xây dựng mô hình CNN
- Mạng Residual Network (ResNet) được giới thiệu vào năm 2015 và đã
giành vị trí quán quân trong cuộc thi ILSVRC 2015 với tỷ lệ lỗi top-5 chỉ 3,57% ResNet đánh dấu một bước đột phá trong lĩnh vực học sâu và thị giác máy tính nhờ khả năng giải quyết vấn đề suy giảm gradient khi mạng trở nên quá sâu
- Thuật toán Lan truyền Ngược (Backpropagation Algorithm) là một kỹ
thuật quan trọng được sử dụng trong quá trình huấn luyện mạng nơ-ron nhân
Trang 19tạo Ý tưởng chính của thuật toán là truyền ngược từ lớp đầu ra về lớp đầu vào, tính toán gradient của hàm mất mát đối với từng tham số (trọng số) của
mạng Sau đó, sử dụng phương pháp Gradient Descent để cập nhật các tham
số này, nhằm giảm thiểu hàm mất mát và cải thiện hiệu suất của mô hình
Hình 2.1.Vanishing Gradient 1
- Toàn bộ quá trình trên sẽ được lặp đi lặp lại cho tới khi mà các parameter củanetwork được hội tụ Thông thường chúng ta sẽ có một hyperparametr (sốEpoch - số lần mà traninig set được duyệt qua một lần và weights được cậpnhật) định nghĩa cho số lượng vòng lặp để thực hiện quá trình này Nếu số lượngvòng lặp quá nhỏ thì ta gặp phải trường hợp mạng có thể sẽ không cho ra kết quảtốt và ngược lại thời gian tranining sẽ lâu nếu số lượng vòng lặp quá lớn
Hình 2.2.Vanishing Gradient 2
- Tuy nhiên, trong thực tế Gradients thường sẽ có giá trị nhỏ dần khi đi xuốngcác layer thấp hơn Dẫn đến kết quả là các cập nhật thực hiện bởi GradientsDescent không làm thay đổi nhiều weights của các layer đó và làm chúng khôngthể hội tụ và mạng sẽ không thu được kết quả tốt Hiện tượng như vậy gọi làVanishing Gradients Mạng ResNet ra đời cũng giải quyết vấn đề đó