1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án 1 phát hiện ô tô

47 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát Hiện Ô Tô
Tác giả Trần Minh Chính, Võ Xuân Thảo
Người hướng dẫn TS. Nguyễn Tấn Trần Minh Khang
Trường học Đại Học Quốc Gia Tp. Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ Án
Năm xuất bản 2023
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 47
Dung lượng 2,63 MB

Nội dung

Hy vọng rằng những nỗ lực và kết quả của chúng tôi sẽ mang lại đóng góp ý nghĩa trong việc phát triển các ứng dụng về nhận diện phương tiện giao thông và tạo ra các cải tiến trong lĩnh v

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 2

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

GIẢNG VIÊN HƯỚNG DẪN

TS NGUYỄN TẤN TRẦN MINH KHANG

TP HỒ CHÍ MINH, 2023

Trang 3

MỤC LỤC

1.2.1 Bài toán Phát hiện ô tô 3 1.2.2 Bài toán Phát hiện phương tiện giao thông (Mở rộng) 3 1.2.3 Bài toán Phân loại ô tô (Mở rộng) 4

1.4 Mục tiêu và phạm vi nghiên cứu 5

Chương 2 NGHIÊN CỨU MÔ HÌNH VÀ KẾT QUẢ 72.1 Giải quyết bài toán “Phát hiện ô tô/phương tiện giao thông” với YOLO 7 2.1.1 Bộ dữ liệu UIT-VinaDeveS22 7

Trang 4

Chương 4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 37

Trang 5

DANH MỤC HÌNH

Hình 1-1 Đầu vào và đầu ra của bài toán Phát hiện ô tô 3

Hình 1-2 Đầu vào và đầu ra của bài toán Phát hiện phương tiện giao thông 4

Hình 2-1 Hình ảnh từ UIT-VinaDeveS22 7

Hình 2-2 EfficiencyDet 9

Hình 2-3 Kiến trúc của YOLOv6 10

Hình 2-4 RepVGG blocks và RepConv blocks 11

Hình 2-5 Cấu trúc của khối ELAN 13

Hình 2-6 Sự phát triển của YOLO 14

Hình 2-7 Biểu đồ đánh giá kết quả trên từng lớp 17

Hình 2-8 Hình ảnh từ The Standford Car Dataset 18

Hình 2-9 Cấu trúc của tên class 18

Hình 2-10 Kiến trúc ResNet50 19

Hình 2-11 WordNet example 20

Hình 2-12 Ứng dụng WordNet vào bài toàn phân lớp ô tô 21

Hình 3-1 Màn hình khởi động ứng dụng 24

Hình 3-2 Màn hình chính 1 26

Hình 3-3 Màn hình chính 2 27

Hình 3-4 Màn hình chính 3 28

Hình 3-5 Màn hình thông tin ứng dụng 30

Hình 3-6 Màn hình phân loại ô tô 32

Hình 3-7 Màn hình phát hiện ô tô 34

Hình 3-8 Màn hình phát hiện phương tiện giao thông 36

Hình 4-1 Poster ứng dụng ShareHoi 37

Trang 6

DANH MỤC BẢNG

Bảng 2-1 Kết quả mAP của các mô hình 16

Bảng 2-2 Kết quả cụ thể trên từng lớp 17

Bảng 2-3 Kết quả trước và sau khi áp dụng kiến trúc mới (Version 1: cũ, Version 2: mới) 22

Bảng 3-1 Các thành phần trong Màn hình chính 25

Bảng 3-2 Các thành phần trong Màn hình thông tin ứng dụng 29

Bảng 3-3 Các thành phần trong Màn hình phân loại ô tô 31

Bảng 3-4 Các thành phần trong Màn hình phát hiện ô tô 33

Bảng 3-5 Các thành phần trong Màn hình phát hiện phương tiện giao thông 35

Trang 7

DANH MỤC TỪ VIẾT TẮT

UIT University of Information

Technology YOLO You Only Look Once

Trang 8

[1] TÓM TẮT

Chúng tôi là sinh viên K16 Trường Đại học Công nghệ Thông tin Đây là Đồ

Án 1 chúng tôi đã thực hiện dưới sự hướng dẫn của Ts Nguyễn Tấn Trần Minh Khang, ngoài ra chúng tôi chân thành cảm ơn sự hỗ trợ của ThS Võ Duy Nguyên

Đồ án này không chỉ đơn thuần là nghiên cứu về việc phát hiện ô tô, mà còn là một chặng đường truyền cảm hứng và khám phá về sức mạnh của công nghệ trong việc

áp dụng trí tuệ nhân tạo vào thế giới thực

Chúng tôi đã bắt đầu với một mục tiêu rõ ràng: xây dựng một ứng dụng có khả năng phát hiện ô tô Tuy nhiên, hành trình này không chỉ là việc áp dụng các thuật toán và kỹ thuật mà còn là quá trình khám phá, học hỏi và sáng tạo Đầu tiên, chúng tôi đã tiến hành thu thập các tập dữ liệu phong phú và đa dạng nhất có thể Việc xử

lý dữ liệu đã đòi hỏi sự tinh tế và kiên nhẫn Chúng tôi đã áp dụng các phương pháp

xử lý ảnh, và chuẩn hóa dữ liệu để chuẩn bị nền tảng cho việc huấn luyện mô hình Cùng với đó là việc nghiên cứu và lựa chọn các thuật toán học máy, công nghệ AI phù hợp để tối ưu hoá quá trình phát hiện ô tô Quá trình huấn luyện mô hình không chỉ đòi hỏi kiến thức chuyên môn mà còn là sự tinh chỉnh liên tục, thử nghiệm và đánh giá để cải thiện độ chính xác và hiệu suất Kết quả thu được từ các vòng lặp này

đã thúc đẩy chúng tôi tiến gần hơn đến mục tiêu ban đầu

Ngoài ra, để mở rộng đồ án, chúng tôi còn nghiên cứu thêm về khả năng phân loại xe và khả năng phát hiện các phương tiện giao thông khác

Đồ án không chỉ dừng lại ở việc xây dựng một ứng dụng phát hiện ô tô mà còn đánh dấu một bước nhảy vọt trong việc áp dụng trí tuệ nhân tạo vào việc tăng cường khả năng nhận diện và hiểu biết về thế giới xung quanh chúng ta Hy vọng rằng những

nỗ lực và kết quả của chúng tôi sẽ mang lại đóng góp ý nghĩa trong việc phát triển các ứng dụng về nhận diện phương tiện giao thông và tạo ra các cải tiến trong lĩnh vực tự động hóa và an toàn giao thông

Trang 9

Chương 1 MỞ ĐẦU

Ở Chương 1 – Nội dung trình bày giới thiệu bối cảnh, động lực và mục tiêu của bài toán được đặt ra

Đây là Đồ án 1 của sinh viên khoa CNPM, Trường ĐHCNTT

Chúng tôi thực hiện dưới sự hướng dẫn của TS Nguyễn Tấn Trần Minh Khang và ThS Võ Duy Nguyên

Đề tài “Phát hiện ô tô” được chúng tôi chọn bởi sử gần gũi của nó đối với các vấn

- Đóng góp vào ngành công nghiệp: Hiểu biết sâu hơn về việc phát hiện ô tô

có thể đóng góp vào ngành công nghiệp tự động hóa và xe tự lái Công nghệ này không chỉ tạo ra cơ hội kinh doanh mà còn thúc đẩy sự tiến bộ trong lĩnh vực này

Trang 10

Nghiên cứu không chỉ là công việc, mà còn là một cuộc phiêu lưu, một hành trình với những thử thách, khó khăn nhưng cũng là cơ hội để phát triển bản thân Đó

là sự trải nghiệm không ngừng, học hỏi không ngừng và sức mạnh của kiến thức

và khả năng sáng tạo không có giới hạn

Đầu vào của bài toán là một bức ảnh, đầu ra là bức ảnh đó với các bounding box xung quanh những chiếc ô tô xuất hiện trong bức ảnh

Hình 1-1 Đầu vào và đầu ra của bài toán Phát hiện ô tô

Đầu vào của bài toán là một bức ảnh, đầu ra là bức ảnh đó với các bounding box xung quanh những phương tiện giao thông xuất hiện trong bức ảnh và tên phương tiện đó

Trang 11

Đầu vào Đầu ra

Hình 1-2 Đầu vào và đầu ra của bài toán Phát hiện phương tiện giao thông

Đầu vào của bài toán là một bức ảnh, đầu ra là tên của dòng xa xuất hiện trong bức ảnh đó

Huyndai Sonata Hybrid Sedan 12

Nghiên cứu về phát hiện ô tô đối mặt với một số thách thức đáng kể, bao gồm:

- Đa dạng về môi trường: Ô tô có thể xuất hiện trong nhiều môi trường khác nhau như đô thị, nông thôn, đường cao tốc, trong các điều kiện thời tiết và ánh sáng khác nhau Điều này tạo ra một thách thức lớn trong việc xây dựng mô hình có khả năng nhận diện ô tô đồng đều và chính xác trong các điều kiện khác nhau

- Số lượng và kích thước đa dạng của ô tô: Các loại ô tô có kích thước, hình dạng và màu sắc đa dạng, từ xe hơi đến xe tải, từ các dòng xe sang trọng

Trang 12

đến xe cỡ nhỏ Việc nhận diện và phân biệt chúng đòi hỏi mô hình phải có khả năng xử lý đa dạng về kích thước và đặc điểm của ô tô

- Tính hiệu suất và tốc độ xử lý: Trong các ứng dụng thời gian thực như giám sát giao thông, việc xử lý ảnh nhanh chóng và chính xác là một thách thức đặc biệt Mô hình cần có hiệu suất cao để xử lý ảnh trong thời gian ngắn

- Phức tạp của bối cảnh giao thông: Trong môi trường đô thị hay tại các điểm giao cắt đông đúc, có sự xuất hiện đồng thời của nhiều phương tiện

di chuyển khác nhau như ô tô, xe máy, xe buýt, người đi bộ, và các vật thể khác Điều này làm tăng độ phức tạp của bài toán nhận diện ô tô khi cần phải phân biệt ô tô với các đối tượng khác

Mục tiêu:

− Mục tiêu của dự án này là xây dựng một ứng dụng phát hiện ô tô chính xác

và hiệu quả từ các hình ảnh Bằng việc áp dụng các kỹ thuật và mô hình học máy tiên tiến, mục tiêu của chúng tôi là tạo ra một giải pháp có khả năng phát hiện ô tô trong các bối cảnh và điều kiện đa dạng, từ các đô thị đông đúc đến các vùng nông thôn Chúng tôi cũng hướng tới việc tối ưu hóa mô hình để có thể mở rộng sử dụng trong các ứng dụng thực tế, từ giám sát giao thông đến các hệ thống tự động hóa

− Ngoài ra, để mở rộng đồ án, chúng tôi còn nghiên cứu thêm về khả năng phân loại xe và khả năng phát hiện các phương tiện giao thông khác

Phạm vi:

− Phạm vi của dự án này sẽ tập trung vào việc xử lý hình ảnh để nhận diện

và định vị ô tô thông qua việc sử dụng các mô hình học máy Chúng tôi sẽ tập trung vào việc tiền xử lý dữ liệu ảnh, lựa chọn và huấn luyện mô hình phù hợp để nhận diện ô tô trong các điều kiện khác nhau, cũng như tối ưu hóa mô hình để đảm bảo hiệu suất và độ chính xác cao

Trang 13

− Dự án sẽ sử dụng tập dữ liệu đa dạng để đào tạo và đánh giá mô hình, bao gồm các ảnh từ nhiều nguồn khác nhau và với đa dạng về điều kiện ánh sáng, thời tiết, và môi trường Chúng tôi cũng sẽ tập trung vào việc đánh giá kết quả của mô hình dưới nhiều góc độ, từ độ chính xác đến tốc độ xử

lý và khả năng mở rộng của nó trong các tình huống thực tế

Chính phủ Việt Nam có định hướng hiện đại hóa đất nước bằng việc ứng dụng hệ thống thông tin vào hoạt động quản lý giao thông nhằm đưa ngành vận tải chuyển đổi số trong giai đoạn 2020 – 2025, tầm nhìn đến năm 2030 Đặc biệt, dự

án “Ứng dụng công nghệ thông tin vào quản lý và điều hành giao thông, tập trung vào lĩnh vực đường bộ” với nội dung triển khai hệ thống giao thông thông minh nâng cao (ITS) gần đây đã được phê duyệt Chúng tôi hi vọng với những kết quả đạt được từ quá trình nghiên cứu sẽ đóng góp phần nào đó vào việc xây dựng ITS cũng như công cuộc hiện đại hóa đất nước

Phần còn lại của báo cáo được trình bày theo bố cục như sau:

CHƯƠNG 2 – NGHIÊN CỨU MÔ HÌNH VÀ KẾT QUẢ: trình bày quá trình

nghiên cứu thực nghiệm các mô hình để phục vụ bài toán

CHƯƠNG 3 – XÂY DỰNG ỨNG DỤNG: trình bày quá trình xây dựng ứng dụng

hiện thực hóa các mô hình

CHƯƠNG 4 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: trình bày tổng kết, đưa

ra kết luận, nhận xét và định hướng cho tương lai

Trang 14

Chương 2 NGHIÊN CỨU MÔ HÌNH VÀ KẾT QUẢ

với YOLO

2.1.1 Bộ dữ liệu UIT-VinaDeveS22

UIT-VinaDeveS22 là bộ dữ liệu được xây dựng để phát hiện phương tiện giao thông từ camera quan sát 1364 bức ảnh (Ví dụ trong Hình 2-1) được lấy từ khung hình video do CCTV thu thập được lưu trữ trong UIT-VinaDeveS22 Tập

dữ liệu này có độ phân giải khoảng 553 x 1012 pixel, trong đó thấp nhất là 354 x

630 pixel và lớn nhất là 720 x 1280 pixel Dữ liệu được thu thập cả ban ngày và ban đêm, trong điều kiện trời quang hoặc trời mưa Tùy thuộc vào loại đường và thời gian trong ngày, mật độ giao thông có thể cao, trung bình hoặc thấp

Trang 15

Sáu video được sử dụng để trích xuất hình ảnh, mỗi hình ảnh có khung cảnh phông nền, loại thời tiết và cách thiết lập ánh sáng khác nhau Để đảm bảo đánh giá công bằng nhất, các mẫu của tập dữ liệu đã được chia thành các tập huấn luyện và kiểm tra một cách hợp lý

UIT-VinaDeveS22 có một vài thách thức như sau:

− Khó khăn trong việc phát hiện từng xe máy khi trời tối và đèn pha của xe khác đang bật

− Xe cộ đông đúc tại các ngã tư khó có thể quan sát rõ ràng từng phương tiện Xe đạp/Xe máy là loại phương tiện có khung nhỏ, mỏng sẽ rất khó tìm thấy nếu bị bao quanh bởi các phương tiện khác, kể cả bằng mắt người

− Khi trời tối và mưa, hầu hết các xe máy đều có xu hướng chạy nhanh khiến hình dáng của xe bị biến dạng khi quay video

− Một số lớp đối tượng không được khai báo có thể xuất hiện dẫn đến hiểu lầm với các phương tiện khác

2.1.2 Các mô hình YOLO

2.1.2.1 YOLOv5

YOLO v5 được giới thiệu vào năm 2020 bởi cùng nhóm đã phát triển thuật toán YOLO ban đầu như một dự án nguồn mở và được Ultralytics duy trì YOLO v5 kết hợp nhiều cải tiến và tính năng mới đồng thời dựa trên sự phổ biến của các phiên bản trước đó

YOLOv5 khác với YOLO ở chỗ nó sử dụng kiến trúc phức tạp có tên là

EfficiencyDet (Hình ), dựa trên kiến trúc mạng EffientNet YOLO v5 có thể đạt được độ chính xác cao hơn và khả năng khái quát hóa tốt hơn cho nhiều danh mục vật phẩm hơn nhờ kiến trúc phức tạp hơn

Trang 16

Hình 2-2 EfficiencyDet

Tập dữ liệu huấn luyện được sử dụng để huấn luyện mô hình phát hiện đối tượng

là một điểm khác biệt giữa YOLO và YOLOv5 Bộ dữ liệu PASCAL VOC, có 20 loại đối tượng khác nhau, được sử dụng để huấn luyện YOLO Trong khi đó, YOLO v5 được đào tạo bằng D5, một tập dữ liệu lớn hơn và đa dạng hơn với tổng số 600 loại đối tượng

Các anchor trong YOLO v5 được tạo bằng kỹ thuật hoàn toàn mới được gọi là " dynamic anchor boxes" Các hộp giới hạn thực tế cơ bản trước tiên được nhóm thành các cụm bằng phương pháp phân cụm và các hộp neo sau đó được tạo bằng cách sử dụng trọng tâm của các cụm Điều này giúp các hộp neo có thể khớp với kích thước và hình dạng của các đối tượng được xác định một cách chính xác hơn

2.1.2.2 YOLOv6

YOLO v6 được giới thiệu vào năm 2022 như một bước tiến so với các phiên bản trước đó Kiến trúc CNN được sử dụng trong YOLO v5 và YOLO v6 là một trong những điểm khác biệt chính của chúng Hiệu quảNet-L2, một biến thể của kiến trúc Hiệu quả, được YOLO v6 sử dụng Với ít tham số hơn và hiệu suất tính toán cao hơn, đây là kiến trúc hiệu quả hơn EfficiencyDet được sử dụng trong YOLO v5 Nó có thể tạo ra những kết quả tiên tiến trên nhiều tiêu chuẩn khác nhau để phát hiện đối tượng Khung của mô hình YOLO v6 được hiển thị trong Hình 2-

Trang 17

Hình 2-3 Kiến trúc của YOLOv6

YOLO v6 cũng giới thiệu một phương pháp mới để tạo các hộp neo, được gọi là

"dense anchor boxes "

Xương sống của bất kỳ mạng nơron phát hiện đối tượng nào đều rất quan trọng đối với quá trình trích xuất các tính năng Đầu và cổ của mạng sau đó sẽ nhận được các tính năng này Bởi vì nó xử lý một phần quan trọng trong quá trình tính toán của mạng nên đường trục là rất cần thiết

ResNets và các mạng đa nhánh khác thực hiện phân loại tốt hơn, nhưng trong quá trình suy luận, chúng chậm hơn Ngược lại, tích chập 3×3 của mạng tuyến tính, chẳng hạn như VGG, cho phép thời gian xử lý nhanh hơn đáng kể Tuy nhiên, chúng không đạt được mức độ chính xác tương tự như các mạng khác hoặc

Trang 18

ResNet Các khối RepVGG được sử dụng trong khi huấn luyện YOLOv6, trong khi các khối RepConv được sử dụng trong quá trình suy luận (Hình 2-4)

Hình 2-4 RepVGG blocks và RepConv blocks

Vì lý do này, các mô hình YOLOv6 sử dụng các đường trục có thể tái tham số hóa Trong quá trình tái tham số hóa, cấu trúc mạng thay đổi trong quá trình đào tạo và suy luận

Trang 19

YOLO v7 đã đạt được tiến bộ đáng kể với việc bổ sung loss function mới được gọi là " "focal loss" Các phiên bản trước của YOLO đã sử dụng hàm cross-entropy tiêu chuẩn, được biết là kém hiệu quả hơn trong việc phát hiện các vật thể nhỏ Focal loss giải quyết vấn đề này bằng cách nhấn mạnh các trường hợp khó trong khi giảm trọng số mất mát đối với các ví dụ được phân loại tốt

Trang 20

YOLOv7 sử dụng backbone bao gồm các khối ELAN (Efficient Layer Aggregation Network) Một khối ELAN bao gồm 3 phần: Cross Stage Partial, Computation Block và phép PointWiseConv (Hình 2-5))

Hình 2-5 Cấu trúc của khối ELAN

Trang 21

2.1.2.4 YOLOv8

Được phát triển bởi Ultralytics, YOLOv8 là một mô hình thị giác máy tính tiên tiến, hoàn toàn mới YOLOv8 là mô hình có hỗ trợ tích hợp cho các tác vụ phát hiện, phân loại và phân đoạn đối tượng YOLOv8 cũng có hiệu quả cao và linh hoạt, hỗ trợ nhiều định dạng xuất và mô hình có thể chạy trên CPU và GPU Kiến trúc YOLOv8 có một số cấu trúc và cập nhật mới so với các kiến trúc trước

đó (Hình 2-6) Backbone CSPDarknet53 đã cải thiện đáng kể khả năng của mô hình trong việc phát hiện các sắc thái của thông tin nằm trong không gian Sự gia tăng đáng kể về hiệu quả phát hiện đối tượng có thể là do việc thể hiện tính năng được cải thiện

Hình 2-6 Sự phát triển của YOLO

Việc sử dụng PANet làm mạng cổ trong Yolo V8 là một bước phát triển đáng chú

ý khác PANet đảm bảo rằng mô hình có thể truy cập các tính năng từ một số lớp của mạng cơ bản với tính năng kết hợp tính năng nhanh chóng Mô hình có thể được sử dụng để rút ra những đặc trưng này Kết quả là đã có sự cải thiện trong việc nhận dạng đối tượng, điều này đặc biệt hữu ích khi xử lý các đối tượng có kích thước khác nhau

Khi so sánh YOLO-v8 với YOLO-v5 và YOLO-v6 được đào tạo ở độ phân giải hình ảnh 640, tất cả các biến thể YOLO-v8 đều mang lại thông lượng tốt hơn với số

Trang 22

lượng tham số tương tự, cho thấy những cải cách kiến trúc, hiệu quả về phần cứng

Do Ultralytics đã giới thiệu cả YOLO-v8 và YOLO-v5, trong đó YOLO-v5 mang lại hiệu suất thời gian thực đáng chú ý và xem xét các kết quả đo điểm chuẩn sơ bộ

mà Ultralytics đã công bố, rất có thể YOLO-v8 sẽ tập trung vào cạnh bị ràng buộc triển khai thiết bị ở tốc độ suy luận cao

2.1.3 Thang đo

Độ đo mAP (mean Average Precision) là một chỉ số đánh giá phổ biến trong lĩnh vực nhận diện vật thể và object detection Đây là một độ đo chất lượng của mô hình object detection dựa trên độ chính xác và độ hoàn thành của việc nhận diện các đối tượng

Một cách đơn giản, mAP đo lường khả năng của mô hình trong việc định vị và phân loại chính xác các đối tượng Nó kết hợp đồng thời độ chính xác (precision)

và độ hoàn thành (recall) của việc nhận diện vật thể

Để tính toán mAP, trước tiên chúng ta cần tính toán precision và recall cho mỗi lớp đối tượng mà mô hình cố gắng nhận diện Precision đo lường tỷ lệ các đối tượng được nhận diện đúng so với tổng số đối tượng được dự đoán là đúng Recall đo lường tỷ lệ các đối tượng được nhận diện đúng so với tổng số đối tượng thực tế

Sau đó, một đường cong precision-recall sẽ được xây dựng dựa trên các giá trị precision và recall tính được từ mô hình mAP là giá trị trung bình của diện tích dưới đường cong precision-recall cho từng lớp đối tượng, và nó được sử dụng

để đánh giá toàn diện hiệu suất của mô hình object detection

Độ đo mAP cung cấp cái nhìn toàn diện về khả năng của mô hình trong việc nhận diện và định vị các đối tượng trong ảnh, và nó là một trong những tiêu chí quan trọng trong việc đánh giá và so sánh hiệu suất giữa các mô hình object detection khác nhau

Trang 23

2.1.4 Kết quả

Bảng 2-1 chứng minh rằng khi so sánh hiệu suất của các mô hình YOLO giữa các lớp khác nhau Rõ ràng là tốc độ phát hiện trung bình vẫn tương đối cao ngay cả đối với các mô hình lớn hơn và chính xác hơn Đây là minh chứng cho tính hiệu quả và tốc độ của các mô hình YOLO, khiến chúng rất phù hợp cho các ứng dụng thời gian thực Số lượng tham số rất hữu ích để đánh giá kích thước của mô hình Một hiệu suất khác được đo bằng các phép tính dấu phẩy động mỗi giây (FLOPS),

là số lượng phép tính số học dấu phẩy động mà bộ xử lý có thể thực hiện trong vòng một giây

Bảng 2-1 Kết quả mAP của các mô hình

Để biết thêm chi tiết, bảng 2-2 hiển thị độ chính xác cụ thể trên từng lớp Nhìn chung, tất cả các mẫu đều có thể xử lý lớp dễ phát hiện (ví dụ: ô tô) với độ chính xác cao YOLOv5 và YOLOv8 - của Ultralytics không hoạt động tốt trên lớp với ít mẫu đào tạo như bus Ngoài ra, xe đạp còn là một loại phương tiện khó phát hiện

vì hình dáng và kích thước của nó trông giống xe máy, điều này dẫn đến khả năng vận hành không tốt trên tất cả các mẫu xe Hình 2-7 làm rõ những đánh giá này

Ngày đăng: 15/05/2024, 09:29

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] T. Trinh and K. Nguyen, “A vietnamese benchmark for vehicle detection and real-time empirical evalua-tion,” Can Tho University Journal of Science, vol. 14, no. 3, pp. 45–52, 2022 Sách, tạp chí
Tiêu đề: A vietnamese benchmark for vehicle detection and real-time empirical evalua-tion
[2] D. Thuan, “Evolution of yolo algorithm and yolov5: The state-of-the-art object detention algorithm,” 2021. [3] M. Tan, R. Pang, and Q. V. Le, “Efficientdet: Scalable and efficient object detection,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 10 781–10 790 Sách, tạp chí
Tiêu đề: Evolution of yolo algorithm and yolov5: The state-of-the-art object detention algorithm,” 2021. [3] M. Tan, R. Pang, and Q. V. Le, “Efficientdet: Scalable and efficient object detection
[4] Q. Xie, M.-T. Luong, E. Hovy, and Q. V. Le, “Self-training with noisy student improves imagenet classi-fication,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 10 687–10 698 Sách, tạp chí
Tiêu đề: Self-training with noisy student improves imagenet classi-fication
[5] C. Li et al., “Yolov6: A single-stage object detection framework for industrial applications,” arXiv preprintarXiv:2209.02976, 2022 Sách, tạp chí
Tiêu đề: Yolov6: A single-stage object detection framework for industrial applications
[6] C. Wang, A. Bochkovskiy, and H. Liao, “Yolov7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. arxiv 2022,” arXiv preprint arXiv:2207.02696, 2022 Sách, tạp chí
Tiêu đề: Yolov7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. arxiv 2022
[7] C.-Y. Wang, H.-Y. M. Liao, Y.-H. Wu, P.-Y. Chen, J.-W. Hsieh, and I.-H. Yeh, “Cspnet: A new back-bone that can enhance learning capability of cnn,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2020,pp. 390–391 Sách, tạp chí
Tiêu đề: Cspnet: "A new back-bone that can enhance learning capability of cnn
[8] Y. Lee, J.-w. Hwang, S. Lee, Y. Bae, and J. Park, “Anenergy and gpu-computation efficient backbone net-work for real-time object detection,” in Proceedings of the IEEE/CVF conference on computer vision andpattern recognition workshops, 2019, pp. 0–0 Sách, tạp chí
Tiêu đề: Anenergy and gpu-computation efficient backbone net-work for real-time object detection,” in Proceedings of the IEEE/CVF conference on computer vision and
[9] J. Terven and D. Cordova-Esparza, “A comprehensive review of yolo: From yolov1 and beyond. arxiv 2023,” arXiv preprint arXiv:2304.00501 Sách, tạp chí
Tiêu đề: A comprehensive review of yolo: From yolov1 and beyond. arxiv 2023

HÌNH ẢNH LIÊN QUAN

Hình 1-1 Đầu vào và đầu ra của bài toán Phát hiện ô tô - đồ án 1 phát hiện ô tô
Hình 1 1 Đầu vào và đầu ra của bài toán Phát hiện ô tô (Trang 10)
Hình 1-2 Đầu vào và đầu ra của bài toán Phát hiện phương tiện giao thông - đồ án 1 phát hiện ô tô
Hình 1 2 Đầu vào và đầu ra của bài toán Phát hiện phương tiện giao thông (Trang 11)
Hình 2-1 Hình ảnh từ UIT-VinaDeveS22 - đồ án 1 phát hiện ô tô
Hình 2 1 Hình ảnh từ UIT-VinaDeveS22 (Trang 14)
Hình 2-2 EfficiencyDet - đồ án 1 phát hiện ô tô
Hình 2 2 EfficiencyDet (Trang 16)
Hình 2-3 Kiến trúc của YOLOv6 - đồ án 1 phát hiện ô tô
Hình 2 3 Kiến trúc của YOLOv6 (Trang 17)
Hình 2-4 RepVGG blocks và RepConv blocks - đồ án 1 phát hiện ô tô
Hình 2 4 RepVGG blocks và RepConv blocks (Trang 18)
Hình 2-5 Cấu trúc của khối ELAN - đồ án 1 phát hiện ô tô
Hình 2 5 Cấu trúc của khối ELAN (Trang 20)
Hình 2-6 Sự phát triển của YOLO - đồ án 1 phát hiện ô tô
Hình 2 6 Sự phát triển của YOLO (Trang 21)
Bảng 2-1 Kết quả mAP của các mô hình - đồ án 1 phát hiện ô tô
Bảng 2 1 Kết quả mAP của các mô hình (Trang 23)
Hình 2-7 Biểu đồ đánh giá kết quả trên từng lớp - đồ án 1 phát hiện ô tô
Hình 2 7 Biểu đồ đánh giá kết quả trên từng lớp (Trang 24)
Bảng 2-2 Kết quả cụ thể trên từng lớp - đồ án 1 phát hiện ô tô
Bảng 2 2 Kết quả cụ thể trên từng lớp (Trang 24)
Hình 2-8 Hình ảnh từ The Standford Car Dataset - đồ án 1 phát hiện ô tô
Hình 2 8 Hình ảnh từ The Standford Car Dataset (Trang 25)
Hình 2-9 Cấu trúc của tên class - đồ án 1 phát hiện ô tô
Hình 2 9 Cấu trúc của tên class (Trang 25)
Hình 2-10 Kiến trúc ResNet50 - đồ án 1 phát hiện ô tô
Hình 2 10 Kiến trúc ResNet50 (Trang 26)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w