Đồ án một PHƯƠNG PHÁP PHÁT HIỆN đối TƯỢNG TRONG KHÔNG ẢNH CHỨA SƯƠNG mờ

CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 7 2.1 Giới thiệu tổng quan

Computer Vision

Thị giác máy tính (Computer Vision) là một lĩnh vực nổi bật trong Deep Learning, giúp máy tính tái tạo và mô phỏng hệ thống thị giác của con người Lĩnh vực này cho phép máy tính xác định và xử lý các đối tượng trong hình ảnh và video tương tự như cách con người thực hiện.

Hình 2-2 Sơ đồ mối liên hệ giữa các kĩ thuật trong Computer Vision

Một số kỹ thuật phổ biến trong Computer Vision gồm:

Nhận diện vật thể (Object Recognition) là kỹ thuật giúp xác định, nhận dạng và định vị các đối tượng trong hình ảnh với độ tin cậy cao.

• Phân loại hình ảnh (Image Classification) là một kỹ thuật liên quan đến việc dự đoán lớp của một đối tượng trong một hình ảnh

Định vị vật thể (Object Localization) là kỹ thuật xác định vị trí của một hoặc nhiều đối tượng trong hình ảnh, đồng thời vẽ bounding box quanh các đối tượng đó.

Phát hiện đối tượng là kỹ thuật kết hợp giữa phân loại hình ảnh và định vị vật thể, cho phép xác định một hoặc nhiều đối tượng trong một bức ảnh.

• Phân đoạn đối tượng (Object Segmentation) là một kỹ thuật nhận dạng đối tượng bằng cách nổi bật các pixel cụ thể của đối tượng thay vì bounding box

Chú thích ảnh (Image Captioning) là một kỹ thuật tiên tiến kết hợp giữa các kiến trúc mạng CNN và LSTM, nhằm cung cấp các mô tả chi tiết về nội dung hoặc hành động trong một bức ảnh.

Nhờ vào sự phát triển của khoa học và ứng dụng các thuật toán tiên tiến, máy tính hiện nay có khả năng thu nhận, xử lý và hiểu hình ảnh, từ đó được ứng dụng rộng rãi trong nhiều lĩnh vực xung quanh chúng ta.

• Nhận diện khuôn mặt trong các smartphone (Face ID)

• Kiểm tra các sản phẩm lỗi trong ngành công nghiệp sản xuất

• Hỗ trợ bác sĩ trong chuẩn đoán và điều trị bệnh ung thư dựa vào ảnh

• Nhận diện biển báo, người đi đường cho các xe tự lái

• Nhận diện cảm xúc để đánh giá hành vi mua hàng trong các cửa hàng

• Nhận biết trường hợp té ngã để kịp thời cấp cứu dựa vào phát hiện hành vi dị thường của con người.

Một số cơ sở lý thuyết

2.3.1.1 Nơ-ron nhân tạo (perceptron)

Mạng nơ-ron nhân tạo (ANN) hay Nơ-ron Networks (NNs) là hệ thống mạng lưới thần kinh được kết nối hoàn toàn giữa các lớp ANN được phát triển dựa trên ý tưởng mô phỏng hoạt động của não bộ con người, đặc biệt là chức năng của nơ-ron thần kinh.

Hình 2-3 Cấu tạo nơ ron thần kinh

Một mạng NN sẽ có 3 kiểu tầng:

Tầng vào (input layer): Là tầng bên trái cùng của mạng thể hiện cho các đầu vào của mạng

Tầng ra (output layer): Là tầng bên phải cùng của mạng thể hiện cho các đầu ra của mạng

Tầng ẩn (hidden layer): Là tầng nằm giữa tầng vào và tầng ra thể hiện cho việc suy luận logic của mạng

Hình 2-4 Kiến trúc một mạng nơ-ron nhân tạo cơ bản

Mỗi lớp trong mạng nơ-ron nhân tạo bao gồm các node tương tự như các nơ-ron thần kinh, với mỗi node trong lớp này liên kết đến tất cả các node trong lớp kế tiếp Số lượng lớp ẩn và số nơ-ron trong mỗi lớp đều không bị giới hạn, cho phép tạo ra các cấu trúc mạng linh hoạt và phức tạp.

Mạng nơ ron nhân tạo được ứng dụng rộng rãi trong nhiều lĩnh vực như tài chính, giao dịch, phân tích kinh doanh, lập kế hoạch doanh nghiệp và bảo trì sản phẩm Ngoài ra, nó còn hỗ trợ trong dự báo thời tiết, nghiên cứu tiếp thị, đánh giá rủi ro và phát hiện gian lận Sự đa dạng trong ứng dụng của mạng nơ ron cho thấy tiềm năng lớn của công nghệ này trong việc tối ưu hóa hoạt động kinh doanh.

Mạng nơron nhân tạo được sử dụng để đánh giá và khai thác cơ hội giao dịch thông qua phân tích dữ liệu lịch sử Chúng có khả năng phân biệt sự phụ thuộc phi tuyến giữa các biến đầu vào, điều mà các mô hình phân tích kỹ thuật truyền thống không thể thực hiện được.

2.3.1.2 Hàm kích hoạt (Activation function)

Hàm kích hoạt trong mạng nơ-ron nhân tạo mô phỏng tỷ lệ truyền xung qua axon của neuron thần kinh, đóng vai trò quan trọng như một thành phần phi tuyến tại đầu ra của các nơ-ron.

Hình 2-5 Công thức và đồ thị của một số hàm kích hoạt

Các hàm kích hoạt phổ biến bao gồm Sigmoid, Tanh, ReLU, Leaky ReLU và MaxOut Việc lựa chọn hàm kích hoạt phù hợp phụ thuộc vào cấu trúc mạng, độ sâu của mạng, đầu ra mong muốn và loại dữ liệu trong bài toán cụ thể.

2.3.2 Mạng nơ-ron tích chập (Convolutional Nơ-ron Network)

Hình 2-6 Một quy trình CNN phân loại chữ số viết tay

Mạng nơron tích chập (CNN) là một thuật toán Deep Learning có khả năng xử lý hình ảnh đầu vào bằng cách gán độ quan trọng cho các đặc trưng khác nhau và phân biệt chúng So với các thuật toán phân loại khác, mạng nơron tích chập yêu cầu ít công việc tiền xử lý hơn Trong khi các phương pháp sơ khai dựa vào bộ lọc thiết kế bằng tay, CNN có khả năng tự học và tối ưu hóa các bộ lọc/đặc trưng tốt nhất cho việc phân tích hình ảnh.

Kiến trúc của nơron tích chập được lấy cảm hứng từ mô hình kết nối của các nơron trong bộ não con người, đặc biệt là hệ thống vỏ thị giác Mỗi nơron chỉ phản ứng với các kích thích trong một khu vực hạn chế của trường thị giác, được gọi là Trường tiếp nhận Nhiều trường tiếp nhận này chồng lên nhau để bao phủ toàn bộ khu vực thị giác, tạo nên khả năng nhận diện hình ảnh hiệu quả.

Trong mô hình CNN, hai khía cạnh quan trọng cần chú ý là tính bất biến (Location Invariance) và tính kết hợp (Compositionality) Độ chính xác của thuật toán sẽ bị ảnh hưởng đáng kể khi một đối tượng được chiếu từ các góc độ khác nhau như dịch chuyển, xoay và thay đổi kích thước Do đó, CNNs được thiết kế để xử lý những biến đổi này một cách hiệu quả.

14 mô hình với độ chính xác rất cao Cũng giống như cách con người nhận biết các vật thể trong tự nhiên

Mạng CNN sử dụng 3 ý tưởng cơ bản:

- Các trường tiếp nhận cục bộ (local receptive field):

Lớp trong mạng CNN có chức năng tách lọc dữ liệu và thông tin ảnh, đồng thời chọn lựa các vùng ảnh có giá trị sử dụng cao nhất Đầu vào của mạng CNN là một ảnh, ví dụ như ảnh kích thước 28×28 sẽ tương ứng với một ma trận 28×28, trong đó mỗi ô đại diện cho một điểm ảnh Khác với mô hình mạng ANN truyền thống, trong CNN, chúng ta chỉ kết nối các neuron đầu vào trong một vùng nhỏ thông qua một bộ lọc kích thước 5×5, dẫn đến việc tạo ra 24 điểm ảnh đầu vào Mỗi kết nối sẽ học một trọng số và mỗi neuron ẩn sẽ học một bias, với mỗi vùng 5×5 được gọi là trường tiếp nhận cục bộ.

Hình 2-7 Minh họa local receptive field

- Trọng số chia sẻ (shared weights)

Lớp này tối ưu hóa số lượng tham số quan trọng trong mạng CNN, giúp giảm thiểu tối đa Mỗi phép biến đổi (convolution) sẽ tạo ra các bản đồ đặc trưng (feature map) khác nhau, với mỗi bản đồ có khả năng phát hiện một số đặc điểm riêng trong hình ảnh.

Lớp pooling cuối cùng giúp đơn giản hóa thông tin đầu ra bằng cách loại bỏ các dữ liệu không cần thiết sau khi đã hoàn tất tính toán và quét qua các lớp Kết quả là người dùng nhận được thông tin theo đúng mong muốn của mình.

Mạng nơ-ron tích chập (CNN) là phương pháp phổ biến trong xử lý ảnh, được sử dụng để giải quyết các vấn đề như nhận dạng hình ảnh, phân loại hình ảnh, phát hiện đối tượng và nhận diện khuôn mặt.

2.3.2.1 Fully Connected Layer - FC Layer (Classification)

Hình 2-8 Minh họa FC Layer

Kiến trúc của tầng liên kết đầy đủ tương tự như kiến trúc của mạng nơ-ron nhân tạo Kết quả đầu ra từ tầng tích chập và tầng tổng hợp tạo ra các ma trận hai chiều hoặc ba chiều Những ma trận này sẽ được làm phẳng thành một vector trước khi được đưa vào tầng liên kết đầy đủ Lớp cuối cùng trong tầng liên kết đầy đủ chính là đầu ra cho bài toán.

Ngoài ra, nếu lớp fully connected giữ lại dữ liệu hình ảnh, chúng sẽ chuyển đổi thành các mục chưa được phân loại chất lượng Quá trình này tương tự như việc đánh giá phiếu bầu để chọn ra hình ảnh có chất lượng cao nhất.

Các phương pháp cơ sở

2.4.1 Khử sương mờ đơn ảnh

Khử sương mờ trong ảnh là bước tiền xử lý quan trọng cho các tác vụ xử lý ảnh khác Sự hiện diện của sương, khói và bụi gây khó khăn trong việc phân loại và phát hiện đối tượng, dẫn đến kết quả không đạt yêu cầu.

Các nghiên cứu trước đây đã đưa ra một công thức đơn giản để ước lượng ảnh hưởng sương mờ trên ảnh như sau:

• 𝑨: Hệ số ánh sáng khí quyển

• 𝐽(𝑡): Ảnh không có sương mờ

Theo công thức này, khử sương mờ chỉ cần tính toán giá trị của hai biến 𝑨 và 𝒕(𝒛) Từ công thức (1), có thể suy ra rằng

Phương pháp Dark Prior Channe [8] mang lại hiệu quả tốt nhất khi áp dụng mô hình này, dựa trên lý thuyết rằng các vùng ảnh của bức ảnh không có sương mù chụp ngoài trời thường có ít nhất một kênh màu với giá trị cường độ thấp Tuy nhiên, các phương pháp hiện tại thường ước lượng sai giá trị của bản đồ truyền dẫn, do các giá trị ưu tiên dễ bị ảnh hưởng trong thực tế, dẫn đến kết quả không khả quan trong nhiều trường hợp ứng dụng thực tế.

Với sự phát triển của Deep Learning, các phương pháp như DehazeNet và multi-scale CNN (MSCNN) đã mở ra hướng mới trong xử lý ảnh bị sương mù Những phương pháp này tập trung vào việc hồi quy trực tiếp bản đồ truyền dẫn (transmission map) và đã đạt được kết quả ấn tượng nhờ vào việc sử dụng lượng lớn dữ liệu huấn luyện Một trong những phương pháp nổi bật trong lĩnh vực này là Feature Fusion Attention Network.

2.4.2 Feature Fusion Attentoin Network (FFA-Net)

Hình 2-11 Kiến trúc mạng FFA-Net

FFA-Net giới thiệu phương pháp khử sương trực tiếp cho ảnh đầu vào, với kết quả thí nghiệm cho thấy nó vượt trội hơn các phương pháp SOTA trong khử sương ảnh Trên bộ dữ liệu SOTS indoor test, FFA-Net đạt mức PSNR từ 30.23 dB đến 36.39 dB vào thời điểm tác giả công bố Sự vượt trội này được hỗ trợ bởi ba thành phần chính, sẽ được trình bày trong các mục tiếp theo.

20 Hình 2-12 Ảnh thể hiện mức độ hiệu quả của FFA-Net so với các phương pháp khử mờ khác trên bộ dữ liệu RESIDE

Mô-đun Feature Attention (FA) kết hợp cơ chế Channel Attention và Pixel Attention, giúp xử lý các đặc trưng và điểm ảnh không đồng đều Tác giả nhận định rằng sự phân bố sương mờ trên các vùng điểm ảnh khác nhau có sự khác biệt, từ đó FA mang lại tính linh hoạt trong việc xử lý các vùng ảnh với mật độ sương dày mỏng đa dạng.

2.4.2.2 Khối kiến trúc cơ bản (Basic Block Structure)

Hình 2-14 Ảnh minh họa Khối kiến trúc cơ bản

Khối kiến trúc cơ bản bao gồm Local Residual Learning (LRL) và Feature Attention, giúp quá trình huấn luyện ổn định hơn và nâng cao hiệu quả khử sương LRL cho phép mạng tập trung vào các thông tin quan trọng, đồng thời loại bỏ những vùng ít thông tin như khu vực sương mỏng.

2.4.2.3 Attention-based different levels Feature Fusion (FAA)

The Attention-based Feature Fusion Architecture (FAA) enables adaptive weight learning from the FA module, assigning higher importance to critical information This architecture effectively retains information from initial layers and transmits it to deeper layers while utilizing Global Residual Learning.

Kiến trúc này hỗ trợ việc thêm các khối và tăng cường các layer một cách dễ dàng Nhóm tác giả khuyến nghị rằng nếu phần cứng đáp ứng yêu cầu, người dùng có thể gia tăng số lượng khối trong mô hình để nâng cao độ sâu của mạng, từ đó đạt được kết quả tốt hơn so với mô hình mặc định.

Phát hiện đối tượng (Object Detection) là thuật ngữ chỉ các nhiệm vụ trong thị giác máy tính nhằm xác định các đối tượng trong ảnh kỹ thuật số Quy trình này kết hợp hai nhiệm vụ chính: phân loại hình ảnh (Classifier) và định vị vật thể (Object Localization) Mỗi kỹ thuật có mục đích, đầu vào và đầu ra khác nhau, phù hợp với từng ứng dụng cụ thể.

Hình 2-15 Các kỹ thuật Phát hiện đối tượng

Phân loại hình ảnh (Image Classification) là quá trình dự đoán nhãn của một đối tượng trong hình ảnh Đầu vào của quá trình này là một hình ảnh chứa đối tượng cần phân loại, trong khi đầu ra là nhãn lớp, có thể là một hoặc nhiều số nguyên được ánh xạ tới nhãn lớp tương ứng.

Định vị đối tượng (Object Localization) là quá trình xác định vị trí của các đối tượng trong hình ảnh, sử dụng Bounding box để chỉ rõ vị trí của chúng Đầu vào là một hình ảnh chứa một hoặc nhiều đối tượng, và đầu ra là một hoặc nhiều Bounding box được xác định thông qua tọa độ tâm, chiều rộng và chiều cao.

Phát hiện đối tượng (Object Detection) là quá trình xác định vị trí và nhãn của các đối tượng trong hình ảnh thông qua Bounding box Đầu vào là một hình ảnh có thể chứa một hoặc nhiều đối tượng, trong khi đầu ra bao gồm một hoặc nhiều Bounding-box cùng với nhãn tương ứng cho từng Bounding-box.

Phân đoạn thực thể (Instance Segmentation) là một kỹ thuật trong lĩnh vực thị giác máy tính, giúp xác định đối tượng và vị trí của chúng bằng cách làm nổi bật các pixel cụ thể của từng đối tượng, thay vì chỉ sử dụng các Bounding boxes.

Hình 2-16 Phân loại phương pháp phát hiện đối tượng

Thuật toán Phát hiện đối tượng bao gồm 2 nhóm chính:

• Two-stage: bao gồm họ các mô hình R-CNN (Region-Based

Convolutional Neural Networks (CNNs), such as Fast R-CNN, Faster R-CNN, and Mask R-CNN, are categorized as two-stage methods This approach involves two main processes: extracting regions from images that are likely to contain objects.

THỰC NGHIỆM VÀ ĐÁNH GIÁ

Dữ liệu thực nghiệm

Mô hình pre-trained FFA-Net được tác giả phát triển và huấn luyện trên bộ dữ liệu RESIDE Outdoor Training Set (OTS), bao gồm 313.950 hình ảnh với tỷ lệ ảnh thực tế là 1:10 cho ảnh sương nhân tạo.

Hình 3-1 Một số hình ảnh trong bộ dữ liệu RESIDE Outdoor Training Set (OTS)

Bộ dữ liệu UAVDT-Benchmarm-M bao gồm 25.565 ảnh định dạng JPG với các kích thước khác nhau Tập dữ liệu huấn luyện có 23.383 ảnh, trong đó có 2.998 ảnh sương mù, chiếm 12,58% Tập kiểm tra bao gồm 2.181 ảnh, tất cả đều là ảnh sương mù, chiếm 100% Thông tin chi tiết được thể hiện trong hình sau.

Hình 3-2 Biểu đồ phân chia bộ dữ liệu UAVDT-Benchmark-M

Hình 3-3 Một số ảnh trong bộ dữ liệu UAVDT-Benchmark-M

Sau khi chia bộ dữ liệu thành các tập phục vụ cho quá trình thực nghiệm, nhóm đã thống kê số lượng các lớp đối tượng trong các tập dữ liệu.

Hình 3-4 Biểu đồ thống kế số các lớp đối tượng trong bộ dữ liệu

Biểu đồ cho thấy sự phân phối không đồng đều của các lớp đối tượng trong các tập dữ liệu thực nghiệm, với lớp đối tượng car chiếm ưu thế về số lượng so với hai lớp còn lại Nguyên nhân của sự phân phối này là do bộ dữ liệu UAVDT được thu thập trong khu vực đô thị, nơi lớp car có mật độ cao hơn rõ rệt so với lớp truck và lớp bus.

Lớp đối tượng bus có sự chênh lệch phân phối lớn nhất, với số lượng đối tượng trong bộ dữ liệu huấn luyện gấp hơn 9.98 lần so với số lượng trong bộ dữ liệu kiểm tra.

Mô tả thực nghiệm

3.2.1 Mô tả quy trình thực nghiệm Để thực nghiệm bài toán “Một phương pháp phát hiện đối tượng trong không ảnh chứa sương mờ”, nhóm tiến hành thực hiện hai luồng thực nghiệm như sau:

• Huấn luyện mô hình phát hiện đối tượng trên bộ dữ liệu nguyên bản không qua xử lý khử sương mờ

• Huấn luyện mô hình phát hiện đối tượng trên bộ dữ liệu được áp dụng phương pháp khử sương mờ FFA-Net như Hình 4-3

Hình 3-5 minh họa kiến trúc thực nghiệm, trong đó ảnh chứa sương mờ được xử lý qua FFA-Net để khử sương, sau đó trở thành đầu vào cho mô hình phát hiện đối tượng.

Kiến trúc này bao gồm 2 công đoạn chính:

Nhóm nghiên cứu sử dụng phương pháp FFA-Net, một công nghệ khử sương mờ tiên tiến (SOTA), để xử lý ảnh bị sương mờ Do hạn chế về thời gian và khả năng xây dựng bộ dữ liệu huấn luyện, nhóm đã chọn mô hình đã được huấn luyện trên bộ dữ liệu RESIDE Outdoor Training Set (OTS) do tác giả cung cấp Dữ liệu đầu vào của FFA-Net là những bức ảnh chứa sương mờ với tần suất không đồng đều, và đầu ra là các bức ảnh đã được khử sương mà kích thước và độ phân giải vẫn được giữ nguyên.

In this study, the research team employed the PAA (Probabilistic Anchor Assignment with IoU Prediction) method for effective object detection.

Sau khi hoàn tất huấn luyện hai mô hình, nhóm sẽ tiến hành kiểm tra các mô hình này trên tập dữ liệu kiểm tra nguyên bản, không qua xử lý khử sương mờ Mục đích là để đánh giá kết quả và đề xuất một số cải tiến cho phương pháp phát hiện đối tượng mà nhóm đang áp dụng.

Toàn bộ quá trình thực nghiệm được triển khai trên GeForce RTX 2080 Ti GPU với bộ nhớ 11018MiB

3.2.2.2 Config mô hình Đối với tác vụ khử sươntg mờ, nhóm sử dụng mô hình pre-trained của FFA- Net được cung cấp bởi tác giả được huấn luyện trên bộ dữ liệu RESIDE Outdoor Training Set (OTS) mà không huấn luyện mô hình mới vì một số lý do không cho phép đã nêu ra Đối công đoạn phát hiện đối tượng, nhóm tiến hành huấn luyện mô hình PAA trên MMDetection framework V2.9.0 sử dụng cấu hình mặc định với backbone R-101-FPN trong 36 epochs Bởi vì, theo bảng kết quả huấn luyện PAA với nhiều config khác nhau được cung cấp bởi MMDetection Framework, kết quả của mô hình huấn luyện qua 36 epochs sử dụng backbone R-101-RPN cho kết quả trên độ đo AP tốt nhất 3

Phương pháp đánh giá

Intersection over Union (IoU) là tiêu chuẩn đánh giá sự trùng lắp giữa bounding box của ground truth và bounding box dự đoán trong các mô hình phát hiện đối tượng Để tính toán IoU, cần sử dụng các giá trị cụ thể nhằm xác định độ chính xác của mô hình.

3 https://github.com/open-mmlab/mmdetection/tree/master/configs/paa

• Ground-truth Bounding boxes: vị trí thực tế của đối tượng

• Predicted Bounding boxes: vị trí dự đoán đối tượng của model

Hình 3-6 Công thức minh họa IoU Trong đó:

• Area of Overlap là vùng overlap (giao) giữa Ground-truth Bounding- boxes và Predicted Bounding-boxes

The Area of Union refers to the overlap between Ground-truth Bounding-boxes and Predicted Bounding-boxes In the context of the PAA experimental method, an IoU value of 0.4 or higher is considered to indicate a successful outcome.

Chúng ta có thể đánh giá mô hình dựa trên việc thay đổi một ngưỡng và quan sát giá trị của Precision và Recall

AP, hay độ chính xác trung bình, là đường cong Precision-Recall (Precision-Recall curve) được tính bằng tổng trọng số trung bình của các giá trị Precision tại mỗi ngưỡng, cùng với trọng số gia tăng của Recall tại ngưỡng thứ 𝑛 so với ngưỡng trước đó (𝑛 − 1).

Trong đó, 𝑃𝑛 và 𝑅𝑛 lần lượt là giá trị Precision và Recall tại ngưỡng thứ 𝑛

Recall là tỷ lệ giữa số điểm Positive mà mô hình dự đoán đúng so với tổng số điểm thực sự là Positive Đây là chỉ số đánh giá khả năng của mô hình trong việc phát hiện toàn bộ các Ground-truth Một giá trị Recall cao cho thấy tỷ lệ bỏ sót các điểm thực sự là Positive thấp, cho thấy hiệu quả của mô hình trong việc nhận diện đúng các trường hợp tích cực.

Precision được xác định là tỷ lệ giữa số điểm Positive mà mô hình dự đoán đúng so với tổng số điểm được dự đoán là Positive Điều này thể hiện độ tin cậy của các dự đoán Một giá trị Precision cao cho thấy độ chính xác của các điểm tìm được là tốt Bên cạnh đó, các giá trị TP (True Positive), TN (True Negative), FP (False Positive) và FN (False Negative) cũng cần được định nghĩa rõ ràng để hiểu rõ hơn về hiệu suất của mô hình.

• TP (True Positive): số lượng điểm dữ liệu đúng được model dự đoán là đúng

• TN (True Negative): số lượng điểm dữ liệu sai được model dự đoán là sai

• FP (False Positive): số lượng điểm dữ liệu sai được model dự đoán là đúng

• FN (False Negative): số lượng điểm dữ liệu đúng được model dự đoán là sai

Hình 3-7 Cách tính Precision và Recall

Precision và Recall nằm trong khoảng từ 0 đến 1, và ý nghĩa của các giá trị này có thể khác nhau tùy thuộc vào từng bài toán cụ thể Do đó, không thể chỉ dựa vào giá trị cao của Precision hoặc Recall để đánh giá hiệu suất của mô hình.

Mean Average Precision (mAP) là trung bình điểm AP (AP score) của n class và được định nghĩa bằng công thức sau:

Độ đo mAP được sử dụng để đánh giá kết quả thực nghiệm từ COCO API, tính toán cho 10 IoU trong khoảng từ 50% đến 95% với bước 5%, thường được viết là AP@50:5:95 Để đánh giá các giá trị IoU riêng lẻ, nhóm sử dụng hai giá trị phổ biến là IoU 50% và 75%, tương ứng là AP@50 (AP50) và AP@75 (AP75) Thông tin chi tiết có thể tham khảo tại MS-COCO.

Kết quả thực nghiệm và đánh giá

Sau khi thực hiện thí nghiệm, nhóm nghiên cứu đã thu được kết quả phát hiện đối tượng dựa trên độ đo mAP cho các lớp đối tượng, với các kết quả chi tiết được trình bày trong bảng.

Mô hình (PAA) AP mAP mAP 50 mAP 75

Tập Train Tập Test Car Truck Bus

Bảng 3-1 Bảng kết quả thực nghiệm phương pháp phát hiện đối tượng PAA

Kết quả tốt nhất được in đậm

3.4.2.1 Kết quả khử sương mờ

• Trường hợp khử sương mờ tốt (best case)

(a) Ảnh nguyên bản (b) Ảnh đã khử sương mờ

Hình 3-8 Ảnh kết quả khử sương mờ tốt sử dụng FFA-Net (a) Ảnh nguyên bản, (b) Ảnh đã khử sương mờ

• Trường họp khử sương mờ kém (bad case)

(a) Ảnh nguyên bản (b) Ảnh đã khử sương mờ

Hình 3-9 Ảnh kết quả khử sương mờ xấu sử dụng FFA-Net

(a) Ảnh nguyên bản, (b) Ảnh đã khử sương mờ

Nhận xét về hiệu quả của FFA-Net trong khử sương cho thấy rằng cả hai trường hợp đều không hoàn toàn loại bỏ được lớp sương mờ Đặc biệt, trong điều kiện ánh sáng tối, khả năng khử sương giảm, với sự xuất hiện của lớp sương dày ở khu vực gần cạnh phải và cạnh trái của ảnh kết quả.

3.4.2.2 Kết quả phát hiện đối tượng

• Trường hợp sử dụng tập dữ liệu huấn luyện gốc

Hình 3-10 Ảnh kết quả phát hiện đối tượng trường hợp sử dụng tập dữ liệu huấn luyện gốc

• Trường hợp sử dụng tập dữ liệu huấn luyện khử sương mờ

Hình 3-11 Ảnh kết quả phát hiện đối tượng trường hợp sử dụng tập dữ liệu huấn luyện khử sương mờ

Kết quả nghiên cứu cho thấy, trong điều kiện ánh sáng tốt, khả năng phát hiện đối tượng là khá tốt Tuy nhiên, khi ánh sáng kém, cả hai phương pháp huấn luyện đều cho kết quả kém, với mô hình thường nhầm lẫn đèn đường thành các đối tượng khác Đặc biệt, trong trường hợp đầu tiên, hiện tượng trùng lặp bounding boxes xảy ra với tần suất cao.

Nhóm đã tiến hành thực nghiệm phương pháp PAA trên hai tập dữ liệu khác nhau Trong trường hợp đầu tiên, họ sử dụng tập dữ liệu gốc để huấn luyện, trong khi ở trường hợp thứ hai, tập dữ liệu đã được khử sương mờ được áp dụng Kết quả kiểm tra trên tập dữ liệu kiểm tra cho thấy sự cải thiện đáng kể trong dự đoán, đặc biệt là đối với lớp bus, với giá trị tăng từ 0.7 lên 1.4.

Tuy nhiên, đối với hai lớp car và truck, kết quả dự đoán lại giảm sút đáng kể

Lớp car đã giảm từ 19.6 xuống 18.7, trong khi lớp truck giảm mạnh từ 17.1 xuống chỉ còn 11.2 Điều này cho thấy việc khử sương dữ liệu gốc đã ảnh hưởng đến các đặc trưng của hai lớp xe, dẫn đến sự suy giảm kết quả.

Nhóm nghiên cứu đã nhận thấy rằng một số đối tượng được gán nhãn là xe tải (truck) đã bị phát hiện nhầm trong quá trình quan sát kết quả trực quan hóa và so sánh với Ground truth Thêm vào đó, trong điều kiện ánh sáng yếu, hiệu suất phát hiện đối tượng của mô hình gặp nhiều khó khăn.

40 cả hai cách huấn luyện Vì vậy, nhóm đề xuất giải pháp ở Chương 4 nhằm cải thiện kết quả phát hiện đối tượng.

ĐỀ XUẤT CẢI TIẾN VÀ ĐÁNH GIÁ KÉT QUẢ

Đề xuất cải tiến

Kết quả từ bảng 4-1 cho thấy lớp truck giảm sút đáng kể với chỉ số 5.9, trong khi lớp car chỉ giảm 0.9 Qua việc trực quan hóa kết quả, nhóm nhận thấy một số đối tượng thuộc lớp truck bị phát hiện sai thành lớp car Do đó, nhóm đưa ra giả thuyết rằng nếu giữ nguyên vùng ảnh bên trong bounding box của lớp truck và thực hiện khử sương cho toàn bộ vùng ảnh còn lại, khả năng phát hiện sai đối tượng này sẽ giảm, từ đó cải thiện kết quả phát hiện đối tượng trong bài toán (giả thuyết truck_ex).

Nhóm sẽ thực hiện giả thuyết bằng cách thêm bước tiền xử lý ảnh trước khi huấn luyện mô hình PAA Trong bước này, nhóm cắt các vùng ảnh bên trong bounding box của các đối tượng dựa trên annotation trong bộ dữ liệu gốc Sau đó, các vùng ảnh này sẽ được dán vào tọa độ tương ứng trong các ảnh đã được khử sương mờ.

Đánh giá kết quả đề xuất

Mô hình (PAA) AP mAP mAP 50 mAP 75

Tập Train Tập Test Car Truck Bus

Bảng 4-1 Bảng kết quả thực nghiệm với bộ dữ liệu huấn luyện được khử sương mờ loại trừ đối tượng truck phương pháp phát hiện đối tượng PAA

Kết quả tốt nhất được in đậm

4.2.2 Trực quan hóa kết quả

• Kết quả khử sương loại trừ truck

(a)Ảnh gốc (b)Khử sương toàn bộ (c)Khử sương loại trừ truck

(a)Ảnh gốc (b)Khử sương toàn bộ (c)Khử sương loại trừ truck Hình 4-1 Ảnh kết quả khử sương loại trừ đối tượng truck

Kết quả khử sương cho thấy khu vực bên trong các bounding boxes của lớp đối tượng truck được giữ nguyên, trong khi các vùng ảnh khác đều được khử sương mờ.

• Kết quả phát hiện đối tượng trên dữ liệu khử sương mờ loại trừ truck

(a)Ground truth (b)Khử sương toàn bộ ảnh (c)Khử sương loại trừ truck

Hình 4-2 Ảnh kết quả phát hiện đối tượng trên dữ liệu khử sương mờ loại trừ truck (a) Ground truth, (b) Khử sương toàn bộ ảnh, (c) Khử sương loài trừ truck

Khi so sánh hình ảnh trực quan hóa kết quả với Ground truth, mô hình sử dụng dữ liệu khử sương đã cho thấy sự chính xác cao hơn trong việc dự đoán, đặc biệt là khi loại trừ lớp đối tượng truck Các đối tượng trong mô hình này có điểm IoU cao hơn so với các mô hình khác Tuy nhiên, vẫn còn một số đối tượng car chưa được phát hiện trong điều kiện ánh sáng yếu.

Đánh giá kết quả

Dựa vào bảng kết quả và hình ảnh trực quan, nhóm có hai đánh giá như sau:

Khử sương trong lớp truck sẽ làm giảm khả năng phát hiện đối tượng, so với việc giữ nguyên lớp sương và coi nó như một phần của đối tượng.

Việc khử sương đã giúp mô hình giảm tỷ lệ phát hiện sai lớp car thành lớp truck, dẫn đến việc tăng cường kết quả phát hiện đối tượng lớp car lên đến 21.9% theo đo lường mAP Đồng thời, điểm IoU của từng đối tượng car riêng lẻ trong các điểm dữ liệu cũng tăng từ 0.01% đến 0.35%.

Tiêu đề	Một Phương Pháp Phát Hiện Đối Tượng Trong Không Ảnh Chứa Sương Mờ
Tác giả	Trần Tuấn Minh, Trần Văn Bảo
Người hướng dẫn	TS. Nguyễn Tấn Trần Minh Khang, ThS. Võ Duy Nguyên
Trường học	Đại Học Quốc Gia Tp. Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Báo Cáo Đồ Án
Năm xuất bản	2021
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	64
Dung lượng	4,04 MB