Ứng dụng kỹ thuật phát hiện người trong giám sát an ninh

TỔNG QUAN

Giới thiệu

Trong thập kỷ qua, hệ thống tự động phát hiện người đã trở thành tâm điểm chú ý trong lĩnh vực thị giác máy tính và nhận dạng mẫu nhờ vào sự đa dạng ứng dụng của nó Công nghệ này được áp dụng rộng rãi trong nhiều lĩnh vực như an ninh, camera giám sát và phát hiện người đi bộ trong xe thông minh Tuy nhiên, việc tự động phát hiện người trong ảnh và video gặp nhiều thách thức do ảnh hưởng của môi trường, quang cảnh, trang phục và hình dáng đa dạng của con người Những yếu tố như màu sắc, diện mạo, tư thế khác nhau, sự che khuất trong đám đông và điều kiện chiếu sáng không đồng nhất đã làm cho việc nhận dạng trở nên khó khăn hơn.

Phát hiện đối tượng là quá trình xác định sự hiện diện và vị trí của các đối tượng cụ thể trong hình ảnh Các phương pháp này dựa vào việc trích rút các đặc trưng từ các đối tượng mẫu, sử dụng thuật toán học máy để phân loại và so khớp với đối tượng mẫu Đặc biệt, bài toán phát hiện người được định nghĩa là xác định tất cả các vị trí có người trong ảnh hoặc video Nghiên cứu trong lĩnh vực này thường sử dụng bộ mô tả đặc trưng và thuật toán học máy để nhận dạng và phát hiện đối tượng Phát hiện người đi bộ đã thu hút sự quan tâm trong những năm gần đây, đặc biệt khi nhu cầu cải thiện hiệu quả của các hệ thống phát hiện ngày càng cao Các phương pháp tiếp cận khác nhau đã được đề xuất để giải quyết bài toán này.

Đề tài "Ứng dụng kỹ thuật phát hiện người trong giám sát an ninh" tập trung vào việc phát hiện người đi bộ thông qua phương pháp trượt cửa sổ (Sliding windows) trên ảnh tĩnh Nghiên cứu cải thiện phương pháp trích rút đặc trưng HOG (Histogram of Oriented Gradients) bằng cách sử dụng mô tả đặc trưng HOG mở rộng Để tối ưu hóa tốc độ hệ thống, nghiên cứu áp dụng phương pháp tính nhanh bộ mô tả đặc trưng HOG và sử dụng SVM (Support Vector Machines) cho quá trình phân loại.

1.2 Các nghiên cứu liên quan đến đề tài

1.2.1 Các nghiên cứu trong nước Đề tài “Giám sát an ninh dùng kỹ thuật xử lý hình ảnh” c a tác giả Hồ Quốc Thiền (Khóa 2015A) [2] đã thực hiện việc phát hiện người trong ảnh bằng đặc trưng kênh tổng hợp ACF (Aggregated Channel Features) kết hợp với thuật toán máy học Adaboost, theo dõi đối tượng, biểu thị đặc trưng về hành động c a người bằng phương pháp trích đặc trưng HOG, sau đó thông qua vector hỗ trợ máy học SVM để phân loại các loại hành động Kết quả cuối cùng c a đề tài là sự tổng hợp c a nhiều khâu xử lý nên chỉ cho độ chính xác ở m c tương đối, tốc độ xử lý còn là thách th c

1.2.2 Các nghiên cứu ngoài nước

Trong những năm gần đây, nhiều nghiên cứu về phát hiện người đã được thực hiện, sử dụng các bộ mô tả và phân loại khác nhau Một trong những phương pháp nổi bật là bộ mô tả đặc trưng sử dụng biểu đồ hướng gradient (HOG) do Dalal và Triggs đề xuất vào năm 2005, với thuật toán chuẩn hóa HOG cục bộ cho kết quả phát hiện ấn tượng Vector đặc trưng sau đó được đưa vào bộ phân loại SVM tuyến tính để phân loại, cho thấy độ chính xác cao trong nhận dạng người Tuy nhiên, việc tính toán mô tả đặc trưng HOG cần được lặp lại nhiều lần trên mỗi ảnh trong quá trình phát hiện, dẫn đến một số thách thức.

3 phí tính toán HOG lớn Do đó, cần cải tiến phương pháp tính HOG để tăng tốc độ tính toán đáp ng thời gian thực

Nhiều tác giả đã nghiên cứu để nâng cao tốc độ xử lý và độ chính xác thông qua các phương pháp đa dạng Những cải tiến này bao gồm việc áp dụng các phương pháp khác nhau để trích rút đặc trưng HOG, kết hợp HOG với các đặc trưng khác, phát triển các phương pháp tăng tốc bộ phân loại, và áp dụng phát hiện dựa trên từng phần.

Giải thuật ghép tầng kết hợp với đặc trưng HOG được Qiang Zhu giới thiệu vào năm 2006 nhằm phát hiện người nhanh và chính xác Trong các tầng đầu, đặc trưng HOG sử dụng các blocks có kích thước thay đổi để giữ lại các đặc trưng quan trọng, thay vì các khối cố định Giải thuật Adaboost được áp dụng để chọn các khối phù hợp nhất cho phát hiện, từ đó xây dựng tầng cuối cùng để nhận dạng người Kết quả thực nghiệm trên tập dữ liệu INRIA cho thấy phương pháp này tăng tốc độ xử lý mà vẫn duy trì độ chính xác Năm 2008, Ning He phát triển phương pháp SS-HOG, sử dụng lý thuyết không gian tỉ lệ để trích xuất đặc trưng HOG ở nhiều tỉ lệ khác nhau Quá trình này bao gồm việc chọn các tỉ lệ khác nhau, tính toán các mô tả ảnh và kết hợp chúng thành một vector đặc trưng SS-HOG, được đưa vào SVM tuyến tính để phân loại Kết quả từ dữ liệu người đi bộ INRIA cho thấy SS-HOG đạt hiệu quả phát hiện tốt hơn so với HOG gốc Chen Hui Zhou cũng đã đề xuất sự kết hợp giữa HOG với các đặc trưng chính và theo từng phần.

Năm 2009, một phương pháp mới được giới thiệu để xử lý hình ảnh, bắt đầu bằng việc sử dụng đặc trưng Haar và Adaboost nhằm rút trích bộ phận đầu và vai của người Sau đó, các đặc trưng này sẽ tiếp tục được xử lý thông qua quá trình rút trích HOG, giúp cải thiện độ chính xác trong việc nhận diện.

Phương pháp huấn luyện Adaboost trên tập dữ liệu của MIT và kiểm tra trên tập dữ liệu của INRIA cho thấy kết quả nhanh hơn so với HOG gốc, với tỷ lệ phát hiện chính xác cao hơn, nhưng không cải thiện tỷ lệ phát hiện sai Min Li đã giới thiệu một phương pháp mạnh mẽ hơn vào năm 2009, bao gồm hai module: module 1 sử dụng bộ phân loại Viola-Jones và đặc trưng HOG để phát hiện nhanh phần đầu và vai, trong khi module 2 theo dõi hình dáng cuối cùng của đầu và vai bằng bộ lọc từng phần Guangyua Zhang đã tối ưu hóa việc sử dụng đặc trưng HOG và bộ phân loại SVM vào năm 2010, với quy trình tính toán gradient cho mỗi pixel và chuẩn hóa block trong mô tả đặc trưng HOG Yahia Said vào năm 2011 đã phát triển một bộ phát hiện dựa trên HOG tích phân, tăng tốc độ xử lý mà vẫn duy trì độ chính xác của HOG gốc Cuối cùng, Daimeng Wei đã cải thiện đặc trưng HOG vào năm 2013 bằng cách liên kết các đặc trưng được tăng cường để thu thập nhiều thông tin hơn từ đối tượng.

EHOG (Enhanced HOG) là phương pháp mới bao gồm các bước chính như sau: đầu tiên, ảnh được tính toán gradient, sau đó gradient này được phân chia thành 9 bin ảnh liên quan Tiếp theo, phương pháp trích rút đặc trưng C-HOG được cải tiến từ 9 bin ảnh này Cuối cùng, đặc trưng HOG gốc và các đặc trưng mới được kết hợp để tạo thành đặc trưng HOG tăng cường (EHOG) Vector đặc trưng này sau đó được đưa vào HIKSVM (Histogram Intersection Kernel Support Vector Machine) để thực hiện phân loại.

Mục tiêu của đề tài là nghiên cứu phát hiện người đi bộ bằng phương pháp trượt cửa sổ, áp dụng cho ảnh tĩnh và video Nghiên cứu trích rút đặc trưng HOG từ các đối tượng mẫu và sử dụng thuật toán SVM để phân loại Đề tài cũng cải thiện phương pháp tính bộ mô tả đặc trưng HOG nhằm tăng tốc độ hệ thống Ngoài ra, đề xuất ứng dụng bộ phát hiện người vào mô hình hệ thống nhận dạng cảnh báo an ninh.

1.4 Nhiệm vụ và giới hạn của đề tài

1.4.1 Nhiệm vụ của đề tài

 Tìm hiểu lý thuyết về trích rút đặc trƣng HOG

 Tìm hiểu phương pháp học máy SVM trong huấn luyện mô hình và ng dụng phân lớp, nhận dạng

 Xây dựng chương trình trích rút đặc trưng HOG và huấn luyện mẫu bằng SVM

 Đề xuất giải pháp tăng tốc độ phát hiện người

1.4.2 Giới hạn của đề tài Đề tài này chỉ sử dụng một bộ dữ liệu chuẩn c a INRIA gồm huấn luyện

2416 mẫu ảnh positive (người) và 2215 mẫu ảnh negative (không phải người) cho bộ phân loại SVM tuyến tính, test trên 1126 mẫu ảnh positive và 1131 mẫu ảnh negative

Phương pháp phân tích lý thuyết bao gồm việc nghiên cứu tài liệu để hiểu rõ tổng quan về vấn đề nghiên cứu Đồng thời, cần tìm hiểu về phương pháp trích rút đặc trưng HOG và ứng dụng của phương pháp học máy SVM trong phân tích dữ liệu.

- Xây dựng chương trình phát hiện người đi bộ đối với ảnh tĩnh và video

- Đề xuất giải pháp tăng tốc độ phát hiện người

Tháng 2 đến tháng 4 Tìm hiểu các phương pháp phát hiện người trong ảnh

Tìm hiểu, đánh giá các nghiên c u liên quan

Tìm hiểu một số phương pháp biểu diễn đặc trưng: HOG, Haar like feature

Tìm hiểu các phương pháp học máy SVM, Boosting,

Tháng 6 đến tháng 7 Xây dựng chương trình phát hiện người dùng Matlab Đề xuất giải pháp nhằm nâng cao chất lƣợng nhận dạng Tháng 7 đến tháng 8 Viết luận văn tốt nghiệp

Tháng 9 đến tháng 10 Viết báo cáo, chuẩn bị nội dung, trình bày luận văn.

Mục tiêu nghiên c u

Mục tiêu của đề tài là nghiên cứu phát hiện người đi bộ bằng phương pháp trượt cửa sổ trên ảnh tĩnh và video Đề tài tập trung vào việc trích rút các đặc trưng HOG từ các đối tượng mẫu và sử dụng thuật toán SVM để phân loại Ngoài ra, nghiên cứu còn cải thiện phương pháp tính bộ mô tả đặc trưng HOG nhằm tăng tốc độ hệ thống Cuối cùng, bộ phát hiện người được đề xuất sẽ được tích hợp vào mô hình hệ thống nhận dạng cảnh báo an ninh.

1.4 Nhiệm vụ và giới hạn của đề tài

1.4.1 Nhiệm vụ của đề tài

 Tìm hiểu lý thuyết về trích rút đặc trƣng HOG

 Tìm hiểu phương pháp học máy SVM trong huấn luyện mô hình và ng dụng phân lớp, nhận dạng

 Xây dựng chương trình trích rút đặc trưng HOG và huấn luyện mẫu bằng SVM

 Đề xuất giải pháp tăng tốc độ phát hiện người

1.4.2 Giới hạn của đề tài Đề tài này chỉ sử dụng một bộ dữ liệu chuẩn c a INRIA gồm huấn luyện

2416 mẫu ảnh positive (người) và 2215 mẫu ảnh negative (không phải người) cho bộ phân loại SVM tuyến tính, test trên 1126 mẫu ảnh positive và 1131 mẫu ảnh negative

Phương pháp phân tích lý thuyết bao gồm việc nghiên cứu tài liệu để hiểu tổng quan về vấn đề nghiên cứu, đồng thời tìm hiểu về phương pháp trích rút đặc trưng HOG và ứng dụng của học máy SVM.

- Đề xuất giải pháp tăng tốc độ phát hiện người

Tháng 9 đến tháng 10 Viết báo cáo, chuẩn bị nội dung, trình bày luận văn.

Phương pháp nghiên c u

Phương pháp phân tích lý thuyết bao gồm việc nghiên cứu tài liệu để có cái nhìn tổng quan về vấn đề nghiên cứu, đồng thời tìm hiểu về phương pháp trích rút đặc trưng HOG và phương pháp học máy SVM.

- Đề xuất giải pháp tăng tốc độ phát hiện người.

Kế hoạch thực hiện

Tháng 9 đến tháng 10 Viết báo cáo, chuẩn bị nội dung, trình bày luận văn

CƠ SỞ LÝ THUYẾT

Tổng quan về phương pháp xử lý ảnh

Các phương pháp xử lý ảnh bắt đầu từ việc nâng cao chất lượng hình ảnh như độ sáng và độ phân giải, dựa trên các nghiên cứu trong thời kỳ công nghệ hạn chế Sự phát triển của máy tính đã tạo điều kiện thuận lợi cho việc áp dụng các thuật toán xử lý ảnh Ngày nay, ứng dụng xử lý ảnh mở rộng sang nhiều lĩnh vực như điều khiển tự động, kỹ thuật y sinh, giao thông thông minh và giám sát an ninh Xử lý hình ảnh hiện được thực hiện trên hầu hết các thiết bị có màn hình hiển thị như camera kỹ thuật số, điện thoại thông minh, ti vi thông minh và máy tính xách tay.

Thông thường, xử lý ảnh số bao gồm nhiều vấn đề khác nhau Có thể mô tả các bước cơ bản trong xử lý ảnh như sau [15]:

Phân đoạn ảnh Biểu diễn và mô tả

Nhận dạng và xác định

Hình 2.1 mô tả các bước cơ bản trong xử lý ảnh, bắt đầu từ việc thu nhận ảnh qua camera số Ảnh sau khi thu nhận có thể bị nhiễu và có độ tương phản thấp, do đó cần đưa vào bộ tiền xử lý để nâng cao chất lượng Chức năng chính của bộ tiền xử lý bao gồm lọc nhiễu và cải thiện độ tương phản, giúp ảnh trở nên rõ nét hơn Tiếp theo, phân đoạn ảnh được thực hiện để tách ảnh đầu vào thành các vùng thành phần, phục vụ cho việc phân tích và nhận dạng Đầu ra sau phân đoạn bao gồm các điểm ảnh của từng vùng cùng với mã liên kết của các vùng lân cận, và các số liệu này cần được chuyển đổi thành định dạng phù hợp cho các bước xử lý tiếp theo bằng máy tính.

Việc trích chọn đặc trưng trong hình ảnh giúp phân biệt các lớp đối tượng khác nhau trong ảnh nhận được Nhận dạng ảnh là quá trình xác định nội dung hình ảnh, thường thông qua so sánh với mẫu chuẩn đã học trước đó Dựa trên quá trình nhận dạng, chúng ta có thể phán đoán và xác định ý nghĩa của ảnh.

Vector gradient ảnh

Gradient c a một hàm hai biến f là một hàm vectơ f đƣợc xác định bởi: y j i f x y f x f y x f y x f x y

Trong đó, các đạo hàm riêng f x ' và f y ' đƣợc xác định bởi [16]: h y h x f y x y f x f h x

Đạo hàm theo hướng của hàm f(x,y) thể hiện tỷ lệ thay đổi của hàm này theo phương x và y, tương ứng với các vector đơn vị i và j Khi vector đơn vị u tạo với trục x một góc θ, ta có u = Đạo hàm theo hướng vector u được xác định thông qua phép chiếu vô hướng của vector gradient lên u.

(x 0, y 0 ) θ x y u sinθ cosθ o Hình 2.2 Đạo hàm theo hướng vector u

Vector gradient có thể được tính cho từng pixel trong ảnh, thể hiện sự thay đổi giá trị pixel theo hướng x và y xung quanh mỗi pixel Ví dụ, để tính vector gradient tại pixel được tô màu xanh trong hình 2.3a, ta sử dụng phương pháp chập với các bộ lọc [-1 0 1] và [-1 0 1] T.

Hình 2.3 Ví dụ về pixel cần tính vector gradient Đây là một ảnh tỉ lệ xám, do đó các giá trị pixel chỉ trong khoảng từ 0 đến 255

Trong phân tích hình ảnh, điểm đen được xác định là 0 và điểm trắng là 255 Đối với pixel đang xét, giá trị pixel bên trái là 128 và bên phải là 84, dẫn đến tỷ lệ thay đổi theo phương x là 128 - 84 Tương tự, giá trị pixel bên trên là 161 và bên dưới là 54, tạo ra tỷ lệ thay đổi theo phương y là 161 - 54.

Vector gradient bây giờ có thể đƣợc vẽ nhƣ một m i tên trên ảnh.

Đặc trƣng HOG

HOG (Histograms of Oriented Gradients) là một công cụ mô tả đặc trưng phổ biến, giúp nhận diện hình dáng và tư thế của đối tượng một cách hiệu quả.

Đặc trưng HOG được xác định qua sự phân bố hướng gradient và được tính toán trên từng vùng, mỗi vùng tạo ra một vector đặc trưng Khi áp dụng cho đối tượng là con người, bộ mô tả HOG cung cấp một đặc trưng toàn cục, cho phép mô tả một người thông qua một vector đặc trưng duy nhất.

Bằng cách trích rút đặc trưng từ một bức ảnh, chúng ta tạo ra một vector đặc trưng đại diện cho đối tượng trong ảnh Quá trình này chuyển đổi không gian ảnh sang không gian vector, giúp đơn giản hóa việc xử lý và tính toán trên máy tính.

Mã hóa HOG chuyển động

Gom các HOGs trên cửa sổ phát hiện

Các ảnh liên tiếp Ảnh vào

Quyết định Đối tƣợng/không phải đối tƣợng Kênh xuất hiện

Đặc trưng HOG (Histogram of Oriented Gradients) được giới thiệu bởi Dalal và Triggs vào năm 2005, là một phương pháp nổi bật trong nhận diện đối tượng Hình ảnh đầu vào được định cỡ 64x128 pixels và được chia thành các cell kích thước 8x8 pixels Các block, mỗi block bao gồm 2x2 cells (tương đương 16x16 pixels), được sắp xếp chồng lên nhau với tỷ lệ 50% so với các block láng giềng Kết quả là, cửa sổ phát hiện được mô tả bởi 7x15 block Quá trình phát hiện diễn ra khi cửa sổ trượt qua lưới các cell chồng lên nhau, và HOG được tính toán cho mỗi block trong cửa sổ trượt, với mỗi cell chứa một histogram của gradient.

11 góc 9 bin Liên kết các histogram c a các block thiết lập nên một vector đặc trƣng HOG

Dãy đặc trưng ảnh được tạo ra từ mã hóa dày và chồng lên nhau bằng bộ mô tả HOG, bao gồm hai loại chính: HOG tĩnh và HOG chuyển động HOG tĩnh được tính trên các ảnh riêng lẻ, thiết lập kênh xuất hiện, trong khi HOG chuyển động được tính trên dãy ảnh liên tiếp trong video, thiết lập kênh chuyển động để phát hiện trên video Cả hai loại HOG đều dựa trên histogram của gradient góc, nhưng khác nhau ở chỗ HOG tĩnh tính trên gradient ảnh, còn HOG chuyển động tính trên luồng thị giác chênh lệch Hình 2.4 cung cấp cái nhìn tổng quan về quá trình mã hóa cho cả HOG tĩnh và HOG chuyển động.

2.3.1 Bộ mô tả HOG tĩnh

Chuỗi trích rút đặc trưng HOG tĩnh là phương pháp dựa vào việc tính toán histogram gradient trên một lưới dày đặc trong các cửa sổ ảnh Phương pháp này giúp chuẩn hóa vùng ảnh và cung cấp các đặc trưng quan trọng cho việc nhận diện Hình 2.5 [3] minh họa quy trình xử lý của thuật toán trích rút đặc trưng này.

Đối với một bức ảnh được chọn, bước đầu tiên là áp dụng chuẩn hóa toàn cục bằng cách sử dụng chuẩn hóa gamma, nhằm giảm thiểu ảnh hưởng của độ sáng.

-Bước hai là tính gradient ảnh bậc 1 Tính độ lớn và hướng gradient được trình bày ở phần trích rút đặc trƣng HOG 2.3.3

Bước ba trong quy trình xử lý hình ảnh là chia cửa sổ ảnh thành các vùng không gian nhỏ gọi là các cell Đối với mỗi cell, chúng ta tính toán một histogram hướng gradient hoặc biên cho tất cả các pixel trong cell đó Quá trình này kết hợp các histogram một chiều của từng cell để tạo ra một mô tả histogram hướng góc cơ bản Mỗi hướng sẽ chia dải góc gradient thành một số lượng bin cố định Độ lớn gradient của các pixel trong cell sẽ được sử dụng để đóng góp vào histogram hướng này.

Bước đầu tiên trong quá trình xử lý hình ảnh là tính toán histogram theo hướng giá trị gradient trong từng ô (cell) Mỗi ô thường được chuẩn hóa riêng biệt và thuộc về các khối (block) khác nhau, điều này giúp cải thiện độ chính xác trong việc phân tích dữ liệu hình ảnh.

12 sự chuẩn hóa khác nhau Bộ mô tả block đã chuẩn hóa đƣợc xem nhƣ là bộ mô tả HOG

Bước cuối cùng trong quá trình xử lý là chuẩn hóa giá trị của vector đặc trưng Điều này bao gồm việc thu thập các mô tả HOG từ tất cả các block trong một lưới dày đặc, tạo thành một vector đặc trưng tổng hợp để sử dụng trong bộ phân loại cửa sổ phát hiện.

Mô tả HOG có nhiều ưu điểm, bao gồm việc sử dụng histogram theo gradient giúp giữ lại thông tin biên cục bộ, phù hợp cho việc biểu diễn hình dáng Việc kết hợp các block không gian từ các cell giữ lại thông tin quan trọng nhất, trong khi sự chuẩn hóa gamma và chuẩn hóa tương phản vùng ảnh giúp đảm bảo tính bất biến độ chói Sử dụng chồng block cho sự chuẩn hóa luân phiên cho phép bộ phân loại chọn block liên quan nhiều nhất, tối ưu hóa quá trình mã hóa và giảm thiểu mất mát thông tin Tổng thể, mã hóa tập trung vào việc giữ lại các đặc trưng tốt và cung cấp mức độ bất biến cần thiết cho từng bước.

Chuẩn hóa gamma và màu Ảnh vào

Tích l y trọng số ng hộ cho hướng gradient trên các cells không gian

Chuẩn hóa tương phản trong các khối chồng nhau c a các cells

Gom các HOGs cho tất cả các khối trên cửa sổ phát hiện

Hình 2.5 Sơ đồ tổng quan về trích rút đặc trƣng HOG tĩnh [3]

2.3.2 Bộ mô tả HOG chuyển động

HOG chuyển động áp dụng histogram hướng ng tương tự như trong HOG tĩnh, nhằm cung cấp đặc trưng dày đặc và chồng chéo cho các cảnh video Mô tả được chuẩn hóa từ các blocks chồng lên nhau theo vùng của các cells không gian, dẫn đến các histogram chuẩn hóa được liên kết để tạo ra bộ mô tả window phát hiện trong hệ thống phát hiện Khác với HOG tĩnh, HOG chuyển động sử dụng sự chênh lệch của lưu lượng quang học theo hai hướng lưu lượng hoặc gradient không.

14 gian hướng c a các thành phần lưu lượng Đặc trưng chuyển động lấy các ảnh liên tiếp c a cảnh video làm ngõ vào

Các đặc trưng chuyển động được xác định thông qua biểu đồ lưu lượng quang học chênh lệch giữa hai ảnh liên tiếp Sơ đồ tổng quát cho quá trình này tương tự như hình 2.5, nhưng thay vì tính gradient, chúng ta thực hiện một quy trình hai bước bao gồm tính toán lưu lượng và ước tính chênh lệch lưu lượng Mục tiêu sử dụng lưu lượng quang học chênh lệch là để phát hiện đối tượng trong video, bao gồm cả các camera động, mà cần loại bỏ những chuyển động không cần thiết để nâng cao hiệu quả phát hiện Quá trình này được mô tả trong hình 2.6, với điểm nhấn là tính toán lưu lượng quang học chính xác trên các pixel phụ dày đặc Các biến đổi này ước tính chuyển động ở cấp độ cell, cung cấp một vector chuyển động cho mỗi cell, và tín hiệu dựa trên các chuyển động tương đối của các pixel hoặc các vùng khác nhau trong bộ phát hiện Các bước tiếp theo tương tự như bộ mã hóa HOG tĩnh.

Trong bộ mô tả chuyển động HOG tĩnh, cần đảm bảo tính bất biến đối với các thay đổi nhỏ trong vector chuyển động bằng cách xác định các "cell chuyển động", nơi chứa thông tin chuyển động theo hướng gradient trên histogram Độ lớn và hướng của các vector chuyển động được xác định từ các thay đổi quang học, tương tự như việc xác định gradient ảnh Để tránh ảnh hưởng từ cường độ chuyển động, các cell được nhóm thành các block và mỗi block được chuẩn hóa cục bộ Cuối cùng, các block HOG chuyển động được kết hợp thành một vector lớn duy nhất Sơ đồ tổng quát của HOG tĩnh và HOG chuyển động cho thấy histogram hướng gradient là công cụ linh hoạt cho việc mã hóa thông tin xuất hiện và chuyển động.

Chuẩn hóa gamma và màu Cửa sổ phát hiện

Tính lưu lượng quang học

Tính lưu lượng quang học chênh lệch

Tích l y trọng số ng hộ cho hướng lưu lượng quang học chênh lệch trên các cells không gian không gian

Chuẩn hóa tương phản trong các blocks chồng nhau c a các cells

Gom các HOGs cho tất cả các khối trên cửa sổ phát hiện Ảnh liên tiếp Ảnh vào Độ lớn c a lưu lượng Trường lưu lượng

Lưu lượng chênh lệch X Lưu lượng chênh lệch Y

Hình 2.6 Sơ đồ tổng quan về trích rút đặc trƣng HOG chuyển động [3]

2.3.3 Trích rút đặc trƣng HOG:

Các mẫu ảnh được sử dụng để huấn luyện nhận dạng được đưa vào cửa sổ phát hiện có kích thước 64x128 pixel (rộng 64 pixel và cao 128 pixel) Cửa sổ cần tính HOG được chia thành lưới các ô cell bằng nhau, mỗi ô có kích thước 8 pixel.

Nhƣ vậy mỗi cell ch a 8x8 = 64 pixel Một khối (block) gồm 2x2=4 cell Các block này trƣợt chồng lên nhau 1 cell

Hình 2.7 Ví dụ cửa sổ nhận dạng cao 128 pixel x rộng 64 pixel

Tiến hành trích rút đặc trƣng HOG nhƣ sau:

Cải thiện cách tính đặc trƣng HOG

Bộ mô tả đặc trưng MHOG sử dụng đa tỉ lệ giúp thu được các đặc trưng phân biệt cao, từ đó cải thiện khả năng phát hiện Dựa trên bộ mô tả HOG gốc, MHOG tính toán các m c đa tỉ lệ lặp lại quanh vùng mẫu để tăng tốc hệ thống Phương pháp tổng tích lũy các gradients được áp dụng để tính toán nhanh chóng bộ mô tả đặc trưng Histogram của mỗi gradient hướng trong vùng bất kỳ được tính với bốn lối vào từ bảng tổng tích lũy các gradients ngẫu nhiên Các gradients được phân nhóm theo hướng góc, mỗi nhóm tổ chức thành một bảng để tính tổng tích lũy Mỗi bảng này tính histogram cho các gradients theo từng khoảng góc, ví dụ, 20 độ cho mỗi nhóm Cuối cùng, biểu đồ gradient trong khối bất kỳ chỉ yêu cầu 36 phép truy xuất cho 9 nhóm gradient hướng.

Hình 2.17 Xử lý gradient theo hướng c a ảnh đối với phương pháp tổng tích l y

Bộ mô tả đặc trƣng c ng nhƣ tính toán nhanh dựa trên tổng tích l y các độ lớn gradient đƣợc mô tả trong hình 2.18 [20] Ảnh vào Chuẩn hóa màu

Tách gradient thành các bảng

Tính tổng tích l y cho mỗi bảng

Cấu trúc vector đặc trƣng

Chuẩn hóa các vector khối HOG

Hình 2.18 Sơ đồ cải thiện tính đặc trƣng HOG

Các giá trị gradient tại mỗi pixel trong ảnh mẫu được tính bằng cách sử dụng phép đạo hàm rời rạc Để tính đạo hàm rời rạc theo phương x và phương y, các hàm nhân bộ lọc trung tâm [-1 0 1] và [-1 0 1] T được áp dụng.

Trong bài viết này, I đại diện cho một ảnh xám, trong khi  là phép toán chập, và G x, G y là các gradient theo hướng trục x và trục y Độ lớn và hướng của gradient được tính theo các biểu thức (2.5) và (2.6) Độ lớn gradient được phân chia thành 9 bảng dựa trên hướng của chúng, với góc không dấu của các gradient từ 0 đến 180 độ tương ứng với 9 bins (20 độ mỗi bin) Các bảng này được sử dụng để cấu trúc histogram của các gradient hướng, như mô tả trong hình 2.17 Mỗi bảng gradient tính tổng tích lũy của các gradient ngẫu nhiên Cuối cùng, 9 bảng tổng tích lũy Mk (lưu gradient) với k=1 đến 9 được sử dụng để tính các blocks HOGBs và cấu trúc vector đặc trưng cho quá trình huấn luyện và phân loại.

Phương pháp tính nhanh được thực hiện bằng cách tính tổng tích lũy của các gradient ngẫu nhiên từ lớp gradient hướng thích hợp Tổng tích lũy này được cộng dồn và lưu trữ trong bảng tổng tích lũy CS theo công thức đã được chỉ ra.

Trong đó M k (x,y) là ng hộ c a gradient tại (x,y) cho lớp gradient hướng th k

Bằng cách kế thừa các thành phần đã được tính toán trước đó và tận dụng giá trị cộng dồn từ bảng CS cùng với giá trị gradient tại pixel hiện tại, chúng ta có thể tính toán nhanh chóng tổng tích lũy các gradient ngẫu nhiên Công thức tổng tích lũy này được viết lại như sau [20]:

CS k  k   k   k    k (2.11) Trong đó CS (1) (i,0) =0; CS (1) (0,i) =0; với tất cả i và j

Các bảng CS đƣợc dùng để tính gradient cho một histogram c a bin th k trong một vùng [20]:

(x y wh CS xw yh CS x yh CS xw y CS x y

Trong bài viết này, tọa độ (x,y) đại diện cho góc trái phía trên của một vùng trong lớp thứ k, trong khi w và h lần lượt là chiều rộng và chiều cao của vùng đó Giá trị Hk(x,y,w,h) trong lớp thứ k thể hiện giá trị histogram của các gradient hướng tại bin thứ k trong vùng cell được xác định bởi tọa độ (x,y) và kích thước (w,h).

Trong quá trình phát hiện người trong ảnh, ảnh ban đầu thường có nhiều tỉ lệ khác nhau, trong khi các cửa sổ trượt qua các vị trí của ảnh không thay đổi kích thước Việc tính toán HOG thường lặp lại nhiều lần cho các ảnh tỉ lệ, nhưng với phương pháp cải tiến, gradient chỉ được tính một lần và lưu lại để sử dụng cho các ảnh tỉ lệ sau.

Với việc áp dụng tổ chức lưu trữ gradient và các kỹ thuật tính toán HOG nhanh, quá trình nhận dạng đối tượng với nhiều kích thước khác nhau trở nên hiệu quả hơn Kết quả đánh giá cho thấy phương pháp HOG cải tiến mang lại chất lượng nhận dạng tốt hơn so với phương pháp HOG gốc, được trình bày chi tiết trong phần 3.2.2 (chương 3).

Máy vector hỗ trợ SVM (Support Vetor Machines)

Thuật toán SVM, hay còn gọi là Support Vector Machine, là một phương pháp học có giám sát chuyên dùng để phân loại nhị phân SVM tiếp nhận dữ liệu và thực hiện phân loại chúng thành hai lớp riêng biệt.

Thuật toán Support Vector Machine (SVM) được sử dụng để xây dựng mô hình phân loại cho tập dữ liệu hai lớp Được phát triển bởi Vladimir N Vapnik, SVM đã có những cải tiến đáng kể, đặc biệt là vào năm 1995 khi Vapnik và Corinna Cortes giới thiệu dạng chuẩn với lề mềm.

Hình 2.19 Có vô số đường thẳng có thể phân chia tuyến tính, tuy nhiên với đường phân chia H5, đã có một điểm bị phân loại nhầm

Thuật toán phân loại được cung cấp một tập hợp dữ liệu huấn luyện với các điểm dữ liệu và nhãn thuộc các lớp đã xác định Mục tiêu chính của thuật toán là xác định lớp mà một điểm dữ liệu mới sẽ thuộc về.

Trong nhiều trường hợp, việc phân chia các lớp dữ liệu không thể thực hiện một cách tuyến tính trong không gian ban đầu Do đó, cần ánh xạ dữ liệu vào một không gian mới với nhiều chiều hơn, nhằm tạo điều kiện thuận lợi cho việc phân tách các lớp dữ liệu trong không gian mới.

Không thể phân chia các lớp dữ liệu một cách tuyến tính; thay vào đó, cần ánh xạ dữ liệu từ không gian ban đầu vào một không gian mới với nhiều chiều hơn.

Ph c tạp trong không gian ít chiều Đơn giản trong không gian nhiều chiều Ánh xạ đặc trƣng dữ liệu

Hình 2.21 Việc phân tách dữ liệu trở nên dễ dàng hơn trong không gian mới

Siêu phẳng là yếu tố quan trọng trong thuật toán SVM, giúp phân loại hai lớp dữ liệu Có nhiều đường thẳng có thể phân chia hai lớp, nhưng một số đường có thể dẫn đến việc phân loại sai Do đó, mục tiêu là tìm ra siêu phẳng tốt nhất, tức là siêu phẳng có giá trị lề lớn nhất, hay còn gọi là siêu phẳng với lề cực đại (maximal margin hyperplane).

Lề cực đại (maximal margin) là khoảng cách lớn nhất c a siêu phẳng biên song song với siêu phẳng mà không ch a điểm dữ liệu nào bên trong nó

Các vector hỗ trợ (support vectors) là các điểm dữ liệu gần nhất với siêu phẳng phân cách, những điểm này nằm trên siêu phẳng biên, nhƣ trong hình 2.22 x 1 x 2

Trong SVM, các siêu phẳng được sử dụng để phân chia tập mẫu thành hai lớp, với mục tiêu xác định siêu phẳng tối ưu (Optimal hyperplane) ở vị trí càng xa các điểm dữ liệu của tất cả các lớp càng tốt Lề lớn giúp giảm thiểu sai số tổng quát hóa của thuật toán phân loại, từ đó nâng cao hiệu quả phân loại.

Để chia tách 29 thể một cách tuyến tính, cần xác định hai siêu phẳng biên sao cho không có điểm nào nằm giữa chúng và khoảng cách giữa hai siêu phẳng này là lớn nhất.

2.5.3 Phân loại tuyến tính với lề cực đại (maximum-margin linear classifier)

Xây dựng một hàm tuyến tính nhằm phân tách một tập dữ liệu phân loại hai lớp rời nhau, trong đó dữ liệu này bao gồm một tập hợp các đối tượng S với l phần tử Mỗi phần tử được mô tả bởi một vector có d chiều và gán nhãn giá trị +1 hoặc -1.

Giả sử phân tách đƣợc các mẫu có nhãn +1 (các hình tròn đặc) ra khỏi các mẫu có nhãn −1 (các hình tròn rỗng) nhƣ hình 2.22

Trong không gian R^d, tồn tại một siêu phẳng với phương trình f(x) = w.x + b, có khả năng chia đôi tập dữ liệu S thành hai phần, mỗi phần chứa các đối tượng có nhãn giống nhau, +1 hoặc -1 Trong đó, x_i là một vector thực nhiều chiều, w là vector trọng số gồm các thành phần w={w_1, w_2, , w_n}, n là số thuộc tính hay số chiều dữ liệu, và b là một đại lượng vô hướng (bias).

Các siêu phẳng trong không gian hai chiều là các đường thẳng, trong khi trong không gian ba chiều chúng là các mặt phẳng Tổng quát hơn, chúng là các không gian con R d−1 chiều trong không gian R d Khi tập dữ liệu S được sử dụng để xây dựng các siêu phẳng, S thường được gọi là tập huấn luyện, và các phần tử trong đó được gọi là dữ liệu hoặc vector huấn luyện.

Các điểm \( x_i \) nằm trên siêu phẳng thỏa mãn phương trình \( w \cdot x + b = 0 \), trong đó \( w \) là vectơ pháp tuyến của siêu phẳng và khoảng cách từ siêu phẳng đến gốc tọa độ được tính bằng \( \frac{|b|}{||w||} \) Khoảng cách ngắn nhất từ siêu phẳng đến các mẫu có nhãn +1 và -1 được gọi là \( d^+ \) và \( d^- \), và lề của siêu phẳng là \( (d^+ + d^-) \) Đối với dữ liệu khả phân tuyến tính, các vectơ hỗ trợ tìm các siêu phẳng phân cách với giá trị lề lớn nhất có thể, giả sử tất cả dữ liệu huấn luyện đều thỏa mãn điều kiện này.

30 w.x i + b ≥ +1 khi yi = +1, (2.16) w.x i + b ≤ −1 khi yi = −1, (2.17) kết hợp (2.16) và (2.17), ta có : yi(w.x i + b) − 1 ≥ 0, i = 1, l (2.18) hay yi(w.x i + b) ≥ 1, (lề hàm bằng 1) (2.19)

Khi dấu bằng trong (2.19) xảy ra, ta có các điểm nằm trên đường biên giới hạn c a siêu phẳng H + : w.x i + b = +1 và khoảng cách đến gốc tọa độ là 1  b / w

Các điểm trên đường biên giới hạn của siêu phẳng H - : w.x i + b = -1 có khoảng cách đến gốc tọa độ là -1 - b / w, dẫn đến d+ = d- = 1 / w và độ lớn lề là 2 / w Vấn đề đặt ra là tìm các giá trị tối ưu cho w và b Việc này tương đương với việc tìm siêu phẳng f có giá trị w nhỏ nhất, đồng thời thỏa mãn điều kiện 2 để đạt được độ lớn lề cực đại.

, 2 min1 w b w (2.20), thỏa mãn phương trình (2.18)

Công việc này được thực hiện bằng cách chuyển phương trình (2.18) sang vấn đề tương ng với tiên đề Lagrange

) 1 , , (    (2.21) Trong đó  i  0 là các nhân tử Lagrange x 1 x 2

Hình 2.23 Các siêu phẳng H + và H - trong SVM

Mỗi mẫu huấn luyện trong mô hình xi tương ứng với một hệ số Lagrange  i Sau quá trình huấn luyện, những mẫu có  i ≥ 0 được gọi là vector hỗ trợ và nằm trên một trong hai siêu phẳng H+ hoặc H-.

Khi có vector hỗ trợ cho việc huấn luyện, ta có thể xác định lớp của mẫu thử x bằng cách sử dụng các siêu phẳng H+ và H- thông qua hàm dấu: sign(w.x+b).

2.5.4 Các điều kiện Karush-Kuhn-Tucker

Các điều kiện Karush-Kuhn-Tucker đóng một vai trò quan trọng trong giải quyết tối ƣu các vấn đề lập trình phi tuyến Điều kiện Karush-Kuhn-Tucker [25]:

0  i  C  y i w x i  b  (2.25) Với bài toán lề cực đại c ng (hard margin) thì điều kiện 0 ≤ α i ≤ C đƣợc thay bởi 0 ≤ αi

2.5.5 Hàm phân loại tuyến tính với lề mềm cực đại (Soft Margin Classifiers)

Phương pháp trượt window phát hiện người

Phương pháp trượt window cho phép hệ thống quét ảnh ở mọi vị trí và tỉ lệ để phát hiện người Để giảm thiểu việc phát hiện trùng lặp đối với cùng một đối tượng, mô hình trượt window được sử dụng nhằm xác định tất cả các đối tượng là người trong ảnh.

Hình 2.24 Mô tả phương pháp trượt window

Phương pháp phát hiện người đi bộ theo Dalal và Triggs gồm:

-Trích đặc trưng các window kích thước 64x128 pixel tại mỗi vị trí và mỗi tỉ lệ

-Tính đặc trƣng HOG cho mỗi window

-Xác định hệ số tin cậy phân loại (score) cho mỗi window bằng một bộ phân loại

-Thực hiện loại bỏ không cực đại (Non-Maximum Suppression) để loại bỏ các phát hiện trùng lặp có score thấp hơn

Hai cửa sổ được xác định là trùng lặp khi chúng nằm gần nhau và chia sẻ cùng một đối tượng, với tiêu chí chồng lấp (overlap) vượt quá 50% Ví dụ, nếu có hai cửa sổ gần nhau, a và b, chúng sẽ được xem là trùng lặp nếu thỏa mãn điều kiện này.

Hình 2.25 Ví dụ hai window phát hiện gần nhau

Xác định tỷ lệ giữa vùng giao nhau của hai vùng phát hiện (a và b) với hợp của chúng (loại "Union"), hoặc tỷ lệ giữa vùng giao nhau với giá trị nhỏ nhất của hai vùng phát hiện (loại "Min").

 (2.38) Đề tài này chọn loại „Union‟, ( , ) 0.5

 Giải thuật học bộ phân loại window [19]:

-Ng vào: Các window positive độ phân giải ổn định và đƣợc chuẩn hóa (chiều rộng W n và chiều cao H n ), các ảnh huấn luyện negative

-Ng ra: Bộ phân loại nhị phân đã đƣợc huấn luyện cho quyết định đối tƣợng/không phải đối tƣợng trên các window ảnh WnxH n

Trong giai đoạn học đầu tiên, cần tạo ra các mẫu negative ban đầu và lựa chọn ngẫu nhiên tất cả các vị trí window trên mỗi ảnh negative.

(a) Tính bộ mô tả đƣợc cung cấp cho tất cả các ảnh positive

(b) Học một bộ phân loại truyến tính SVM trên các vector bộ mô tả đƣợc cung cấp

-Tạo ra các mẫu negative c ng: thực hiện quét đa tỉ lệ đối với các positive sai trên tất cả các ảnh negative

Bắt đầu với hệ số tỉ lệ Ss=1, sau đó tính toán hệ số tỉ lệ cuối cùng Se bằng cách lấy giá trị tối thiểu giữa W i /W n và H i /H n, trong đó W i và H i lần lượt đại diện cho chiều rộng và chiều cao của ảnh.

(b) Tính số m c tỉ lệ để xử lý: 1 )

S ; trong đó S r là hằng số giữa các m c đa tỉ lệ

(c) Đối với mỗi tỉ lệ S i =[S s , S r , , S n ]

(1) Định lại tỉ lệ ảnh ng vào dùng nội suy hai biến

(2) Áp dụng giải thuật mã hóa và quét ảnh tỉ lệ với bước trượt Ns đối với các phát hiện đối tƣợng/không phải đối tƣợng

(3) Đặt tất cả các phát hiện có t(w i )>0 (t c là các mẫu c ng) vào một danh sách

-Giai đoạn học th hai:

(a) Ước lượng tất cả số mẫu c ng có thể được lưu trữ trong RAM: amples NegativeEx amples

(b) Nếu có nhiều mẫu c ng hơn số này, lấy mẫu đồng bộ số mẫu c ng này và gồm cả chúng trong dãy huấn luyện negative

(c) Học bộ phân loại SVM cuối cùng trên các window positive, các mẫu negative ban đầu và các mẫu c ng đƣợc tạo ra

 Giải thuật trượt cửa sổ ( Sliding Window Detection) [19, 26]:

Bộ phân loại window đã được huấn luyện với các window có kích thước chiều rộng Wn và chiều cao Hn đã được chuẩn hóa Trong quá trình huấn luyện, các mẫu positive chứa đối tượng trong khi các mẫu negative không chứa đối tượng.

- Chọn một ngưỡng c và bước trượt Ns

 Ngõ ra: Các hộp giới hạn (bounding boxes) c a các phát hiện đối tƣợng

 Xây dựng một hình chóp ảnh

- Bắt đầu với S s =1, tính S e = min(W i /W n , H i /H n ), trong đó Wi, H i lần lƣợt là chiều rộng và chiều cao c a ảnh

- Tính số m c tỉ lệ để xử lý: 1 )

 Đối với mỗi tỉ lệ Si=[S s , S r , , Sn]

- Định lại tỉ lệ ảnh ng vào dùng nội suy hai biến

- Trích rút đặc trưng và quét ảnh tỉ lệ với bước trượt Ns đối với các phát hiện đối tƣợng/không phải đối tƣợng

- Đặt tất cả các phát hiện có t(w i )>c vào một danh sách

 Loại bỏ không cực đại (Non-maximum suppression):

 Đối với mỗi m c (level) c a hình chóp, áp dụng bộ phân loại cho mỗi window W n x H n , trượt với các bước trượt Ns, trong m c này thu được một độ lớn đáp ng t

 Nếu t > c, chèn một ký hiệu vào window thành một danh sách L theo th bậc bởi t

Đối với mỗi cửa sổ W trong L, bắt đầu với đáp án mạnh nhất Loại bỏ tất cả các cửa sổ U khác W có sự chồng lấn với W, trong đó phần chồng lấn được tính trong ảnh gốc bằng các cửa sổ mở rộng ở tỉ lệ kém hơn.

 L bây giờ sẽ là danh sách các đối tƣợng đƣợc phát hiện

 Hệ số tin cậy phân loại (score): Là khoảng cách từ mẫu đƣợc phân loại đến biên quyết định c a SVM

Hệ số tin cậy chuẩn hóa [19, 26] cho lớp positive “1” theo hàm sigmoid:

Trong quá trình huấn luyện, các score SVM tuyến tính được biểu thị bằng w i, trong đó các tham số a và c được đánh giá nhằm tối ưu hóa xác suất ước tính cho các ng ra huấn luyện.

Hệ số tin cậy chuẩn hóa [19] cho lớp negative “-1”:

Hình 2.26 Ví dụ về loại bỏ không cực đại (Non-Maximum Suppression)

Hình chóp chứa các ảnh đa tỉ lệ bắt đầu từ mức 1 (level 1), với ảnh đầu tiên là ảnh gốc Tiếp theo, thêm một mức tiếp theo trong hình chóp cho đến khi kích thước của ảnh tỉ lệ nhỏ nhất lớn hơn kích thước cửa sổ 64x128 Hệ số tỉ lệ giữa các mức liên tiếp là 1.2, minh họa cho hình chóp tỉ lệ.

Hình 2.27 Minh họa hình chóp tỉ lệ, mỗi m c mô tả một tỉ lệ so với ảnh gốc

Trong mô hình trượt window, bước trượt giữa các window liên tiếp luôn là 8 pixel Khi điều chỉnh các window tại một tỉ lệ nhất định mà vẫn còn phần biên thừa, ta chia phần biên đó cho 2, làm tròn xuống và dịch chuyển toàn bộ lưới window Ví dụ, với kích thước ảnh hiện tại là (75x130) và kích thước window là (64x128), nếu biên còn lại là (3x2), ta sẽ dịch chuyển tất cả các window theo khoảng cách đã tính toán.

Chiều rộng và chiều cao ảnh mới [19] đƣợc tính bởi công th c:

Đề xuất ng dụng phát hiện người trong giám sát an ninh

OrigHeight NewHeight (2.42) Khi scale =1, ảnh tỉ lệ chính là ảnh gốc

Hình 2.28 Một vài kết quả phát hiện trước (a) và sau (b) khi loại bỏ các phát hiện trùng lặp

2.7 Đề xuất ứng dụng phát hiện người trong giám sát an ninh

2.7.1 Sự cấp thiết đề xuất mô hình nhận dạng cảnh báo an ninh Đầu năm 2017 đến nay, nhiều vụ trộm cắp tài sản trên địa bàn thành phố Hồ

Chủ tịch Hồ Chí Minh được các cơ quan chức năng phát hiện và xử lý kịp thời Theo thông tin từ news.zing.vn, vụ trộm xảy ra tại nhà ca sĩ Đăng Khôi đã lấy đi 800 triệu đồng chỉ trong vòng 2 giờ khi gia đình vắng mặt Nạn nhân cho biết, ngôi nhà của anh nằm ở vị trí có an ninh tốt và được bảo vệ.

Vào lúc 5h ngày 9/2 (mùng 2 Tết), anh Hoa Anh Cang (37 tuổi, nhà số 89A đường 32A, phường Bình Trị Đông B, quận Bình Tân) đã đến công an trình báo về việc gia đình anh bị kẻ gian đột nhập, phá két sắt và lấy trộm 410 triệu đồng cùng một số nữ trang trị giá khoảng 50 triệu đồng Trong khi đó, chị Phan Hồng Nam Phương (nhà 23 đường số 1, xã Vĩnh Lộc A, huyện Bình Chánh) cũng cho biết đã gặp sự cố vào lúc 20h30 ngày 11/2.

(mùng 4 Tết), chị về đến nhà thì phát hiện kẻ gian đột nhập vào nhà lấy trộm xe gắn

40 máy hiệu Airblade, 300 triệu đồng, 600 USD và một số nữ trang Ngày 12/2 (mùng

5 Tết) ch nhà ở hẻm 528 đường Điện Biên Ph , phường 11, quận 10, c ng trình báo bị trộm lấy cắp xe gắn máy, lắc vàng, 1.300 đô la Australia, 500 đô la Canada,

Vào khoảng 4h20 sáng, camera an ninh ghi lại hình ảnh một nam thanh niên cắt khóa cửa để đột nhập vào gia đình nạn nhân Tài sản bị mất trị giá khoảng 1 tỷ đồng, bao gồm 200 USD và một máy quay phim.

Vào ngày 30/4, hai vụ trộm lớn xảy ra tại TP HCM, khiến hai đại gia mất tổng cộng hơn 2 tỷ đồng Bà T, sống tại khu dân cư Đại Phúc, trình báo công an về việc bị mất trộm tài sản gồm tiền mặt và nữ trang trị giá khoảng 730 triệu đồng Cùng ngày, một vụ trộm khác được phát hiện tại khu dân cư Him Lam, nơi một gia đình trở về nhà và phát hiện bị đột nhập, mất đi nhiều tài sản có tổng giá trị khoảng 1,7 tỷ đồng Công an nhận định kẻ trộm có thể đã đột nhập qua cửa chính.

Vào ngày 6/7, theo thông tin từ kenh14.vn, một vụ trộm đã xảy ra tại siêu thị Điện máy Xanh ở xã Bà Điểm, huyện Hóc Môn, TP.HCM, khi kẻ gian đã đột nhập và lấy đi 25 chiếc điện thoại di động, tổng giá trị lên đến gần nửa tỷ đồng.

Vào ngày 6/6, một vụ trộm lớn đã xảy ra tại cửa hàng kinh doanh vàng bạc, đá quý trên đường Tô Ngọc Vân, P.Tam Phú, Q.Thủ Đức, khiến ông B.V.V mất trang sức trị giá trên 400 triệu đồng Ngoài ra, ông N.Đ.K, người cho thuê mặt bằng, cũng bị mất tài sản gồm một xe tay ga Vespa, tiền mặt và hột xoàn tổng trị giá khoảng 130 triệu đồng Khi công an vào cuộc điều tra, hình ảnh từ camera an ninh cho thấy một người đàn ông đã phá cửa sắt và đột nhập vào cửa hàng lúc 2h sáng, với hành vi rất bình tĩnh Cơ quan CSĐT Công an TP.HCM đang phối hợp điều tra vụ việc.

Công an Q.12 điều tra vụ trộm tài sản có tổng trị giá hơn 1,1 tỷ đồng xảy ra tại trung tâm Công nghệ sinh học TP.HCM

Kẻ trộm thường lợi dụng dịp lễ, ngày nghỉ và ban đêm để đột nhập vào nhà dân và cơ quan, ngay cả khi những nơi này đã trang bị camera an ninh và có đội ngũ bảo vệ Điều này cho thấy các phương thức của kẻ trộm ngày càng tinh vi, trong khi hệ thống an ninh hiện tại vẫn chưa hoàn hảo và không đáp ứng đủ yêu cầu giám sát Tình trạng mất cắp vẫn diễn ra liên tục, và nếu các tình huống này được cảnh báo kịp thời, có thể ngăn chặn hành vi trộm cắp và giảm thiểu tổn thất cho người dân cũng như các tổ chức, cơ quan.

2.7.2 Đề xuất mô hình hệ thống nhận dạng cảnh báo an ninh

Mô hình hệ thống nhận dạng cảnh báo an ninh được thể hiện qua sơ đồ khối như hình 2.29, bao gồm các module chức năng cơ bản Các module này đóng vai trò quan trọng trong việc đảm bảo hiệu quả và độ tin cậy của hệ thống nhận dạng.

- Thu nhận, truy vấn hình ảnh từ camera;

- Mô tả đặc trƣng dữ liệu;

- Nhận dạng và phát hiện đối tƣợng quan tâm;

- Phân tích ngữ nghĩa dựa trên nội dung, không gian, thời gian và phát cảnh báo

CAMERA THU NHẬN HÌNH ẢNH

NHẬN DẠNG, PHÁT HIỆN TRUY VẤN ẢNH

PHÁT CẢNH BÁO BIỂU DIỄN NGỮ NGHĨA THEO VẾT ĐỐI TƢỢNG

MÔ HÌNH ĐỐI TƢỢNG HUẤN LUYỆN

DỮ LIỆU VỀ ĐỐI TƢỢNG

NGỮ CẢNH KHÔNG GIAN, THỜI GIAN

Hình 2.29 Sơ đồ khối hệ thống nhận dạng cảnh báo an ninh

Hệ thống được mô tả với các module chính như sau: Đầu tiên, module truy vấn hình ảnh cho phép camera thu nhận và gửi hình ảnh về để xử lý theo thời gian xác định Tiếp theo, module biểu diễn đặc trưng ảnh có chức năng trích rút đặc trưng dữ liệu hình ảnh, giúp máy tính có thể xử lý tự động Phương pháp biểu diễn đặc trưng cần đảm bảo làm nổi bật đối tượng cần nhận dạng cùng với các đối tượng liên quan.

HOG (Histograms of Oriented Gradients) là phương pháp nổi bật trong việc biểu diễn đặc trưng và có khả năng nhận dạng cao Quá trình huấn luyện mô hình đối tượng sử dụng SVM (Support Vector Machine) để tạo ra một mô hình phân loại nhị phân từ tập dữ liệu huấn luyện Mô hình này sẽ được sử dụng để nhận dạng và phát hiện các đối tượng trong hình ảnh đầu vào Chức năng theo vết đối tượng cho phép xác định xem đối tượng quan tâm có xuất hiện trong hình ảnh hiện tại hay không, từ đó giúp xác định quỹ đạo chuyển động và hành vi của đối tượng Hệ thống ngữ nghĩa sẽ dựa vào không gian và thời gian xuất hiện của con người để đưa ra khuyến nghị cảnh báo an ninh Nếu phát hiện hành vi khả nghi, hệ thống sẽ thông báo cho người bảo vệ hoặc gia chủ qua âm thanh, đèn báo hiệu và hình ảnh, đồng thời có thể kích hoạt âm thanh báo động và đèn tại vị trí đối tượng để ngăn chặn hành vi xâm nhập.

Biểu diễn ngữ nghĩa về ngữ cảnh kết hợp không gian và thời gian là yếu tố quan trọng trong hệ thống giám sát an ninh, giúp đưa ra quyết định về mức độ cảnh báo Mức cảnh báo sẽ thay đổi tùy thuộc vào thời gian và vị trí xuất hiện của đối tượng Chẳng hạn, trong giờ hành chính tại cơ quan, khi hoạt động diễn ra bình thường và có sự hiện diện của cán bộ bảo vệ an ninh, khả năng xảy ra sự cố là rất hiếm.

Trong bối cảnh gia tăng các vụ trộm cắp tài sản, việc thiết lập hệ thống cảnh báo an ninh là vô cùng cần thiết Đặc biệt vào ban đêm, khi khả năng xảy ra trộm cắp cao hơn, cán bộ bảo vệ thường dễ cảm thấy mệt mỏi và không tập trung Do đó, cần thiết lập mức độ cảnh báo cao như đèn báo và chuông báo để kịp thời phát hiện và ngăn chặn hành vi trộm cắp Trong thời gian nghỉ lễ, mức độ cảnh báo nên được nâng cao nhất, và các hộ gia đình vắng nhà có thể sử dụng điện thoại cá nhân để thông báo tình hình.

Khi đánh giá về an ninh không gian, sự xuất hiện của một người gần nhà hoặc văn phòng thường có mức độ rủi ro thấp hơn so với khi họ đã vào trong tòa nhà Nếu một người chỉ đi ngang qua khu vực bên ngoài, khả năng xảy ra trộm cắp tài sản sẽ không cao Do đó, hệ thống an ninh chỉ cần cảnh báo cho cán bộ giám sát hoặc ghi lại hình ảnh của người đó để lưu trữ Trong trường hợp xảy ra mất tài sản, bộ phận an ninh và các cơ quan chức năng có thể sử dụng hình ảnh đã lưu để điều tra.

 Ví dụ về mức cảnh báo an ninh theo ngữ cảnh thời gian:

Dựa vào thời gian làm việc của cơ quan và thời gian vắng nhà của hộ gia đình, các mô hình cảnh báo trong hệ thống nhận dạng an ninh cần được thiết lập phù hợp với thực tiễn Ví dụ, các mô hình cảnh báo có thể được xây dựng cho một cơ quan hành chính nhằm đảm bảo an toàn và bảo mật hiệu quả.

M c 0 được hiểu là khoảng thời gian làm việc trong giờ hành chính, khi người ra vào cơ quan không ảnh hưởng đến an ninh Do đó, hệ thống không cần cảnh báo cho bộ phận giám sát bảo vệ Hệ thống sẽ tự động lưu trữ hình ảnh khi phát hiện người qua lại trong vùng giám sát với chất lượng hình ảnh bình thường, và dữ liệu này có thể được tra cứu khi cần thiết.

THỰC NGHIỆM - ĐÁNH GIÁ

Tiêu đề	Ứng Dụng Kỹ Thuật Phát Hiện Người Trong Giám Sát An Ninh
Tác giả	Nguyễn Thị Phong
Người hướng dẫn	TS. Hoàng Văn Dũng
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành	Kỹ Thuật Điện Tử
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2017
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	100
Dung lượng	5,69 MB