TỔ NG QUAN CÁC V ẤN ĐỀ NGHIÊN C Ứ U
Phát hi ệ n và theo v ết đối tượ ng
Phát hiện đối tượng trong hình ảnh và video có nhiều ứng dụng trong thực tế
Nhiều nghiên cứu đã chỉ ra rằng quá trình phát hiện người đi bộ trong ảnh bao gồm hai bước chính: trích xuất đặc trưng từ frame ảnh hoặc video và sử dụng thuật toán phân loại để xác định sự hiện diện của người Các phương pháp phát hiện người đi bộ được chia thành hai cách tiếp cận: truyền thống và học sâu Phương pháp truyền thống thường sử dụng cửa sổ trượt để trích xuất vùng ảnh, áp dụng các kỹ thuật như Haar-like hoặc Histogram of Oriented Gradients (HOG), và phân loại bằng các thuật toán như Cascade Classifier hoặc Support Vector Machine (SVM) Mặc dù các kỹ thuật cổ điển có tốc độ cao, nhưng độ chính xác còn hạn chế Gần đây, các nghiên cứu đã khai thác sức mạnh của học sâu để cải thiện hiệu suất và tốc độ phát hiện, với các phương pháp nổi bật như Region-based Convolutional Neural Network (R-CNN) và Single Shot Multibox Detector (SSD).
Kỹ thuật R-CNN, được giới thiệu bởi Ross Girshick và các cộng sự, sử dụng mạng CNN để tính toán đặc trưng trên các vùng ảnh trước khi áp dụng phương pháp phân loại SVM Phương pháp Selective Search được sử dụng để tìm kiếm các khung hình người, và hình ảnh sau khi được trích xuất đặc trưng qua mạng CNN sẽ được phân loại bằng SVM Mặc dù kỹ thuật này đạt độ chính xác cao, nhưng việc xử lý từng vùng ảnh riêng lẻ qua mạng CNN dẫn đến tốc độ xử lý chậm.
Hình 1.1 Kiến trúc mạng R-CNN [4]
Để cải thiện hiệu suất của R-CNN, Fast R-CNN đã được đề xuất, cho phép hình ảnh và các khung hình từ Selective Search được xử lý trong một mạng CNN duy nhất, qua đó tăng tốc độ đáng kể cho thuật toán Tuy nhiên, Selective Search vẫn là một nút cổ chai khi xử lý hình ảnh có nhiều đối tượng Để khắc phục điều này, Faster R-CNN đã thay thế Selective Search bằng Region Proposal Network (RPN) Mặc dù vậy, các kỹ thuật R-CNN vẫn hoạt động theo hai bước chính: (1) tìm kiếm các vùng chứa vật thể và (2) xác định lớp của vật thể.
Hình 1.2 Kiến trúc mạng Faster R-CNN [8]
Mô hình SSD, ra đời năm 2016, là một phương pháp phát hiện đối tượng sử dụng mạng VGG để trích chọn đặc trưng Mạng SSD bao gồm hai phần chính: trích chọn đặc trưng và áp dụng các lớp convolution để phát hiện đối tượng VGG được sử dụng làm backbone vì đây là một mạng neural hiệu quả trong phân loại đối tượng Sau VGG, có 6 lớp convolution được áp dụng, giúp thay đổi scale trên bản đồ đặc trưng ảnh, từ đó phát hiện đối tượng với nhiều kích thước khác nhau.
Hình 1.3 Bản đồđặc trưng của mạng SSD [5]
Hình 1.4 bản đồđặc trưng nhiều scale của SSD [5]
SSD là một mạng phát hiện đối tượng nhanh chóng, có khả năng nhận diện nhiều kích thước đối tượng khác nhau Mặc dù SSD có hiệu suất cao, nhưng các mạng thuộc họ YOLO đã có nhiều cải tiến, giúp vượt trội hơn SSD về độ chính xác và tốc độ.
Multiple Object Tracking (MOT) là một lĩnh vực nghiên cứu quan trọng trong thị giác máy tính, nhằm phân tích video để nhận diện và theo dõi các đối tượng thuộc một hoặc nhiều nhãn Các phương pháp theo dõi đối tượng có thể được phân loại thành nhiều kỹ thuật khác nhau.
3 nhóm: (1) dựa trên điểm (point tracking), (2) dựa trên nhân (kernel tracking), và
(3) dựa trên hình dáng (silhouette tracking) [11]
Hình 1.5 Các nhóm trong theo vết đối tượng [11]
Mean Shift Tracking là một trong những thuật toán nổi bật trong các phương pháp tracking cổ điển, được phát triển bởi Fakunaga và Hostetter vào năm 1975 Thuật toán này dựa trên việc cực đại hóa kỳ vọng trong một vùng tìm kiếm cục bộ mà không cần thông tin tiền nghiệm về số lượng hay hình dạng của các cụm Mean Shift được xem là một giải thuật ước lượng hàm mật độ không có tham số Tuy nhiên, thực nghiệm cho thấy nếu đối tượng di chuyển quá nhanh, thuật toán có thể hội tụ nhầm đối tượng do giảm sự overlap, dẫn đến việc Mean Shift không thể theo dõi các vật di chuyển nhanh.
Một trong những cách hiệu quả để giải quyết vấn đề vận tốc của vật thể là áp dụng bộ lọc Kalman vào phương trình chuyển động kết hợp với thuật toán Mean-Shift Bộ lọc Kalman là một giải thuật lặp cho phép ước lượng sai số của phép đo sau mỗi bước lặp, từ đó đưa ra giả định về hướng và vận tốc thực sự của vật thể Tuy nhiên, phương pháp này có thể không ổn định trong các hệ thống thực tế và tiêu tốn nhiều tài nguyên CPU.
Năm 2016, Alex Bewley và các cộng sự đã phát triển phương pháp theo dõi mang tên Simple Online Realtime Tracking (SORT) dựa trên bộ lọc Kalman Phương pháp này nhận đầu vào là các bao chữ nhật của vật thể cùng với độ dời được ước lượng từ frame trước, sử dụng đầu ra từ một thuật toán phát hiện SORT áp dụng độ đo Intersection Over Union (IOU) để so sánh khung chữ nhật dự đoán với khung chữ nhật từ thuật toán phát hiện, giải quyết bài toán giao việc bằng thuật toán Hungarian Mặc dù SORT cho tốc độ theo dõi nhanh và ổn định, nhưng gặp khó khăn khi các đối tượng di chuyển chồng chéo vào nhau.
Đị nh danh l ạ i
Định danh lại là một vấn đề thu hút sự quan tâm của nhiều nhà nghiên cứu và khoa học, dẫn đến việc đề xuất nhiều giải pháp Nhiều nghiên cứu và tạp chí đã công bố các công trình liên quan đến vấn đề này Tổng quan, các nghiên cứu hiện nay được phân loại thành hai cách tiếp cận chính: một là dựa trên đặc trưng tự xây dựng và hai là dựa trên các mạng học sâu.
1.2.1 Đặc trưng tự xây dựng
Các đặc trưng tự xây dựng là một trường phái nghiên cứu quan trọng trong cộng đồng định danh lại, vẫn giữ được sức ảnh hưởng dù có sự phát triển của mạng học sâu Lý do chính cho sự tiếp tục nghiên cứu theo hướng này là khả năng phân tích các thành phần đặc trưng rõ ràng và dễ dàng mở rộng Trong bài viết này, chúng tôi sẽ đề cập đến một số đặc trưng thường được sử dụng trong định danh lại, trong đó có đặc trưng ELF (Ensemble of Localized Features) Ý tưởng của ELF là xây dựng đặc trưng dựa trên các thành phần kênh, vùng và khối, với thuật toán AdaBoost được áp dụng để học độ tương tự giữa hai đặc trưng Quá trình xây dựng đặc trưng được chia thành hai bước chính: định nghĩa tập đặc trưng học và xây dựng hàm đo độ tương đồng.
Phương pháp ELF kết hợp nhiều đặc trưng kênh, bao gồm ba không gian màu RGB, HSV và YcbCr Ngoài ra, các bộ lọc kết cấu như bộ lọc Schmid với 13 tham số và bộ lọc Gabor với 8 tham số cũng được sử dụng để làm phong phú thêm đặc trưng kênh.
Thuật toán AdaBoost được áp dụng để tìm ra hàm đo độ tương tự giữa các đặc trưng, sử dụng ba mô hình phân phối xác suất là Gaussian, Gamma và Exponential làm các bộ phân loại yếu Tập dữ liệu huấn luyện bao gồm các hình ảnh của người đi bộ, trong đó các tham số của mỗi mô hình sẽ được ước lượng và tỷ số tương tự được tính toán.
Hình 1.6 Các bộ lọc kết cấu sử dụng trong đặc trưng ELF [14]
Hình 1.6 minh họa hình học của các bộ lọc trong đặc trưng ELF, trong đó các bộ lọc Schmid (13 bộ lọc đầu) tìm kiếm đặc trưng tốt nhất trong một lân cận, còn các bộ lọc Gabor (8 bộ lọc cuối) làm nổi bật đặc trưng theo phương xác định Đặc trưng ELF mạnh mẽ nhờ vào sự kết hợp nhiều loại đặc trưng kênh, nhưng việc sử dụng phương pháp ước lượng độtương đồng bằng học máy như AdaBoost khiến khả năng phân biệt của nó phụ thuộc nhiều vào tập huấn luyện, dẫn đến việc không bao quát được các trường hợp thực tế Hơn nữa, việc chỉ kết hợp một tập các đặc trưng kênh làm cho ELF không đủ mạnh để phân biệt lượng người lớn với nhiều góc nhìn và kết cấu Đặc trưng LDFV (Local Descriptors encoded by Fisher Vector) là đặc trưng thứ hai cần đề cập, với ý tưởng kết hợp thông tin tọa độ và đặc trưng cường độ sáng, tạo ra một đặc trưng đơn giản gồm 7 chiều.
Điểm khác biệt lớn của đặc trưng ELF là quá trình tổng hợp một vector đặc trưng đại diện cho một ảnh, điều mà ELF không thực hiện thông qua phương pháp Fisher Vector Các đặc trưng được trích xuất từ ảnh được mô hình hóa bằng một mô hình hỗn hợp Gaussian với K thành phần, trong đó mỗi thành phần được đặc trưng bởi kỳ vọng, phương sai và trọng số.
Hình 1.7 Mô tảphương pháp xây dựng đặc trưng LDFV [16]
Mỗi vector đặc trưng được liên kết với các thành phần của mô hình trộn Gaussian, với trọng số khác nhau, thể hiện mức độ gần gũi hoặc xa cách của một cụm.
Vector LDFV được tạo ra bằng cách kết hợp liên tục hai thành phần vi phân riêng theo à và σ của từng thành phần trong mô hình trộn Gaussian Các giá trị này được tính toán dựa trên công thức cụ thể.
Điểm mạnh của LDFV là khả năng trích xuất đặc trưng ảnh thông qua phương pháp phân biệt hiệu quả như Fisher Vector Tuy nhiên, LDFV hoàn toàn bỏ qua các đặc trưng vùng và nhóm, thay vào đó, nó xây dựng một bộ phân cụm các đặc trưng mô tả rời rạc, chỉ dựa vào lân cận thông qua đạo hàm cấp 1 và cấp 2 Quá trình xây dựng đặc trưng LDFV chủ yếu dựa vào phân bố toàn cục.
Hình 1.8 Tầm quan trọng của phân bố cục bộ [17]
Phân bố cục bộ đóng vai trò quan trọng trong việc nhận diện sự khác biệt giữa các hình ảnh Hình (a) cho thấy hai hình có phân bố toàn cục giống nhau, khiến mô tả toàn cục không thể hiện được sự khác biệt Ngược lại, khi chia nhỏ hai hình thành 4 phần và biểu diễn phân bố trên từng phần cục bộ, như thể hiện ở hình (b) và (c), sự khác biệt giữa hai hình trở nên rõ ràng hơn Điều này nhấn mạnh tầm quan trọng của việc xem xét phân bố cục bộ để hiểu rõ các đặc trưng của hình ảnh.
Khác với ELF và LDFV, gBiCov (Covariance Descriptor based on bio-inspired features) sử dụng đặc trưng nhóm bằng cách mô tả một nhóm pixel thành phân phối Gauss và trích xuất ma trận hiệp phương sai tương ứng Các ma trận hiệp phương sai này được so sánh độ tương tự và ghép nối thành đặc trưng hoàn chỉnh Đặc trưng cục bộ của gBiCov bao gồm sự kết hợp của tọa độ, cường độ (đạo hàm cấp 1, cấp 2, hướng và độ lớn).
Trước khi sử dụng mô tả hiệp phương sai (Covariance Descriptor), hình ảnh cần được tiền xử lý bằng các bộ lọc Gabor, loại bộ lọc có hạt nhân tương tự với các đặc điểm cần thiết.
Hệ thống thị giác của con người bao gồm 11 thành phần chính, trong đó việc kết hợp bộ lọc Gabor với mô tả hiệp phương sai giúp cải thiện khả năng đặc trưng hình ảnh, đặc biệt là trong các điều kiện ánh sáng không ổn định.
Hình 1.9 Biểu đồ luồng xây dựng đặc trưng gBiCov [18]
Đặc trưng gBiCov, như mô tả trong Hình 1.9, bắt đầu bằng cách chuyển đổi ảnh đầu vào sang không gian màu HSV và áp dụng các bộ lọc Gabor, được coi là Biologically Inspired Features (BIF) do tính chất gần gũi với thị giác con người Mỗi nhóm BIF sẽ chọn ra đặc trưng tốt nhất và tính toán ma trận hiệp phương sai trong một cửa sổ trượt nhỏ Độ tương đồng trong mỗi nhóm bộ lọc Gabor sẽ được trích xuất và kết hợp đầu ra từ các kênh màu thành một vector đại diện cho ảnh người Điểm mạnh của gBiCov là khả năng kết hợp các bộ lọc để xây dựng mô tả cục bộ, điều này rất hữu ích khi hai ảnh đối sánh có phân bố toàn cục giống nhau nhưng khác nhau ở chi tiết Tuy nhiên, bBiCov chỉ tập trung vào thông tin hiệp phương sai mà bỏ qua thông tin kỳ vọng.
Hình 1.10 Tầm quan trọng của thông tin kỳ vọng [17]
Hình 1.10 minh họa tầm quan trọng của thông tin kỳ vọng trong nhận diện hình ảnh Hình (a) là ảnh gốc được chụp, trong khi hình (b) cho thấy hình ảnh sau khi tính toán giá trị kỳ vọng tại các vùng pixel cục bộ, cho thấy sự tương đồng cao giữa hai bức ảnh của cùng một người Ngược lại, hình (c) là hình ảnh sau khi loại bỏ thông tin kỳ vọng, dẫn đến sự tương đồng giữa hai bức ảnh giảm đáng kể, cả về mặt toàn cục lẫn cục bộ, làm giảm khả năng nhận diện.
Tóm t ắ t n ộ i dung
Nghiên cứu về hệ thống định danh lại tập trung vào việc nâng cao tính chính xác trong quá trình phát hiện, theo vết và định danh lại một cách rời rạc Đối với thành phần phát hiện, các mô hình học sâu như CNN và R-CNN cho kết quả tốt và nhanh chóng Trong khi đó, thành phần theo vết sử dụng các phương pháp cổ điển kết hợp với các thành phần mô tả học sâu nhằm cải thiện tốc độ và độ chính xác Về thành phần định danh lại, có hai cách tiếp cận chính: (1) đặc trưng tự thiết kế, chủ yếu dựa vào phân tích cục bộ hoặc toàn cục với các thuật toán học máy cổ điển để trích xuất đặc trưng, và (2) đặc trưng học sâu, đang có sự phát triển không ngừng.
Các phương pháp định danh lại dựa trên đặc trưng tự thiết kế gặp phải một số vấn đề Đặc biệt, các đặc trưng thiết kế này chỉ tập trung vào phân bố toàn cục, điều này có thể hạn chế khả năng nhận diện chính xác trong một số trường hợp.
Thứ hai, thiết kế đặc trưng sử dụng phân bố cục bộ nhưng lại bỏ qua những thông tin quan trọng có tính phân biệt cao Thứ ba, đặc trưng này không phân tích phân bố cục bộ một cách đủ chi tiết để có thể trích xuất được những đặc trưng tốt cho con người.
Phương pháp đề xu ấ t
Trong nghiên cứu về các thuật toán phát hiện và theo vết, luận văn đề xuất sử dụng phương pháp YOLO [30] cho nhiệm vụ phát hiện, kết hợp với DeepSORT để theo dõi đối tượng.
Một cải tiến của thuật toán SORT là việc sử dụng các kỹ thuật mạng học sâu cho nhiệm vụ định danh lại, cho phép tự động phát hiện các đặc trưng tốt nhất từ dữ liệu trong quá trình huấn luyện mà không cần quá chú ý đến hướng tấn công cụ thể Tuy nhiên, tài nguyên và thời gian huấn luyện dữ liệu là những trở ngại chính cho phương pháp này Do đó, các kỹ thuật tự xây dựng đặc trưng vẫn đang được phát triển và giữ vị trí quan trọng trong nghiên cứu định danh lại Vì vậy, luận văn đề xuất lựa chọn đặc trưng Gaussian of Gaussian (GOG) để cải thiện hiệu quả trong quá trình này.
PHƯƠNG PHÁP ĐỀ XU Ấ T
T ổ ng quan h ệ th ố ng
Luận văn đề xuất một hệ thống định danh hoàn toàn tự động nhằm khắc phục các vấn đề của các phương pháp hiện tại và những khó khăn trong bài toán định danh lại Hệ thống này bao gồm ba thành phần chính: phát hiện, theo vết và định danh lại, nhằm xây dựng một hệ thống định danh hoàn chỉnh.
- Đối với thành phần phát hiện, phương pháp YOLO được sử dụng
- Thuật toán DeepSORT được triển khai cho bước theo vết DeepSORT là một mô hình có khảnăng theo vết với thời gian thực
Thành phần định danh trong luận văn đề xuất phương án sử dụng đặc trưng GOG, một đặc trưng tự xây dựng, nhằm giải quyết các vấn đề của những đặc trưng tự xây dựng trước đó Phương pháp này áp dụng phân phối phân cấp để nâng cao hiệu quả biểu diễn và tập trung vào việc sử dụng thông tin kỳ vọng.
Hàm khoảng cách luận văn đề xuất áp dụng thuật toán XQDA, một công cụ hiệu quả trong việc xác định các đặc trưng cơ bản từ dữ liệu huấn luyện Thuật toán này giúp nâng cao khả năng phân biệt bằng cách loại bỏ các chiều thông tin dư thừa, từ đó tối ưu hóa quá trình phân tích và nhận diện.
Hình 2.1 Luồng hoạt động của hệ thống định danh đề xuất
Hình 2.1 mô tả luồng hoạt động của hệ thống định danh đề xuất trong luận văn
Hệ thống nhận đầu vào sử dụng các frame ảnh từ nhiều camera khác nhau Đầu tiên, khối phát hiện đối tượng YOLO sẽ trích xuất các vùng chữ nhật chứa người trong frame ảnh Sau đó, khối này gán ID cho các vùng chữ nhật dựa trên thông tin từ frame trước Khi khung chữ nhật tiến gần đến mép vùng quan sát, hệ thống sẽ gán lại ID cho đối tượng dựa trên dữ liệu lịch sử từ các frame trước và các camera kết nối Phương pháp YOLO được chọn cho bước phát hiện đối tượng nhờ hiệu quả và tốc độ của nó Để theo dõi đối tượng, DeepSORT được sử dụng, trong khi bước định danh lại áp dụng đặc trưng GOG và phương pháp học khoảng cách XQDA Các phần tiếp theo của luận văn sẽ trình bày chi tiết về các phương pháp này.
Cơ sở lý thuy ế t phát hi ện đối tượ ng
2.2.1 Tổng quan mô hình YOLO
YOLO (You Only Look Once) là một mô hình mạng CNN hiệu quả trong việc phát hiện, nhận dạng và phân loại đối tượng trong ảnh Mô hình này cho phép phát hiện nhiều loại đối tượng trong một khung hình ảnh theo thời gian thực Ý tưởng chính của YOLO là chia khung hình thành các ô lưới vuông bằng nhau và thực hiện dự đoán trên từng ô lưới.
Ô lưới trong phát hiện đối tượng chứa thông tin về đối tượng, lớp của nó và bao quanh đối tượng trên hình ảnh Phương pháp này cho phép phát hiện đối tượng và tìm bounding box đồng thời, vượt trội hơn so với các thuật toán truyền thống cần xác định bounding box trước khi nhận diện đối tượng.
Hình 2.2 Nguyên lý của mô hình YOLO [10]
Mô hình YOLO hoạt động bằng cách chia ảnh đầu vào thành các ô vuông kích thước S x S, trong đó mỗi ô sẽ dự đoán box của vật thể và hệ số tin cậy Đồng thời, nó xác định xác suất lớn nhất cho từng ô rơi vào nhãn nào Cuối cùng, YOLO tổng hợp các thông tin này để nhận diện nhãn và bounding box của các đối tượng trong ảnh.
Khác với các thuật toán R-CNN, YOLO thực hiện nhận dạng đối tượng đồng thời với việc phát hiện đường bao, cho phép chỉ cần một mạng CNN hoạt động trên toàn bộ ảnh Điều này giúp YOLO phát hiện và nhận dạng nhiều loại vật thể trong thời gian thực, đồng thời loại bỏ quy trình tìm kiếm bounding box phức tạp và tốn hiệu năng, thay vào đó là phát hiện bao trên từng thành phần cục bộ của ảnh.
YOLO đã chứng minh hiệu quả vượt trội trong việc nhận diện đa đối tượng với số lượng nhãn lớn, đồng thời duy trì tốc độ xử lý ấn tượng Đến nay, YOLO đã trải qua nhiều cải tiến so với mô hình gốc, nâng cao cả độ chính xác lẫn tốc độ Tính đến thời điểm nghiên cứu, YOLO đã có ba phiên bản phát triển.
2.2.2 Kiến trúc mô hình YOLO
Mô hình YOLO được thiết kế với 24 lớp convolution, sau đó là hai lớp fully connected Frame ảnh trước khi đi vào mô hình được resize vềkích thước 448 x
Mô hình YOLO sử dụng ảnh kích thước 448 x 448 và trải qua nhiều lớp convolution kích thước 3 x 3 để tìm ra đặc trưng từ các vùng lân cận, cùng với các lớp 1 x 1 để điều chỉnh tham số scale và các lớp max-pooling nhằm giảm số chiều của ảnh Đầu ra của mạng YOLO sẽ bao gồm một số lượng giới hạn các bounding box cho từng ô lưới, kèm theo tham số độ tin cậy và xác suất lớp của ô lưới đó Do đó, số chiều của đầu ra mô hình YOLO được tính là S x S x (B * 5 + C), trong đó S là số ô vuông mỗi chiều, B là số bounding box trên từng ô lưới, và C là số lớp của ô lưới.
Mỗi bao chữ nhật được dự đoán bởi YOLO bao gồm 5 giá trị: x, y, w, h, và độ tin cậy Trong đó, x và y thể hiện tọa độ trung tâm của bao so với ô lưới, w và h là tỷ lệ kích thước của bao so với kích thước ảnh Độ tin cậy của bao chữ nhật cho biết mức độ chính xác của mô hình trong việc xác định đối tượng và độ chính xác của bounding box Để đánh giá độ tin cậy, YOLO sử dụng chỉ số IOU (Intersection over Union) giữa bao dự đoán và ground-truth.
Trong công thức *truth pred confidence=P Object IOU PT 2.1*, P(Object) đại diện cho xác suất ô vuông chứa đối tượng IOU được tính bằng tỷ số giữa diện tích phần giao cắt của hai bounding box và diện tích tổng hợp mà hai bounding box chiếm.
Hình 2.3 Kiến trúc mô hình YOLO [10]
Kiến trúc YOLO được mô tả qua các lớp, bắt đầu từ lớp đầu vào với độ rộng, độ dài và kênh màu của ảnh Mạng sử dụng các lớp convolution và max-pool để tăng số chiều đặc trưng và giảm chiều dữ liệu không gian Qua lớp full-connected đầu tiên, các đặc trưng S x S x 1024 được chuyển thành vector dài 4096, nhằm trích xuất biểu diễn tốt cho các đặc trưng ban đầu Cuối cùng, các đặc trưng này được đưa vào lớp full-connected thứ hai, cho ra đầu ra S x S x 30, dự đoán thông tin về bounding box và lớp của từng ô vuông.
Trong quá trình phát hiện đối tượng, YOLO có thể tạo ra nhiều box cho cùng một đối tượng do thiết kế dạng grid cell, dẫn đến khả năng một đối tượng bị phát hiện nhiều lần Để khắc phục vấn đề này, YOLO áp dụng phương pháp loại trừ phần tử không phải cực đại (Non Maximal Suppression) với bốn bước chính Đầu tiên, hệ thống chọn một threshold cho độ tin cậy và loại bỏ các box có độ tin cậy thấp hơn Tiếp theo, các box được sắp xếp theo thứ tự giảm dần độ tin cậy, sau đó box có độ tin cậy cao nhất được chọn và lưu lại như box đã được phát hiện đúng Cuối cùng, các box có độ đo IoU lớn hơn 0.5 với box đã chọn sẽ bị loại bỏ Quá trình này tiếp tục cho đến khi chỉ còn lại các box phát hiện đúng, giúp YOLO giữ lại các box có độ tin cậy cao nhất và loại bỏ box thừa.
Hàm mục tiêu của YOLO chia thành ba thành phần:
Classification loss: Ước lượng độ lỗi việc dựđoán nhãn của object Hàm lỗi này được tính trên từng ô vuông
S i classifica s ti i i s on c cla es
Trong đó: p(c) là xác xuất có điều kiện rơi vào lớp c của ô lưới khi biết ô lưới chứa đối tượng
Confidence loss: Ước lượng độ lỗi dựđoán object trong bao so với nhãn thực tế của từng ô vuông
S B S B obj obj confidence ij i i noobj ij i i i j i j
Trong đó: C cho biết ô lưới ứng chứa đối tượng hay không Nếu ô lưới xuất hiện đối tượng thì C = 1, ngược lại C = 0
Localization loss: Ước lượng độ lỗi dựđoán bao đối tượng, bao gồm tọa độ tâm, chiều rộng, chiều cao
Cơ sở lý thuy ế t theo v ết đối tượ ng
2.3.1 Tổng quan thuật toán DeepSORT
DeepSORT là một thuật toán nâng cấp từ Simple Online Realtime Tracking (SORT), giữ nguyên nền tảng theo dõi bằng cách sử dụng bộ lọc Kalman để dự đoán vận tốc và hướng di chuyển của đối tượng Tuy nhiên, thuật toán này cải tiến độ đo khoảng cách bằng cách không còn sử dụng độ đo IOU, mà thay vào đó áp dụng một hàm khoảng cách tổng hợp gồm hai thành phần: (1) độ đo khoảng cách Mahalanobis và (2) độ đo dựa trên vector được trích xuất từ mạng CNN tự thiết kế.
2.3.2 Chi tiết thuật toán DeepSORT
Theo vết và ước lượng trạng thái
Phương pháp theo vết DeepSORT, kế thừa từ thuật toán SORT, sử dụng bộ lọc Kalman, một mô hình trạng thái Gaussian tuyến tính trong dự đoán chuỗi thời gian Bộ lọc Kalman nhằm trích xuất giá trị thực tế của đối tượng từ các quan sát trước đó, với giả định rằng nhiễu tuân theo phân phối chuẩn nhiều chiều Bộ lọc này bao gồm ba thành phần chính: ma trận chuyển đổi trạng thái để ước lượng trạng thái mới, ma trận điều khiển mô hình để sửa lỗi khi phát hiện nhiễu, và nhiễu ngẫu nhiên theo phân phối chuẩn Trong bài toán tracking, do hệ thống hoạt động tự động, bộ lọc Kalman chỉ bao gồm hai thành phần là ma trận chuyển đổi trạng thái và nhiễu ngẫu nhiên.
Hình 2.4 Sơ đồ khối bộ lọc Kalman cơ bản [32]
Bộ lọc Kalman cơ bản không chứa tham số điều chỉnh được mô tả trong Hình 2.4, bao gồm hai thành phần chính: trạng thái hệ thống (system state).
Bộ lọc khởi tạo trạng thái và độ sai lệch ban đầu dựa trên ma trận hiệp phương sai của phân phối chuẩn, trong đó nhiễu ngẫu nhiên được tuân theo Nguyên lý hoạt động của bộ lọc là cập nhật liên tục giá trị trạng thái dựa trên các mẫu thu thập được và mô hình nhiễu ngẫu nhiên Mỗi vòng lặp của bộ lọc bao gồm ba bước: đầu tiên là quan sát và đo đạc giá trị mới của trạng thái cùng với sai số đo.
Bộ lọc Kalman là một công cụ mạnh mẽ trong việc theo dõi đối tượng, hoạt động dựa trên ba bước chính: cập nhật trạng thái hệ thống hiện tại cùng với độ sai lệch từ thông tin thu được, dự đoán trạng thái và độ sai lệch trong tương lai Trong bài toán tracking, bộ lọc Kalman nhận đầu vào từ tám thành phần của mỗi bounding box, bao gồm tọa độ trung tâm, tỷ số chiều rộng trên chiều cao, chiều cao và bốn thành phần vận tốc tương ứng Qua đó, bộ lọc Kalman dự đoán vị trí và vận tốc của các bounding box sau mỗi bước, hình thành các bộ track Mỗi bước, bộ lọc sẽ dự đoán vị trí và vận tốc của bounding box gần nhất trong mỗi bộ track, kết hợp với bounding box từ bộ phát hiện, và sử dụng một độ đo khoảng cách để xác định bounding box gần nhất có thể thêm vào bộ track.
Kết nối bộ phát hiện với bộ theo vết
Vấn đề chính trong việc kết nối bộ phát hiện và bộ theo vết là xác định vùng (bounding box) nào của bộ phát hiện tương ứng với bộ theo vết nào.
Mỗi bounding box được phát hiện chỉ có thể thuộc về một bộ track duy nhất, hoặc không thuộc bộ track nào nếu đối tượng mới xuất hiện Vấn đề này tương ứng với bài toán phân công Để giải quyết, cần hai yếu tố: (1) một độ đo khoảng cách và (2) một thuật toán phù hợp DeepSORT định nghĩa hai thành phần khoảng cách, trong đó thành phần đầu tiên sử dụng khoảng cách Mahalanobis để tính khoảng cách giữa box do bộ lọc Kalman tạo ra và box được phát hiện.
Trong bài viết này, dj đại diện cho bounding box thứ j từ bộ phát hiện, trong khi yi là bounding box được dự đoán từ bộ lọc Kalman cho track thứ i Hơn nữa, Si là ma trận trạng thái của bộ lọc Kalman tương ứng với track thứ i.
Thành phần khoảng cách thứ hai của DeepSORT xác định một bộ mô tả đặc trưng thông qua vector có độ dài 1 Đối với mỗi track thứ i, ta gọi Ri là tập hợp 100 vector gần nhất, từ đó thành phần thứ hai được định nghĩa.
Tổng hợp hai thành phần khoảng cách, ta thu được một trọng số làm đầu vào cho bài toán phân công:
Thuật toán Hungarian được sử dụng để giải quyết bài toán phân công, hoạt động dựa trên tính chất tuyến tính của ma trận Khi điều chỉnh các giá trị trong ma trận phân công, ta có ma trận chi phí cơ hội, phản ánh thiệt hại do phân công chưa tối ưu Bằng cách biến đổi ma trận để đạt được các giá trị 0 ở mỗi dòng và cột, ta có thể tìm ra phân công tối ưu Trong bài toán tracking, thuật toán Hungarian giúp ghép nối bounding box dự đoán từ bộ lọc Kalman với bounding box trên mỗi track Trước khi áp dụng thuật toán, DeepSORT phân chia bounding box từ bộ phát hiện thành hai nhóm: (1) box tiềm năng khớp với track cũ và (2) box không khớp, hình thành track mới Để thực hiện phân chia này, DeepSORT sử dụng PT 2.8 với hai threshold t1 và t2 tương ứng với d1 và d2.
DeepSORT sử dụng một mạng CNN được thiết kế dựa trên cấu trúc của mạng Wide Residual Network, bao gồm 2 lớp convolution với 32 kernel kích thước 3x3, một lớp Pooling, 4 khối Residual, 1 lớp Dense và một lớp batch L2 normalization Đầu ra của mạng CNN là một vector kích thước 128 với giá trị nằm trên đường tròn đơn vị.
Để huấn luyện mạng CNN cho việc trích xuất đặc trưng người trong bài toán tracking, tác giả đã sử dụng tập dữ liệu MARS, một bộ dữ liệu lớn với hơn 1 triệu ảnh của 1261 người đi bộ Số lượng dữ liệu phong phú này giúp mạng CNN được đào tạo hiệu quả để trích xuất đặc trưng cho việc theo dõi đối tượng Những đặc trưng này được áp dụng trong hàm khoảng cách, nhằm khắc phục nhược điểm của bộ lọc Kalman, đặc biệt khi vị trí của người đi bộ liên tục thay đổi và góc nhìn của camera có sự thay đổi từ mặt trước sang mặt sau của người.
Cơ sở lý thuy ết đị nh danh l ạ i
2.4.1 Tổng quan đặc trưng GOG
Gaussian of Gaussian (GOG) là một phương pháp trích xuất đặc trưng ảnh sử dụng mô tả Gauss phân tầng, với ba mức phân tích: điểm ảnh, cửa sổ trượt nhỏ và vùng Phương pháp này dựa trên hai lý thuyết chính là phân phối Gauss và đa tạp Reimannian.
Kỹ thuật bao gồm ba bước chính:
Trích xuất đặc trưng mức điểm ảnh là quá trình sử dụng các đặc trưng khác nhau của ảnh màu, bao gồm màu sắc, đường biên, tọa độ và cường độ sáng Bằng cách kết hợp các đặc trưng này, ta có thể tăng cường lượng thông tin, từ đó nâng cao hiệu quả trong việc phân tích và xử lý ảnh.
Trích xuất đặc trưng mức cửa sổ trượt bắt đầu bằng cách định nghĩa đặc trưng điểm ảnh, sau đó tạo một cửa sổ trượt có kích thước nhỏ và bước nhảy cố định trên ảnh Tại mỗi vị trí của cửa sổ trượt, nhóm đặc trưng điểm ảnh được mô hình hóa theo phân phối chuẩn, với các tham số đặc trưng là giá trị kỳ vọng và ma trận hiệp phương sai Để mô hình hóa mức cao hơn, phân phối này được nhúng vào không gian SPD (Symmetric Positive Definite), nhằm ánh xạ phân phối sang không gian vector khác, cụ thể là không gian tiếp tuyến của không gian SPD.
Trích xuất đặc trưng mức vùng là quá trình xác định một phần của ảnh, đại diện cho một bộ phận cơ thể người Sau khi trích xuất đặc trưng từ cửa sổ trượt, mô hình hóa vùng được thực hiện dưới dạng phân phối Gaussian, và không gian này được ánh xạ qua không gian tiếp tuyến của không gian SPD tương ứng Cuối cùng, sau khi thu được vector đặc trưng cho từng vùng, việc ghép nối các vùng theo thứ tự cho phép tạo ra đặc trưng GOG, đại diện cho hình ảnh của con người.
Hình 2.6 Các bước trích xuất đặc trưng GOG [17]
2.4.2 Chi tiết đặc trưng GOG Đặc trưng mức pixel
Hình ảnh người đi bộ từ camera giám sát thường thể hiện dáng đứng thẳng với tính đối xứng cao, dẫn đến thông tin theo chiều ngang bị trùng lặp, trong khi thông tin theo chiều dọc lại mang nhiều giá trị phân biệt hơn Cấu trúc cơ thể con người khác nhau từ đầu đến chân, do đó các vector hướng cũng có giá trị trong việc phân biệt dáng người Màu sắc của trang phục cũng rất quan trọng, vì người đi bộ thường không thay đổi quần áo trong thời gian ngắn Thông tin về độ dời theo miền thời gian cũng đóng vai trò quan trọng trong việc nhận diện vật thể đứng yên và người đi bộ, do hình ảnh sau khi phát hiện người sẽ tập trung vào họ, làm thay đổi nền ảnh trong thuật toán định danh Từ những lý do này, đặc trưng mức điểm ảnh được định nghĩa rõ ràng.
+ y là tọa độtheo phương thẳng đứng
+ M là vector định hướng theo trọng số với n là số chiều
+ ΔI là biến thiên cường độ giữa hai frame tại hai thời điểm
+ channel là thông tin không gian màu (RGB, HSV, Lab)
Hình 2.7 Vector định hướng có trọng số [34]
Hình 2.7 minh họa quá trình xây dựng vector định hướng có trọng số, trong đó đường tròn đơn vị được chia thành n phần đều, gọi là vector bin Sau khi xác định hướng và độ lớn của vector gradient, chỉ hai vector bin trong khối chứa vector gradient được gán trọng số, trong khi các vector bin khác có trọng số bằng 0 Trọng số của hai vector bin này tỉ lệ nghịch với góc hợp giữa vector bin và vector gradient, điều này tạo ra đặc trưng mức patch.
Sau khi tính toán đặc trưng từng pixel trong một patch, chúng ta tổng hợp các đặc trưng này bằng cách áp dụng phân phối xác suất Gaussian, sử dụng kỳ vọng và hiệp phương sai làm tham số Mỗi patch được mô hình hóa như một patch Gaussian, được xác định theo công thức cụ thể.
Trong đó, Ls đại diện cho tập hợp các pixel trong cửa sổ s, và ns là số lượng pixel trong cửa sổ s Giá trị kỳ vọng và ma trận hiệp phương sai được xác định theo phương trình 2.11.
Không gian của một phân phối xác suất được coi là một đa tạp Reimannian, do đó các toán tử Euclidean không thể áp dụng trực tiếp Để ánh xạ lân cận như một không gian Euclidean, cần chiếu lên không gian tiếp tuyến với độ đo Reimannian Không gian của ma trận xác định dương đối xứng (SPD) cũng được xem là một đa tạp Reimannian Độ đo log Euclidean cung cấp cách rõ ràng để ánh xạ điểm từ đa tạp tới không gian tiếp tuyến Euclidean thông qua logarithm ma trận Phép nhúng từ một phân phối Gaussian vào không gian ma trận SPD được biểu diễn bởi công thức.
Ma trận hiệp phương sai có thể bị suy biến do thiếu điểm ảnh, vì vậy cần cộng thêm ma trận đơn vị nhân với giá trị hằng nhỏ để khắc phục Sau khi chuyển đổi patch Gaussian sang không gian SPD, ta thực hiện phép logarithm ma trận để ánh xạ ma trận đã nhúng sang không gian tiếp tuyến.
Ps Sau đó, để tính toán thuận tiện, ta chuyển đổi ma trận log(Ps) thành một vector
Do ma trận log(Ps) là ma trận đối xứng, chỉ cần sử dụng nửa trên hoặc nửa dưới của ma trận Cuối cùng, vector đặc trưng patch được định nghĩa dựa trên điều này.
( log ( ) ) 2 ( log ( ) ) s s s g = diag P offdiag P PT 2.14
Vector đặc trưng có giá trị chuẩn L2 tương ứng với chuẩn của ma trận tiếp tuyến, cho phép biểu diễn mà không làm mất đi tầm quan trọng của các phần tử không nằm trên đường chéo chính Cách tiếp cận này giúp tránh việc sử dụng vector quá lớn từ việc duỗi thẳng ma trận, nhất là khi ma trận đối xứng có nhiều phần tử có giá trị giống nhau.
Phương pháp trích xuất đặc trưng vùng tương tự như cách trích xuất đặc trưng patch, trong đó sau khi tính toán vector đặc trưng cho từng patch, ta biểu diễn vùng đó dưới dạng phân phối Gaussian của các đặc trưng patch Để giảm thiểu ảnh hưởng của nền, mỗi patch được gán một trọng số, với trọng số của các patch gần trung tâm thường lớn hơn, do người trong ảnh thường nằm ở vị trí giữa Chúng ta định nghĩa vector kỳ vọng có trọng số và ma trận hiệp phương sai để thể hiện điều này.
Trong đó, với W là chiều rộng ảnh, xslà tọa độ x của pixel trung tâm patch:
Sau khi xác định các tham số của phân phối Gaussian, chúng ta tiến hành trích xuất đặc trưng vùng tương tự như phương pháp trích xuất đặc trưng từ patch Gaussian Cuối cùng, chúng ta thu được vector đặc trưng GOG của ảnh bằng cách nối các vector đặc trưng của từng vùng theo thứ tự trên ảnh.
Sau khi tính toán đặc trưng GOG cho một bức ảnh, trong trường hợp xác định lại thông qua multishot, một người sẽ được thể hiện qua một chuỗi ảnh Đặc trưng GOG cho một người sẽ được xác định dựa trên các đặc trưng GOG của từng bức ảnh trong chuỗi đó.
Tóm t ắ t n ộ i dung
Chương 2 đề cập tới phương pháp tác giảđề xuất cho một hệ thống định danh hoàn chỉnh Đầu tiên, tác giả trình bày phần tổng quan và luồng hoạt động của một hệ thống định danh bao gồm ba thành phần: (1) thành phần phát hiện, (2) thành phần theo vết, và (3) thành phần định danh lại Tiếp theo đó, tác giả trình bày phương pháp đề xuất với hệ thống định danh thử nghiệm Với một thành phần, tác giả tập trung trình bày phân tích cơ sở lý thuyết của phương pháp bao gồm cơ sở toán học và cơ sở thực tiễn, làm rõ điểm mạnh của phương pháp đối với hệ thống định danh Tiếp nối chương 2, chương 3 sẽ trình bày các thử nghiệm liên quan tới phương pháp định danh đề xuất cùng với các tập dữ liệu sử dụng
KẾ T QU Ả TH Ự C NGHI Ệ M
Các t ậ p d ữ li ệ u
Để đánh giá hiệu quả của hệ thống định danh, luận văn sử dụng hai cơ sở dữ liệu là PRID và cơ sở dữ liệu tự xây dựng Như đã phân tích ở phần mở đầu, hầu hết các nghiên cứu hiện tại dựa trên giả thuyết rằng bước phát hiện và theo vết đã được thực hiện thủ công, do đó các cơ sở dữ liệu định danh lại thường cung cấp chuỗi hình ảnh tương ứng của cùng một người.
Việc đánh giá hệ thống tái định danh hoàn chỉnh là không khả thi, và điều này ảnh hưởng đến chất lượng phát hiện cũng như khả năng theo dõi trong quá trình định danh lại.
Tập dữ liệu Person Re-ID 2011 (PRID 2011) được phát triển bởi Đại học Công nghệ Graz phối hợp với Viện Công nghệ Áo nhằm kiểm tra các phương pháp định danh lại người Tập dữ liệu này bao gồm hình ảnh của nhiều quỹ đạo người được ghi lại từ hai camera giám sát cố định Camera A ghi lại hình ảnh của 385 người, trong khi Camera B ghi lại 749 người, với 200 người đầu tiên xuất hiện ở cả hai camera.
Bộ dữ liệu bao gồm hai phiên bản: multi-shot và single-shot Khi đánh giá thuật toán với tập A làm tập truy vấn, chỉ 200 ảnh đầu tiên của tập A được sử dụng, trong khi toàn bộ 749 ảnh của tập B được dùng để tìm kiếm Ngược lại, nếu tập B là tập truy vấn, 200 ảnh đầu tiên của tập B sẽ được sử dụng, và toàn bộ 385 ảnh của tập A sẽ là tập tìm kiếm.
Hình 3.1 Cách bố trí camera của bộ dữ liệu PRID-2011 [36]
Hình 3.2 Chuỗi hành động của một người tại hai camera (PRID-2011)
3.1.2 Dữ liệu tự thu thập
Trong quá trình thực hiện luận văn, tác giả đã xây dựng bộ dữ liệu để đánh giá hệ thống định danh lại người hoàn toàn tự động (Fully Automated Person ReID - FAPR) Bộ dữ liệu này bao gồm 15 video được ghi lại trong ba ngày bởi hai camera tĩnh không chồng lấn tầm nhìn trong điều kiện phòng thí nghiệm Mỗi người đi bộ trong video được đánh nhãn thủ công từng frame bằng công cụ labelImg, cho phép người dùng đánh dấu từng đối tượng và xuất bounding box theo định dạng XML của PASCAL VOC.
Bộ dữ liệu được thu thập với 6 kịch bản trong một ngày gặp nhiều thách thức do giới hạn môi trường quan sát, với khoảng cách giữa người đi bộ và camera chỉ từ 2m đến 8m, dẫn đến sự biến thiên lớn về tỷ lệ cơ thể trong hình ảnh Ngoài ra, vùng biên của hình ảnh bị mờ do chuyển động của người và chất lượng camera, gây khó khăn trong việc phát hiện và theo dõi đối tượng Hai camera được thiết lập để quan sát người đi bộ theo chiều ngang, và dữ liệu được thu thập cả trong phòng và ngoài trời Trong khi video trong phòng sử dụng ánh sáng đèn neon, video ngoài trời gặp khó khăn do điều kiện ánh sáng yếu, tạo ra nhiều bóng Đặc biệt, ba video thu vào ngày 05/11/2019 trong điều kiện có ánh nắng mặt trời cũng gây ra nhiễu cho các bước theo dõi Những yếu tố này tạo ra những thách thức cơ bản cho các bộ dữ liệu dùng trong phát hiện, theo dõi và định danh lại người.
Bảng 3.1 Các video trong cơ sở dữ liệu FAPR
Videos T ổ ng s ố ả nh T ổ ng s ố kh ố i Số khối trung bình trên ảnh indoor 489 1153 2.36 outdoor_easy 1499 2563 1.71 outdoor_hard 2702 6552 2.42
Các phương pháp đánh giá
3.2.1 Đánh giá quá trình phát hiện đối tượng
Hai độđo thường được sử dụng cho phát hiện đối tượng là Precision và Recall Hai độđo được biểu diễn theo PT 3.1 và PT 3.2 precision TP
Trong đó TP, FP, FN là sốlượng các bouding box được xác định là true positive (phát hiện đúng), false positive (phát hiện sai), false negative (phát hiện thiếu)
Một bounding box được xem là TP nếu độđo IoU có giá trị lớn hơn hoặc bằng 0.5
Hình 3.4 Sự khác nhau giữa precision, recall và IoU
Hình 3.4 minh họa sự khác biệt giữa ba chỉ số Precision, Recall và IoU khi áp dụng cho bounding box Precision thể hiện tỷ lệ diện tích đúng trong box mà thuật toán dự đoán, trong khi Recall cho biết tỷ lệ diện tích đúng trên box được gán nhãn bằng tay (ground-truth) IoU thể hiện tỷ lệ diện tích đúng so với tổng diện tích của cả bounding box từ thuật toán dự đoán và ground-truth Giá trị của IoU luôn nhỏ hơn cả Precision và Recall, vì vậy việc sử dụng IoU làm ngưỡng (threshold) là phương pháp đáng tin cậy nhất trong ba chỉ số này.
3.2.2 Đánh giá quá trình theo vết đối tượng
IDP (ID Precision), IDR (ID Recall), IDF1
Hai độđo IDP và IDR có cùng ý nghĩa với Precision và Recall trong đánh giá phát hiện đối tượng Hai độđo được biểu diễn theo PT …
Trong đó, IDTP là tổng của TP trong pha phát hiện với sốlượng các đối tượng được gắn đúng nhãn trong pha theo vết
IDFP là tổng số FP trong giai đoạn phát hiện, bao gồm các đối tượng được dự đoán chính xác trong giai đoạn này nhưng lại bị gán nhãn sai trong giai đoạn theo vết.
IDFN là tổng số đối tượng FN trong giai đoạn phát hiện, phản ánh số lượng đối tượng được dự đoán đúng nhưng bị gán nhãn sai trong quá trình theo vết Độ đo IDF1 được xác định dựa trên hai chỉ số IDP và IDR Giá trị IDF1 cao cho thấy hiệu quả của bộ theo vết.
ID Switchs (IDs) và Fragment (FM) là các chỉ số quan trọng trong việc đo lường sự thay đổi ID trong các tracklets ID Switchs phản ánh số lần đối tượng được gán chung một nhãn hoặc chuyển sang nhãn khác Trong khi đó, FM đo lường số lần bộ tracker chuyển từ trạng thái tracked sang untracked dựa trên ground-truth, rồi trở lại trạng thái tracked sau một thời gian nhất định.
MOTA (Multi Object Tracking Accuracy) Đây là độđo quan trọng nhất trong đánh giá theo vết đối tượng MOTA được định nghĩa theo
Trong đó, t đại diện cho chỉ số của khung hình, còn GT là số lượng các đối tượng quan sát được trong thế giới thực Độ đo có thể có giá trị âm nếu có nhiều lỗi trong quá trình theo dõi và số lượng lỗi vượt quá số đối tượng quan sát.
MOTP (Multi Object Tracking Precision)
MOTP được định nghĩa là khoảng cách trung bình gữa toàn bộ true positive và grouund trust tương ứng
Trong đó, ct là ký hiệu cho số đối tượng khớp được xác định trong frame t, và dt,i đại diện cho tổng khoảng cách giữa tất cả các true positive và ground-truth tương ứng.
3.2.3 Đánh giá quá trình định danh lại Để đánh giá hiệu quả của thuật toán định danh lại, đường cong CMC (Cumulative Match Characteristic) thường được sử dụng Một thuật toán được đánh giá là hiệu quảhơn nếu đường cong CMC tương ứng với thuật toán này cao hơn đường CMC của thuật toán so sánh Với mỗi ảnh trong tập truy vấn, thực hiện tính score sử dụng hàm khoảng cách với lần lượt tất cả các ảnh trong tập tìm kiếm
Các giá trị khoảng cách được sắp xếp và đánh thứ hạng trong Vector CMC, với số chiều tương ứng với số lượng mẫu trong tập tìm kiếm Giá trị thứ k của CMC thể hiện xác suất nhận diện mẫu đúng (cùng một người) trong k thứ hạng đầu tiên, được gọi là rank-k.
Hình 3.5 Ví dụ vềđường cong CMC
Môi trườ ng và các thông s ố cài đặ t
Các thử nghiệm được tiến hành trên Server của MICA sử dụng CPU Intel Core i7-8700 3.2GHz với 6 nhân và 12 luồng, cùng với 32GB RAM và GPU nVIDIA GTX 1080Ti Nền tảng lập trình dựa trên Keras với backend là Tensorflow, chạy trên hệ điều hành Ubuntu 18.04 và sử dụng ngôn ngữ lập trình Python 3 Đối với phần định danh lại, ngôn ngữ lập trình C++ được áp dụng với các thư viện hỗ trợ tương ứng.
Thư viện OpenCV (Open Source Computer Vision Library) là một công cụ mã nguồn mở mạnh mẽ cho các ứng dụng học máy và thị giác máy tính Nó cung cấp các thuật toán tiên tiến để phát hiện và nhận dạng khuôn mặt, định danh vật thể, phân loại hành động trong video, theo dõi chuyển động và trích xuất mô hình 3D của vật thể OpenCV hỗ trợ nhiều ngôn ngữ lập trình như C++, Python, Java, MATLAB và tương thích với các hệ điều hành phổ biến như Windows, Linux, Android và MacOS.
Dlib là một thư viện mã nguồn mở đa nền tảng được phát triển bằng ngôn ngữ C++, cung cấp nhiều thành phần hữu ích cho xử lý mạng, luồng, giao diện, và các cấu trúc dữ liệu phức tạp Thư viện này hỗ trợ đại số tuyến tính, học máy thống kê, xử lý hình ảnh, khai thác dữ liệu, phân tích cú pháp XML, mạng Bayesian và nhiều ứng dụng khác Hiện tại, dlib có khả năng hoạt động trên nhiều hệ điều hành khác nhau.
X, MS Windows, Solaris, BSDs và HP-UX
Camera HKVISION 2MP được sử dụng để thu thập dữ liệu, thuộc loại Cam-IP và kết nối qua mạng TCP/IP tới máy chủ Camera hỗ trợ hai định dạng đầu ra là MJPG và H264, đồng thời có khớp cầu giúp điều chỉnh góc quay vật lý và thiết lập góc nhìn thủ công Quá trình thu thập dữ liệu diễn ra với hai camera được đặt ở hai vị trí khác nhau, đảm bảo không chồng lấn tầm nhìn.
3.3.3 Ràng buộc và lệ thuộc
Phương pháp định danh lại dựa vào đặc trưng xử lý màu sắc trang phục, tuy nhiên, quá trình này chỉ chính xác khi người đi qua camera không thay đổi trang phục Trong trường hợp người đi bộ thay đổi trang phục, phương pháp hiện tại không thể đảm bảo định danh chính xác Luận văn giả định rằng người đi qua camera được lưu trữ liên tục mà chưa xem xét các vấn đề như thời gian lưu trữ và bộ nhớ thực.
Hiện nay, thành phần định danh lại chỉ đạt tốc độ 30 box/s, dẫn đến tình trạng nút cổ chai khi xử lý các frame có nhiều box Để cải thiện hiệu suất, thành phần này sẽ chỉ được thực hiện khi người đi bộ sắp ra khỏi vùng quan sát của camera.
K ế t qu ả th ử nghi ệ m
3.4.1 Kết quả định danh lại trên tập dữ liệu dùng chung
Các thử nghiệm định danh lại đã được thực hiện trên tập dữ liệu PRID 2011, với trọng tâm là nhóm người xuất hiện trên cả hai camera Trong quá trình đánh giá, đã có 89 người được ghi nhận trong tập dữ liệu PRID.
Năm 2011, một phương pháp ngẫu nhiên đã được áp dụng để xây dựng đường cong CMC, sử dụng đặc trưng GOG và độ đo khoảng cách XQDA Quá trình này được thực hiện 10 lần, và kết quả trung bình của đường cong CMC được lấy làm kết quả cuối cùng Trong thử nghiệm định danh lại, nhiều tham số mô hình đã được thay đổi và đánh giá, trong đó số lượng regions là tham số có ảnh hưởng lớn nhất đến giá trị của đường cong CMC Kết quả của thử nghiệm định danh lại được trình bày trong Bảng 3.2.
Bảng 3.2 Kết quảđịnh danh lại khi thay đổi số regions từ rank-1 tới rank-20 rank 1-regions 3-regions 7-regions 15-regions
Bảng 3.2 cho thấy sự thay đổi lớn trong kết quả định danh khi số lượng vùng (regions) tăng lên, với giá trị rank-1 từ 68.54% đến 83.37% Sự cải thiện này có thể được giải thích nhờ vào việc tăng số lượng vùng, giúp biểu diễn chi tiết hơn Thiết kế GOG không tổng hợp các đặc trưng của các vùng mà thay vào đó nối chúng lại thành một vector Bộ dữ liệu PRID có nền tương đối đồng nhất do camera cố định, nên việc chia ít vùng ảnh hưởng nhiều đến khả năng biểu diễn Ngoài việc đánh giá sự thay đổi tham số, luận văn cũng tham chiếu kết quả định danh với các phương pháp khác trên cùng bộ dữ liệu PRID 2011, được thể hiện trong Bảng 3.3.
Bảng 3.3 So sánh kết quả thử nghiệm GOG với các phương pháp khác
Phương pháp rank-1 rank-5 rank-10 rank-20
Phương pháp GOG đã chứng minh hiệu quả vượt trội so với các phương pháp khác, bao gồm cả RFA-Net, trên nhiều rank khác nhau Một yếu tố quan trọng của GOG là việc khai thác thông tin kỳ vọng, điều mà các phương pháp trước đó đã bỏ qua Hơn nữa, việc trích chọn đặc trưng thông qua phân phối phân cấp cũng góp phần nâng cao hiệu quả của phương pháp này.
3.4.2 Kết quả thực nghiệmtrên hệ thống định danh hoàn chỉnh
Các thử nghiệm đánh giá hệ thống định danh hoàn chỉnh được thực hiện trên bộ dữ liệu tự thu thập FAPR Hệ thống sử dụng mô hình Yolov3 cho việc phát hiện, mô hình DeepSORT cho theo vết, và phương pháp GOG cho định danh lại.
Do bộ dữ liệu FAPR có số lượng người tham gia thấp, trong khi XQDA yêu cầu một lượng nhãn lớn để học hiệu quả, việc sử dụng FAPR không mang lại hiệu quả cao Vì vậy, luận văn đã quyết định sử dụng độ đo tương tự cosine để thay thế cho bộ dữ liệu FAPR.
Các thành phần trong quy trình được đánh giá tuần tự, với kết quả của mỗi thành phần trước đó trở thành đầu vào cho thành phần tiếp theo Cụ thể, đầu ra từ module phát hiện sẽ là đầu vào cho module theo vết, và đầu ra từ module theo vết sẽ được sử dụng làm đầu vào cho module định danh lại.
Kết quả thực nghiệm của module phát hiện cho thấy hiệu suất đáng kể khi áp dụng cho toàn bộ các nhóm dữ liệu trong tập FAPR Mỗi nhóm dữ liệu được đưa qua bộ phát hiện để tính toán các chỉ số precision và recall, từ đó phản ánh độ chính xác và khả năng phát hiện của module Kết quả thử nghiệm này cung cấp cái nhìn sâu sắc về hiệu quả hoạt động của hệ thống phát hiện.
Bảng 3.4 với hai độđo chính là Recall và Precision
Bảng 3.4 Kết quả module phát hiện trên bộ dữ liệu FAPR
Tên d ữ li ệ u FP FN Recall Precision indoor 80 51 95.6 93.2 outdoor_easy 70 65 97.5 97.3 outdoor_hard 533 460 93.0 92.0
Trong các thử nghiệm, tập dữ liệu indoor, outdoor_easy và outdoor_hard đạt giá trị precision và recall cao nhất Đặc biệt, outdoor_easy ghi nhận kết quả ấn tượng với precision đạt 97.3% và recall đạt 97.5% Nguyên nhân chính là do kịch bản thử nghiệm của các tập dữ liệu này đơn giản và ít bị đan xen.
Hình 3.6 Kết quả phát hiện trong tập dữ liệu outdoor_hard
Với các tập dữ liệu nhóm 20191104 và 20191105, kịch bản bộ dữ liệu trở nên phức tạp hơn với nhiều tình huống di chuyển khác nhau, dẫn đến độ đo precision thay đổi từ 79.1% đến 90.1% và độ đo recall dao động từ 73.0% đến 93.4%.
Nhóm dữ liệu 20191105_indoor_cross có độ đo recall thấp nhất do kịch bản di chuyển đan xen và ảnh hưởng của ánh sáng mặt trời, dẫn đến việc phát hiện thiếu nhiều box Trong khi đó, nhóm dữ liệu 20191104_outdoor_cross có độ đo precision thấp nhất, nguyên nhân là do sự đan xen cao và ánh sáng ở mức thấp, gây ra nhiều lỗi phát hiện.
Hình 3.7 Kết quả phát hiện trong tập dữ liệu 20191105_indoor_cross
Hình 3.8 Kết quả phát hiện trong tập dữ liệu 20191104_outdoor_cross
Tập dữ liệu 20191105_outdoor_left đạt kết quả cao nhất với độ chính xác và độ nhạy đều là 93.4% Tập dữ liệu này có đặc điểm tương tự như ba tập dữ liệu indoor, outdoor_easy và outdoor_hard trong kịch bản di chuyển tuần tự, không đan xen Tuy nhiên, kịch bản di chuyển đan xen gây khó khăn cho bộ phát hiện trong việc xác định chính xác bounding box của đối tượng, dẫn đến tình trạng một bounding box có thể chứa hai người hoặc chỉ phát hiện được một phần của đối tượng.
Hình 3.9 Một số ví dụ phát hiện sai
Kết quả thực nghiệm của module theo vết cho thấy hiệu quả của nó khi sử dụng đầu ra từ module phát hiện làm đầu vào Các thử nghiệm được thực hiện trên toàn bộ tập dữ liệu tự thu thập, và kết quả được trình bày chi tiết trong Bảng 3.5.
Bảng 3.5 Kết quả thử nghiệm module theo vết trên bộ dữ liệu FAPR
Tên d ữ li ệ u GT MT PT ML IDF1 IDP IDR IDs FM MOTA MOTP indoor 7 7 0 0 91.5 90.4 92.7 7 11 88.0 0.26 outdoor_easy 7 7 0 0 74.5 74.4 74.6 6 16 94.5 0.21 outdoor_hard 20 19 1 0 78.0 77.6 78.4 30 67 84.4 0.28
20191105_out door_right 11 4 6 1 67.3 68.4 66.2 14 67 56.2 0.33 20191105_out door_cross 17 15 2 0 72.2 72.8 71.4 48 97 71.6 0.29
Kết quả của module theo vết trên ba tập dữ liệu indoor, outdoor_easy và outdoor_hard đạt hiệu suất cao do kịch bản di chuyển đơn giản, giúp module phát hiện hoạt động hiệu quả Đối với các tập dữ liệu 20191104 và 20191105, giá trị MOTA dao động từ 56.2% đến 86.2% Trong đó, tập dữ liệu 20191105_outdoor_right có giá trị MOTA thấp nhất là 56.2%, trong khi 20191105_outdoor_left đạt MOTA cao nhất là 86.2% Dù cả hai tập dữ liệu này được thu thập bởi cùng một camera trong cùng một thời gian, nhưng kịch bản di chuyển khác nhau: 20191105_outdoor_left có di chuyển đơn giản, không đan xen, còn 20191105_outdoor_right có di chuyển thành cặp, với nhiều tình huống che khuất và giao nhau giữa các nhóm.
Do tính chất phức tạp của kịch bản di chuyển, các tập dữ liệu với sự đan xen cao thường có các chỉ số IDs và FM lớn Tập dữ liệu 20191105_indoor_cross nổi bật với giá trị IDs đạt 29, cho thấy số lần thay đổi ID của tracket, và giá trị FM là 104, phản ánh mức độ phân mảnh của tracket.
Hình 3.10 Ví dụđổi ID của kết quả theo vết trên tập dữ liệu FAPR
Hình 3.11 Ví dụ phân mảnh ID của kết quả theo vết trên tập dữ liệu FAPR
Tóm t ắ t n ộ i dung
Chương 3 trình bày chi tiết về các bộ dữ liệu thử nghiệm (bao gồm phương pháp thu thập dữ liệu và phương pháp đánh nhãn), môi trường thử nghiệm, các độ đo đánh giá và các đánh giá chi tiết trên từng thành phần Đối với thành phần phát hiện và theo vết, thử nghiệm được thực hiện trên dữ liệu tự thu thập, trong khi đối với thành phần định danh lại, thử nghiệm được thực hiện trên hai tập dữ liệu: (1) tập dữ liệu dùng chung và (2) tập dữ liệu tự xây dựng Các thử nghiệm đã đánh giá tác động của môi trường thu thực tế lên từng thành phần trong hệ thống, cùng với ảnh hưởng của thành phần trước lên thành phần sau Các trường hợp của thành phần trước gây ra sai lệch cho thành phần sau cũng được tác giả phân tích kỹ
Luận văn này nghiên cứu và giải quyết thách thức trong lĩnh vực thi giác máy tính, cụ thể là hệ thống định danh người Tác giả đã trình bày các nghiên cứu liên quan và đề xuất một phương án thực hiện hóa luồng định danh hoàn chỉnh Trong quá trình thực hiện, một bộ dữ liệu đã được thu thập để đánh giá hệ thống, tập trung phân tích các vấn đề tổng thể và cục bộ của từng thành phần Kết quả nghiên cứu cho thấy sự thành công trong việc ghép nối ba thành phần độc lập: module phát hiện đối tượng, module theo vết đối tượng, và module định danh lại, cùng với việc đánh giá độ chính xác trên tập dữ liệu tự thu thập.
Trong môi trường thử nghiệm, tốc độ đáp ứng của từng module trong hệ thống cho thấy thành phần phát hiện và theo vết đạt 30 FPS, trong khi thành phần định danh đạt 30 box/s.
Các kết quả nghiên cứu trong luận văn đã được trình bày trong:
Bài báo hội nghị: Thuy-Binh Nguyen, Duc-Long Tran, Thi-Lan Le, Thi Thanh Thuy Pham, Huong-Giang Doan, An effective implementation of Gaussian of
Gaussian descriptor for person re-identification, The 5th NAFOSTED Conference on Information and Computer Science (NICS) (đã chấp nhận và trình bày)
The article titled "A Unified Framework for Automated Person Re-Identification" by Hong-Quan Nguyen, Thuy-Binh Nguyen, Duc-Long Tran, and Thi-Lan Le has been accepted for publication in the Journal of Transportation Science at the University of Transport.
Xuất phát từ những tồn tại trong nghiên cứu hệ thống định danh lại hoàn chỉnh, tác giả hướng tới việc tối ưu hóa độ chính xác của từng thành phần phát hiện, theo vết và định danh lại Đồng thời, tác giả sẽ thử nghiệm các phương pháp mới để tìm ra giải pháp khả thi trong thực tế Qua quá trình nghiên cứu, tác giả nhận thấy rằng module định danh lại gặp khó khăn do độ phức tạp tính toán lớn, gây khó khăn trong việc đảm bảo khả năng hoạt động thực tế Do đó, một trong những hướng phát triển tiếp theo của luận văn là nghiên cứu các phương pháp giảm độ phức tạp, nhằm cân bằng giữa độ chính xác và tốc độ tính toán.
[1] A Bedagkar-Gala and S K Shah, “A survey of approaches and trends in person re-identification,” Image Vis Comput., vol 32, no 4, pp 270–286, Apr
[2] J Temperton, “One nation under CCTV: the future of automated surveillance,”
[3] F Sayadi, Y Said, M Atri, and R Tourki, “Real time human detection in video streams,” p 6
[4] R Girshick, J Donahue, T Darrell, and J Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” ArXiv13112524 Cs, Oct 2014, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1311.2524
[5] W Liu et al., “SSD: Single Shot MultiBox Detector,” ArXiv151202325 Cs, vol 9905, pp 21–37, 2016, doi: 10.1007/978-3-319-46448-0_2
[6] J R R Uijlings, K E A van de Sande, T Gevers, and A W M Smeulders,
“Selective Search for Object Recognition,” Int J Comput Vis., vol 104, no
[7] R Girshick, “Fast R-CNN,” ArXiv150408083 Cs, Sep 2015, Accessed: Sep
25, 2020 [Online] Available: http://arxiv.org/abs/1504.08083
[8] S Ren, K He, R Girshick, and J Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” ArXiv150601497 Cs, Jan
2016, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1506.01497
[9] K Simonyan and A Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” ArXiv14091556 Cs, Apr 2015, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1409.1556
[10] J Redmon, S Divvala, R Girshick, and A Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” ArXiv150602640 Cs, May 2016, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1506.02640
[11] A Yilmaz, O Javed, and M Shah, “Object tracking: A survey,” ACM
Comput Surv., vol 38, no 4, p 13, Dec 2006, doi:
[12] A Bewley, Z Ge, L Ott, F Ramos, and B Upcroft, “Simple Online and Realtime Tracking,” 2016 IEEE Int Conf Image Process ICIP, pp 3464–
[13] T Roughgarden, “CS261: A Second Course in Algorithms Lecture #5: Minimum-Cost Bipartite Matching,” p 14
[14] D Gray and H Tao, “Viewpoint Invariant Pedestrian Recognition with an Ensemble of Localized Features,” in Computer Vision – ECCV 2008, vol
5302, D Forsyth, P Torr, and A Zisserman, Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 2008, pp 262–275
[15] B Ma, Y Su, and F Jurie, “Local Descriptors Encoded by Fisher Vectors for Person Re-identification,” in Computer Vision – ECCV 2012 Workshops
49 and Demonstrations, vol 7583, A Fusiello, V Murino, and R Cucchiara, Eds
Berlin, Heidelberg: Springer Berlin Heidelberg, 2012, pp 413–422
[16] S I R Costa, S A Santos, and J E Strapasson, “Fisher information distance: a geometrical reading,” ArXiv12102354 Math-Ph Stat, Jan 2014, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1210.2354
[17] T Matsukawa, T Okabe, E Suzuki, and Y Sato, “Hierarchical Gaussian Descriptor for Person Re-identification,” in 2016 IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, Jun
[18] B Ma, Y Su, and F Jurie, “Covariance descriptor based on bio-inspired features for person re-identification and face verification,” Image Vis Comput., vol 32, no 6–7, pp 379–390, Jun 2014, doi: 10.1016/j.imavis.2014.04.002
[19] S Liao, Y Hu, Xiangyu Zhu, and S Z Li, “Person re-identification by Local Maximal Occurrence representation and metric learning,” in 2015 IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), Boston,
MA, USA, Jun 2015, pp 2197–2206, doi: 10.1109/CVPR.2015.7298832
[20] S Liao, G Zhao, V Kellokumpu, M Pietikainen, and S Z Li, “Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes,” in 2010 IEEE Computer Society Conference on Computer
Vision and Pattern Recognition, San Francisco, CA, USA, Jun 2010, pp
[21] R Kimmel, M Elad, D Shaked, R Keshet, and I Sobel, “A Variational Framework for Retinex,” Int J Comput Vis., vol 52, no 1, pp 7–23, 2003, doi: 10.1023/A:1022314423998
[22] L Wu, C Shen, and A van den Hengel, “PersonNet: Person Re- identification with Deep Convolutional Neural Networks,” ArXiv160107255
Cs, Jun 2016, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1601.07255
[23] D Cheng, Y Gong, S Zhou, J Wang, and N Zheng, “Person Re- identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function,” in 2016 IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), Las Vegas, NV, USA, Jun 2016, pp 1335–1344, doi:
[24] I J Goodfellow et al., “Generative Adversarial Networks,” ArXiv14062661
Cs Stat, Jun 2014, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1406.2661
[25] Z Zheng, L Zheng, and Y Yang, “Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in Vitro,” in 2017 IEEE
International Conference on Computer Vision (ICCV), Venice, Oct 2017, pp
[26] A Radford, L Metz, and S Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,”
ArXiv151106434 Cs, Jan 2016, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1511.06434
[27] K He, X Zhang, S Ren, and J Sun, “Deep Residual Learning for Image Recognition,” ArXiv151203385 Cs, Dec 2015, Accessed: Sep 25, 2020
[Online] Available: http://arxiv.org/abs/1512.03385
[28] A Krizhevsky, I Sutskever, and G E Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” in Advances in Neural
Information Processing Systems 25, F Pereira, C J C Burges, L Bottou, and
K Q Weinberger, Eds Curran Associates, Inc., 2012, pp 1097–1105
[29] N McLaughlin, J Martinez del Rincon, and P Miller, “Recurrent Convolutional Network for Video-Based Person Re-identification,” in 2016
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las
Vegas, NV, Jun 2016, pp 1325–1334, doi: 10.1109/CVPR.2016.148
[30] J Redmon and A Farhadi, “YOLOv3: An Incremental Improvement,” p
[31] N Wojke, A Bewley, and D Paulus, “Simple Online and Realtime Tracking with a Deep Association Metric,” ArXiv170307402 Cs, Mar 2017, Accessed: Sep 25, 2020 [Online] Available: http://arxiv.org/abs/1703.07402
[32] A Becker (www.kalmanfilter.net), “Online Kalman Filter Tutorial.” https://www.kalmanfilter.net/ (accessed Sep 25, 2020)
[33] L Zheng et al., “MARS: A Video Benchmark for Large-Scale Person Re- Identification,” in Computer Vision – ECCV 2016, vol 9910, B Leibe, J Matas, N Sebe, and M Welling, Eds Cham: Springer International Publishing, 2016, pp 868–884
[34] T Kobayashi and N Otsu, “Image Feature Extraction Using Gradient Local Auto-Correlations,” in Computer Vision – ECCV 2008, vol 5302, D Forsyth,
P Torr, and A Zisserman, Eds Berlin, Heidelberg: Springer Berlin Heidelberg, 2008, pp 346–358
[35] T.-B Nguyen, T.-L Le, L Devillaine, T Pham, and N P Ngoc, “Effective multi-shot person re-identification through representative frames selection and temporal feature pooling,” Multimed Tools Appl., 2019, doi: 10.1007/s11042- 019-08183-y
[36] “ICG - PRID11.” https://www.tugraz.at/institute/icg/research/team- bischof/lrs/downloads/prid11/ (accessed Sep 25, 2020)
[38] “The PASCAL Visual Object Classes Homepage.” http://host.robots.ox.ac.uk/pascal/VOC/ (accessed Nov 04, 2020)
[39] C Gao, J Wang, L Liu, J.-G Yu, and N Sang, “Temporally aligned pooling representation for video-based person re-identification,” in 2016 IEEE
International Conference on Image Processing (ICIP), Phoenix, AZ, USA,
[40] K Liu, B Ma, W Zhang, and R Huang, “A Spatio-Temporal Appearance Representation for Video-Based Pedestrian Re-Identification,” in 2015 IEEE
International Conference on Computer Vision (ICCV), Santiago, Dec 2015, pp 3810–3818, doi: 10.1109/ICCV.2015.434.