GIỚI THIỆU
Tổng quan bài toán
Phân tích hành vi là một thách thức lớn trong lĩnh vực Thị giác máy tính, đặc biệt là trong việc phân tích hành vi cá nhân và hành vi đám đông Phân tích hành vi đám đông có thể mang lại lợi ích lớn cho các lĩnh vực như an toàn công cộng, sự kiện quy mô lớn, ứng phó thiên tai và giao thông Việc giám sát đám đông là cần thiết để phát hiện sự cố hoặc hành vi hỗn loạn, từ đó xác định các khu vực bất thường cho các cơ quan chức năng Hành vi bình thường được định nghĩa là những hành vi mong đợi của cá nhân trong xã hội, nơi mà sự tương tác giữa người với người tuân theo các chuẩn mực xã hội Ngược lại, hành vi bất thường là những hành vi đi ngược lại với những kỳ vọng này, như đánh nhau hay xô xát trong các sự kiện công cộng Những ví dụ này cho thấy sự cần thiết trong việc nhận diện và phân tích hành vi bất thường trong đám đông.
Bình thường Đám đông xung đột Đám đông hoảng loạn
Phân tích hành vi trong đám đông gặp nhiều thách thức hơn so với hoạt động cá nhân do mật độ người đông, gây khó khăn cho các thuật toán trong việc xác định các thực thể riêng lẻ Việc nhận diện các bộ phận cơ thể và mô hình chuyển động của từng cá nhân cũng phức tạp hơn Hành vi của đám đông thường thể hiện sự tự tổ chức và các hành vi nổi bật, đặc biệt trong các sự kiện bất thường Hơn nữa, chất lượng dữ liệu mà chúng ta tiếp cận thường thấp và thiếu thông tin về các sự kiện bất thường, do chỉ được cung cấp cho các cơ quan chức năng vì lý do pháp lý và quyền riêng tư.
Trong nghiên cứu này, chúng tôi sẽ phân loại ba loại hành vi trong đám đông: đám đông bình thường, đám đông xung đột và đám đông hoảng loạn Đám đông xung đột xảy ra khi có sự xung đột giữa hai hoặc nhiều người trong một không gian đông đúc Trong khi đó, đám đông hoảng loạn là hiện tượng xảy ra khi mọi người cảm thấy sợ hãi và tìm cách chạy trốn khỏi các mối đe dọa như thiên tai, hỏa hoạn hoặc khủng bố.
Nghiên cứu này giới thiệu một phương pháp mới nhằm phát hiện sự kiện bất thường trong đám đông, với khả năng phản ứng nhanh ngay cả khi dữ liệu hạn chế Để thực hiện điều này, một kiến trúc mạng nơ-ron tiên tiến đã được phát triển, kết hợp giữa hình ảnh, bản đồ mật độ đám đông và thông tin luồng quang học Việc huấn luyện mạng sử dụng một tập dữ liệu tổng hợp chứa các hành vi bất thường Để đánh giá hiệu quả của phương pháp, chúng tôi đã tạo ra một tập dữ liệu thực tế thông qua việc thu thập từ các nguồn trực tuyến.
Các vấn đề cần giải quyết
Vấn đề chính trong việc nghiên cứu hành vi bất thường trong đám đông là sự thiếu hụt dữ liệu thực tế Dữ liệu từ nguồn công khai chủ yếu do cá nhân thu thập bằng thiết bị cá nhân, dẫn đến việc lượng dữ liệu này thường rất ít và khó khăn trong việc bóc tách Hơn nữa, dữ liệu từ các camera giám sát tại các địa điểm công cộng như quảng trường, sân bay và bến tàu thường được bảo mật và chỉ có các cơ quan có thẩm quyền mới được phép truy cập Điều này tạo ra rào cản lớn trong việc thu thập dữ liệu cần thiết cho các nghiên cứu, khiến cho việc tập hợp dữ liệu để sử dụng trong luận văn trở nên rất khó khăn.
Chất lượng dữ liệu video là một vấn đề quan trọng, với sự đa dạng về thông số như góc quay, độ zoom, độ phân giải, bitrate và hệ màu Các video được thu thập từ nhiều nguồn khác nhau, bao gồm camera giám sát, điện thoại thông minh và máy quay cá nhân, dẫn đến sự không đồng nhất trong góc quay Camera giám sát thường có góc quay cố định, trong khi thiết bị cá nhân thường ghi hình từ góc nhìn thứ nhất và thay đổi liên tục Việc tải video lên mạng cũng làm giảm chất lượng, với độ phân giải không cao Thêm vào đó, sự kiện bất thường có thể xảy ra ở bất kỳ đâu, khiến các yếu tố như thời tiết và ánh sáng trở nên đa dạng, đồng thời có thể xuất hiện những đối tượng không liên quan trong khung hình cần phải loại bỏ để đạt được kết quả phân tích tốt nhất.
Số lượng điểm ảnh không đồng đều
Góc quay không đồng nhất
Sai khác về ánh sáng
Hình 1.2: Ví dụ về sự độ nhiễu cao của tập dữ liệu
Vấn đề yêu cầu dữ liệu lớn trong luận án được giải quyết thông qua các mô hình học sâu và tích chập, đòi hỏi một lượng dữ liệu lớn để huấn luyện Để khắc phục tình trạng khan hiếm dữ liệu, luận án áp dụng kiến thức về thích ứng miền nhằm giảm thiểu lượng dữ liệu cần thu thập Bên cạnh đó, nghiên cứu cũng sử dụng các phương pháp tăng cường dữ liệu để làm phong phú thêm tập dữ liệu huấn luyện.
Đáp ứng nhanh với dữ liệu thực tế là một thách thức lớn, bởi cảnh đám đông rất phong phú và chuyển động của chúng thường thay đổi nhanh chóng, khó đoán Hành vi bất thường trong đám đông cũng đa dạng và phức tạp, vì vậy cần một phương pháp linh hoạt có khả năng áp dụng hiệu quả trong các bối cảnh mới mà không cần quá nhiều dữ liệu.
Bố cục luận văn
Luận văn chia thành 5 phần cụ thể như sau:
Chương 1: Giới thiệu Chương này trình bày về bài toán nghiên cứu phương pháp phát hiện hành vi bất thường trong đám đông sử dụng bản đồ mật độ nhiệt, những khó khăn trong quá trình thực hiện bài toán
Chương 2: Các nghiên cứu, kiến thức liên quan đến luận văn Chương này bàn luận đến những lý thuyết, các nghiên cứu hay các hệ thống được dùng trong luận văn hoặc có liên quan tương tự được tham khảo
Chương 3: Phương pháp đề xuất Chương này trình bày hướng tiếp cận bài toán, cách huấn luyện đề xuất và mô hình mạng đề xuất
Chương 4: Thực nghiệm và đánh giá Chương này bàn luận đến quá trình cài đặt cũng như các kết quả thực nghiệm và đánh giá mô hình
Chương 5: Kết luận Chương này đề cập đến các vấn đề đã giải quyết và hướng nghiên cứu trong tương lai.
CÁC NGHIÊN CỨU LIÊN QUAN
Tổng quan về học sâu
Trí tuệ nhân tạo (AI) là một lĩnh vực trong khoa học máy tính, nhằm giúp máy tính thực hiện các hành vi thông minh giống như con người, như xe tự hành của Tesla hay hệ thống nhận diện khuôn mặt của Facebook Học Máy, một nhánh của AI, cho phép máy tính tự học từ dữ liệu mà không cần lập trình cụ thể Sự tiến bộ trong khả năng tính toán và lượng dữ liệu lớn đã dẫn đến sự phát triển của Học Sâu, giúp máy tính thực hiện những nhiệm vụ phức tạp như phân loại ảnh, tạo chú thích tự động, và giao tiếp với con người, điều mà trước đây được coi là không thể.
Hình 2.1: Lịch sử phát triển của học máy (nguồn wikipedia)
Perceptron là một trong những nền tảng đầu tiên của mạng nơ-ron và học sâu, được giới thiệu bởi Frank Rosenblatt vào năm 1957 Thuật toán này giúp giải quyết bài toán phân lớp nhị phân và hội tụ khi hai lớp dữ liệu có thể phân tách tuyến tính Mô hình mạng nơ-ron phổ biến nhất là mạng nhiều tầng ẩn (MLP), bao gồm hơn hai tầng, không tính tầng đầu vào, với một tầng đầu ra và các tầng ẩn.
Hình 2.2: Cấu trúc mạng MLP Thuật toán lan truyền ngược
Giải thuật Lan truyền ngược là một yếu tố then chốt trong mô hình Học Sâu, cho phép các mô hình này thực hiện tính toán một cách hiệu quả Nhờ vào giải thuật này, các mạng nơ-ron hiện đại có thể tối ưu hóa đạo hàm nhanh hơn hàng triệu lần so với phương pháp truyền thống Mạng lan truyền ngược không chỉ là công cụ mạnh mẽ cho Học Sâu mà còn ứng dụng trong nhiều lĩnh vực khác như dự báo thời tiết và phân tích dòng nước Kỹ thuật này giúp tính toán đạo hàm của các hàm số phức tạp, từ đó vượt qua giới hạn của perceptron trong việc biểu diễn các quan hệ tuyến tính Để mô tả các quan hệ phi tuyến tính, các lớp mạng sẽ sử dụng hàm kích hoạt phi tuyến tính như sigmoid hoặc tanh Mạng MLP, với các lớp ẩn, đã được chứng minh có khả năng xấp xỉ hầu hết các hàm số thông qua định lý gần đúng phổ quát.
Trong học máy và tối ưu hóa, việc xác định giá trị cực đại hoặc cực tiểu của hàm số là rất quan trọng Tìm kiếm cực tiểu toàn cục của các hàm mất mát trong học máy thường phức tạp và đôi khi không thể thực hiện Do đó, chúng ta thường tập trung vào việc tìm các điểm cực tiểu địa phương, coi đó là nghiệm gần đúng cho bài toán cần giải quyết.
Các điểm cực tiểu địa phương là nghiệm của phương trình đạo hàm bằng 0 Để xác định giá trị nhỏ nhất của hàm số, cần tìm các điểm cực tiểu địa phương Tuy nhiên, trong nhiều trường hợp, việc giải phương trình đạo hàm bằng 0 gặp khó khăn do số chiều lớn của dữ liệu, số lượng điểm dữ liệu quá nhiều, hoặc hàm số không liên tục tại điểm cần tính đạo hàm.
Thuật toán Gradient Descent (GD) bắt đầu từ một điểm gần nghiệm và sử dụng phép lặp để tiến dần đến điểm tối ưu khi đạo hàm gần bằng 0 Biến thể Stochastic Gradient Descent (SGD) cũng rất phổ biến, bên cạnh các thuật toán tối ưu khác như Momentum, Adagrad, RMSprop và đặc biệt là Adam Thuật toán Adam được ưa chuộng trong nghiên cứu vì khả năng tiến nhanh đến mức tối thiểu hơn so với các phương pháp khác.
Mạng nơ-ron tích chập
Mô hình mạng nơ-ron tích chập (CNN) là một trong những công nghệ tiên tiến trong nhận dạng và phân loại hình ảnh, đặc biệt hiệu quả trong việc xác định đối tượng và nhận dạng khuôn mặt CNN được ứng dụng rộng rãi trong nhiều lĩnh vực nhờ khả năng xử lý hình ảnh chính xác và nhanh chóng.
CNN phân loại hình ảnh bằng cách nhận diện và phân loại hình ảnh đầu vào thành các hạng mục như người, cây, động vật, và nhiều hơn nữa Máy tính xử lý hình ảnh dưới dạng một mảng pixel, với việc phân loại phụ thuộc vào độ phân giải của hình ảnh, được biểu diễn qua các kích thước H x W x D (H: chiều cao, W: chiều rộng, D: độ dày).
Mảng ma trận RGB 6x6x3 (nguồn: Wikipedia) minh họa cấu trúc dữ liệu hình ảnh, trong khi luồng CNN dưới đây thể hiện quy trình xử lý hình ảnh đầu vào và phân loại các đối tượng dựa trên giá trị của chúng.
Hình 2.5: luồng CNN để xử lý hình ảnh đầu vào và phân loại các đối tượng 2.2.2 Mạng ResNet
ResNet (Residual Network) được giới thiệu rộng rãi vào năm 2015 và cho đến hiện tại thì có rất nhiều phiên bản ResNet với số lớp khác nhau như ResNet-
18, ResNet-34, ResNet-50, ResNet-101, ResNet-152, được hiểu là kiến trúc ResNet và theo sau là số lớp nhất định
Mạng ResNet (R) là một kiến trúc CNN được phát triển nhằm xử lý hàng trăm đến hàng nghìn lớp chập Tuy nhiên, khi xây dựng mạng CNN với số lượng lớp lớn, hiện tượng mất mát đạo hàm có thể xảy ra, dẫn đến hiệu quả học tập không đạt yêu cầu.
Hiện tượng mất mát đạo hàm (Vanishing Gradient)
Kỹ thuật lan truyền ngược là một phương pháp quan trọng trong quá trình đào tạo mạng nơ-ron, nơi thuật toán lá thực hiện việc tính toán đạo hàm của hàm mất mát từ lớp đầu ra trở về lớp đầu vào Sau đó, thuật toán Gradient Descent được áp dụng để cập nhật các giá trị của các tham số trong mạng, nhằm cải thiện hiệu suất học tập.
Hình 2.6: Biểu đồ miêu tả về hiện tượng mất mát đạo hàm
Quá trình đào tạo mạng sẽ lặp lại cho đến khi các tham số hội tụ, với số lượng vòng lặp được định nghĩa trước Nếu số vòng lặp quá ít, mạng có thể không đạt được kết quả tốt, trong khi nếu quá nhiều, thời gian đào tạo sẽ kéo dài.
Trong thực tế, giá trị đạo hàm thường giảm dần khi đi xuống các lớp thấp hơn, dẫn đến việc các cập nhật từ Gradient Descent không thay đổi nhiều tham số của các lớp này, gây khó khăn cho việc hội tụ và ảnh hưởng đến hiệu quả của mạng Hiện tượng này được gọi là mất mát đạo hàm, và mạng ResNet đã được phát minh để khắc phục vấn đề này.
Giải pháp mà ResNet đưa ra là sử dụng kết nối "tắt" qua một hay nhiều lớp
Một khối có kết nối như vậy được gọi là một “Residual Block” hay khối dư, như trong hình 2.11 :
ResNet, giống như các mạng học sâu khác, bao gồm các lớp tích chập, lớp gộp, hàm kích hoạt và lớp kết nối đầy đủ Hình 2.7 minh họa khối kết nối tắt, bắt đầu từ đầu vào và kết thúc tại đầu ra của khối dư, cho phép bổ sung X vào đầu ra của lớp thông qua phép cộng Điều này giúp cải thiện vấn đề đạo hàm bằng 0, nhờ việc vẫn giữ lại X Nhờ đó, mạng ResNet có khả năng mở rộng số lượng lớp mà vẫn duy trì hiệu suất hoạt động tốt.
ResNet, mặc dù không phải là kiến trúc đầu tiên áp dụng kết nối tắt, nhưng đã đưa ra một giải pháp đơn giản hơn, tập trung vào việc cải thiện thông tin thông qua độ dốc của mạng Trong nghiên cứu này, mạng ResNet18 được sử dụng để trích xuất các đặc trưng theo không gian.
Mạng nơ-ron hồi quy
2.3.1 Mạng nơ-ron hồi quy RNN
Trong các mạng nơ-ron truyền thống, đầu vào và đầu ra không liên kết với nhau, dẫn đến việc không giải quyết được một số bài toán thực tế Chẳng hạn, để dự đoán từ tiếp theo trong câu, cần phải xem xét thứ tự xuất hiện của các từ trước đó Mạng nơ-ron hồi quy RNN được phát triển để xử lý thông tin dạng chuỗi, cho phép ghi nhớ thông tin từ các bước tính toán trước đó, tuy nhiên, khả năng ghi nhớ này thường chỉ giới hạn trong một vài bước gần nhất.
Vấn đề phụ thuộc xa
RNN có khả năng xử lý thông tin theo chuỗi thời gian, cho phép truyền tải thông tin từ khung hình trước đến khung hình sau, giúp dự đoán hành động trong video Tuy nhiên, khi khoảng cách giữa các trạng thái tăng lên, RNN gặp khó khăn trong việc duy trì đạo hàm, dẫn đến việc không thể cập nhật hiệu quả với các khung hình xa Mặc dù lý thuyết cho rằng RNN có thể truyền tải thông tin qua nhiều lớp, thực tế cho thấy mô hình chỉ học được từ các trạng thái gần kề, gây ra hiện tượng mất mát đạo hàm.
Mạng bộ nhớ dài-ngắn (LSTM) là một biến thể của mạng nơ-ron hồi tiếp (RNN) với khả năng học các phụ thuộc xa Nhờ vào hiệu suất vượt trội trong nhiều bài toán khác nhau, mạng LSTM và các biến thể của nó đã trở thành công cụ phổ biến trong lĩnh vực học máy hiện nay.
Mạng LSTM được thiết kế để khắc phục vấn đề phụ thuộc xa, cho phép ghi nhớ thông tin trong thời gian dài mà không cần huấn luyện đặc biệt Cấu trúc nội tại của mạng đã tự động hỗ trợ khả năng ghi nhớ này, giúp quá trình đào tạo diễn ra hiệu quả hơn mà không cần can thiệp thêm.
Mạng RNN được cấu trúc dưới dạng chuỗi các nút mạng nơ-ron lặp lại Phiên bản đầu tiên của mạng RNN có cấu trúc đơn giản, thường sử dụng một tầng tanh.
Hình 2.9: Vòng lặp trong mạng RNN chuẩn (nguồn [23])
LSTM có kiến trúc lặp tương tự như RNN, nhưng được cải tiến với 4 tầng nơ-ron tương tác độc lập, mang lại hiệu suất tốt hơn so với mạng RNN chuẩn.
Hình 2.10 minh họa vòng lặp trong mạng LSTM, trong đó mỗi nút nhận một véc-tơ từ đầu vào và chuyển tiếp đến nút tiếp theo Điểm nổi bật của LSTM là trạng thái tế bào, thể hiện qua đường chạy ngang trên hình 2.10 Trạng thái tế bào hoạt động như một băng truyền, chạy xuyên suốt tất cả các nút mạng và chỉ tương tác tuyến tính rất ít, giúp thông tin được truyền đi một cách dễ dàng và không bị thay đổi.
Trên đây là mô tả nguyên lý cơ bản của mạng LSTM chuẩn Mạng LSTM
Mạng CSRNet
2.4.1 Định nghĩa bản đồ mật độ nhiệt
Bản đồ nhiệt, hay còn gọi là bản đồ mật độ nhiệt, là một phương pháp trực quan hóa dữ liệu giúp thể hiện cường độ của các hiện tượng thông qua màu sắc trên hai chiều.
Sự thay đổi màu sắc và cường độ trong bản đồ nhiệt cung cấp tín hiệu thị giác rõ ràng về cách phân cụm và thay đổi của hiện tượng Nghiên cứu này tập trung vào việc mô tả mật độ đám đông, với cường độ thể hiện mức độ đông đúc của các khu vực trên hình ảnh.
Mạng CSRNet là một phương pháp học sâu hiệu quả cho việc hiểu các cảnh đông đúc và thực hiện ước tính số đếm chính xác về người trong đám đông, đồng thời tạo ra bản đồ mật độ chất lượng cao CSRNet bao gồm hai thành phần chính: mạng nơ-ron tích chập để trích xuất đặc trưng 2D và mạng tích chập giãn nở, giúp cung cấp kết quả đầu ra lớn hơn mà không cần sử dụng các phép toán pooling Mô hình này dễ đào tạo nhờ cấu trúc tích chập thuần túy và đã được kiểm chứng trên bốn tập dữ liệu nổi tiếng, trong đó trên tập dữ liệu ShanghaiTech Part B, CSRNet đạt sai số trung bình tuyệt đối thấp hơn 47,3% so với các phương pháp trước Ngoài ra, CSRNet cũng được áp dụng để đếm các đối tượng khác như xe cộ trong tập dữ liệu TRANCOS, với kết quả cho thấy chỉ số MAE giảm 15,4% so với các phương pháp trước đó.
Mạng CSRNet được phát triển dựa trên kiến trúc VGG-16, nổi bật với khả năng chuyển giao học tập hiệu quả và tính linh hoạt trong kết nối Để xây dựng CSRNet, chúng ta loại bỏ các lớp phân lớp của VGG-16 và sử dụng các lớp tích chập, dẫn đến kích thước đầu ra bằng 1/8 kích thước đầu vào Tuy nhiên, việc xếp chồng nhiều lớp tích chập và lớp pooling có thể làm giảm chất lượng bản đồ mật độ Do đó, các lớp tích chập giãn nở được áp dụng ở phần thứ hai để trích xuất thông tin sâu hơn và duy trì độ phân giải của đầu ra Tích chập giãn nở 2-D được định nghĩa nhằm tối ưu hóa quá trình này.
Đầu ra 𝑦(𝑚, 𝑛) từ quá trình tích chập giãn nở được tính toán từ đầu vào 𝑥(𝑚, 𝑛) và bộ lọc 𝜔(𝑖, 𝑗), với kích thước chiều dài M và chiều rộng N Tốc độ giãn nở được xác định bởi tham số r.
Tích chập giãn nở, khi r = 1, tương đương với tích chập bình thường và đã được chứng minh là cải thiện đáng kể độ chính xác trong nhiều nghiên cứu, trở thành giải pháp thay thế hiệu quả cho lớp pooling Mặc dù các lớp pooling như max và average pooling phổ biến để duy trì sự bất biến và kiểm soát quá khớp, chúng làm giảm độ phân giải không gian, dẫn đến mất mát thông tin trong bản đồ đặc trưng Các lớp giải chập giúp giảm thiểu mất thông tin nhưng có thể gặp khó khăn về độ phức tạp và tốc độ thực thi Tích chập giãn nở là lựa chọn tối ưu hơn, sử dụng bộ lọc thưa để kết hợp giữa lớp pooling và lớp tích chập, phóng to giá trị tiếp nhận mà không làm tăng số lượng tham số hay tính toán Trong tích chập giãn nở, hạt nhân kích thước nhỏ với bộ lọc k × k được phóng to thành k + (k - 1) (r).
- 1) với tỉ lệ giãn nở r Do đó, nó cho phép tổng hợp linh hoạt thông tin ngữ cảnh ở nhiều quy mô trong khi vẫn giữ nguyên độ phân giải
Tích chập giãn nở 3x3 với các hệ số 1, 2, 3 mang lại lợi thế trong việc duy trì độ phân giải của bản đồ đối tượng so với cấu trúc tích chập + pooling + giải chập Hình 2.12 minh họa hai cách tiếp cận xử lý hình ảnh đám đông để tạo ra đầu ra cùng kích thước Cách tiếp cận đầu tiên sử dụng lớp max pooling với hệ số 2, sau đó áp dụng bộ lọc Sobel 3 × 3, dẫn đến việc giảm đặc trưng chỉ còn 1/2 kích thước ban đầu, yêu cầu tăng kích thước qua lớp giải chập Ngược lại, cách tiếp cận thứ hai sử dụng tích chập giãn nở và áp dụng cùng bộ lọc Sobel 3 × 3, cho phép duy trì độ phân giải mà không cần bước giải chập.
Đầu ra của mạng nơ-ron trong quá trình tích chập giãn nở giữ cùng số chiều với đầu vào, không yêu cầu lớp pooling hay lớp giải chập Điều này giúp bảo toàn thông tin chi tiết, mang lại nhiều dữ liệu hơn cho các bước xử lý tiếp theo.
Hình 2.12: So sánh giữa tích chập giãn nở và max pooling, tích chập và upsampling Bộ lọc Sobel 3x3 được sử dụng ở cả 2 trường hợp và hệ số giãn nở r=2
Bản đồ mật độ nhiệt do CSRNet tạo ra chỉ chiếm 1/8 kích thước của ảnh đầu vào, vì vậy cần áp dụng phép nội suy song tuyến để điều chỉnh kích thước đầu ra cho phù hợp với kích thước ảnh gốc.
Bản đồ mật độ nhiệt là một đặc trưng của đám đông và sự thay đổi cường
Mạng FlowNet
2.5.1 Định nghĩa dòng quang học
Dòng quang học đề cập đến chuyển động của các vật thể giữa các khung hình liên tiếp trong một chuỗi hình ảnh, được tạo ra bởi sự chuyển động tương đối giữa đối tượng và máy ảnh.
Vấn đề dòng chuyển động quang học có thể được thể hiện như sau:
Giữa các khung hình liên tiếp, cường độ hình ảnh I có thể được biểu thị như một đặc trưng của không gian (x, y) và thời gian t Khi chụp hình ảnh đầu tiên I(x, y, t) và di chuyển một khoảng cách (dx, dy) pixel trong thời gian t, hình ảnh mới sẽ là I(x+dx, y+dy, t+dt) Chúng ta giả định rằng cường độ pixel của một đối tượng giữ nguyên giữa các khung hình liên tiếp.
𝐼(𝑥, 𝑦, 𝑡) = 𝐼(𝑥 + 𝑑𝑥, 𝑦 + 𝑑𝑦, 𝑡 + 𝑑𝑡) Sau đó, lấy xấp xỉ Taylor của về phải ta được:
𝜕𝑡𝑑𝑡 = 0 Cuối cùng, chia cả 2 vế cho 𝑑𝑡 ta được phương trình dòng quang học như sau:
Trong bài toán quang học, ta cần tìm các giá trị u và v liên quan đến sự chuyển động theo thời gian, với u = dx/dt và v = dy/dt Các đạo hàm 𝜕𝐼/𝜕𝑦, 𝜕𝐼/𝜕𝑥, và 𝜕𝐼/𝜕𝑡 phản ánh sự thay đổi của ảnh theo trục tung, trục hoành và thời gian Tuy nhiên, việc giải trực tiếp phương trình dòng quang cho hai biến u và v là không khả thi do chỉ có một phương trình cho hai biến số Phần tiếp theo của luận văn sẽ trình bày một số phương pháp nhằm giải quyết vấn đề này.
Có 2 loại luồng quang học, đó là luồng quang thưa (sparse optical flow) và luồng quang dày đặc (dense optical flow) Luồng quang thưa thể hiện các véc tơ chuyển động của một số đặc trưng trong khung hình như các cạnh hoặc góc (chỉ một vài pixel mô tả) của đối tượng, trong khi luồng quang dày đặc cung cấp các véc tơ chuyển động của toàn bộ khung hình (toàn bộ các pixel) Do vậy, luồng quang dày đặc có độ chính xác cao hơn khi mô tả chuyển động trong khung hình và được sử dụng trong phạm vi nghiên cứu
Dòng quang thưa Dòng quang dày đặc
Hình 2.13: Ví dụ về 2 loại dòng quang
Trích xuất luồng quang dày đặc
Luồng quang dày đặc tính toán véc tơ luồng quang cho từng pixel trong mỗi khung hình, mang lại kết quả chính xác và “dày đặc” hơn, phù hợp cho các ứng dụng như học cấu trúc từ chuyển động và phân đoạn video Trong chương này, luận văn sẽ giới thiệu hai phương pháp chính: phương pháp Farneback, một trong những triển khai phổ biến nhất, và phương pháp ước tính luồng quang sử dụng học sâu với mạng FlowNet.
Hình 2.14: Luồng quang dày đặc của hoạt động đi bộ
Gunnar Farneback đã phát triển một kỹ thuật hiệu quả để ước tính chuyển động của các đối tượng bằng cách so sánh hai khung hình liên tiếp thông qua sự mở rộng đa thức Phương pháp này bắt đầu bằng việc xấp xỉ các cửa sổ của khung hình bằng đa thức bậc hai và sau đó quan sát sự biến đổi của đa thức theo phép tịnh tiến để ước tính các trường chuyển vị từ các hệ số khai triển Qua nhiều cải tiến, phương pháp này cho phép tính toán lưu lượng quang học dày đặc một cách hiệu quả Phương pháp của Farneback nổi bật với sự ngắn gọn và dễ hiểu, chi tiết hơn có thể tham khảo trong tài liệu gốc.
Mạng FlowNet, ra mắt năm 2015, là sự phát triển đầu tiên của CNN trong việc dự đoán dòng quang học Các tác giả đã lấy cảm hứng từ thành công của kiến trúc CNN trong các nhiệm vụ như phân loại và ước tính chiều sâu trong phân đoạn ngữ nghĩa Khi Deep Learning trở nên phổ biến và CNN được công nhận là phương pháp hiệu quả trong Thị giác máy tính, hai mạng nơ-ron đã được giới thiệu để ước tính dòng quang học.
Hình 2.15: Tổng quan mô hình FlowNet (nguồn[4])
FlowNet là một kiến trúc mạng bao gồm các bộ mã hóa và giải mã tương tự như U-Net, với mục tiêu dự đoán dòng quang giữa hai khung hình liên tiếp FlowNet có hai phiên bản: FlowNetS và FlowNetCorr FlowNetS kết hợp hai khung hình vào một mảng 6 kênh để trích xuất đặc trưng qua các lớp tích chập, cho phép mạng tự động xác định cách xử lý chúng Trong khi đó, FlowNetCorr trích xuất đặc trưng từ hai khung hình một cách riêng biệt trước khi kết hợp chúng thông qua lớp tương quan, một kỹ thuật mới sử dụng các bộ lọc không được đào tạo, tạo nên sự khác biệt giữa hai kiến trúc này.
Cấu trúc mạng mã hóa của FlowNetS và FlowNetCorr cho thấy rằng các bản đồ đặc trưng đầu ra có độ phân giải nhỏ hơn 64 lần so với hình ảnh đầu vào Do đó, việc nâng cấp các kết quả (upsampling) là cần thiết Phương pháp thực hiện nâng cấp này được áp dụng chung cho cả hai kiến trúc.
Trong giai đoạn giải mã, các lớp giải chập (upconvolution) được áp dụng để nâng cấp kết quả đầu ra từ giai đoạn mã hóa Mỗi bước giải mã kết hợp các kết quả đã được nâng cấp từ giai đoạn trước và bản đồ đặc trưng từ lớp tương quan của bộ mã hóa, cho phép dự đoán chi tiết tốt hơn như trong mạng U-Net Dữ liệu chỉ được nâng cấp 4 lần, vì việc nâng cấp nhiều hơn không cải thiện chất lượng Cuối cùng, bilinear upsampling được sử dụng để đạt được độ phân giải đầu ra tương đương với độ phân giải hình ảnh ban đầu.
Kết quả đầu ra của mạng là một mảng dữ liệu gồm hai kênh: kênh đầu tiên thể hiện chuyển động dịch chuyển của các pixel theo trục x, trong khi kênh thứ hai phản ánh chuyển động theo trục y Như vậy, đầu ra của mạng mô tả véc-tơ chuyển động tại từng điểm ảnh trong khung hình.
Hình 2.17: Cấu trúc mạng giải mã của FlowNet (nguồn[4])
Luồng chuyển động quang học theo thời gian là yếu tố then chốt trong việc phân tích hành vi của đám đông Bằng cách quan sát hướng và tốc độ di chuyển của các đối tượng, chúng ta có thể dự đoán hành vi của đám đông Do đó, luồng chuyển động quang học trở thành dữ liệu quan trọng trong nghiên cứu, và mạng FlowNet sẽ hỗ trợ chúng ta trong việc trích xuất luồng quang của chuyển động gốc.
Kỹ thuật tăng cường dữ liệu
Dữ liệu đóng vai trò quan trọng trong các hệ thống và ứng dụng trí tuệ nhân tạo hiện nay, đặc biệt trong lĩnh vực học máy và học sâu Các tập dữ liệu phổ biến như FaceNet và ImageNet chứa hàng triệu đến hàng trăm triệu dữ liệu được dán nhãn, cho thấy nhu cầu lớn về dữ liệu trong học sâu Chất lượng của các mô hình học sâu tỷ lệ thuận với khối lượng dữ liệu, vì vậy việc có nhiều dữ liệu chất lượng cao sẽ cải thiện đáng kể hiệu suất của các mô hình này.
Hình 2.18: Mối quan hệ giữa dữ liệu và hiệu quả mô hình trong học sâu (nguồn:
Vấn đề đặt ra là với bài toán có dữ liệu giới hạn thì phải làm sao? Không đủ dữ liệu sẽ dẫn tới vấn đề như:
1 Thiếu tính tổng quát: mạng dễ bị quá khớp, qua tốt trên tập đào tạo còn cho kết quả tệ trên tập kiểm thử
2 Khó huấn luyện: mạng học sâu khó hội tụ
3 Chất lượng dự đoán sẽ không ổn định: một số trường hợp ngoại lệ kết quả sai khác rất nhiều, nhiễu với đầu vào ảnh hưởng lớn tới chất lượng dự đoán Để giải quyết vấn đền này, có các hướng tiếp cận chính như sau: Thay đổi kiến trúc mạng: dùng các mô hình đơn giản, tránh hiện tượng quá khớp, áp dụng học chuyển đổi: Lấy kiến thức từ các ứng dụng có nhiều dữ liệu đã được đào tạo trước, tập hợp thêm dữ liệu
Riêng về phương án tập hợp thêm dữ liệu, có thể kể đến những phương pháp sau:
Để thu thập thêm dữ liệu, bạn có thể tìm kiếm từ các nguồn như mua dữ liệu trả phí hoặc lấy dữ liệu từ internet Tuy nhiên, quá trình này thường tốn thời gian, công sức và chi phí đáng kể.
Tạo dữ liệu giả là một phương pháp hữu ích trong việc mô phỏng các bài toán dữ liệu, đặc biệt là thông qua đồ họa máy tính Các hình ảnh hành vi của con người và các ảnh từ các góc nhìn khác nhau có thể được tạo ra bằng cách sử dụng các mạng GAN, mang lại sự đa dạng và phong phú cho bộ dữ liệu.
Dữ liệu tăng cường là một kỹ thuật hiệu quả, cho phép cải thiện chất lượng dữ liệu hiện có thông qua các phương pháp xử lý ảnh tuyến tính và phi tuyến.
1 Thu thập thêm 2 Tạo dữ liệu giả 3 Tăng cường dữ liệu
- Cần nhiều nhân công để gán nhãn
- Có thể không phản ánh đúng dữ liệu thật
- Cần thử nghiệm nhiều để tìm được phương pháp tăng cường phù hợp với dữ liệu
Hình 2.19: So sánh các phương pháp cải thiện dữ liệu
Tăng cường dữ liệu là một phương pháp hiệu quả và tiết kiệm chi phí trong huấn luyện các ứng dụng học sâu, từ tín hiệu 1D, 2D, 3D đến các lĩnh vực như thị giác máy, giọng nói và ngôn ngữ tự nhiên Các kỹ thuật tăng cường dữ liệu cần được điều chỉnh tùy thuộc vào đặc điểm của từng bộ dữ liệu, bao gồm số lượng mẫu, tính cân bằng và loại dữ liệu Ví dụ, bộ dữ liệu MNIST thường sử dụng các phương pháp như biến dạng co dãn, thay đổi tỉ lệ, dịch chuyển và xoay để tối ưu hóa kết quả Trong khi đó, các bộ dữ liệu ảnh tự nhiên như CIFAR10 và ImageNet lại phù hợp với các kỹ thuật như cắt ngẫu nhiên, chuyển đổi qua gương và điều chỉnh màu sắc, độ sáng Cần lưu ý rằng một số phương pháp tăng cường dữ liệu có thể không hiệu quả cho tất cả các tập dữ liệu, chẳng hạn như lật theo chiều dọc có thể hữu ích cho CIFAR10 nhưng lại không phù hợp với MNIST do sự biến đổi của ký tự.
Hình 2.20: Phân biệt các phương pháp tăng cường dữ liệu
Sự phụ thuộc vào dữ liệu và ứng dụng trong kiến trúc mạng cho thấy không có giải pháp chung cho tất cả các tập dữ liệu và bài toán Việc tìm ra phương pháp tăng cường dữ liệu tối ưu cho từng bài toán và tập dữ liệu cụ thể đòi hỏi nhiều thử nghiệm và sẽ tiêu tốn thời gian đáng kể.
Các nghiên cứu liên quan
Trên toàn cầu, nhiều nhóm tác giả đã tiến hành nghiên cứu về phân tích hành vi bất thường trong đám đông Bài viết này sẽ điểm qua một số nghiên cứu tiêu biểu trong lĩnh vực này.
Nghiên cứu [3] áp dụng một phương pháp phổ biến để phát hiện sự kiện bất thường bằng cách trước tiên phân tích các mô hình hành vi bình thường Tuy nhiên, các hành vi này phụ thuộc vào ngữ cảnh, văn hóa và nhận thức địa phương, dẫn đến việc không thể áp dụng kết quả đã đào tạo ở khu vực khác Hơn nữa, những hành vi bình thường cũng có thể xuất hiện đột xuất, như nhóm người đi ngược chiều, gây sai lệch trong dự đoán Ngoài ra, các sự kiện bình thường thường được theo dõi trong thời gian dài, khiến mô hình không khả thi cho các sự kiện ngắn hạn như lễ hội hoặc các sự kiện theo chủ đề.
Nghiên cứu cho thấy rằng việc phân tích quỹ đạo chuyển động của từng đối tượng để phát hiện hành vi bất thường có thể không khả thi trong môi trường đông đúc Theo dõi từng cá nhân trong đám đông để xác định sự sai khác so với lớp bình thường là một thách thức lớn, do đó, phương pháp này không mang lại hiệu quả thực tiễn trong việc phân tích hành vi bất thường trong đám đông.
Nhiều nghiên cứu đã áp dụng học sâu để phân loại hành vi bất thường trong đám đông Nghiên cứu [13] sử dụng kỹ thuật “end-to-end convolutional autoencoder” để phát hiện hành vi bất thường trong video giám sát với kết quả khả quan, trong khi nghiên cứu [15] áp dụng mạng tích chập 3D để phân loại các điểm bất thường Tuy nhiên, cả hai nghiên cứu này chỉ tập trung vào các đặc trưng không gian và bỏ qua các đặc trưng thời gian, dẫn đến việc phân tích chỉ mang tính thời điểm.
Trong luận văn này, chúng tôi đề xuất một phương pháp mới kết hợp giữa đặc trưng không gian và đặc trưng thời gian, nhằm đạt được kết quả khả quan và khả năng phản ứng nhanh với sự thay đổi của dữ liệu thực tế.
PHƯƠNG PHÁP ĐỀ XUẤT
Tổng quan
Phân tích cảnh đám đông gặp nhiều thách thức hơn so với hoạt động cá nhân do độ dày của người tham gia, khiến các thuật toán khó xác định chính xác các thực thể riêng lẻ Việc nhận diện các bộ phận cơ thể và mô hình chuyển động để phân loại hoạt động của từng người tham gia cũng phức tạp hơn Hành vi của đám đông thường thể hiện các hoạt động tự tổ chức và hành vi nổi cộm, đặc biệt trong các sự kiện bất thường Ngoài ra, chất lượng nội dung có sẵn thường thấp và thiếu ví dụ thực tế do lý do pháp lý và quyền riêng tư Chương này đề xuất một phương pháp luận mới nhằm phát hiện sự kiện bất thường trong cảnh đông đúc, với khả năng phản ứng nhanh hơn khi áp dụng vào dữ liệu thực tế mà không cần nhiều dữ liệu đào tạo.
Phương pháp đề xuất
Phát hiện sự kiện bất thường trong đám đông thông qua phân tích hành vi và hoạt động của những người có mặt là một phương pháp hiệu quả Việc kết hợp dữ liệu từ nhiều cá nhân giúp nhận diện các mẫu hành vi khác thường, từ đó nâng cao khả năng phát hiện và phản ứng kịp thời với các tình huống bất ngờ.
Trong bối cảnh đông đúc, việc theo dõi và phân tích hành vi của từng cá nhân trở nên không khả thi, mặc dù có nhiều phương pháp phát hiện và theo dõi hành vi.
Hình 3.1: Chuyển động của đám đông
Do hạn chế trong việc áp dụng các phương pháp phát hiện và theo dõi cổ điển trong những cảnh đông đúc, cần có một phương pháp tiếp cận toàn diện hơn Nội dung chuyển động đóng vai trò quan trọng, cung cấp thông tin chính ở cả cấp độ điểm ảnh và cấp độ đặc trưng Hơn nữa, việc phân tích nội dung chuyển động cần diễn ra trong bối cảnh không gian và thời gian rộng hơn để hiểu rõ hơn về bối cảnh của đám đông.
Luồng quang học cung cấp thông tin về độ lớn và hướng chuyển động giữa các khung hình, giúp phân tích hành vi đám đông trong các tình huống khác nhau Trong bối cảnh xung đột, chuyển động thường đan xen và hạn chế, trong khi trong tình huống hoảng loạn, dòng chuyển động tỏa ra mạnh mẽ theo nhiều hướng Tuy nhiên, việc phân tích luồng quang học có thể gặp khó khăn do sự tương đồng trong chuyển động của các phần không có người hoặc khi dòng người di chuyển theo nhiều hướng khác nhau trong cùng một không gian.
Trong các nghiên cứu trước đây, bản đồ mật độ nhiệt đã được sử dụng để đếm số lượng người trong đám đông Tuy nhiên, phân tích cho thấy rằng bản đồ này có thể là một công cụ định hướng hữu ích, giúp chỉ tập trung vào các khu vực có liên quan trong việc phân tích chuyển động, đồng thời tránh nhầm lẫn với các luồng chuyển động ở những nơi không có người Bên cạnh đó, những biến động về mật độ đám đông, như sự di tản đột ngột hoặc tình trạng đông đúc bất thường, có thể chỉ ra sự hiện diện của các sự kiện bất thường, như hoảng loạn hoặc xung đột Vì vậy, việc sử dụng bản đồ mật độ nhiệt như một tiêu chí phân tích để phát hiện hành vi bất thường trong đám đông là hoàn toàn hợp lý.
Hình 3.3: Cảnh đám đông hoảng loạn và bản đồ nhiệt tương ứng
Hình 3.4: Cảnh đám đông xung đột và bản đồ nhiệt tương ứng
Thiếu dữ liệu để đào tạo mạng là một thách thức lớn trong nghiên cứu, đặc biệt khi nội dung trên internet thường không phù hợp với bài toán đặt ra hoặc có chất lượng thấp Các chủ đề như đám đông xung đột và hoảng loạn thường chỉ có thể tìm thấy trong các kho lưu trữ của chính quyền hoặc qua camera giám sát, mà chúng ta không thể tiếp cận Do đó, bài toán là làm thế nào để phát hiện hành vi bất thường trong đám đông với rất ít dữ liệu đào tạo Chúng tôi đã sử dụng tập dữ liệu ảo tổng hợp từ các hành vi đám đông cụ thể để đào tạo, sau đó áp dụng kỹ thuật thích ứng miền, cụ thể là phương pháp tinh chỉnh mô hình Mục tiêu là khi áp dụng cho dữ liệu thực tế, mô hình có thể cho ra kết quả tốt mà không cần đào tạo lại hoặc chỉ cần một lượng dữ liệu rất ít.
Mô hình mạng đề xuất
Để áp dụng phương pháp đề xuất, chúng ta thiết kế một mạng học sâu, bắt đầu bằng việc trích xuất dòng quang và bản đồ mật độ nhiệt từ tập dữ liệu đầu vào Sau đó, chúng ta tiến hành đào tạo mạng theo cấu trúc đã xác định.
Hình 3.6: Mô hình mạng đề xuất
Hình 3.7: Dữ liệu đầu vào của mạng huấn luyện
Đầu vào của mạng bao gồm dữ liệu ảnh màu RGB, dòng chuyển động quang học và bản đồ mật độ nhiệt, được trích xuất và biểu diễn dưới dạng các tensor với các chiều dữ liệu tương ứng.
Bước 1: Spatial Encode là giai đoạn quan trọng trong việc trích xuất và học các đặc trưng không gian của dữ liệu đầu vào, bao gồm hướng và chiều chuyển động, mật độ đám đông, cũng như bối cảnh Để thực hiện nhiệm vụ này, luận văn áp dụng mạng Resnet18, đã được tiền huấn luyện trên tập dữ liệu ImageNet.
Bước 2: Temporal Encode có vai trò quan trọng trong việc trích xuất và học các biến đổi theo thời gian của các đặc trưng đã được lấy từ Bước 1 Để thực hiện nhiệm vụ này, luận văn áp dụng mạng LSTM với cấu trúc gồm 2 lớp ẩn.
- Bước 3: Kết nối đầy đủ: làm phẳng dữ liệu đầu ra của mạng và kết nối chúng thành mảng 1 chiều
- Bước 4: Phân lớp: tính toán xác xuất phân lớp đầu ra, sử dụng hàm Softmax
- Đầu ra: mảng 3 phần tử, mỗi phần tử là xác xuất phân lớp của dữ liệu đầu vào với lớp tương ứng
Dữ liệu đầu vào được tạo thành từ việc kết hợp các đặc trưng đã trích xuất, sau đó được đưa qua phần đầu của mạng để trích xuất đặc trưng không gian Tiếp theo, dữ liệu này sẽ được xử lý qua phần thứ hai để trích xuất đặc trưng theo thời gian, và kết quả cuối cùng sẽ được đưa vào mạng kết nối đầy đủ để tính toán phân lớp Trong quá trình huấn luyện, để nâng cao độ chính xác và giảm thiểu tình trạng quá khớp (overfitting), nghiên cứu áp dụng các kỹ thuật tăng cường dữ liệu như xoay, thêm nhiễu, lật ảnh, điều chỉnh độ sáng và cắt ngẫu nhiên Quan trọng là các khung hình trong cùng một mẫu huấn luyện cần phải áp dụng các thay đổi giống nhau để đảm bảo tính nhất quán của dòng chuyển động.
Áp dụng kỹ thuật tăng cường dữ liệu
Trong nghiên cứu, các kỹ thuật tăng cường dữ liệu đóng vai trò quan trọng trong việc làm phong phú lượng dữ liệu và giảm thiểu hiện tượng quá khớp Một số phương pháp phổ biến bao gồm sử dụng ảnh gốc, phép xoay, phép lật dọc và thay đổi tương phản Những kỹ thuật này giúp cải thiện hiệu suất mô hình học máy bằng cách tạo ra các biến thể đa dạng từ dữ liệu gốc.
Trong quá trình tăng cường dữ liệu, các phép biến đổi như thêm nhiễu, cắt và làm đầy, cũng như sử dụng màu sắc và cắt ngẫu nhiên, đã được áp dụng để cải thiện chất lượng hình ảnh Hình 3.8 minh họa sự thay đổi của dữ liệu qua những phép biến đổi này, với ảnh gốc là hình ảnh chưa qua chỉnh sửa.
Phép lật là quá trình lật ảnh theo chiều dọc hoặc ngang mà vẫn giữ nguyên ý nghĩa của hình ảnh hoặc nhãn Ví dụ, khi nhận dạng quả bóng tròn, phép lật vẫn duy trì hình dạng của quả bóng Đối với chữ viết tay, lật số 8 vẫn là 8, trong khi số 6 sẽ trở thành 9 khi lật ngang và không có giá trị khi lật dọc Đặc biệt, trong nhận dạng ảnh y tế, việc lật từ trên xuống dưới không xảy ra trong thực tế.
Phép Xoay: Xoay ảnh theo trục dọc hoặc trục ngang
Cắt ngẫu nhiên là quá trình cắt một phần của bức ảnh, nhưng cần lưu ý giữ lại thành phần chính mà chúng ta quan tâm Đặc biệt trong nhận diện vật thể, nếu bức ảnh bị cắt mất vật thể, giá trị nhãn sẽ không còn chính xác.
Chuyển đổi màu: Chuyển đổi màu của bức ảnh bằng cách thêm giá trị vào
3 kênh màu RGB Việc này liên quan tới ảnh chụp đôi khi bị nhiễu => màu bị ảnh hưởng
Thêm nhiễu vào bức ảnh có thể được thực hiện thông qua nhiều loại nhiễu khác nhau, bao gồm nhiễu ngẫu nhiên, nhiễu có mẫu, nhiễu cộng, nhiễu nhân, và nhiễu do nén ảnh Ngoài ra, nhiễu mờ có thể xuất hiện do chụp không lấy nét hoặc do chuyển động trong quá trình chụp.
Màu ngẫu nhiên: Thay đổi màu trong bức ảnh
Thay đổi độ tương phản: thay độ tương phản của bức hình, độ bão hòa
Ngoài các phương pháp tăng cường dữ liệu đã đề cập, còn nhiều kỹ thuật khác, nhưng chúng tôi chỉ lựa chọn những cách này vì chúng phù hợp với vấn đề nghiên cứu hiện tại.
THỰC NGHIỆM VÀ ĐÁNH GIÁ
Tập dữ liệu sử dụng
Tập dữ liệu pretrain được xây dựng từ một phần của tập dữ liệu MED, bao gồm các video quay từ camera giám sát theo các chủ đề và kịch bản cụ thể Do một số video không liên quan đến hành vi nghiên cứu trong luận văn, chúng tôi chỉ chọn 17 video phù hợp Mỗi video có độ dài từ 40-90 giây, được chia thành các mẫu 3 giây Tập huấn luyện bao gồm các mẫu từ 13 video gốc, trong khi tập kiểm chứng sử dụng các mẫu từ 4 video gốc còn lại, đảm bảo rằng các mẫu trong hai tập này không thuộc cùng một video gốc.
Bảng 4.1: Thống kê dữ liệu tập pretrain Tập huấn luyện 166 sample Tập kiểm chứng 72 sample
Tập dữ liệu này được mô phỏng theo các hành vi của đám đông, bao gồm các hành vi được sử dụng trong luận văn cụ thể:
Bảng 4.2: Thống kê số lượng mẫu theo nhãn của tập pretrain
Tập huấn luyện Số lượng mẫu
Tập kiểm thử Số lượng mẫu Bình thường 56
Xung đột 48+10 Đám đông bình thường Đám đông hoảng loạn Đám đông xung đột
Tập dữ liệu thực tế trong nghiên cứu này bao gồm các video được thu thập từ nhiều nguồn khác nhau, bao gồm các tập dữ liệu và các trang video Sau khi thu thập, nội dung của các video này được bóc tách và xử lý để phù hợp với yêu cầu của luận văn.
- Thu thập từ youtube.com
- Thu thập từ gettyimage.com
Dữ liệu này được gán nhãn, chia thành các mẫu dữ liệu, mỗi mẫu dài từ 3s trở lên, được chuyển đổi về kích thước 224*224 ở bitrate 30fps
Bảng 4.3: Thống kê số lượng mẫu theo nhãn của tập thực tế
Tổng cộng 309 Đám đông bình thường Đám đông hoảng loạn Đám đông xung đột
Hình 4.2: Một số hình ảnh trong tập dữ liệu thực tế Trích xuất mẫu:
Các video đầu vào sẽ được chuyển đổi kích thước thành 224x224 và 30fps trước khi tiến hành xử lý Thư viện OpenCV sẽ hỗ trợ trong việc tách các khung hình từ video và lưu trữ chúng vào thư mục được đặt tên theo mã định danh của video Các khung hình sẽ được đặt tên theo định dạng: -.jpg.
Hình 4.3: Tổ chức dữ liệu đào tạo Bảng 4.4: Thống kê các bối cảnh trong tập dữ liệu thực tế Đường phố
Sân vận động Ga tàu Trường học Khác
Thông số mạng huấn luyện
Các thông số mạng được sử dụng trong quá trình huấn luyện được thể hiện trong bảng 4.5
Bảng 4.5: Thống kê các bối cảnh trong tập dữ liệu thực tế
Epochs 10 Số lần lặp qua tập huấn luyện
Batch Size 16 Số sample được đưa vào trong 1 lần huấn luyện
Frames 6 Số khung hình của sample đưa vào huấn luyện
Sample length 3s Độ dài tính bằng giây của video đưa vào huấn luyện Learning rate 0.001 Hệ số học của mô hình, sau mỗi 2 epoch, hệ số học sẽ giảm
8 lần để tối ưu mô hình được tốt hơn
Kết quả thực nghiệm
Xuất phát từ công thức tính Precision và Recall:
Ta có công thức tính Micro Precision và Micro Recall theo từng lớp:
Công thức tính Micro F1 Score:
Bài toán nhận diện hành vi bất thường trong đám đông thuộc loại phân lớp với dữ liệu không đồng đều giữa các lớp, dẫn đến việc tập dữ liệu không cân bằng Vì vậy, nghiên cứu áp dụng chỉ số Micro F1 Score, là trung bình điều hòa của Precision và Recall trên từng lớp, để đánh giá hiệu quả của các kết quả thực nghiệm.
4.3.2 Kết quả thực nghiệm với tập đặc trưng
Lần lượt thử nghiệm với các phương án dữ liệu đầu vào khác nhau để so sánh:
- PA1: RGB: chỉ đưa vào các khung hình RGB
- PA2: RGB + Optical Flow: đưa vào các khung hình RGB và dòng quang
- PA3: RGB + Heatmap: đưa vào các khung hình RGB và bản đồ nhiệt
- PA4: RGB + Optical Flow + Heatmap: đưa vào các khung hình RGB, dòng quang và bản đồ nhiệt như đề xuất
Luận văn thử nghiệm 2 trường hợp với mỗi bộ dữ liệu như trên, trường hợp
Chúng tôi chỉ sử dụng kết quả đã được pretrain để kiểm thử trên tập dữ liệu thực tế Trong trường hợp thứ hai, từ tập dữ liệu thực tế, chúng tôi trích xuất 10% để huấn luyện thêm và tiến hành kiểm thử trên phần còn lại Kết quả thu được như sau:
Bảng 4.4: PA1 chỉ sử dụng ảnh màu
Bảng 4.5: PA2 ảnh màu và bản đồ nhiệt
Bảng 4.6: PA3 sử dụng RGB và dòng quang
Bảng 4.7: PA4 ảnh màu, dòng quang học và bản đồ nhiệt
Theo bảng 4.4, 4.5, 4.6, 4.7, cả hai trường hợp có và không có đào tạo trước đều cho thấy phương án chỉ sử dụng dữ liệu ảnh màu (PA1) đạt kết quả kém nhất Trong khi đó, phương án 4 (PA4) kết hợp ba đặc trưng: ảnh màu, bản đồ nhiệt và dòng quang, cho kết quả tốt nhất, từ đó khẳng định tính khả thi của phương pháp đã đề xuất.
4.3.3 Kết quả thực nghiệm theo số lượng dữ liệu huấn luyện
Luận văn tiếp tục tiến hành thực nghiệm đưa thêm dữ liệu từ tập dữ liệu thật vào để huấn luyện với PA4, sau đây là kết quả:
Bảng 4.8: Kết quả thực nghiệm phương án đề xuất
Hình 4.4: Biểu đồ độ chính xác qua mỗi epoch
Hình 4.5: Biểu đồ giá trị mất mát qua mỗi epoch
Bảng 4.9: Ma trận nhầm lẫn cho trường hợp chỉ sử dụng kết quả huấn luyện trước, không đào tạo thêm trên tập thực tế
Bình thường Hoảng loạn Xung đột
Trong quá trình pretrain, hành vi bình thường trong tập dữ liệu tổng hợp thường có các dòng chuyển động đơn giản hơn so với các dòng chuyển động trong tập dữ liệu thực tế Điều này dẫn đến việc trên tập thực tế, kết quả nhận diện hành vi bình thường thường bị nhầm lẫn với hành vi “hoảng loạn” và “xung đột”.
Hành vi "xung đột" thường bị hiểu nhầm thành "hoảng loạn" vì trong các video tổng hợp, hình ảnh xung đột chủ yếu thể hiện sự xô đẩy giữa hai người, khác với thực tế nơi có sự tham gia của nhiều người.
Bảng 4.10: Ma trận nhầm lẫn khi Không sử dụng kết quả huấn luyện trước và đào tạo 10% tập thực tế
Bình thường Hoảng loạn Xung đột
Bảng 4.11: Ma trận nhầm lẫn khi có sử dụng kết quả huấn luyện trước và đào tạo 10% tập thực tế
Bình thường Hoảng loạn Xung đột
Khi sử dụng kết quả pretrain ở mức 0% cho các hành vi "bình thường", những cảnh thực tế có chuyển động phức tạp và dòng người đan xen thường bị nhầm lẫn với hành vi "hoảng loạn".
Hình 4.6: Một số mẫu “Bình thường” đoán nhận thành “Hoảng loạn”
Khi áp dụng kết quả pretrain trên tập tổng hợp để nhận diện các hành vi “xung đột”, chúng ta thường gặp phải tình trạng nhầm lẫn với “hoảng loạn” Nguyên nhân chủ yếu là do số lượng mẫu về xung đột trong tập tổng hợp còn hạn chế, chưa đủ để phản ánh đầy đủ các tình huống thực tế phát sinh.
Hình 4.7: Một số mẫu “Xung đột” đoán nhận thành “Hoảng loạn”
- Khi đào tạo thêm với 10% dữ liệu tập thật và sử dụng kết quả này để đoán nhận thì các sai sót trên giảm đi
4.3.4 Ảnh hưởng của các kỹ thuật tăng cường dữ liệu
Hình 4.8: Biểu đồ độ chính xác theo epoch với các kỹ thuật tăng cường dữ liệu Nhận xét:
- Với các kỹ thuật tăng cường dữ liệu khác nhau sẽ cho kết quả khác nhau
Việc chỉ sử dụng một kỹ thuật tăng cường dữ liệu có thể dẫn đến hiện tượng quá khớp với một hành vi cụ thể, chẳng hạn như việc cắt ảnh có thể làm mất đi các phần quan trọng, gây ra xung đột trong dữ liệu.
- Kỹ thuật xoay ảnh đang cho kết quả khả quan nhất
- Cần thử nghiệm nhiều hơn để đưa ra được tập kỹ thật phù hợp, xem xét sử dụng kết hợp nhiều kỹ thuật tăng cường dữ liệu khác nhau.