Trang 1 NGUYỄN THẾ MẠNHBỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI--- NGUYỄN THẾ MẠNHKỸ THUẬT ĐIỆN TỬNGHIÊN CỨU PHƯƠNG PHÁP NHẬN DIỆN CƠ THỂ NGƯỜI TRONG NH SẢỐ Trang 2 B GIÁO
Trang 1NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DIỆN
CƠ THỂ NGƯỜ I TRONG NH S Ả Ố
LUẬN VĂN THẠC SĨ KỸ THUẬT CHUYÊN NGÀNH KỸ THUẬT ĐIỆN TỬ
Trang 2B GIÁO D Ộ ỤC VÀ ĐÀO TẠ O TRƯỜNG ĐẠ I H C BÁCH KHOA HÀ N I Ọ Ộ
- NGUY Ễ N THẾ ẠNH M
LUẬN VĂN THẠC SĨ KĨ THUẬT
CHUYÊN NGÀNH K THU Ỹ ẬT ĐIỆ N T Ử
NGƯỜI HƯỚNG D N KHOA HẪ ỌC:
TS VÕ LÊ CƯỜNG
Hà Nội – 2017
Trang 3L I C Ờ ẢM ƠN
Tôi xin g i l i cử ờ ảm ơn chân thành và sâu sắc nh t t i th y giáo TS ấ ớ ầ Võ Lê Cường, người đã trực tiếp hướng d n tôi t n tình trong th i gian nghiên c u và hoàn thi n ẫ ậ ờ ứ ệluận văn này
Tôi cũng xin được g i l i cử ờ ảm ơn tớ ậi t p th các th y, cô giáo c a Viể ầ ủ ện Điệ ửn t - Viễn thông, trường Đạ ọi h c Bách Khoa Hà Nội đã tận tình giúp đỡ tôi trong su t thố ời gian học tập và nghiên c u tứ ại trường
M t l n n a tôi xin trân tr ng cộ ầ ữ ọ ảm ơn tấ ảt c các th y cô giáoầ , gia đình ạ, b n bè,
đồng nghiệp đã giúp đỡ và ng h tôi trong th i gian qua Xin kính chúc các th y cô ủ ộ ờ ầgiáo, các anh ch và các b n m nh kh e, h nh phúc và thành công ị ạ ạ ỏ ạ
Hà Nội, ngày 20 tháng 03 năm 2017
Tác giả ận văn lu
Nguy n Th M nh ễ ế ạ
Trang 4L ỜI CAM ĐOAN
Tôi xin cam đoan: Bản luận văn tốt nghi p này là công trình nghiên c u th c s ệ ứ ự ự
c a cá ủ nhân, được th c hiự ện trên cơ sở nghiên c u lý thuy t, th c t ứ ế ự ế dướ ự hưới s ng
d n c a Ti n s ẫ ủ ế ỹ Võ Lê Cường, Viện Điệ ửn t - Viễn Thông, Trường Đạ ọi h c Bách Khoa Hà Nội
Các số liệu, kết luận của luận án là trung thực, dựa trên sự nghiên cứu, của bản thân, chưa từng được công bố dưới bất ký hình thức nào trước khi trình, bảo vệ trước
“Hội đồng đánh giá luận văn thạc sỹ khoa học” Các s li u, k t qu , k t luố ệ ế ả ế ận được tôi tham khảo đã được trích d n nguẫ ồn đầy đủ
Một lần nữa tôi xin khẳng định về sự trung thực của lời cam kết trên
Hà Nội, ngày 20 tháng 03 năm 2017
Tác giả ận văn lu
Nguy n Th M nh ễ ế ạ
Trang 51
MỤC LỤC 1
DANH SÁCH T ỪVIẾT TẮT 3
DANH SÁCH CÁC BẢNG 4
DANH SÁCH HÌNH V 5Ẽ M Ở ĐẦU 7
CHƯƠNG 1 T NG QUAN H TH NG NH N DIỔ Ệ Ố Ậ ỆN NGƯỜI ĐI ĐƯỜNG 10 1.1 Giới thiệu chung 10
1.2 Khái quát hệ thố ng nh n diậ ện người đi đường 13
1.2.1 T ng quan h ổ ệthống 13
1.2.2 Khó khăn và thách thức 16
1.3 Các kết quả nghiên c u trên th gi i 17ứ ế ớ 1.4 Kết luận chương 18
CHƯƠNG 2 CƠ SỞ LÝ THUY T 19Ế 2.1 Gradient của ảnh và đặc trưng biên độ gradient 19
2.1.1 Khái niệm gradient trong x ửlý ảnh s 19ố 2.1.2 Ứng d ng cụ ủa đặc trưng gradient trong xửlý ảnh s 22ố 2.2 Đặc trưng HOG 23
2.2.1 Chuẩn hóa gamma và màu 24
2.2.2 Tính gradient 25
2.2.3 Chia hướng và gom đặc trưng tạ ỗi m i cell 25
2.2.4 Tính đặc trưng cho khối và chuẩn hóa 27
2.2.5 Tính vector đặc trưng cho cửa sổ 30
2.2.6 Ứng d ng cụ ủa đặc trưng HOG 30
2.3 Không gian màu CIELUV 31
2.4 Thuật toán AdaBoost 32
2.5 Kết luận chương 33
CHƯƠNG 3 THU T TOÁN NH N DIẬ Ậ ỆN NGƯỜI ĐI ĐƯỜNG S D NG Ử Ụ ACF 34
3.1 Ước lượng gradient nh theo t l ả ỷ ệ kích thước 34 3.1.1 Histogram của gradient trong nh l y m u lên 35ả ấ ẫ 3.1.2 Histogram của gradient trong nh l y m u xu ng 37ả ấ ẫ ố
Trang 62
3.2 Ước lượng đặc trưng ảnh theo tỷ l l y m u 38ệ ấ ẫ 3.2.1 Công thức lũy thừa tính đặc trưng ảnh theo t l l y m u 39ỷ ệ ấ ẫ 3.2.2 Ước lượng h s 40ệ ố λ
3.3 Phương pháp xây dựng tháp đặc trưng nhanh 41
3.3.1 Tính toán kênh đặc trưng theo tỷ l l y m u 41ệ ấ ẫ 3.3.2 Xây dựng tháp đặc trưng nhanh 43
3.3.3 Phân tích độ phức tạp thuật toán 44
3.4 Nhận diện người đi đường s d ng ACF 45ử ụ 3.5 Cài đặt thử nghiệm và đánh giá 46
3.5.1 S d ng b công c ACF trên MATLAB 46ử ụ ộ ụ 3.5.2 Phương pháp đánh giá 47
3.5.3 Kết quả thự c nghi m 55ệ 3.6 Kết luận chương 58
CHƯƠNG 4 ỨNG D NG B L C KALMAN TRONG NH N DI N 59Ụ Ộ Ọ Ậ Ệ 4.1 Giới thiệu chung b l c Kalman 59ộ ọ 4.2 Mô hình toán họ ộ ọc b l c Kalman 61
4.3 ng d ng b l c Kalman trong h ng nh n diỨ ụ ộ ọ ệthố ậ ện người đi đường 64
4.3.1 Ý tưởng thu t toán 64ậ 4.3.2 Sơ đồ thuật toán 66
4.4 Cài đặt thử nghiệm và đánh giá 67
4.5 Kết luận chương 69
KẾT LUẬN 70 TÀI LIỆU THAM KH O 71Ả
Trang 73
ACF Aggregated Channel Features Các đặc trưng tổng hợp đa
kênh
CIE Commission internationale de l'éclairage Ủy ban quốc tế về chiếu sáng
CPDB Caltech Pedestrian Detection Benchmark Bộ đánh giá bộ nhận diện
người đi đường Caltech
FPDW Fastest Pedestrian Detector in the West Bộ nhận diện người đi đường
nhanh nhất ở miền Tây
FPPI False Positive per Image Dương tính giả trên mỗi ảnh
HOG Histogram of Oriented Gradient Histogram của gradient có
hướng
SVM Support Vector Machine Máy vector hỗ trợ
Trang 84
B ng 3 1 : S dả ử ụng hàm acfDetect để nh n di n 46ậ ệ
B ng 3 2 : Mả ột số thông s c a các t p d ố ủ ậ ữliệu được sử ụ d ng 49
B ng 3 3 : Tóm t t các khái ni m true/false positive, true/false negative 49ả ắ ệ
B ng 3 4: Miss rate c a m t s ả ủ ộ ố phương pháp nhận diện người ph bi n trên 2 t p d ổ ế ậ ữliệu 58
Trang 95
Hình 1 1: Một số ví d kụ ết quả nh n diậ ện người từ ậ t p d ệu Caltech [10] 11ữli
Hình 1 2 : Một số ứ ng d ng c a nh n diụ ủ ậ ện người 12
Hình 1 3 : Kiến trúc t ng quan c a h th ng nh n diổ ủ ệ ố ậ ện người 14
Hình 1 4 : Một số phương pháp lựa chọn vùng candidate 15
Hình 2 1 : Hai d ng cạ ủa gradient Mũi tên chỉ hướng gradient Vùng màu t i th ố ểhi n ệ giá tr ị cao hơn 19
Hình 2 2 : Ảnh m c xám và ứ ảnh gradient tương ứng theo chi u x và chi u y 20ề ề Hình 2 3 : Ảnh độ ớ l n gradient s d ng các toán t khác nhau 21ử ụ ử Hình 2 4 : Một ví d v gradient cho ụ ề ảnh đối tượng người 23
Hình 2 5 : Sơ đồ các bước trích chọn đặc trưng HOG [5] 24
Hình 2 6 : Tổng quan các bước trích xuấ ặc trưng HOG tĩnh [4]t đ 26
Hình 2 7 : Biểu đồ histogram cho m t cell v i 9 bin t ộ ớ ừ 0 đến 180 độ 27
Hình 2 8 : Một số ạng block được đề ấ d xu t [4] 28
Hình 2 9 : Chấ ợng đặc trưng phụt lư thuộc vào kích thước cell và block [5] 29
Hình 2 10 : Đặc trưng HOG trên cử ổa s chứa đối tượng người 31
Hình 2 11 : Biểu đồ màu (u′, v′), còn đượ ọc g i là biểu đồ CIE 1976 UCS 31
Hình 2 12 : Lược đồ cơ bản c a AdaBooost [17] 32ủ Hình 2 13 : Thuật toán h c AdaBoost [17] 33ọ Hình 3 1 : Phân b t l gradient histogram khi l y m u lên v i ố ỉ ệ ấ ẫ ớ k = 2 [7] 36
Hình 3 2 : Phân bố ỉ ệ t l gradient histogram khi l y m u xu ng v i = 2 [7] 37ấ ẫ ố ớ k Hình 3 3 : Tính xấ ỉp x gradient histogram trên nh l y m u l i v i ả ấ ẫ ạ ớ k = 2 [7] 38
Hình 3 4 : Hệ ố λ s cho các lo i channel khác nhau [7] 41ạ Hình 3 5: Phương pháp tính channel theo phương pháp truyền thống và phương pháp được đề xu t [7] 42ấ Hình 3 6 : Phương pháp xây dựng tháp đặc trưng nhanh [7] 43 Hình 3 7 : Tổng quan các bước phương pháp nhận di n ACF [7] 45ệ
Trang 106
Hình 3 8 : Một số ả nh trong t p d ệu Caltech 48ậ ữliHình 3 9 : Một số ả nh trong t p d ệu ETH 48ậ ữliHình 3 10 : Precision và Recall 51Hình 3 11 : Đường cong PR 52Hình 3 12 : Caltech Pedestrian Detection Benchmark Framework 53Hình 3 13 : Chuẩn hóa t l khung bounding box [10] 54ỉ ệHình 3 14 : Đường cong miss rate - FPPI trên t p d li u Caltech 56ậ ữ ệHình 3 15 : Đường cong PR trên t p d li u Caltech 56ậ ữ ệHình 3 16 : Đường cong miss rate - FPPI trên t p d li u ETH 57ậ ữ ệHình 3 17 : Đường cong PR c a ACF trên t p d li u ETH 57ủ ậ ữ ệ
Hình 4 1 : Mô hình đo lường ước lượng c a b l c Kalman 59ủ ộ ọHình 4 2 : Chu trình 2 bước c a b l c Kalman 60ủ ộ ọHình 4 3: Mô hình không gian trạng thái b l c Kalman 62ộ ọHình 4 4 : Hoạ ột đ ng c a bộ ọủ l c Kalman theo các phương trình 64Hình 4 5 : Các frame liên tiếp trong video với đối tượng người đi chuyển 65Hình 4 6 : Sơ đồ thuật toán đề xu t 66ấHình 4 7 : S biự ến đổ ủi c a th i gian nh n di n và miss rate theo s frame b qua ờ ậ ệ ố ỏ
nh n di n gi m d n 68ậ ệ ả ầ
Trang 117
Trong những năm gần đây, bài toán nhận dạng cơ thể người trong nh s và video ả ố
đã và đang trở thành m t ch ộ ủ đề nghiên c u nhứ ận được nhi u s ề ự chú ý trong lĩnh vực thị giác máy tính M t trong các lý do khi n cho bài toán này nhộ ế ận được nhi u s ề ự đầu
tư nghiên ứu đó là tiềm năng ứ c ng d ng c a vi c nh n dụ ủ ệ ậ ạng người trong các h ng ệthốnhư xử lý và qu n lý n i dung nh, video, giám sát an ninh, h tr lái xe t ả ộ ả ỗ ợ ự động, … Việc nh n dậ ạng người đi đường là m t trong nh ng vộ ữ ấn đề quan tr ng trong h ọ ệ
thống h ợỗtr lái xe ho c lái xe t ng V i tính ng d ng th c t , c ng v i s phát ặ ự độ ớ ứ ụ ự ế ộ ớ ựtriển nhanh chóng c a h ốủ ệth ng x lý máy tính, camera tử ốc độ và chất lượng cao, h ệthống nh n dậ ạng người đi đường đã được ứng d ng r t nhi u trên ô tô Vì v y, lu n ụ ấ ề ậ ậvăn đã lựa chọn đềtài nghiên c u v h ứ ề ệthống nh n diậ ện cơ thể người, c thểụ là nh n ậ
diện người đi đường để tìm hi u nhể ững phương pháp phổ ế bi n hi n nay, ng th i ệ đồ ờđưa ra những đề xu t c i ti n ấ ả ế
Mục đích nghiên cứu, đối tượ ng và phạ m vi nghiên c u ứ
Luận văn được th c hiự ện v i m c đí ớ ụ ch:
Nghiên cứu hệ thố ng nh n diậ ện người đi đường và các phương pháp nhận diện được s d ng ph bi n hi n nay trên th ử ụ ổ ế ệ ếgiới Đánh giá chất lượng của phương pháp được nghiên c u ứ
Nghiên c u b l c Kalman và ng d ng c a b l c trong bài toán bám sát ứ ộ ọ ứ ụ ủ ộ ọ
và theo dõi đối tượng T đó đưa ra đề xu t v m t h ng k t h p b lừ ấ ề ộ ệthố ế ợ ộ ọc Kalman với phương pháp nhận diện người đi đường để ả c i ti n cho bài ếtoán bám sát người đi đường t d li u video ừ ữ ệ
Dựa trên mục đích nghiên cứu, đối tượng nghiên c u cứ ủa luận văn được xác định
là các phương pháp nhận diện người đi đường v i d liớ ữ ệu video thu đượ ừc t môi trường có người di chuy n; bên cể ạnh đó là bộ ọ l c Kalman và ứng d ng trong bài toán ụbám sát Trong luận văn có sử ụ d ng m t s ộ ố cơ sở ữ d u v liệ ề ảnh và video thường đượ ử ục s d ng trong các nghiên cứu trong lĩnh vực này như tậ ữ ệp d li u Caltech, ETH
Trang 128
Trong ph m vi nghiên c u, luạ ứ ận văn tìm hiểu v mề ột phương pháp nhận diện người đi đường ph biổ ến và được đánh giá cao hiện nay là phương pháp ACF, trong
đó dựa trên các đặc trưng kênh tổng h p v i nhau và thu t toán phân lo i AdaBoost ợ ớ ậ ạ
để nh n diậ ện đối tượng Trong luận văn này, em cũng đánh giá chất lượng của phương pháp ACF, cũng như đề xu t s d ng b l c Kalman k t h p ACF cho bài toán nh n ấ ử ụ ộ ọ ế ợ ậ
di n và ệ bám sát người đi đường
Nghiên c u và s d ng các ph n m m, công c x ứ ử ụ ầ ề ụ ửlý ảnh phù h p cho viợ ệc xây d ng h ng ự ệthố
Triển khai h ng b ng các ph n mệthố ằ ầ ềm, công c ụ đã tìm hiểu, đánh giá kết
qu ảtrên các tậ ữ liệp d u chuẩn được sử ụ d ng r ng ộ rãi
D a trên k t qu ự ế ả đánh giá đó, đưa ra hướng đề xuất để ả c i ti n h ng ế ệ thố
s n có ẵ
Luận văn bao gồm nh ng phữ ần chính như sau:
CHƯƠNG 1: ỔT NG QUAN H TH NG NH N DI N NGƯỆ Ố Ậ Ệ ỜI ĐI ĐƯỜNG Giới thi u v h th ng nh n diệ ề ệ ố ậ ện người đi đường, vai trò ng d ng trong th c t , ứ ụ ự ếcác kết quả nghiên c u trên th gi i và phương pháp nghiên c u cứ ế ớ ứ ủa đề tài
CHƯƠNG 2: CƠ SỞ LÝ THUY T Ế
Trình bày cơ sở lý thuy t c a các khái ni m trong x lý nh có liên quan ế ủ ệ ử ả
CHƯƠNG 3: THUẬT TOÁN NH N DIẬ ỆN NGƯỜI ĐI ĐƯỜNG
Trình bày chi ti t thuế ật toán nh n diậ ện người đi đường s dử ụng các đặc trưng kênh
t ng h p ACF ổ ợ
CHƯƠNG 4: ỨNG D NG B L C KALMAN TRONG NH N DI N Ụ Ộ Ọ Ậ Ệ
Trang 1410
1.1 Giớ i thi chung ệ u
Trong lĩnh vực th giác máy tính, vị ấn đề nh n diậ ện đối tượng đã nhận được s ựchú
ý l n trong cớ ộng đồng nghiên c u ứ trong những năm gần đây Trong đó, nhận diện cơ thể người, hay nh n diậ ện người đi đường là m t trong nh ng ch ộ ữ ủ đề quan tr ng Viọ ệc
nh n diậ ện được con người qua đó giúp máy tính có thể tương tác tốt hơn với con người đưa đến nh ng ng d ng tr c ti p và thi t th c trong các ng d ng v an toàn ữ ứ ụ ự ế ế ự ứ ụ ềcho ô tô, giám sát an ninh, robot tự độ ng
Bài toán nh n diậ ện người có th ể được phát bi u mể ột cách đơn giản như sau: cho
m t bộ ức ảnh hoặc video đầu vào, xác định v trí t t c ị ấ ả các đối tượng là người trong
ảnh ho c video ặ Bài toán tương đương v i viớ ệc xác định vùng, thông thường là khung bao quanh (bounding box), có di n tích nh nh t trên nh/video mà bao chệ ỏ ấ ả ứa đối tượng là người Hình 1.1 là m t s ví d v vi c nh n diộ ố ụ ề ệ ậ ện người đi đường trong t p ậ
d u Caltech ữliệ
Trong th i gian gờ ần đây, Lĩnh vực nh n diậ ện cơ thể người đã thu hút được nhiều
s chú ý nghiên c u xu t phát t nh ng ng d ng tr c ti p c a nó M t ví d ự ứ ấ ừ ữ ứ ụ ự ế ủ ộ ụ ở trong lĩnh vực qu n lý n i dung hình nh, video mà ả ộ ả ở đó có ột lượm ng lớn cơ sở ữ ệ d li u v ềhình nh cả ần được ử lýx Một tác ụ thườ v ng gặp là đánh dấu các đối tượng, đặc biệt
là người, trong nh và video M t tác v ả ộ ụ khác là đánh dấu, gán nhãn các hình nh, ảvideo d a vào n i dung bên trong K t qu cự ộ ế ả ủa quá trình đánh dấu, gán nhãn đó giúp
ta có th thể ực hiện các hành động tìm ki m, truy vế ấn cơ sở ữ d ệu sau đó Công việc liđánh dấu nếu được th c hi n th công s gây t n kém r t nhi u công s c và th i gian ự ệ ủ ẽ ố ấ ề ứ ờViệc đánh dấ ự độu t ng s giúp ích l n trong xây d ng và quẽ ớ ự ản lý cơ sở ữ ệ d li u H ệthống nh n diậ ện người có th ể đượ ử ục s d ng làm một công đoạn trong việc đánh dấu
t ự động đó Hình 1.2(a) minh h a m t ví d v h ọ ộ ụ ề ệthống như vậy
Trong lĩnh vực giám sát b ng video an ninh, m t nhi m v quan tr ng là phát hi n, ằ ộ ệ ụ ọ ệ
nh n dậ ạng, và theo dõi người trong các khu vực đông đúc như sân bay, bến tàu, siêu
Trang 1511
Hình 1 1: M t s ví d k t qu ộ ố ụ ế ả nhậ n di ện ngườ i t t p d u Caltech [10] ừ ậ ữ liệ
thị, … Ở đó phát hiện người là một bước quan tr ng D ệu video đượọ ữ li c thu b i ởcamera an ninh được x ử lý để phát hi n và bám sát theo toàn b ệ ộ cơ thể ho c t ng ặ ừ
ph n cầ ủa cơ thể người D a trên v trí và d ch chuy n c a các b ự ị ị ể ủ ộphận, ta có th ểnh n ậ
ra dáng điệu và hành động c a tủ ừng người Hình 1.2(b) minh h a m t ví d c a h ọ ộ ụ ủ ệthống theo dõi an ninh
Nhậ ạng người cũng là ộn d m t ph n quan tr ng trong các h thầ ọ ệ ống điều khi n xe ể
t ng ho c h ng h lái xe an toàn Các h ng này giúp phát hiự độ ặ ệthố ỗtrợ ệ thố ện người
đi đường và c nh báo, h tr lái xe ho c t ả ỗ ợ ặ ự động điều khi n xe trong các tình hu ng ể ốnguy hiểm ộ ố ả M t s s n ph m ví d có th k ẩ ụ ể ể đến như dòng sản ph m TMPV760 ẩ 1 của hãng Toshiba s d ng camera và vi x lý tử ụ ử ốc độ cao cho ra đời các h ng h ệthố ỗ trợlái xe nâng cao Trong đó gồm các h th ng c nh báo va chệ ố ả ạm với xe khác, c nh báo ả
va chạm người đi đường ban ngày và ban đêm, cảnh báo va chạm chướng ng i v t ạ ậ
1 https://toshiba.semicon-storage.com/ap-en/product/automotive/image-recognition/tmpv7602.html
Trang 16th ố ng h ợ lái xe ỗ tr (từ [1 ]) 0
Trang 1713
Hoặ ảc s n ph m thẩ h ệ ống c nh báo va ch m cho ô tô c a hãng Mobileye ả ạ ủ 2 d a trên ựhình nh v i chả ớ ức năng phanh tự động, được ứng d ng trong dòng xe Volvo S60 ụHình 1.2 minh h h ng phát hi(c) ọa ệ thố ện người đi đường trên ô tô Rõ ràng, hi u qu ệ ả
c a toàn b h ng s ủ ộ ệ thố ẽ được c i tiả ến đáng kể ếu đượ n c s d ng mử ụ ột phương pháp phát hiện người đi đường có độ chính xác cao
Mặc dù đã có nhiề ỗu n l c nghiên c u, tuy nhiên các h ng nh n diự ứ ệthố ậ ện người đi đường hi n nay v n còn nhi u h n ch Ph n ti p theo s trình bày t ng quan v kiệ ẫ ề ạ ế ầ ế ẽ ổ ề ến trúc c a h ng nh n diủ ệthố ậ ện người và những khó khăn gặp ph i khi gi i quy t bài toán ả ả ếnày
1.2 Khái quát h ng nh n di ệ thố ậ ện người đi đườ ng
1.2.1 T ng quan h ổ ệ thống
Thông thường, m t h th ng nh n diộ ệ ố ậ ện người trong ảnh và video thường được
thực hiện theo các bước tu n t ầ ự sau: Ti n x ảnh đầề ử lý u vào, l a ch n các vùng ự ọcandidate có khả năng là người, trích xuất các đặc trưng ạt i các vùng candidate, phân
L a ch n các vùng candidate ự ọ : có nhi u pề hương pháp để ự l a ch n các vùng ọcandidate từ ảnh đầu vào M t cách ti p c n ph bi n là gi thi t rằộ ế ậ ổ ế ả ế ng m i đ i tư ng ỗ ố ợngườ ẽ đượi s c bao quanh b i m t c a s nh n di n (detection window) Các c a s ở ộ ử ổ ậ ệ ử ổ
có th ể được trích xu t t i nhi u v ấ ạ ề ị trí và kích thước Với phương pháp này, ta có thể
cần thêm bước gộp các cửa sổ ần nhau cùng được phân loại là ngườ g i Trong trường
h p d ợ ữliệu đầu vào là chu i các nh t m t video, m t kỗ ả ừ ộ ộ ỹ thuật ph biổ ến được s ử
dụng để ự l a chọn các vùng candidate là k ỹthuật loại trừ vùng n n (background ề
2 http://www.mobileye.com/
Trang 1814
Ảnh đầu vào
Kết quả nhận diện
Lựa chọn các vùng candidate
Human Candidate
Trích chọn đặc trưng
Bộ phân loại
Hậu xử lý Tiền xử lý
Hình 1 3 : Ki n trúc t ng quan c a h ế ổ ủ ệ thố ng nh n di ậ ện ngườ i
subtraction) [31] C ụthể, các đối tượng di chuy n s ể ẽ được tách kh i n n b ng cách ỏ ề ằtính toán s khác bi t cự ệ ủa ảnh hi n t i v i mệ ạ ớ ột ảnh tham chi u Tuy nhiên kế ỹ thuật này đòi hỏi một camera đứng yên và một ảnh đã chứ ẵn đối tượng đểa s làm ảnh tham chiếu Trong trường h p ợ ảnh đầu vào được thu t nhi u camera, thông tin t ều ừ ề ừ chisâu có th ể được dùng để tách bi t các vùng là human candidate [14] Hình 1.4 minh ệ
h a m t s ọ ộ ố phương pháp lựa ch n candidate Tuy v y, trong th c t , n u ọ ậ ự ế ế ảnh đầu vào chỉ là mộ ảnh tĩnh hoặt c video thu t camera di chuyển, phương pháp sử ụừ d ng c a s ử ổ
để nh n dậ ạng là phương pháp duy nhất có th áp d ng ể ụ
Trích chọn đặc trưng: Trong h ng nh n dệthố ậ ạng, bước trích trọn đặc trưng là
một bướ ốc t i quan tr ng và quyọ ết định t i hiớ ệu năng hoạt động c a toàn h ng ủ ệ thốĐối tượng có th có nhiể ều đặc trưng khác như hình dáng, đường vi n, màu s c, ề ắchuyển động, … Từ các đặc trưng này ta có th xây dể ựng lên đặ ảc t (description) của đối tượng Phương pháp tiếp c n ph bi n nhậ ổ ế ất để xây dựng đặ ả cho đối tược t ng là ghép nối các đặc trưng được trích xu t t các khu v c c c b t o nên m t vector ấ ừ ự ụ ộ để ạ ộ
đặ ảc t nhi u chiề ều Độ chính xác, hi u ệ năng hoạt động c a toàn h th ng ph thu c ủ ệ ố ụ ộnhi u vào vi c l a chề ệ ự ọn đặc trưng phù hợp và phương pháp xây dựng vector đặ ảc t
của đ i tưố ợng
Trang 19đầu vào
H u x ậ ử lý: đây là bướ ửc x lý sau khi có k t qu u ra c a b phân loế ả đầ ủ ộ ại Như đã trình bày trong bướ ực l a ch n vùng candidate, vọ ới phương pháp dựa trên c a s , k t ử ổ ế
qu có th có nhi u vùng n m ch ng l p hoả ể ề ằ ồ ấ ặc sát nhau mà đều được b phân lo i ghi ộ ạ
nh n là chậ ứa đối tượng người Các vùng đó có thể cùng ch a mứ ột đối tượng người,
Trang 2016
ho c chặ ứa các người đứng sát ho c che lặ ấp nhau Do đó ta có thể ầ c n thêm một bước
x ử lý để ộ g p các vùng có kh ả năng đều ch a cùng mứ ột đối tượng để cho k t qu cu i ế ả ốcùng là m t vùng duy nhộ ất bao quanh đối tượng được phát hi n M t k ệ ộ ỹ thuật ph ổ
biến để ộp các vùng đó là non g -maximal suppression [4]
1.2.2 Khó khăn và thách thức
Nhận diện người là m t nhi m v nhi u thách th c Y u t ộ ệ ụ ề ứ ế ố khó khăn nhất đế ừn t lượng thông tin biến đổ ới l n trong các b c nh và video Các y u t ứ ả ế ố khó khăn trong quá trình nh n di mà ta phậ ện ả ối đ i mặt gồm có:
Kích c ỡ ả nh: Người đi đường có th xu t hi n r t nh trong ể ấ ệ ấ ỏ ảnh có độphân gi i thả ấp, đặc bi t là các h ng camera an ninh hoệ ệthố ặc được g n trên ắ
ô tô Chất lượ ảnh đầng u vào p và ph i phát hithấ ả ện người ở kích c rỡ ất
nh là mỏ ột khó khăn lớn cho các phương pháp nhận di n ệ
Độ ễ tr trong x lý nh: trong các h ng ử ả ệthố ảnh được ch p t camera liên ụ ừ
tục, như xe ô tô, việc x ửlý ảnh ph i có tả ốc độ nhanh đểthời gian đáp ứng
ng n ắ Do đó, bên cạnh độ chính xác, các phương pháp nhận di n còn cệ ần
hi u qu v ệ ả ềthời gian tính toán để có th ng d ng trong thể ứ ụ ực tế
Tính ch ấ t ngoạ ảnh: con ngườ i c i có th xu t hiể ấ ện trong các môi trường
đa dạng như đô thị ế, b n xe, ngoài trời, … Điều này khi n vi c x lý khó ế ệ ửkhăn hơn khi ph i tính t i các đi u kiả ớ ề ện môi trường khác nhau
Biến đổ ủa điề i c u ki n sáng: ệ Người trong nh có th ả ểxuấ ệt hi n trong các điều ki n ánh sáng r t khác nhau Việ ấ ệc mô hình hóa người sao cho h n ch ạ ế
tối đa s ảnh hưởự ng của điều ki n sáệ ng thay đổi là một điểm quan tr ng ọ
Tư thế , dáng đi u c ệ ủ a đối tượng ngườ : người đi đườ i ng có th xu t hi n ể ấ ệ
v i nhiớ ều dáng điệu, tư thế khác nhau hoặc người này có th che khu t mể ấ ột
phần người khác và gây khó khăn cho việc phát hiện đối tượng
Ảnh hưở ng che khuất c a ngo i c ủ ạ ả nh: Môi trường cũng có thể che khuất
m t ph n nh , mộ ầ ỏ ột ph n l n ho c toàn b ầ ớ ặ ộ người trong ảnh Điều này khiến
việc phát hiện người khó khăn hơn
Trang 2117
Ngoài ra, s khác bi t v c tính gi a các b d u chuự ệ ề đặ ữ ộ ữ liệ ẩn được s d ng trong ử ụcác nghiên cứu cũng khiến cho vấn đề khó khăn hơn Mỗi b d ộ ữliệu thường s d ng ử ụcác ảnh m u ở ộ ấẫ m t c u hình v lề độ ớn, dáng điệu, tư thế ố, s lượng người, độ ị b che
l p cấ ủa người, … khác nhau Điều này dẫn đến khó khăn trong việc l a ch n, nghiên ự ọ
cứu và đánh giá một phương pháp cho kết qu t t nhả ố ất và đồng đều gi a các t p d ữ ậ ữliệu khác nhau
1.3 Các k ế t qu nghiên c u trên th giới ả ứ ế
Trên th giế ới đã có nhiều nghiên c u v h ứ ề ệthống nh n dạng người M t trong các ậ ộnghiên c u có tính ch t quan trứ ấ ọng đầu tiên là công trình c a các tác gi Viola và ủ ảJones [33] Viola và Jones đã xây dựng b nhận d ng d a trên nh tích phân (Integral ộ ạ ự ảimage) cho việc tính toán đặc trưng tốc độ cao, và b phân loộ ại cascade để phát hiện
đối tượng, và s d ng AdaBoost cho vi c l a chử ụ ệ ự ọn đặc trưng
M t k t qu n hình trong vi c nghiên c u nh n dộ ế ả điể ệ ứ ậ ạng người là công trình của các tác gi Navneet ả Dalal và Bill Triggs với đề tài v ề “Histograms of Oriented Gradients for Human Detection”, năm 2005 [5] Navneet Dalal và Bill Triggs đã nghiên c u ứ phương pháp s dử ụng các đặc trưng Histograms of Oriented Gradients (HOG) để nhậ ạn d ng người và s d ng máy vector h ử ụ ỗtrợ (SVM) phân lo i T để ạ ừ đó trên thế ớ gi i có r t nhi u nghiên c u dấ ề ứ ựa trên đặc trưng HOG nh n d ng để ậ ạ ngườ đi i đường, nh n d ng xe và các loậ ạ ại đồ ậ đượ ra đời Năm 2009 v t c , các tác gi VA ảPrisacariu, I D Reid c i thi n tả ệ ốc độ xác định các đặc trưng HOG c a máy tính trong ủnghiên cứu “fastHOG - a real-time GPU implementation of HOG” [24] Phương pháp
s d ng ử ụ các đặc trưng HOG được ối ưu hơn.t Các tác gi ả Zhu et al tăng tốc HOG
b ng cách s d ng nh tích phân [22, 35 ằ ử ụ ả ]
N i b t là công trình c a các tác gi ổ ậ ủ ảDollar P et al đã đề xu t mấ ột phương pháp
m r ng cở ộ ủa Viola và Jones, trong đó các đặc trưng Haar like đượ- c tính toán trên nhi u kênh c a d u (ví d ề ủ ữ liệ ụ như các kênh màu LUV, biên độ gradient, đặc trưng HOG) [9] Cách ti p cế ận này được m r ng trong nghiên cở ộ ứu “The Fastest Pedestrian Detector in the West (FPDW)” [8] và “Fast feature pyramids for object detection” [7], trong đó đề xuất phương pháp nh n d ng multi-scale sau khi chậ ạ ứng minh đượ ằc r ng
Trang 2218
các đặc trưng được tính ở m t t l scale có th ộ ỉ ệ ể được dùng để tính x p x ấ ỉ các đặc trưng
ở các t l lân cỉ ệ ận Phương pháp này cho kết qu chính xác cao và tả độ ốc độ ử x lý nhanh Phương pháp này sẽ được tìm hi u và trình bày chi ti t ể ế trong chương 3 của luận văn
1.4 K t lu ế ận chương
Trong chương 1, luận văn đã trình bày lý thuyế ổt t ng quan v h th ng nh n di n ề ệ ố ậ ệngười, trong đó tập trung vào trường h p nh n diợ ậ ện người đi đườ Chương này ngcũng đã trình bày ững khó khăn, thách thứnh c trong bài toán nh n diậ ện, cũng như
nh ng kữ ết quả nghiên c u mứ ới trên thế ớ gi i trong việc giải quy t bài toán này ế
Trong chương 2, luận văn sẽ trình bày cơ sở lý thuy t c a m t s vế ủ ộ ố ấn đề liên quan trực tiế ới phương pháp nhập t n diện người được sử ụ d ng trong luận văn
Trang 2319
Chương này trình bày cơ sở lý thuy t v các khái ni m trong x lý nh có liên ế ề ệ ử ảquan tới phương pháp nhận diện người đi đường, s ẽ được trình bày trong chương 3
2.1 Gradient c ủ a ảnh và đặc trưng biên độ gradient
2.1.1 Khái niệm gradient trong x ử lý ảnh s ố
Trong lĩnh vự ảc nh s , gradient là m t khái niố ộ ệm cơ bản trong lĩnh vực x lý nh ử ả
s Theo cách hiố ểu đơn giản, gradient c a mủ ột ảnh là s ự thay đổi có hướng của cường
độ sáng ho c màu s c trong nh Gradient nặ ắ ả ả h thường được dùng để trích xu t thông ấtin từ ả nh Gradient nh là phép biả ến đổi nề ản t ng trong r t nhiấ ều phương pháp xử lý
ảnh s M t s ví d v ng d ng c a gradient trong x lý ố ộ ố ụ ề ứ ụ ủ ử ảnh như: phương pháp phát hiện đường vi n Canny [3ề ], đặc trưng HOG [5] (mục 2.2), …
Định nghĩa: Gradient là m t vector ộ có các thành ph n bi u th tầ ể ị ốc độ thay
đổi m c xám cứ ủa điể ảm nh (pixel) theo 2 hướng x, y trong b i c nh x lý nh hai ố ả ử ảchiều
Hình 2.1 minh họa ví dụ ề v 2 d ng cạ ủa gradient trong hai b c ứ ảnh m c xám khác ứnhau Trong bức ảnh đầu tiên, các giá tr cao d n v ị ầ ề tâm, gradient có hướng v tâm ềTrong ảnh th hai, các giá tr cao d n t phứ ị ầ ừ ải qua trái và gradient cũng có hướng t ừ
phải qua trái
Hình 2 1 : Hai d ng c ạ ủa gradient Mũi t ên ch hư ng gradient Vùng màu tối thể ệ ỉ ớ hi n giá trị
cao hơn
Trang 2420
Các thành phần theo hai hướng của gradient được tính d a trên công thự ức đạo hàm bậc nhất như sau:
(2.1) (2.2)
Trong đó dx dy, là kho ng cách giả ữa 2 điểm k cế ận nhau theo hướng , x y tương
ứng Đây là phương pháp dựa theo đạo hàm b c nhậ ất theo hướng , x y
Thự ếc t trong x ửlý ảnh ta thườ chọn ng dx= dy = 1 (tính lân c n tậ ức là điểm ngay
c nh nó, nên có th coi kho ng cách c a chúng là 1) tạ ể ả ủ ại điểm có tọa độlà (i, j), thay vào công thức trên ta được:
(2.3) (2.4) Theo định nghĩa về gradient, n u áp d ng các công th c t (2.1) đếế ụ ứ ừ n (2.4) vào x ử
lý ảnh, quá trình tính toán s ph c tẽ ứ ạp Để đơn giản hóa vi c tính toán mà không làm ệmất đi tính chất c a gradientủ , người ta s d ng k ử ụ ỹthuậ radient dùng cặt g p m t n ặ ạ Hx,
Hytrực giao (theo 2 hướng vuông góc)
Hình 2.2 minh h a mọ ột ảnh m c xám g c vứ ố à ảnh gradient tương ứng theo chiều ngang và chi u d ề ọc
Hình 2 2 : Ảnh ứ m c xám và ảnh gradient tương ứ ng theo chi u x và chi u y ề ề
Nếu định nghĩa , là gradient theo hai hướng x, y tương ứng tại điểm có tọa
độ (m, n), thì biên độ (đ l n) gradient tộ ớ ại điểm (m, n) và hướng góc c a gradient ủđược tính theo công th c ứ (2.5) và (2.6):
Trang 2521
(2.5) (2.6)
Để ảm độ gi ph c t p tính toán, ứ ạ được tính gần đúng như sau:
(2.7) Công vi c ti p theo là l a ch n c p m t n và s s d ng và ph i tính ệ ế ự ọ ặ ặ ạ Hx Hy ẽ ử ụ ả , thông qua c p m t n Các c p m t n ặ ặ ạ đó ặ ặ ạ này còn được g i là toán t gradient ọ ửSau đây chúng ta xét mộ ốt s toán t gradient tiêu biử ểu thường đượ ử ục s d ng
Toán t Robert ử : toán t Robert [25ử ] s d ng c p mử ụ ặ ặt n ạsau để tính toán gradient
t i mạ ột điểm:
Toán t Robert là m t toán t ử ộ ử đơn giản và có tốc độ tính toán nhanh Hình 2.3 (a)
ví d mụ ột bức ảnh mức xám đầu vào và trong hình 2.2(b) là ảnh độ l n gradient ớ tương
Trang 26Hình 2.3(c) là nh gradient s d ng toán t Sobel cả ử ụ ử ủa ảnh đầu vào trong hình 2.3(a)
Toán t Prewitt ử : toán t Prewitt [23ử ] cũng là một toán t ử đượ ửc s d ng ph biụ ổ ến
và có cấu trúc tương tự toán t Sobel, tuy nhiên các thông s m t n có chút khác bi ử ố ặ ạ ệt:
Hình 2.3(d) là nh gradient s d ng toán t Prewitt cả ử ụ ử ủa ảnh đầu vào trong hình 2.3(d)
2.1.2 Ứng dụng củ đặc trưnga gradient trong x lý ử ảnh số
M t trong nh ng ng d ng n i b t c a gradient trong x ộ ữ ứ ụ ổ ậ ủ ử lý ảnh s là vi c phát ố ệ
hi n và tách biên nh Biên nh là nhệ ả ả ững điểm mà tại đó hàm độ sáng của ảnh liên
tục có bước nh y ho c biả ặ ến thiên nhanh Cơ sở toán h c c a vi c tách biên là phép ọ ủ ệtoán đạo hàm, th c t trong x lý nh chính là phép tính gradient T p hự ế ử ả ậ ợp các điểm biên tạo thành đường biên (edge) hay đường bao (boundary) của đố ượi t ng trong ảnh
Ý nghĩa của đường biên trong x lý ử ảnh: đường biên là m t loộ ại đặc trưng cục b ộtiêu bi u trong phân tích và nh n d ng ể ậ ạ ảnh Người ta còn dùng đường biên để phân vùng ảnh (segmentation) Do đó, gradient cũng được ứng d ng r t nhi u trong các ụ ấ ềphương pháp phân tích và nhận d ng ạ ảnh Phép tính gradient thường được s d ng ử ụ
tại các bước trích xuất đặc trưng ảnh, đóng góp trong việc xây dựng nên vector đặc
t cả ủa đ i tưố ợng nh ả
Trang 2723
Hình 2.4 minh h a k t qu ọ ế ả tính toán độ ớn và hướ l ng gradient c a m bủ ột ức ảnh
đầu vào ch a mứ ột đối tượng người Hình 2.4(a) là nh mả ức xám đầu vào, hình 2.4(b)
là ảnh độ ớ l n (bên phải) và hướng (bên trái) c a gradient, sử ụủ d ng mặt nạ Sobel
Ngoài ứng d ng trong vi c phát hiụ ệ ện đường biên và đặc trưng ảnh, gradient còn
có nhiề ứu ng dụng trong lĩnh vực chỉnh s ảửa nh M t sộ ố ứ ng dụng như cắt ghép ảnh, ghép nối ảnh, xóa chi ti t thế ừa, … đề ứu ng dụng gradient vào trong các bước x lý ử
của mình để nâng cao chất lượng
Trang 2824
Như trong tên gọ ủa phương pháp, gradient đượ ử ụng như là mội c c s d t ph n t o ầ ạnên đặc trưng của đối tượng bằng cách dùng gradient để xác định đường vi n, Gi ề ảthiết chính của phương pháp là đặc điểm, hình dáng c c b cụ ộ ủa đối tư ng có th ểđược ợ
bi u di n t thông qua phân ph i cể ễ ốt ố ủa cườ động hay hướng c vi n, ngay c khi ủa ề ảkhông c n bi t chính xác v trí cầ ế ị ủa đường vi n ề Đặc trưng HOG được tính toán tại các vùng cục b hình ch nh t mà ộ ữ ậ ở đó mỗi điểm ả ở đườnh ng vi n s ề ẽ được tính cho
m t bin trong histogram c a gradient dộ ủ ựa theo hướng góc c a viủ ền Biên độ ủ c a viền cũng được sử ụng để d tính tr ng s ọ ố cho bin tương ứng trong histogram
Đặ trưngc HOG có th ể được phân lo i thành hai loạ ại: HOG tĩnh (static HOG) và HOG chuyển động (motion HOG) S khác nhau gi a hai lo i n m ch c ự ữ ạ ằ ở ỗ đặ trưngHOG tĩnh được tính trên nh, trong khi ả đặc trưng HOG độ đượng c tính trên video và trên lu ng quang h c ồ ọ Các bước th c hiự ện tính toán đặ trưng HOG cho ảc nh g m ồ(hình 2.5):
Chuẩn hóa gamma và màu cho ảnh đầu vào
Tính gradient trên từng điể ảm nh
Chia hướng gradient và gom đặc trưng tại m i cell ỗ
Tính đặc trưng cho từng kh i và chu n hóa ố ẩ
Tính vector đặc trưng cho toàn cử ổa s
Chuẩn hóa gamma màu & Tính Gradient
Chia hướng và gom đặc trưng tại mỗi cell
Tính đặc trưng cho khối và chuẩn hóa
Tính vector đặc trưng cho cửa sổ Ảnh đầu vào
Hình 2 5 : Sơ đồ các bướ c trích ch ọn đặc trưng HOG [5]
2.2.1 Chuẩn hóa gamma và màu
Trước khi trích xuất đặc trưng HOG, ảnh đầu vào được xác định kích thước và x ử
lý để chu n hóa v gamma và màu M c tiêu cẩ ề ụ ủa bước này là để ả gi m s nh ự ả hưởng
của ánh sáng và bóng đổ ủ đố c a i tượng Ti n hành làm gi m s khác bi t gi a sáng ế ả ự ệ ữ
Trang 2925
và t i, nh ng vùng b ánh sáng chi u vào ch ố ữ ị ế ỗ đó có histogram màu sáng tăng nhiều
Do v y khi cân b ng l i ậ ằ ạ thì ảnh không còn nhi u pixel màu sáng n a ề ữ Phương pháp chuẩn hóa nh dùng bi n ả ế đổi lũy thừa hoặc căn bậc hai
V màu x c, các tác gi ề ắ ả phương pháp cũng thử nghi m v i nhi u không gian màu ệ ớ ềkhác nhau bao gồm ảnh m c xám (grayscale), không gian màu RGB và không gian ứmàu LAB [5 ]
Theo k t qu nghiên c u c a các tác gi ]ế ả ứ ủ ả [5 , bước chuẩn hóa này có đem lại tác
d ng nâng cao hi u qu cụ ệ ả ủa hệ thố ng, tuy nhiên s khác biự ệt là không l n ớ
2.2.2 Tính gradient
Ở bước này, độ ớn và hướ l ng c a gradient t i tủ ạ ừng điể ảnh đượm c tính toán theo
lý thuy t trình bày trong mế ục 2.1
Chất lượng của đặc trưng phụ thu c nhiộ ều vào phương pháp tính gradient ự (l a chọn các toán t m t n ử ặ ạ để tính gradient), tuy nhiên theo k t qu c nghi m [5], các ế ảthự ệphương pháp đơn giản đem lại k t qu tế ả ốt hơn Các m t n ặ ạ tính gradient được s d ng ử ụbao g m các m t n 1-D (uncentred [-1, 1], centred [-1, 0, 1] và m t n lồ ặ ạ ặ ạ ập phương [1, -8, 0, 8, -1]), m t n Sobel và các m t n 2x2 (ặ ạ ặ ạ K t qu cho ế ảthấy m t n 1-ặ ạ D đơn giản [-1, 0, 1] cho k t qu t t nh t Dùng các m t n có kích ế ả ố ấ ặ ạthướ ớ hơn thườc l n ng làm gi m hiả ệu năng của h th ng ệ ố
Với ảnh màu, gradient được tính cho m i kênh màu và l y giá tr l n nh t làm ỗ ấ ị ớ ấgradient cho điể ảm nh
2.2.3 Chia hướng và gom đặc trưng tại mỗi cell
Dalal chia ảnh đầu ra ở bước trên thành nhi u kh i (block), m i khề ố ỗ ối có s ô (cell) ố
b ng nhau, m i cell có s pixels b ng nhau ằ ỗ ố ằ
Để tính đặc trưng tại m i cell, ta cỗ hia không gian hướng thành bin (s chi u ố ềvectơ đặc trưng của ô) Hướng gradient t i mạ ỗi điể ảnh đượ ờ ạm c r i r c hóa vào m t ộtrong bin đó Các bin được chia đều trong không gian (với “unsigned” gradient) hoặc (với “signed” gradient) Cụ thể theo công th (2.8) và ức (2.9):
Trang 30của gradient tạ ểi đi m (x, y)
Chuẩn hóa gamma màu &
Tính Gradient
Chia hướng và gom đặc trưng tại mỗi cell
Tính đặc trưng cho khối và chuẩn hóa
Tính vector đặc trưng cho cửa sổ Ảnh đầu vào
Hình 2 6 : Tổng quan các bước trích xuất đặc trưng HOG tĩnh ] [4
Trang 3127
Trong m i cell, mỗ ỗi điểm ảnh đóng góp một tr ng s dọ ố ựa trên biên độ c a gradient ủ
tại điểm đó, trọng s ố đó được c ng g p vào giá tr cộ ộ ị ủa bin tương ứng với hướng của gradient Do đó, giá trị độ ớ ổ l n t ng c ng t i mộ ạ ỗi bin được định lượng b i t ng biên ở ổ
độ ủ c a gradient của các điể ảm nh thu c v ộ ề bin đó ẽ ểu đồ ả đềV bi tr i u các bin trong không gian hướng và kèm lđộ ớn tương ứng cho mỗi bin, ta được một đồ ị ạ th d ng histogram như hình 2.7 (ví d minh hụ ọa trường h p ợ ) Ta có thể coi đây là vector đặc trưng cho cell
Hình 2 7 : Bi ểu đồ histogram cho m t cell v i 9 bin t ộ ớ ừ 0 đến 180 độ
2.2.4 Tính đặc trưng cho khối và chuẩn hóa
Giá tr gradient có th biị ể ến đổi trong m t d i r ng do s biộ ả ộ ự ến đổ ụi c c b v ánh ộ ềsáng, độ tương phản gi a nữ ền và đối tượng Do đó, việc chuẩn hóa độ tương phản cục
b là c n thi t Các tác gi ộ ầ ế ả[4] đề xu t g p các cell nh thành các kh i ấ ộ ỏ ố (block) có kích thướ ớn hơn và thực l c hi n chu n hóa theo t ng block ệ ẩ ừ Vector đặc trưng cuối cùng
của cửa sổ à l là vector ghép nối của tất cả các vector c a các block trong củ ửa sổ đó Các block được x p ch ng lên nhau mế ồ ột cell như minh họa trong hình 2.6 Khi đó
s block trong mố ột cử ổ đượa s c tính theo công th (2.10): ức
(2.10) Trong đó:
, , : Chiề ộu r ng c a c a sổ, block và cell ủ ử
, , : Chiều cao c a cử ổủ a s , block và cell
Trang 3228
: số block trong một cửa sổ
Nối các vector đặc trưng tại mỗi cell để được vector đặc trưng cho cả block Các tác gi ảthực hiện đánh giá nhiều lo i đặc trưng HOG dựa trên d ng c a block ạ ạ ủ[5]: block dạng ch nh t và block d ng tròn ữ ậ ạ
R-HOG (Rectangular HOG): Trong đặ rưng Rc t -HOG, m t block chia làm nhiộ ều cell hình ch nh t gi ng ữ ậ ố như SIFT (hình 2.8(a)) Trong m i cell, ỗ hướng m i pixel ỗđượ đánh dực a vào tr ng s Gaussia ọ ố
C-HOG (Circular HOG): Xác định các đặc trưng HOG d a vào vi c chia nh ự ệ ảthành các block hình tròn M block g m m t cell trung tâm có d ng hình tròn và ột ồ ộ ạcác cell có d ng hàm log bao quanh C-HOG khá gi ng Shape-Context [1] Có 2 biạ ố ến thể c a C-HOG, chúng khác nhau v s ủ ề ố lượng cell t i v ạ ị trí trung tâm, như hình 2.8(b)
và 2.8(c)
Hình 2 8 : M t s d ộ ố ạng block được đề xu t ] ấ [4 (a) Block dạng vuông kích thước 3x3 cell (b) Block d ng tròn v ạ ới cell trung tâm đượ c chia thành các vùng theo góc (c) Block d ng tròn v i ch ạ ớ ỉ ộ m t cell trung tâm duy nh ấ t.
Kích thước (hay s ốchiều) của vector đặc trưng của mỗi block được tính theo công thức (2.11):
(2.11) Trong đó:
: số cell trong m t block ộ
: kích thước vector đặc trưng của m i cell Chính là s bin ỗ ố
t i m i cell ạ ỗ
Trang 3329
Ví dụ: Mộ ột b tham s cho bài toán nh n d ng ố ậ ạ ngườ ới v i kích thư c đớ ặc trưng tại
m i cell là 9 bin, mỗ ỗi block có 4 cell Kích thước vector đặc trưng tại m i block trong ỗ
T l s cell ch ng l p gi a mỷ ệ ố ồ ấ ữ ỗi block, kích thước block và kích thước cell nh ảhưởng đến ch t lưấ ợng đặc trưng được th hi n ể ệ trong hình 2.9
Hình 2 9 : Chất lượng đặc trưng phụ thu ộc vào kích thướ c cell và block [5]
Bước tiếp theo sau khi tính được đặc trưng cho ỗ m i block, ta th c hi n chu n hóa ự ệ ẩcho từng kh i Có 4 quy tố ắc chuẩn hóa t ng block: ừ
: vector đặc trưng ban đầu chưa chuẩn hóa c a kh i ủ ố
Trang 342.2.5 Tính vector đặc trưng cho cử ổa s
M t c a s ộ ử ổ đượ ạc t o b i các kh i xở ố ếp g i ch ng l p lên nhau (overlapping) (hình ố ồ ấ2.6) Đặc trưng của m t c a s s ộ ủ ổ ẽ được tính bằng cách ghép vector đặc trưng của từng block t o nên cạ ửa sổ đó Kích thước vector đặc trưng cho toàn cửa sổ được tính theo công th c ứ (2.13):
(2.12) Trong đó: là s block trong m t c a s , ố ộ ử ổ là kích thước vector đặc trưng của m t block ộ
V i kíớ ch thước c a s là 64x128 px, bao gử ổ ồm 16 điểm ảnh l bao quanh mề ở ỗi
c nh, mạ ỗi block có kích thước 2x2 cell, mỗi cell có kích thước 8x8 px và các s d ng ử ụđặc trưng R-HOG v i các block x p ch ng lên nhau 1 cellớ ế ồ , bin Khi đó, độ lớn vector đặc trưng của toàn b c a s s ộ ử ổ ẽ là: 9 (bins) x 4 (số cells/block) x 75 (s ốblocks/window) = 2700 (thành ph n) ầ
Hình 2.10(a) và (b) minh h a d ng cọ ạ ủa đặc trưng HOG trên cùng mộ ửt c a s có ổcùng kích thước nhưng khác nhau về kích thước cell
2.2.6 Ứng dụng của đặc trưng HOG
Đặc trưng HOG được s d ng nhi u trong các bài toán nh n di n Trong công ử ụ ề ậ ệtrình nghiên cứu đầu tiên v HOG, các tác gi áp d ng HOG vào bài toán nh n diề ả ụ ậ ện người và cho k t qu t t [7, 9] ế ả ố Phương pháp nhận diện người s d ng ử ụ đặc trưng HOG
v n là m t trong nhẫ ộ ững phương pháp được nghiên c u, trích d n nhi u nh t hi n nay ứ ẫ ề ấ ệNgoài ra, theo J Stallkamp, et al., 2012 đặc trưng HOG cho phép mô tả ố t t cho các d ng bi n báo giao thông có hình d ng khác nhau [30 Déniz, O., Bueno, G.ạ ể ạ ] , Salido, J., & De la Torre, F cũng áp dụng đặc trưng HOG vào việc nh n di n khuôn ậ ệ
Trang 3531
m t [6 ặ ] Đặc trung HOG cũng được áp d ng vào các bài toán nh n diụ ậ ện khác như
nh n diậ ện hướng của phương tiện [27 ]
(a) Block = 2x2 Cell = 8x8
p = 9
(b) Block = 2x2 Cell = 4x4
p = 9 Hình 2 10 : Đặc trưng HOG trên cử ổ ứa đối tượng ngườ a s ch i 2.3 Không gian màu CIELUV
Không gian màu CIE 1976 (L*, u*, v*), hay thường đượ ọ ằc g i b ng tên vi t t t là ế ắCIELUV, ho c LUV, là mặ ột không gian màu đượ ử ục s d ng b i t ở ổchức International Commission on Illumination (CIE) năm 1976, được coi là m phiên b n biột ả ến đổi đơn giản c a không giàn màu 1931 CIE XYZủ Không gian màu CIELUV được s ử
d ng r ng rãi trong các ng dụ ộ ứ ụng như đồ ọ h a máy tính, x ửlý ánh sáng màu
Hình 2 11 : Bi ểu đồ màu (u′, v′), còn đượ c g i là ọ biểu đồ CIE 1976 UCS
Trang 3632
2.4 Thuậ t toán AdaBoost
Thuật toán AdaBoost, vi t g n cế ọ ủa “Adaptive Boosting”, là một thu t toán trong ậlĩnh vực học máy được phát tri n b i Yoav Freund và Robert Schapire [13 ể ở ]
AdaBoost là m t thu t toán h c mộ ậ ọ ạnh, giúp đẩy nhanh vi c t o ra m t b phân ệ ạ ộ ộloạ ại m nh (strong classifier) b ng cách chằ ọn các đặc trưng ố t t trong m t h g m các ộ ọ ồphân lo i yạ ếu (weak classifier b phân lo i y u) và k t h p chúng l i tuy n tính – ộ ạ ế ế ợ ạ ế
b ng cách s d ng các tr ng s ằ ử ụ ọ ố(hình 2.11 ) Điều này th t s c i thi n dậ ự ả ệ ần độ chính xác nh áp d ng hi u qu mờ ụ ệ ả ột chuỗi các bộ phân y u ế
Thuật toán này ban đầu duy trì m t phân b chu n (ộ ố ẩ tương đồ ng nhau) các tr ng ọ
s lên m i m t m u hu n luyố ỗ ộ ẫ ấ ện Trong bướ ặ ại đầc l p l u tiên, thu t toán hu n luy n ậ ấ ệ
m t b phân lo i y u b ng cách dùng mộ ộ ạ ế ằ ột đặc trưng Haar-like đã thực hi n t t nhệ ố ất
việc phát hiện các m u th hu n luy n Trong l n l p th hai, các m u th dùng cho ẫ ử ấ ệ ầ ặ ứ ẫ ử
AdaBoost Tập huấn luyện
Họ các bộ phân lớp yếu
Các trọng số
Bộ phân loại mạnh
Hình 2 12 : Lược đồ cơ bả n c a AdaBooost [17] ủ
hu n luy n ấ ệ nhưng ị b phân lo i nh m b i b phân lo i yạ ầ ở ộ ạ ếu đầu tiên được nh n trậ ọng
s ố cao hơn sao cho đặc trưng Haar like đượ chọ ầ- c n l n này ph i t p trung kh ả ậ ả năng tính toán cho các mẫu th b phân loử ị ại nhầm này S l p lự ặ ại tiế ụp t c th c hi n và các ự ệ
k t qu ế ảcuối cùng s ẽlà m t chu i cascade các k t h p tuy n tính c a các b phân loộ ỗ ế ợ ế ủ ộ ại
yếu tạo ra m t b phân lo i m nh và giúp t o ộ ộ ạ ạ ạ đượ độc chính xác mong mu n ố Thuật toán h c AdaBoost sau 3 l n l p ọ ầ ặ được minh h a trong hình 2.12 là m t ví d ọ ộ ụ thuật toán AdaBoost sau ba lầ ặn l p
Phương pháp AdaBoost có nhi u d ng khác nhau: ề ạ
Tăng tốc thích nghi r i r c (Discrete AdaBoost - ờ ạ DAB)
Trang 3733
Tăng tốc thích nghi th c (Real AdaBoost - RAB) ự
Tăng tốc thích nghi linh ho t (Gentle AdaBoost - ạ GAB)
Các phương pháp trên đề đượu c dùng cho việc tính toán độ ph c t p t các m u ứ ạ ừ ẫphân loại, nhưng khác nhau thu t toán h c hu n luy n ở ậ ọ ấ ệ
Hình 2 13 : Thu t toán h c AdaBoost [17] ậ ọ2.5 K t lu ế ận chương
Chương 2 đã trình tổng quan cơ sở lý thuy t v ế ề gradient, đặc trưng HOG, không gian màu LUV và thuật toán AdaBoost Đây là những khái niệm được ứng d ng trực ụtiếp trong phương pháp nhân diện người đi đường được trình bày trong chương 3.Chương 3 sẽ đi sâu nghiên cứu v ề phương pháp nhận diện đó
Trang 38T phát hi n ừ ệ cơ bản này giúp các tác gi Dollár, P., Appel, R., Belongie, S., & Perona, ả
P [7] phát triển một thu t toán nh n diậ ậ ện đối tượng v i đ chính xác tương đương và ớ ộ
v i tớ ốc độ cao hơn đáng kể so với các phương pháp tốt nh t hi n nay Các tác gi phát ấ ệ ả
hi n rệ ằng đố ới v i m t s ộ ố lượng l n các loớ ại đặc trưng ảnh, các đặc trưng được tính toán t i m t s kho ng t l l y m u (scale) có th ạ ộ ố ả ỷ ệ ấ ẫ ể được dùng để tính nhanh x p x ấ ỉcác đặc trưng trên toàn bộ thang scale c a mủ ột tháp đặc trưng Vi c k t h p nhi u ệ ế ợ ềloại đặc trưng khác nhau giúp tăng khả năng nhận diện đối tượng Các kênh đặc trưng khác nhau được t ng h p l i gổ ợ ạ ọi là Aggregated Channel Features (ACF) Chương này
s ẽtrình bày chi tiết phương pháp nhận diện người đi đường s d ng ử ụ ACF
3.1 Ước lượ ng gradient ả nh theo t l ỷ ệ kích thướ c
Chúng ta bắt đầu b ng vi c tìm câu tr l i cho câu hằ ệ ả ờ ỏi: N u ta có gradient cế ủa ảnh được tính t i mạ ột kích thước, li u ta có th tính x p x gradient histogram c a ệ ể ấ ỉ ủ
ảnh t i mạ ột kích thước lân c n mà ch dậ ỉ ựa vào gradient đã có hay không? N u có ếthể, ta s ẽtránh được vi c tính toán gradient t i t t c các mệ ạ ấ ả ức kích thước c a mủ ột tháp ảnh đầy đủ (image pyramid)
Trong ph n này, ta kí hi u ầ ệ là m t tín hi u r i rộ ệ ờ ạc , và
là đạo hàm r i r c cờ ạ ủa I (thông thường ta s d ng phép tính 1-D centered, xem m c ử ụ ụ2.2.2) Biên độ và hướng c gradient t i đi m ả ạ ể được định nghĩa bởi:
(3.1) (3.2) Khi tính toán HOG (mục 2.2), hướng gradient đượ ờ ạc r i r c hóa vào bin:
Bin th ứ của histogram được định nghĩa bởi: , trong đó là hàm đặc trưng (indicator function) Trong
Trang 3935
các phần trình bày dưới đây, những điểm đúng với histogram toàn cục cũng đúng với histogram cục bộ (đượ ịnh nghĩa giốc đ ng nhau ngo i d i giá tr cạ trừ ả ị ủa i j).và
3.1.1 Histogram của gradient trong ảnh lấy mẫu lên
Trong trường h p ợ ảnh đượ ấc l y mẫu lên (upsampled), lượng thông tin trong nh ảsau khi l y m u lên và nh gấ ẫ ả ốc là như nhau do vi c l y m u lên không t o ra c u trúc ệ ấ ẫ ạ ấ
ảnh m i Gi s là m t tín hi u liên t c, ớ ả ử ộ ệ ụ là tín hi u l y m u lên v i t l : ệ ấ ẫ ớ ỉ ệ
S dử ụng định nghĩa đạo hàm, ta có:
(3.3) Tương tự cho
Như vậy: tốc độ thay đổi trong nh l y m u lên vói t l chả ấ ẫ ỉ ệ ậm hơn tốc độ thay
đổi trong nh g c l n Công th c (3.3) ả ố ầ ứ cũng gần đúng cho tín hiệu r i r c Cho ờ ạ
gradient c nh r i r c l y m u lên
Khi đó:
(3.4)
Do đó, tổng biên độ gradient trong ảnh g c và ố ảnh l y mẫu lên hơn kém nhau một ấ
t l l n ỉ ệ ầ Trong khi đó, góc hướng gradient gần như được gi nguyên vì ữ
Do đó, theo định nghĩa về histogram c a gradient, ta có th ủ ể mong đợ ằi r ng quan
h giệ ữa (tính trên ) và (tính trên ) là:
(3.5) Công th c này cho phép ta tính x p x gradient histogram c a mứ ấ ỉ ủ ột ảnh l y mấ ẫu lên sử ụ d ng gradient c a ủ ảnh g ốc
Kiể m tra b ng th c nghi m: các tác gi ằ ự ệ ả[7] đã kiểm nghiệm tính đúng đắn của công thức bằng phương pháp thực nghi m Hai t p ệ ậ ảnh khác nhau đượ ửc s