Luận văn một hướng tiếp cận trong phát hiện khuôn mặt trong ảnh

TỔNG QUAN VỀ PHÁT HIỆN KHUÔN MẶT

Giới thiệu

Trong hơn một thập kỷ qua, nghiên cứu về nhận diện khuôn mặt người từ ảnh đã phát triển mạnh mẽ, từ những bức ảnh đen trắng đơn giản với một khuôn mặt nhìn thẳng và đứng yên, đến những bức ảnh màu phức tạp có nhiều khuôn mặt và tư thế khác nhau Các nghiên cứu không chỉ tập trung vào môi trường đơn giản như phòng thí nghiệm mà còn mở rộng ra các bối cảnh tự nhiên phức tạp, nhằm đáp ứng nhu cầu thực tiễn ngày càng cao.

Xác định khuôn mặt người (Face Detection) là kỹ thuật máy tính nhằm xác định vị trí và kích thước khuôn mặt trong ảnh kỹ thuật số Kỹ thuật này tập trung vào việc nhận diện các đặc trưng của khuôn mặt, đồng thời loại bỏ các yếu tố không liên quan như tòa nhà, cây cối và cơ thể.

Tổng quan kiến trúc của một hệ thống nhận dạng mặt người

Hệ thống nhận dạng khuôn mặt thông thường trải qua bốn bước chính: đầu tiên là phát hiện khuôn mặt, tiếp theo là phân đoạn khuôn mặt, sau đó là rút trích đặc trưng, và cuối cùng là phân lớp khuôn mặt.

Hình 1-1: Các bước chính trong một hệ thống nhận dạng mặt người

Phát hiện khuôn mặt là quá trình dò tìm và định vị các vị trí khuôn mặt trong ảnh hoặc video, xác định vị trí của mắt, mũi, miệng và các thành phần khác Quá trình này cung cấp thông tin cần thiết để tính toán véc-tơ đặc trưng, phục vụ cho việc phân loại khuôn mặt bằng mô hình đã được huấn luyện Ngoài các bước chính, việc áp dụng tiền xử lý và hậu xử lý cũng giúp tăng độ chính xác cho hệ thống Tuy nhiên, phát hiện khuôn mặt là bước khó khăn và quan trọng nhất do ảnh hưởng của các yếu tố như tư thế, độ sáng và điều kiện ánh sáng Luận văn này tập trung chủ yếu vào bước phát hiện khuôn mặt.

Một số lĩnh vực ứng dụng phát hiện khuôn mặt

Bài toán nhận dạng khuôn mặt có ứng dụng rộng rãi trong nhiều lĩnh vực thực tiễn, thu hút sự quan tâm của nhiều nhóm nghiên cứu trong thời gian dài Các ứng dụng liên quan đến nhận diện khuôn mặt bao gồm việc xác thực danh tính, an ninh, và tương tác người-máy.

Hệ thống phát hiện tội phạm sử dụng camera được lắp đặt tại các địa điểm công cộng như siêu thị, nhà sách, trạm xe buýt và sân bay Khi phát hiện sự xuất hiện của các đối tượng khả nghi, hệ thống sẽ gửi thông điệp đến trung tâm xử lý để kịp thời xử lý tình huống.

- Hệ thống theo dõi nhân sự trong một đơn vị: giám sát giờ ra vào của từng nhân viên và chấm công

Hệ thống giao tiếp người máy đang thay thế những phương thức tương tác truyền thống như bàn phím và chuột bằng các hình thức giao tiếp trực quan Những phương pháp này bao gồm việc sử dụng biểu cảm khuôn mặt, dấu hiệu và cử chỉ tay, mang lại trải nghiệm tương tác tự nhiên và trực quan hơn cho người dùng.

Hệ thống tìm kiếm thông tin trên ảnh và video dựa trên nội dung giúp người dùng nhanh chóng tìm kiếm các đoạn video cụ thể trong kho dữ liệu lớn, như trường hợp của đài truyền hình Việt Nam (VTV) với hàng triệu video tin tức Ví dụ, người dùng có thể dễ dàng tìm kiếm các đoạn video liên quan đến G Bush hoặc Bin Laden, tiết kiệm thời gian và nâng cao hiệu quả tra cứu.

- Các thệ thống bảo mật dựa trên thông tin trắc sinh học: mặt người, vân tay,v.v thay vì xác nhận mật khẩu, khóa,v.v

Các hướng tiếp cận liên quan đến phát hiện và nhận dạng khuôn mặt

Có nhiều phương pháp đã được nghiên cứu để phát hiện mặt người, theo Ming-Hsuan Yang, có thể phân loại thành bốn hướng chính: dựa trên tri thức, đặc trưng bất biến, đối sánh mẫu, và dựa vào diện mạo Các phương pháp này thường sử dụng mô hình máy học, do đó còn được gọi là phương pháp dựa trên máy học.

Các phương pháp dựa trên tri thức tập trung vào việc sử dụng các quy tắc đã được định nghĩa trước liên quan đến cấu trúc khuôn mặt người Những quy tắc này thường thể hiện mối quan hệ giữa các thành phần trên khuôn mặt Nhiều nghiên cứu sớm như của Kanade (1973), G Yang (1994), và Kotropoulos (1997) đã áp dụng phương pháp này để phân tích khuôn mặt.

Hướng tiếp cận dựa trên các đặc trưng bất biến tập trung vào việc tìm kiếm những đặc trưng độc lập, không bị ảnh hưởng bởi vị trí khuôn mặt, điều kiện ánh sáng và các yếu tố khó khăn khác Những đặc trưng này được gọi là bất biến và rất quan trọng trong việc phát hiện khuôn mặt Một số nghiên cứu tiêu biểu trong lĩnh vực này bao gồm công trình của K C Yow và R Cipolla (1997) cũng như T K Leung (1995).

Phương pháp đối sánh mẫu là một kỹ thuật trong nhận diện khuôn mặt, nơi một mẫu khuôn mặt chuẩn được xác định trước bằng tay hoặc thông qua một hàm số Mẫu này được sử dụng để quét qua hình ảnh và tính toán giá trị tương đồng cho từng vị trí Sự hiện diện của khuôn mặt trong ảnh phụ thuộc vào giá trị tương đồng của điểm đó so với mẫu chuẩn I Craw (1992) đã áp dụng một mẫu cứng trong nghiên cứu của mình.

A Lanitis 1995 sử dụng một mẫu có thể biến dạng trong bước phát hiện khuôn mặt.

Phương pháp dựa trên máy học, trái ngược với phương pháp đối sánh mẫu, sử dụng các mẫu được rút trích qua quá trình học thay vì các mẫu được định nghĩa trước bởi chuyên gia Các thuật toán này áp dụng kỹ thuật phân tích thống kê để xây dựng một hàm phân lớp tuyến tính Nhiều mô hình máy học đã được áp dụng trong phương pháp này, bao gồm Eigenface (M Turk và A Pentland 1991), mô hình dựa trên phân phối (K K Sung và T Poggio 1998), mạng nơ-ron (H Rowley 1998), và Support Vector Machine (E Osuna và cộng sự).

1997 ), Phân lớp Bayes (H Schneiderman và T Kanade 1998), Mô hình

Markov ẩn (A Rajagopalan et al 1998), và các mô hình tăng cường (AdaBoost của P Viola và M Jones 2001; FloatBoost do Stan Z Li và Zhen Qiu Zhang

1.4.1 Hướng tiếp cận dựa trên tri thức

Trong phương pháp tiếp cận top-down, việc xác định khuôn mặt người phụ thuộc vào kiến thức của các nhà nghiên cứu Các luật cơ bản được xây dựng để mô tả đặc trưng khuôn mặt và mối quan hệ giữa chúng, như hai mắt thường đối xứng qua trục giữa, cùng với mũi và miệng Mối quan hệ này có thể được diễn tả qua khoảng cách và vị trí Thông thường, các nhà nghiên cứu sẽ trích xuất đặc trưng khuôn mặt để tạo ra các ứng viên, sau đó áp dụng các luật để phân loại ứng viên thành khuôn mặt hoặc không phải khuôn mặt.

Một thách thức lớn khi áp dụng phương pháp này là chuyển đổi tri thức con người thành các quy tắc một cách hiệu quả Nếu các quy tắc quá chi tiết, có thể dẫn đến việc bỏ sót một số khuôn mặt trong ảnh, vì chúng không đáp ứng đủ các tiêu chí Ngược lại, nếu quy tắc quá tổng quát, có thể gây nhầm lẫn trong việc xác định các vùng không phải khuôn mặt thành khuôn mặt Hơn nữa, việc mở rộng yêu cầu để nhận diện các khuôn mặt ở nhiều tư thế khác nhau cũng gặp nhiều khó khăn.

Hình 1-2: (a) Ảnh ban đầu có độ phân giải n=1; (b), (c), và (d) Ảnh có độ phân giải n=4, 8, và 16

Yang và Huang phát triển một hệ thống nhận diện khuôn mặt dựa trên ba mức luật Ở mức cao nhất, họ sử dụng khung cửa sổ quét để tìm các ứng viên khả thi cho khuôn mặt thông qua các quy tắc như "vùng trung tâm khuôn mặt có bốn phần với mức độ đều cơ bản" Mức thứ hai tập trung vào việc phân tích biểu đồ histogram để loại bỏ các ứng viên không phải là khuôn mặt và xác định cạnh bao quanh Cuối cùng, ở mức chi tiết, họ xem xét các đặc trưng khuôn mặt như mắt và miệng Phương pháp "từ thô đến mịn" giúp giảm thiểu khối lượng tính toán, mặc dù tỷ lệ chính xác chưa cao, nhưng đã tạo nền tảng cho nhiều nghiên cứu tiếp theo.

Một loại tri trức của người nghiên cứu phân tích trên khuôn mặt

Kotropoulos và Pitas đưa một phương pháp dùng trên độ phân giải thấp

Hai ông đã áp dụng phương pháp chiếu để nhận diện các đặc trưng khuôn mặt, trong đó Kanade thành công trong việc xác định biên của khuôn mặt thông qua kỹ thuật này.

I(x,y) là giá trị xám của một điểm trong ảnh có kích thước m x n ở tại vị trí

(x,y), các hàm để chiếu ảnh theo phương ngang và thẳng đứng được định nghĩa nhƣ sau:

(a) Ảnh chỉ có một khuôn mặt và hình nền đơn giản;

(b) Ảnh chỉ có một khuôn mặt và hình nền phức tạp;

(c) Ảnh có nhiều khuôn mặt

Dựa trên biểu đồ hình chiếu ngang, có hai cực tiểu địa phương tại hai đầu, cho thấy quá trình thay đổi độ đốc của HI Tương tự, hình chiếu dọc VI cũng chỉ ra các cực tiểu địa phương, giúp xác định vị trí miệng, đỉnh mũi và hai mắt, đủ để nhận diện khuôn mặt Ví dụ trong hình 1-3.a cho thấy phương pháp xác định với tỷ lệ chính xác 86.5% khi chỉ có một khuôn mặt thẳng và nền đơn giản Tuy nhiên, trong trường hợp nền phức tạp, việc nhận diện trở nên khó khăn (hình 1-3.b), và khi có nhiều khuôn mặt trong ảnh, khả năng xác định sẽ không khả thi.

Hình 1-4: Chiếu từng phần ứng viên để xác định khuôn mặt

Mateos và Chicote dùng kết cấu để xác định ứng viên trong ảnh màu

Sau khi phân tích hình dáng, kích thước và thành phần của khuôn mặt, các nhà nghiên cứu xác định được các khuôn mặt ứng viên Họ trích xuất từng thành phần khuôn mặt và tiến hành chiếu từng phần để xác thực tính chính xác, với tỷ lệ chính xác đạt hơn 87%.

Berbar sử dụng mô hình màu da người và xác định cạnh để nhận diện ứng viên khuôn mặt Tiếp theo, các đặc trưng được phân tích và ứng viên khuôn mặt được chiếu xuống hai trục: dọc và ngang, nhằm xác định ứng viên nào thực sự là khuôn mặt người.

1.4.2 Hướng tiếp cận dựa trên các đặc trưng bất biến Đây là hướng tiếp cận theo kiểu bottom-up Các tác giả cố gắng tìm các đặc trưng không thay đổi của khuôn mặt người để xác định khuôn mặt người Dựa trên nhận xét thực tế, con người dễ dàng nhận biết các khuôn mặt và các đối tƣợng trong các tƣ thế khác nhau và điều kiện ánh sáng khác nhau, thì phải tồn tại các thuộc tính hay đặc trƣng không thay đổi Có nhiều nghiên cứu đầu tiên xác định các đặc trƣng khuôn mặt rồi chỉ ra có khuôn mặt trong ảnh hay không Các đặc trưng như: lông mày, mắt, mũi, miệng, và đường viền của tóc được trích bằng phương pháp xác định cạnh Trên cơ sở các đặc trưng này, xây dựng một mô hình thống kê để mô tả quan hệ của các đặc trƣng này và xác định sự tồn tại của khuôn mặt trong ảnh Một vấn đề của các thuật toán theo hướng tiếp cận đặc trưng cần phải điều chỉnh cho phù hợp điều kiện ánh sáng, nhiễu, và bị che khuất Đôi khi bóng của khuôn mặt sẽ tạo thêm cạnh mới, mà cạnh này lại rõ hơn cạnh thật sự của khuôn mặt, vì thế nếu dùng cạnh để xác định sẽ gặp khó khăn

1.4.2.1 Các đặc trƣng khuôn mặt

Sirohey phát triển một phương pháp xác định khuôn mặt từ ảnh có nền phức tạp, dựa trên việc sử dụng cạnh và các phương pháp heuristics để loại bỏ các cạnh không cần thiết, chỉ giữ lại đường bao quanh khuôn mặt Phương pháp này sử dụng hình ellipse để bao quanh khuôn mặt, giúp tách biệt vùng đầu và nền Thuật toán đạt tỷ lệ chính xác lên đến 80%.

Chetverikov và Lerch áp dụng phương pháp tương tự như Sirohey, sử dụng kỹ thuật dựa trên blob và streak để xác định hướng các cạnh Họ mô tả hai mắt, hai bên gò má và mũi bằng hai blob tối và ba blob sáng Mô hình này sử dụng các streak để thể hiện hình dáng bên ngoài của khuôn mặt, lông mày và môi Để xác định khuôn mặt, họ sử dụng ảnh có độ phân giải thấp qua biến đổi Laplace.

Khó khăn và thách thức trong bài toán xác định khuôn mặt

Việc xác định khuôn mặt người có những khó khăn nhất định:

Hướng khuôn mặt đối với máy ảnh, bao gồm nhìn thẳng, nhìn nghiêng và nhìn từ trên xuống, đóng vai trò quan trọng trong việc tạo ra bức ảnh ấn tượng Trong một bức ảnh, có thể xuất hiện nhiều khuôn mặt ở những tư thế khác nhau, mang lại sự đa dạng và sinh động cho hình ảnh.

Sự có mặt của các chi tiết không phải là đặc trƣng riêng của khuôn mặt người, như: râu quai nón, mắt kính, …

Các nét mặt (facial expression) khác nhau trên khuôn mặt, nhƣ: vui, buồn, ngạc nhiên, …

Mặt người trong ảnh có thể bị che khuất bởi các đối tượng khác, điều này ảnh hưởng đến chất lượng hình ảnh Để có được bức ảnh rõ nét, cần chú ý đến độ sáng, chất lượng ảnh và thiết bị thu hình sử dụng.

Trục toạ độ của máy ảnh so với ảnh

Kích thước khác nhau của các khuôn mặt người, và đặc biệt là trong cùng một ảnh

Nhiều khuôn mặt có vùng da dính lẫn nhau

Các khó khăn trong việc nhận diện khuôn mặt cho thấy mọi phương pháp giải quyết đều gặp phải những khiếm khuyết nhất định Để đánh giá và so sánh các phương pháp nhận diện khuôn mặt, người ta thường dựa vào một số tiêu chí nhất định.

Tỷ lệ xác định chính xác là tỷ lệ giữa số lượng khuôn mặt người được nhận diện đúng bởi hệ thống và tổng số khuôn mặt thực tế có trong các bức ảnh.

Số lƣợng xác định nhầm là số lƣợng vùng trong ảnh không phải là khuôn mặt người mà hệ thống xác định nhầm là khuôn mặt người (false positives)

Thời gian thực hiện là thời gian để máy tính xác định khuôn mặt người trong ảnh (running time).

MỘT SỐ PHƯƠNG PHÁP MÁY HỌC

Khái niệm máy học

Học máy, hay còn gọi là máy học (machine learning), là một nhánh của trí tuệ nhân tạo tập trung vào việc phát triển các kỹ thuật cho phép máy tính "học" từ dữ liệu Máy học sử dụng phương pháp phân tích tập dữ liệu để tạo ra các chương trình máy tính, và có mối liên hệ chặt chẽ với thống kê, mặc dù nó chú trọng vào sự phức tạp của các thuật toán tính toán Nhiều bài toán suy luận trong học máy thuộc loại NP-khó, do đó, một phần quan trọng của lĩnh vực này là nghiên cứu phát triển các thuật toán suy luận xấp xỉ có khả năng xử lý hiệu quả.

Máy học có nhiều ứng dụng quan trọng, bao gồm việc truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, cũng như điều khiển rô-bốt.

Một số hệ thống máy học cố gắng giảm thiểu sự cần thiết của trực giác con người trong phân tích dữ liệu, trong khi những hệ thống khác lại tập trung vào việc nâng cao sự hợp tác giữa con người và máy móc Tuy nhiên, không thể hoàn toàn loại bỏ ảnh hưởng của con người, vì các nhà thiết kế cần xác định cách thức biểu diễn dữ liệu và các cơ chế tìm kiếm đặc tính của nó Máy học có thể được coi là nỗ lực tự động hóa một phần của phương pháp khoa học, và nhiều nhà nghiên cứu trong lĩnh vực này phát triển các phương pháp dựa trên các nguyên tắc thống kê Bayes.

2.1.1 Các loại giải thuật trong máy học

Các thuật toán máy học đƣợc phân loại theo kết quả mong muốn của thuật toán Các loại thuật toán thường dùng bao gồm:

Học có giám sát là quá trình mà thuật toán tạo ra hàm ánh xạ dữ liệu để đạt được kết quả mong muốn Một ví dụ điển hình của học có giám sát là bài toán phân loại, trong đó chương trình cần học cách xấp xỉ biểu hiện của hàm ánh xạ một vector tới một số lớp thông qua việc phân tích các mẫu dữ liệu và kết quả tương ứng của hàm đó.

Học không giám sát mô hình hóa một tập dữ liệu, không có sẵn các ví dụ đã đƣợc gắn nhãn

Học nửa giám sát kết hợp các ví dụ có gắn nhãn và không gắn nhãn để sinh một hàm hoặc một bộ phân loại thích hợp

Học tăng cường là một phương pháp trong đó thuật toán học cách thực hiện các hành động dựa trên quan sát từ môi trường Mỗi hành động mà thuật toán thực hiện sẽ ảnh hưởng đến môi trường, và từ đó, môi trường cung cấp phản hồi để cải thiện quá trình học của thuật toán.

Chuyển đổi là một phương pháp tương tự như học có giám sát nhưng không xây dựng hàm một cách rõ ràng Thay vào đó, nó tập trung vào việc dự đoán kết quả mới dựa trên dữ liệu huấn luyện và dữ liệu thử nghiệm có sẵn trong quá trình huấn luyện.

Học cách học trong đó thuật toán học thiên kiến quy nạp của chính mình, dựa theo các kinh nghiệm đã gặp

Phân tích hiệu quả các thuật toán máy học là một nhánh của ngành thống kê, đƣợc biết với tên lý thuyết học điện toán

2.1.2 Các chủ đề về máy học

Mô hình hóa các hàm mật độ xác suất điều kiện: hồi quy và phân loại

Mạng nơ-ron là một công nghệ mạnh mẽ trong lĩnh vực học máy, trong khi cây quyết định cung cấp một phương pháp trực quan để phân loại dữ liệu Lập trình biểu thức gen và lập trình di truyền giúp tối ưu hóa giải pháp cho các bài toán phức tạp Hồi quy quá trình Gauss là một kỹ thuật quan trọng trong phân tích dữ liệu, trong khi phân tích biệt thức tuyến tính và k láng giềng gần nhất cung cấp các phương pháp hiệu quả để dự đoán kết quả Độ dài thông điệp tối thiểu là một khái niệm quan trọng trong lý thuyết thông tin, và cảm tri nguyên đóng vai trò quan trọng trong việc cải thiện độ chính xác của các mô hình học máy.

Hàm cơ sở xuyên tâm Máy hỗ trợ vector

Mô hình hóa các hàm mật độ xác suất qua các mô hình phát sinh:

Thuật toán cực đại kì vọng Các mô hình đồ họa gồm mạng Bayes và mạng Markov Ánh xạ topo phát sinh

Các kỹ thuật suy luận xấp xỉ đúng:

Chuỗi Markov phương pháp Monte Carlo Phương pháp biến thiên

Tối ưu hóa: hầu hết các phương pháp trên đều sử dụng tối ưu hóa hoặc là các thể hiện của các thuật toán tối ƣu hóa.

Một số phương pháp máy học ứng dụng trong phát hiện khuôn mặt

Mạng nơ ron nhân tạo mô phỏng hoạt động của các nơ ron thần kinh, bao gồm nhiều phần tử xử lý đơn giản (neuron) hoạt động song song Tính năng của hệ thống này phụ thuộc vào cấu trúc, trọng số liên kết nơ ron và quá trình tính toán tại từng nơ ron Mạng nơ ron có khả năng học từ dữ liệu mẫu và tổng quát hóa dựa trên các dữ liệu này.

Hình 2-1: Mô hình mạng Neuron

Một mạng nơ ron bao gồm một nhóm nơ ron được tổ chức để nhận cùng một vector đầu vào X và xử lý đồng thời, tạo ra tín hiệu đầu ra ngay lập tức Mỗi nơ ron có trọng số khác nhau, dẫn đến việc sản sinh ra nhiều tín hiệu đầu ra khác nhau Nhóm nơ ron này được gọi là lớp mạng, và khi kết hợp nhiều lớp mạng, ta có một mạng nhiều lớp Lớp nhận tín hiệu đầu vào được gọi là lớp vào (input layer), hoạt động như một bộ đệm cho tín hiệu đầu vào Các tín hiệu đầu ra được tạo ra từ lớp ra (output layer), trong khi bất kỳ lớp nào nằm giữa lớp vào và lớp ra được gọi là lớp ẩn (hidden layer), không tiếp xúc với môi trường bên ngoài Số lượng lớp ẩn có thể thay đổi từ 0 đến nhiều lớp, và mô hình nơ ron nhân tạo yêu cầu ba thành phần cơ bản.

- Tập trọng số liên kết đặc trƣng cho các khớp thần kinh

- Bộ cộng (Sum) để thực hiện phép tính tổng các tích tín hiệu vào với trọng số liên kết tương ứng

- Hàm kích hoạt (squashing function) hay hàm chuyển (transfer function) thực hiện giới hạn đầu vào của neuron

Trong mô hình nơ ron nhân tạo, mỗi nơ ron kết nối với các nơ ron khác và nhận tín hiệu đầu vào từ chúng với trọng số w i Tổng thông tin đầu vào có trọng số được tính theo công thức: Net = wjxj.

2.2.2 Phương pháp SVM – support vector machine

SVM, hay Máy Vector Hỗ trợ, là phương pháp được Vladimir N Vapnik giới thiệu vào năm 1995, dựa trên lý thuyết thống kê Phương pháp này ngày càng trở nên phổ biến trong nhiều lĩnh vực, đặc biệt là phân loại và nhận dạng mẫu SVM nổi bật với nhiều ưu điểm so với các phương pháp cổ điển, bao gồm khả năng xử lý dễ dàng, ổn định cao trên dữ liệu phức tạp, khả năng làm việc với số chiều lớn và khả năng tổng quát vượt trội.

Phương pháp tìm kiếm khuôn mặt dựa trên mô hình Markov ẩn đang được nghiên cứu tích cực Mô hình Markov ẩn là một tập hợp các mô hình thống kê mô tả đặc tính của tín hiệu Lý thuyết về chuỗi Markov và mô hình Markov đã được nghiên cứu sâu và ứng dụng trong nhiều lĩnh vực nhận dạng như nhận diện tiếng nói và chữ viết Hai nhóm nghiên cứu hàng đầu trong việc áp dụng mô hình Markov ẩn vào tìm kiếm và nhận diện khuôn mặt là Samarie và cộng sự, cùng với Netfian và cộng sự.

2.2.4.1 Hướng tiếp cận theo AdaBoost

Phương pháp dò tìm AdaBoost tập trung vào việc xây dựng các bộ dò tìm yếu, có độ chính xác không cao nhưng thời gian xử lý rất nhanh Khi kết hợp nhiều bộ dò tìm lại với nhau, phương pháp này có thể đạt được độ chính xác cao hơn.

Phương pháp AdaBoost sử dụng kết hợp các đặc trưng vốn dĩ tính toán rất nhanh, thích hợp cho việc dò tìm trong thời gian thực

Các bộ phân loại AdaBoost có khả năng xây dựng phân tầng với độ phức tạp từ thấp đến cao, giúp nhanh chóng loại bỏ các ứng viên không phải là mặt người, vốn chiếm số lượng lớn hơn so với các ứng viên là mặt người Điều này cho phép bộ phân loại phức tạp hơn chỉ xử lý những ứng viên còn lại sau khi đã loại bỏ.

Trong bài toán hai lớp, mẫu huấn luyện gồm M bộ (x_i, y_i) đã được gán nhãn, với y_i thuộc {+1, -1} và x_i thuộc R^n AdaBoost xây dựng một bộ phân loại mạnh hơn thông qua sự kết hợp tuyến tính của M bộ phân loại yếu hơn.

Các bộ phân loại yếu hơn có thể mang các giá trị thực, hm(x) R Phân loại của x đƣợc quyết định bằng hàm H(x) = sign[HM(x)], trong đó độ lớn

Độ tin cậy của mô hình H M (x) được xác định thông qua việc kết hợp các mẫu với trọng số, trong đó các trọng số này sẽ được cập nhật động để nhấn mạnh các phân loại sai trước đó Trong thuật toán AdaBoost truyền thống, quá trình cập nhật trọng số là cần thiết, nhưng với các phiên bản cải tiến gần đây, nó có thể được thay thế bằng hàm tối ưu hóa Lỗi xảy ra khi H (x) không bằng y hoặc yH M (x) nhỏ hơn 0 Mỗi mẫu (x, y) được đánh giá qua hàm h(x) R trên tập huấn luyện, với lề được định nghĩa là yh(x), giúp đo lường độ tin cậy của giá trị dự đoán Lỗi phân lớp của H M có biên trên được xác định rõ ràng.

(2.2) Thuật toán AdaBoost xây dựng hàm h(x) bằng cách giảm tối đa (2.2)

H M (x) tốt nhất cho phân loại mạnh H M (x) = H M - 1 (x) + h m (x)

Là hàm dẫn tới giá trị nhỏ nhất:

H m = arg min J(H (x) h (x)) (2.4) và hàm có giá trị nhỏ nhất đƣợc chứng minh là:

(2.5) với ω (M-1) là trọng lƣợng tại thời điểm M

Dùng công thức P(y| x,ω) = P(x| y,ω) P(y) và cho

Chúng ta có đƣợc h M (x) = L M (x) – T L M đƣợc học ra từ các mẫu của cả hai phân lớp Ngưỡng T được xác định bằng tỉ lệ log của các xác suất trước đó

Chúng tôi đã phát triển một phương pháp để tính toán phương trình (2.7), áp dụng cho việc học các bộ phân lớp tối ưu Việc rút ra một bộ phân loại yếu trong không gian nhiều chiều là rất quan trọng, vì vậy chúng tôi giới thiệu một mô hình thống kê theo từng giai đoạn dựa trên một số đặc điểm vô hướng Một đặc điểm vô hướng j của x được tính bằng cách biến đổi không gian dữ liệu n chiều thành đường thẳng thực z j (x) Z Đặc điểm này có thể là hệ số, hoặc trong xử lý ảnh, là phép biến đổi vi ba tín hiệu Nếu phương pháp tìm kiếm ước lượng được sử dụng như một phép biến đổi z j (x), nó sẽ được coi là tọa độ thứ j của x Cuối cùng, một danh sách K đặc điểm ứng cử viên có thể được tạo ra với Z ={ zj(x).

Trong bài viết này, chúng ta sử dụng z(m) để biểu diễn đặc điểm được chọn trong giai đoạn m, trong khi z k (x) là đặc điểm được tính toán từ x thông qua phép biến đổi thứ k.

Giả sử Z là một tập rất hoàn chỉnh, tập các phân lớp yếu cho bài toán phân lớp yếu tối ưu có thể được lập như sau: Tại giai đoạn M, khi M-1 đặc điểm của z (1), z (2), …, z(M-1) đã được chọn và trọng lượng số ω M-1, chúng ta xấp xỉ p(x|y, ω M-1) bằng cách sử dụng phân bố của M đặc điểm, cụ thể là p(x|y, ω M-1) ≈ p(z (1), z (2), …, z (M-1), z k |y, ω M-1).

Bởi vì Z là tập rất hoàn chỉnh, phép xấp xỉ vẫn tốt đối với tập M đủ lớn khi M đặc điểm đƣợc chọn thích hợp

Ghi chú rằng p(z m |y, z (1) , z (2) , …, z (m-1) ) thực chất là p(z m |y, ω (m-1) ), vì ω (m) bao gồm thông tin về toàn bộ quá trình tạo ω và các thành phần phụ thuộc vào z (1) , z (2) , …, z(m-1) Do đó, ta có thể viết lại p(x|y, ω M-1 ) ≈ p(z(1)| y, ω (0) ) p(z (2) | y, ω (1) )… p(z (M-1) | y, ω (M-2) ) p(z k | y, ω (M-1) ) Mật độ xác suất p(z k | y, ω (M-1) ) cho phân lớp dương y = +1 và phân lớp âm y = -1 có thể được suy diễn từ histogram tính được qua việc đánh giá công nhận trọng số của các ví dụ huấn luyện với trọng số ω (M-1).

(2.11) chúng ta rút ra đƣợc tập hợp các phân lớp yếu hơn nhƣ sau: k x h x k M

N = a + b; a là số mẫu thuộc phân lớp yi = +1 b là số mẫu thuộc phân lớp yi = -1

2 Số lớp yếu tối đa M max được kết hợp

Bước 1 Khởi tạo giá trị i a

( với mẫu thuộc phân lớp yi = +1 i a

( với mẫu thuộc phân lớp y i = -1

(3) Cập nhật i ( m ) exp y i H M ( x i ) và chuẩn hóa i (m ) để

Hình 2-2: Ví dụ minh họa cho thuật toán AdaBoost

2.2.4.3 Bộ dò tìm phân tầng Adaboost

Bằng cách sử dụng phương pháp huấn luyện AdaBoost, bộ dò tìm có thể đạt được độ chính xác và tốc độ nhất định Tuy nhiên, để tăng cường độ chính xác, cần phải bổ sung nhiều đặc trưng, dẫn đến việc giảm tốc độ dò tìm.

Sử dụng bộ dò tìm kết hợp F={c i } với nhiều bộ dò tìm cơ bản fi khác nhau thường gặp khó khăn trong việc đạt độ chính xác cao, yêu cầu phải có số lượng lớn bộ dò tìm hoặc nhiều đặc trưng cho mỗi bộ dò tìm, dẫn đến giảm tốc độ Một giải pháp hiệu quả là áp dụng bộ dò tìm phân tầng T={t i }, bao gồm nhiều tầng t i = {c j } với tốc độ và độ chính xác khác nhau Khi kiểm tra tất cả các khuôn mặt trong ảnh, các cửa sổ con W 0 ={w i,j,s } với kích thước s khác nhau tại tọa độ (i,j) sẽ được xác định xem có phải là mặt người hay không Qua mỗi tầng ti, W i = t i (W i-1 ) giúp loại bỏ sớm các cửa sổ không phải ứng viên, cho phép xây dựng các tầng với độ phức tạp ngày càng tăng ở các tầng cao hơn, trong khi các tầng thấp hơn cần đơn giản hơn và loại bỏ nhiều ứng viên không phù hợp với tỷ lệ loại sai thấp.

Hình 2-3: Minh hoạ bộ dò tìm phân tầng

Xét mỗi tầng tk = {c i } ta có tỷ lệ loại sai của tk đƣợc tính nhƣ sau:

PHÁT HIỆN KHUÔN MẶT TRONG ẢNH DỰA VÀO MÀU DA

Tổng quan về các kỹ thuật nhận biết màu da dựa trên tính chất điểm ảnh

Phát hiện mặt người dựa vào màu sắc da là một phương pháp hiệu quả, nhưng chỉ sử dụng màu sắc đơn thuần sẽ gặp khó khăn do có nhiều vật thể trong khung cảnh có màu tương tự Khi kết hợp màu da với các phương pháp khác, hiệu quả phát hiện sẽ được cải thiện Màu da có những đặc tính riêng biệt, giúp dễ dàng nhận diện và phân vùng các vùng ảnh có màu sắc giống màu da, từ đó giảm không gian tìm kiếm khuôn mặt và nâng cao hiệu suất của hệ thống Nhiều mô hình đã được phát triển để nhận diện da người, góp phần vào việc nâng cao khả năng phát hiện mặt người.

Khi xây dựng mô hình phát hiện vùng màu da nhằm nhận diện khuôn mặt, có ba vấn đề chính cần xem xét: không gian màu sử dụng, độ chính xác của hàm phân phối màu da và cách xử lý vùng màu da đã được phân vùng Bài viết này sẽ tập trung vào hai câu hỏi đầu tiên, trong khi phương pháp xử lý vùng da cho việc phát hiện mặt người sẽ được trình bày trong chương sau của đề án.

Phương pháp phát hiện da người được đề cập trong bài viết này dựa trên đặc tính điểm ảnh, phân lớp điểm ảnh thành hai loại: lớp điểm ảnh thuộc màu da và lớp không phải màu da Mỗi điểm ảnh hoàn toàn độc lập, trái ngược với phương pháp dựa trên đặc tính vùng ảnh.

Phát hiện màu da dựa trên đặc tính điểm ảnh đã có một lịch sử phát triển lâu dài Trong phần tổng quan này, chúng tôi sẽ chỉ đề cập và so sánh các kỹ thuật đã được công bố và đánh giá hiệu quả.

Mục tiêu của phần tổng quan này là tổng hợp các kỹ thuật đã được công bố, mô tả các ý tưởng chính và đánh giá ưu nhược điểm cùng đặc trưng của từng kỹ thuật Qua đó, chúng tôi sẽ đưa ra quyết định lựa chọn phương pháp phù hợp để phân vùng màu da cho bài đồ án này.

3.1.2 Không gian màu sử dụng cho mô hình hóa màu da

Trong lĩnh vực đo màu, nhiều không gian màu với các tính chất khác nhau được sử dụng trong truyền tín hiệu hình ảnh và video Đặc biệt, một số không gian màu đóng vai trò quan trọng trong mô hình hóa màu da Bài viết này sẽ tóm lược những không gian màu phổ biến nhất cùng với các đặc điểm nổi bật của chúng.

RGB là không gian màu cơ bản được sử dụng rộng rãi cho màn hình CRT, trong đó mỗi màu được tạo thành từ ba thành phần chính: Đỏ, Xanh lá cây và Xanh da trời Đây là một trong những không gian màu phổ biến nhất cho xử lý và lưu trữ dữ liệu ảnh số Tuy nhiên, do sự tương quan cao giữa các kênh màu, giá trị cảm nhận không đồng nhất và sự pha trộn giữa dữ liệu màu và độ sáng, không gian RGB không được ưa chuộng cho phân tích màu sắc và các thuật toán nhận dạng dựa trên màu.

3.1.2.2 Không gian RGB chuẩn hóa

Không gian RGB chuẩn hóa là không gian màu nhận đƣợc từ không gian RGB cơ bản theo công thức chuẩn hóa đơn giản sau đây: r =

Trong không gian màu RGB, tổng ba thành phần r, g, b luôn bằng 1, cho phép chỉ cần hai trong ba thành phần để biểu diễn không gian này Thành phần thứ ba có thể bị bỏ qua, dẫn đến việc rút ngắn số chiều của không gian màu Hai thành phần còn lại, thường là r và b, được gọi là các “màu tinh khiết” Một đặc điểm quan trọng của không gian màu này là tính bất biến đối với bề mặt; nghĩa là, nếu không tính đến ánh sáng xung quanh, không gian RGB chuẩn hóa giữ nguyên giá trị bất kể sự thay đổi về hướng bề mặt liên quan đến nguồn chiếu, dưới một số giả thiết nhất định Với sự kết hợp của phép chuyển đổi đơn giản từ không gian màu RGB cơ bản, không gian RGB chuẩn hóa ngày càng được áp dụng rộng rãi trong nhiều lĩnh vực, bao gồm cả nhận dạng.

3.1.2.3 HIS, HSV, HSL - Độ bão hòa của màu

Không gian màu dựa trên tính bão hòa màu giúp xác định số lượng và tính chất màu sắc Những giá trị này phản ánh trực giác và quan điểm của các họa sĩ về trạng thái khác nhau của màu sắc, bao gồm cả độ bão hòa và các tông màu khác nhau Hue thể hiện màu cơ bản như đỏ, xanh lá cây, đỏ tía và vàng, trong khi saturation là thước đo cho mức độ bão hòa màu của một vùng ảnh Các khái niệm như “intensity” (cường độ) cũng đóng vai trò quan trọng trong việc mô tả màu sắc.

"Độ sáng" và "giá trị" là hai yếu tố quan trọng trong không gian màu, giúp phân biệt rõ ràng giữa các thành phần màu Sự trực giác về các thành phần này là ưu điểm nổi bật, làm cho không gian màu trở nên phổ biến trong việc xác định màu da.

Công thức chuyển từ không gian RGB sang không gian này nhƣ sau:

Có thể tính Hue và Saturation bằng cách sử dụng hàm log cho các thành phần màu trong không gian màu RGB, giúp giảm sự độc lập của các thành phần màu theo mức sáng.

Hệ tọa độ cực giữa Hue và Saturation có thể gây khó khăn trong việc mô hình màu da Do đó, người ta đã chuyển đổi sang hệ tọa độ Đề các bằng một công thức cụ thể.

3.1.2.4 TSL – Tint, Saturation, Lightness(sắc thái, độ bão hòa, độ dịu )

Không gian chuẩn hóa thành phần màu và độ sáng TSL đƣợc chuyển từ không gian chuẩn hóa RGB theo công thức sau đây:

Nghiên cứu cho thấy rằng không gian màu chuẩn hóa TSL là lựa chọn hiệu quả nhất cho mô hình hóa màu da, nhanh hơn so với chín không gian màu khác.

Không gian màu YC r C b được sử dụng phổ biến trong nén ảnh, trong đó màu sắc được biểu diễn bởi luma, tức là giá trị độ sáng tính từ không gian RGB Luma bao gồm ba thành phần: một thành phần là tổng trọng số từ RGB, và hai thành phần màu Cr và Cb được tạo ra từ hai thành phần Red và Blue trong không gian màu RGB Công thức chuyển đổi giữa các không gian màu này là rất quan trọng trong quá trình nén ảnh.

Sự chuyển đổi dễ dàng và tính phân chia rõ ràng của độ sáng cùng các thành phần màu là những đặc điểm thu hút các nhà nghiên cứu trong việc mô hình hóa màu da.

3.1.2.6 Các hệ tọa độ không gian màu khác

Nhận biết phân vùng màu da

Đối với mỗi ảnh đầu vào, chúng ta thực hiện nhận diện và phân vùng màu da Quá trình này bao gồm việc phân lớp các pixel thành hai loại: pixel màu da và pixel không phải màu da Sau khi hoàn tất nhận diện, chúng ta tiến hành phân vùng để giảm không gian tìm kiếm trong quá trình phát hiện khuôn mặt Điều này có nghĩa là chúng ta chỉ tìm kiếm khuôn mặt trong các vùng được xác định là màu da.

Trước khi một pixel được xác định là màu da, nó phải trải qua một bộ lọc khởi tạo, bao gồm các quy tắc được chọn lọc từ các phương pháp chọn ngưỡng để phân vùng màu da Bộ quy tắc này đã được kiểm chứng qua thực nghiệm, đảm bảo tính chính xác cho mọi màu da cần nhận diện.

Sau khi nghiên cứu các quy tắc đề xuất, chúng tôi đã tiến hành chọn lọc và thử nghiệm trên nhiều ảnh màu khác nhau Kết quả là một tập hợp các quy tắc được đề xuất nhằm loại bỏ ngay từ đầu các pixel không phải màu da, giúp giảm đáng kể khối lượng tính toán của ảnh.

Tập quy tắc này đƣợc phát biểu trong không gian màu RGB nhƣ sau:

Một pixel sẽ không phải là pixel màu da nếu nó thỏa mãn một trong các điều kiện sau đây:

1 ( (B > 160 && R < 180 && G < 180) - Quá nhiều thành phần xanh lơ (Blue)

2 (G > 160 && R < 180 && B < 180) - Quá nhiều thành phần xanh lá cây (Green)

4 (G > 200) – pixel màu xanh lá cây Green

Kết quả của quá trình nhận diện màu da được thể hiện qua hình ảnh bên cạnh, trong đó ảnh phân vùng có dạng nhị phân Các pixel mang màu da được giữ nguyên, trong khi các pixel không phải màu da sẽ được thay thế bằng màu đen.

Hình 3-1: Ảnh trước và sau khi nhận biết màu da

Trích chọn đặc trƣng Haar - like

Đặc trưng Haar-like, được công bố bởi Viola và Jones, bao gồm bốn đặc trưng cơ bản để nhận diện khuôn mặt con người Mỗi đặc trưng Haar-like là sự kết hợp của hai hoặc ba hình chữ nhật có màu "trắng" hoặc "đen".

Để xác định khuôn mặt người, 4 đặc trưng Haar-like cơ bản được mở rộng và phân loại thành 3 tập đặc trưng khác nhau.

1 Đặc trƣng cạnh (edge features):

2 Đặc trưng đường (line features):

3 Đặc trƣng xung quanh tâm (center-surround features):

Hình 3-3: Các đặc trƣng mở rộng của các đặc trƣng Haar-like cơ sở

Để tính giá trị của đặc trưng Haar-like, ta sử dụng sự chênh lệch giữa tổng các pixel của vùng đen và vùng trắng, theo công thức: f(x) = Tổng vùng đen (các mức xám của pixel) - Tổng vùng trắng (các mức xám của pixel).

Để cải thiện hiệu suất của bộ phân loại trong việc nhận diện khuôn mặt, các đặc trưng Haar-like sử dụng giá trị pixel thô để so sánh sự thay đổi in-class/out-of-class Tuy nhiên, việc tính toán các giá trị này cho tất cả các vị trí trên ảnh yêu cầu chi phí tính toán cao, không phù hợp với các ứng dụng cần tốc độ thực thi nhanh Để giải quyết vấn đề này, Viola và Jones giới thiệu khái niệm "Integral Image", là một mảng 2 chiều có kích thước tương đương với ảnh gốc, trong đó mỗi phần tử được tính bằng tổng của các pixel ở trên và bên trái Phương pháp này giúp giảm thiểu thời gian tính toán nhờ vào việc chỉ sử dụng phép cộng đơn giản, từ đó tăng tốc độ xử lý.

Hình 3-4: Cách tính Integral Image của ảnh

Sau khi tính toán xong Integral Image, việc tính tổng giá trị mức xám trong một vùng cụ thể trên ảnh trở nên rất đơn giản.

Giả sử ta cần tính tổng các giá trị mức xám của vùng D nhƣ trong hình 4, ta có thể tính nhƣ sau:

Giá trị tại điểm P4 trên Integral Image được xác định bằng A + B + C + D, trong khi A + B là giá trị tại P2, A + C là giá trị tại P3, và A là giá trị tại P1 Do đó, biểu thức tính D có thể được viết lại như sau:

Hình 3-5: Ví dụ cách tính nhanh các giá trị mức xám của vùng D trên ảnh

Để chọn các đặc trưng Haar-like cho việc thiết lập ngưỡng, Viola và Jones đã áp dụng phương pháp máy học AdaBoost Phương pháp này kết hợp các bộ phân loại yếu thành một bộ phân loại mạnh, trong đó bộ phân loại yếu chỉ có độ chính xác cao hơn một chút so với việc đoán ngẫu nhiên, trong khi bộ phân loại mạnh có thể đạt độ chính xác trên 60%.

Huấn luyện dò tìm khuân mặt 46 3.5 Quá trình dò tìm khuân mặt 47Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ các thành viên c■a website.123doc s■ h■u m■t kho th■ vi■n kh■ng l■ v■i h■n 2.000.000 tài li■u ■ t■t c■ l■nh v■c: tài chính tín d■ng, công ngh■ thông tin, ngo■i ng■, Khách hàng có th■ d■ dàng tra c■u tài li■u m■t cách chính xác, nhanh chóng.Mang l■i tr■ nghi■m m■i m■ cho ng■■i dùng, công ngh■ hi■n th■ hi■n ■■i, b■n online không khác gì so v■i b■n g■c B■n có th■ phóng to, thu nh■ tùy ý.Luôn h■■ng t■i là website d■n ■■u chia s■ và mua bán tài li■u hàng ■■u Vi■t Nam Tác phong chuyên nghi■p, hoàn h■o, ■■ cao tính trách nhi■m ■■i v■i t■ng ng■■i dùng M■c tiêu hàng ■■u c■a 123doc.net tr■ thành th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c không th■ tìm th■y trên th■ tr■■ng ngo■i tr■ 123doc.net 123doc cam k■t s■ mang l■i nh■ng quy■n l■i t■t nh■t cho ng■■i dùng Khi khách hàng tr■ thành thành viên c■a 123doc và n■p ti■n vào tài kho■n c■a 123doc, b■n s■ ■■■c h■■ng nh■ng quy■n l■i sau n■p ti■n trên websiteTh■a thu■n s■ d■ng 1 CH■P NH■N CÁC ■I■U KHO■N TH■A THU■N Chào m■ng b■n ■■n v■i 123doc

AdaBoost là một bộ phân loại phi tuyến mạnh mẽ, được phát triển dựa trên phương pháp boosting của Freund và Schapire vào năm 1995 Phương pháp này kết hợp các weak classifiers theo cách tuyến tính để tạo ra một strong classifier hiệu quả.

AdaBoost là một cải tiến của phương pháp boosting, sử dụng khái niệm trọng số để đánh dấu các mẫu khó nhận dạng Trong quá trình huấn luyện, thuật toán cập nhật trọng số sau mỗi weak classifier, tăng trọng số cho các mẫu bị nhận dạng sai và giảm cho các mẫu được nhận dạng đúng Điều này giúp các weak classifier sau tập trung vào những mẫu mà các classifier trước đó chưa làm tốt Cuối cùng, các weak classifier được kết hợp theo mức độ hiệu quả của chúng để tạo ra một strong classifier.

Viola và Jones dùng AdaBoost kết hợp các bộ phân loại yếu sử dụng các đặc trƣng Haar-like theo mô hình phân tầng (cascade) nhƣ sau:

Hình 3-6: Mô hình phân tầng kết hợp các bộ phân loại yếu để xác định khuôn mặt

Trong đó, hk là các bộ phân loại yếu, đƣợc biểu diễn nhƣ sau:

0 ngược lại x: cửa sổ con cần xét

Ok: ngƣỡng (O = teta) fk: giá trị của đặc trƣng Haar-like pk: hệ số quyết định chiều của phương trình

AdaBoost sẽ kết hợp các bộ phân loại yếu thành bộ phân loại mạnh nhƣ sau: H(x) = sign(a1h1(x) +a2h2(x) + + anhn(x)) (a = alpha)

Với: at >= 0 là hệ số chuẩn hoá cho các bộ phân loại yếu

Hình 3-7: Kết hợp các bộ phân loại yếu thành bộ phân loại mạnh

3.5 Quá trình dò tìm khuân mặt

Việc phát hiện khuôn mặt trong ảnh qua bộ phân tầng đã huấn luyện gặp khó khăn do số lượng kích thước khác nhau quá lớn Để giải quyết vấn đề này, phương pháp dò theo kiến trúc tháp được áp dụng, trong đó ảnh s có kích thước (wxh), với bước nhảy (step) bằng 0 và hệ số co scale là 1.2.

 Lặp trong khi kích thước (w x h) còn lớn hơn cửa sổ ảnh mặt người huấn luyện (w0 x h 0 ):

Duyệt qua tất cả các vị trí (x,y) trong cửa sổ kích thước (w0 x h0) và áp dụng bộ dò tìm phân tầng để xác định sự hiện diện của mặt người.

Nếu là mặt người tại vị trí (x,y) thì thực tế mặt người tại vị trí (x*scale step , y*scale step ) và kích thước cửa sổ là (w0*scale step , h 0 *scale step )

- Thu nhỏ ảnh từ kích thước (w x h) đến (w 1 x h 1 )

Hệ số co scale ảnh hưởng đến độ mịn của các cửa sổ dò tìm; nếu scale nhỏ (≥1), số lượng cửa sổ dò tìm tăng lên, dẫn đến độ chính xác cao hơn Bằng cách áp dụng thuật toán dò theo kiến trúc tháp, chúng ta có thể phát hiện tất cả các khuôn mặt ở mọi vị trí, với kích thước dò tìm được điều chỉnh ở mỗi bước.

- Bước 1 : kích thước từ (w0, h 0 ) đến (w0*scale,h 0 *scale)

- Bước 2 : kích thước từ (w 0 *scale,h 0 *scale) đến (w 0 *scale 2 ,h 0 *scale 2 )

Bước n : kích thước từ (w0*scalen-1,h0*scalen-1) đến (w0*scale,h 0 *scale)

Hệ thống xác định vị trí khuôn mặt người

Hình 3-8: Hệ thống xác định vị trí khuôn mặt người (Face detection system)

Từ ảnh gốc, ta tính Integral Image, một mảng 2 chiều với phần tử (x, y) là tổng các phần tử (x', y') với x' < x và y' < y, nhằm tính nhanh tổng giá trị mức xám của vùng hình chữ nhật trên ảnh Các vùng ảnh này được đưa qua các hàm Haar cơ bản để ước lượng đặc trưng, và kết quả sẽ được xử lý bởi bộ điều chỉnh AdaBoost để loại bỏ các đặc trưng không phải khuôn mặt Chỉ những đặc trưng mà AdaBoost cho là khả năng khuôn mặt mới được chuyển tới bộ quyết định Bộ quyết định tổng hợp kết quả và xác định khuôn mặt người nếu các bộ phân loại yếu trả về kết quả là khuôn mặt.

CÀI ĐẶT ỨNG DỤNG

Tiêu đề	Luận Văn Một Hướng Tiếp Cận Trong Phát Hiện Khuôn Mặt Trong Ảnh
Trường học	Trường Đại Học
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	luận văn

Định dạng
Số trang	54
Dung lượng	1,22 MB