Chương 2. MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG VÀ THEO DÕI CHUYỂN ĐỘNG CỦA MẮT NGƯỜI
2.2 Hệ thống nhận dạng và theo dõi vết di chuyển của mắt
Hình 2.1. Hệ thống phát hiện và theo dõi vết di chuyển của mắt
2.2.1. Thu nhận hình ảnh từ Camera
Hình ảnh có thể nhận qua camera màu hoặc đen trắng. Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hoá (như loại CCD – Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh.
Camera thường dùng là loại quét dòng; ảnh tạo ra có dạng hai chiều. Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong cảnh).
2.2.2. Tiền xử lý dữ liệu từ hình ảnh
Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ tiền xử lý để nâng cao chất lượng. Chức năng này để chuẩn hóa ảnh cần tìm giúp cho việc tìm kiếm được hiệu quả hơn. Các công việc trong bước tiền xử lý có thể là: Chuẩn hóa kích cỡ giữa ảnh trong CSDL và ảnh cần tìm, hiệu chỉnh độ sáng, tối của ảnh; lọc nhiễu, chuẩn hóa về vị trí, tư thế ảnh mặt. Việc chuẩn hóa này khiến độ lệch giữa 2 điểm ảnh được giảm xuống làm quá trình trích chọn đặc trưng thêm chính xác.
Tín hiệu
ảnh Thu nhận Đầu vào ảnh
Trích chọn đặc trưng
Phát hiện Đầu vào mặt
Haar-like Camshift
Phát hiện mắt
EigenEyes Đối sánh
mẫu Theo dõi vết chuyển
động của mắt Hiển thị
kết quả Đầu ra
2.3.3. Trích chọn đặc trưng
Trích chọn đặc trưng là kỹ thuật sử dụng các thuật toán để lấy ra những thông tin mang những đặc điểm riêng biệt của một người. Tìm ra các đặc trưng chính của ảnh mặt, từ các đặc trưng này hình thành các vector đặc trưng, các vector này sẽ được sử dụng để đối sánh sự giống nhau giữa ảnh mặt cần tìm và ảnh mặt trong CSDL.
2.3.4. Phát hiện khuôn mặt từ hình ảnh đầu vào
Phát hiện mặt người trong ảnh là phần đầu tiên của một hệ thống nhận dạng mặt người. Việc xác định khuôn mặt người có những khó khăn nhất định như:
- Hướng của khuôn mặt đối với máy ảnh, như: nhìn thẳng, nhìn nghiêng hay nhìn từ trên xuống. Cùng trong một ảnh có thể có nhiều khuôn mặt ở những tư thế khác nhau.
- Sự có mặt của các chi tiết không phải là đặc trưng riêng của khuôn mặt người, như: râu quai nón, mắt kính, ….
- Các nét mặt khác nhau trên khuôn mặt, như: vui, buồn, ngạc nhiên,…
- Mặt người bị che khuất bởi các đối tượng khác có trong ảnh. Sự biểu cảm của khuôn mặt: sự biểu cảm có thể làm thay đổi đáng kể các đặc trưng và thông số khuôn mặt, ví dụ như khuôn mặt của cùng một người sẽ rất khác khi người đấy cười, tức giận hay sợ hãi…
Xác định mặt người thường là một phần của hệ thống. Nó thường được dùng trong giám sát video, giao tiếp người máy và quản lý cơ sở dữ liệu ảnh….
2.3.5. Phát hiện các vùng mắt, trích chọn các đặc trưng của mắt
Đã có rất nhiều công trình trong việc phát hiện và theo dõi mắt. Đầu tiên của tất cả các nghiên cứu về mắt có thể được phân loại thành hai loại chính:
Phát hiện đôi mắt và trích chọn các đặc trưng của mắt.
- Phát hiện của mắt: Cho một hình ảnh khuôn mặt tùy ý, mục tiêu của phát hiện mắt là xác định vị trí của mắt. Đơn giản chỉ cần phát hiện trong mắt, khu vực mà cả hai mắt nằm được tìm thấy. Kết quả của quá trình vùng mắt thường được chỉ định bởi một hình chữ nhật.
- Trích chọn các đặc trưng của mắt: Mặt khác mục đích của loại này là để cung cấp thông tin chi tiết như các đường viền của vùng nhãn cầu có thể nhìn thấy, khu vực vòng tròn được hình thành bởi mống mắt và con ngươi, vị trí của con ngươi ở vùng mắt có thể nhìn thấy, tình trạng của mắt (ví dụ: nháy mắt/không nháy mắt). Phần này khó khăn hơn trong lĩnh vực thị giác máy tính như phát hiện hoặc theo dõi việc thực hiện các chi tiết của mắt theo thời gian thực rất khác nhau từ các điều kiện môi trường xung quanh.
Mặc dù đã có nhiều kỹ thuật theo dõi chuyển động của mắt nhưng các công việc hiện tại để khai thác chi tiết tính năng mắt có thể được sắp xếp thành hai loại: phương pháp tiếp cận hoạt động dựa trên IR và phương pháp tiếp cận dựa vào hình ảnh.
2.3.5.1. Phương pháp tiếp cận hoạt động dựa trên IR
Phương pháp tiếp cận đầu tiên khai thác các đặc tính quang phổ của dưới gần dưới gần IR chiếu sáng. Theo dõi mắt được thực hiện bằng cách theo dõi con ngươi sáng. Hiện đã có rất nhiều công việc sử dụng kỹ thuật này và có một số hệ thống theo dõi mắt thương. Phát hiện mắt dựa vào IR là nằm ngoài phạm vi nghiên cứu của luận văn.
2.3.5.2. Phương pháp tiếp cận dựa vào hình ảnh
Kothari và Mitchell sử dụng thông tin không gian và thời gian để dò vị trí của mắt. Quá trình dò tìm của họ bắt đầu bằng cách chọn một nhóm các ứng viên sử dụng lĩnh vực chuyển màu sắc. Chuyển màu sắc trên ranh giới mống mắt/võng mạc luôn trỏ ra ngoài trung tâm (tròng đen), như vậy bằng cách tích luỹ cùng những dòng này, tâm của mống mắt có thể ước tính bằng chọn phần với số lượng cao nhất. Quy tắc thử sai và sự hỗ trợ phần lớn thời gian được dùng để lọc ứng cử viên không phải con ngươi.
* Mẫu mắt:
-Mẫu hình học: Mô hình hình học tham số này định nghĩa hình học cho mẫu và giới thiệu những hạn chế về sự biến dạng của hình học.
- Kiểu tạo hình: kiểu tạo hình xác định cách khuôn mẫu không thể tạo hình của hình học, cụ thể là liên quan đến giá trị cường độ cụ thể cho trong ảnh.
- Một thuật toán sử dụng các biện pháp hình học và hình ảnh của sự cân xứng để phù hợp với khuôn mẫu đến ảnh. Nó định nghĩa phương pháp tối ưu hóa sẽ được sử dụng để trích chọn đặc trưng.
Đỉnh và đáy có khả năng được dùng trong thiết kế các mẫu mắt. Hình học của các mẫu mắt được thể hiện trong hình 2.2. Hình học của các mẫu mắt được quy định bởi mười một tham biến g = (xt, xc, r, a, b, c,?, p1, p2), xt: trung tâm của toàn bộ mẫu(xt,yt ); xc trung tâm của mống mắt, mô phỏng như một vòng tròn (xc, yc); r: bán kính của mống mắt; a,b,c: các thông số của parabol mà bị ràng buộc các mẫu mắt; ?: Định hướng của mẫu; p1, p2: các thông số sử dụng để xác định vị trí trung tâm của các đỉnh ở phía bên trái và bên phải của mống mắt.
Hình 2.2. Mẫu mắt
Để xác định xác suất có thể xảy ra, trước tiên ta định nghĩa thuật ngữ năng lượng Ep. Thuật ngữ năng lượng này phải tuân theo các mối quan hệ trên mẫu tham biến, chẳng hạn như trung tâm của mắt là gần trung tâm mống mắt. Thuật ngữ năng lượng được dùng để xác định khả năng có thể xảy ra đầu tiên được cho trước như sau:
𝐸𝑝 =𝑘1
2 ‖𝑥𝑡− 𝑥𝑐‖2+𝑘2
2 (𝑝1− 𝑝2 − (𝑟 + 𝑏)2) +𝑘3
2 (𝑏 − 2𝑟)2+ 𝑘4(2𝑐 − 𝑎)2+ (𝑏 − 2𝑎)2 (2.1)
Trong đó k1, k2, k3 và k4 là các hệ số sử dụng để kết hợp các điều khoản năng lượng.
Các mô hình hình ảnh của mẫu sử dụng các giả định sau:
- Mống mắt tương ứng với một thung lũng trong hình ảnh - Tròng trắng mắt phù hợp với đỉnh cao trong cường độ ảnh - Ranh giới của mắt và mống mắt phù hợp với mép trong ảnh.
- Mống mắt là vùng đen trong ảnh (giá trị cường độ thấp)
Do đó để sử dụng mô hình này chụp ảnh, đỉnh cao, thung lũng và các cạnh của một hình ảnh được trích chọn. Thuật toán được để sử dụng cho phù hợp với các mẫu để các hình ảnh định nghĩa hàm năng lượng E, sử dụng mô hình hình học và mô hình hình ảnh. Hàm năng lượng là giảm thiểu bằng thay đổi tham biến của khuôn mẫu sử dụng thuật toán gốc đổi màu. E có đóng góp từ thung lũng (mống mắt), đỉnh cao (tròng trắng mắt) và mép (ranh giới của mống mắt và mắt).
𝐸 = 𝐸𝑣 + 𝐸𝑝 + 𝐸𝑒 + 𝐸𝑖 + 𝐸𝑝𝑟 + 𝐸𝑖𝑛 (2.2) Trong đó
𝐸𝑣: Các phần của chức năng năng lượng trong đó xem xét các thung lũng.
𝐸𝑝: Các phần của chức năng năng lượng mà khảo sát đỉnh.
𝐸𝑒: Các phần của chức năng năng lượng trong đó xem xét các cạnh.
𝐸𝑖: Các phần của chức năng năng lượng trong đó xem xét cường độ.
𝐸𝑝𝑟: Các phần của chức năng năng lượng trong đó xem xét các xác suất trước như định nghĩa ở trên.
𝐸𝑖𝑛: Các phần của chức năng năng lượng được dùng để cố định tham biến mống mắt.
Chi tiết công thức về chức năng năng lượng toàn phần được cho trước.
Thuật toán giảm thiểu hóa năng lượng, E, bằng cách sử dụng chiến lược tìm kiếm giảm gốc. Đầu tiên nó xác định vị trí mống mắt bằng cách sử dụng tiềm năng thung lũng, đỉnh được dùng để hướng khuôn mẫu rồi giá trị cường độ được dùng để tinh chỉnh.
2.3.6. Theo dõi vết di chuyển của mắt 2.3.6.1. Phạm vi chuyển động của mắt
Khi một người dùng ngồi trước máy tính và thao tác trên máy tính thì khoảng cách từ vị trí của mắt tới màn hình thường nằm trong một khoảng giới hạn vừa phải, tức không quá xa hoặc quá gần. Khi dùng các thiết bị như camera hoặc webcam để thu hình khuôn mặt người dùng trong quá trình xác định vị trí và theo vết di chuyển của mắt, chúng ta sẽ bố trí các thiết bị này sao cho thích hợp, đúng như các điều kiện đã đặt ra và thuận tiện cho người dùng. Tuy nhiên, khi thực hiện theo vết di chuyển của mắt ta còn nhận thấy rằng, người dùng khi ngồi trước màn hình thì đầu chỉ cử động trong một phạm vi xung quanh vị trí cố định một khoảng tương đối nhỏ. Tức là sẽ không xảy ra trường hợp đầu của người dùng di chuyển ra khỏi khung ảnh của các thiết bị, hoặc đầu quá nghiêng so với trạng thái bình thường, hoặc quay hẳn sang bên trái hay phải làm khuất góc nhìn của mắt [5].
Từ nhận xét này, chúng ta sẽ chỉ tiến hành theo dõi vết di chuyển của mắt trong một vùng thu hẹp mà chúng ta dự đoán là mắt chỉ có thể di chuyển trong phạm vi này, mà không tiến hành theo vết trong toàn bộ ảnh giống như khi xác định vị trí của mắt. Điều này làm cho việc theo dõi vết di chuyển của mắt đơn giản và giảm được độ phức tạp cho thuật toán và theo được thời gian thực. Phạm vi theo dõi vết di chuyển của mắt mà chúng ta đưa ra dựa trên vị trí của hai mắt đã xác định được.
2.3.6.2. Theo vết chuyển động
Trước khi theo dõi vết di chuyển của mắt, thì vị trí của hai mắt ở frame trước được xác định và được lưu lại, đồng thời khoảng cách giữa hai mắt cũng được lưu lại. Chúng ta sử dụng thuật toán xác định vị trí mắt đã đề cập để xác định vị trí mới của hai mắt. Xác định các giá trị tọa độ mới này, đồng thời tính khoảng cách giữa hai mắt trong lần xác định mới này.
Sau khi đã có được vị trí cũ và vị trí mới của hai mắt cũng như khoảng cách giữa chúng, chúng ta tiến hành so sánh các giá trị tọa độ này để thấy được sự di chuyển, thay đổi vị trí của mắt khi tiến hành quá trình trong thời gian thực.
Sự chênh lệch vị trí này phải nằm trong một giới hạn cho phép.