TỔNG QUAN
Giới thiệu chung
Các nhà tiếp thị luôn tìm kiếm cách tối ưu hóa quy trình từ sản phẩm đến tâm trí người tiêu dùng để giúp họ lựa chọn sản phẩm phù hợp Trong bối cảnh cuộc cách mạng công nghiệp 4.0, quá trình số hóa đang thay đổi mạnh mẽ các ngành công nghiệp Một trong những công nghệ nổi bật là gương thực tế ảo tương tác, cho phép người tiêu dùng xem trước kết quả mua hàng trước khi quyết định thanh toán.
Quy mô thị trường gương ảo toàn cầu đã đạt 3,64 tỷ USD vào năm 2018 và dự kiến tăng trưởng với tốc độ CAGR 25,6% từ 2019 đến 2025 Sự tiện lợi khi thử quần áo trong phòng thay đồ ảo, nhu cầu tăng cường vệ sinh cho mỹ phẩm và sản phẩm bán lẻ, cùng với khả năng dùng thử ảo trên các nền tảng thương mại điện tử sẽ thúc đẩy sự phát triển của thị trường Thêm vào đó, sự ra đời của máy quét cơ thể đa cảm biến đã làm thay đổi trải nghiệm mua sắm trực tuyến Sự phát triển mạnh mẽ của kênh thương mại điện tử hứa hẹn sẽ tạo ra cơ hội tăng trưởng lớn cho các nhà cung cấp giải pháp gương ảo.
Biểu đồ 1-1 Biểu đồ quy mô thị trường ảo theo thành phần từ 2015-2025 (tỷ đô)
Một số lĩnh vực ứng dụng gương tương tác:
- Gợi ý kiểu tóc mới trong salon
- Sử dụng một chiếc gương ảo để quảng cáo thương hiệu hoặc hiển thị sản phẩm và các thông tin cần thiết khác
- Thu thập và phân tích dữ liệu
- Trong tổ chức sự kiện
Gương đóng vai trò quan trọng trong cuộc sống hàng ngày, đồng thời mang lại sức sống mới cho ngành bán lẻ hiện đại Chúng không chỉ giúp tăng tỷ lệ chuyển đổi mà còn cho phép thu thập và phân tích dữ liệu một cách hiệu quả, tất cả đều diễn ra song song với doanh số bán hàng mà không cần phải đầu tư thêm ngân sách hay nhân lực.
Công nghệ tương tác nâng cao hiệu quả dịch vụ bằng cách giảm thiểu sai sót do yếu tố con người Theo nhà nghiên cứu xu hướng bán lẻ Paco Underhill, 71% khách hàng sử dụng gương tương tác sẽ không rời khỏi cửa hàng mà không thực hiện giao dịch mua.
Sử dụng gương tương tác trong quảng cáo, PR, tiếp thị và sự kiện không chỉ tiết kiệm thời gian cho khách hàng mà còn nâng cao mức độ trung thành với sản phẩm Bởi vì khi người dùng luôn nhìn thấy sản phẩm qua gương tương tác, họ sẽ cảm thấy trải nghiệm chân thực và thoải mái hơn.
Nhóm đã chọn đề tài "Thiết kế và điều khiển hệ thống gương tương tác thông minh" với mục tiêu phục vụ ngành thời trang, đồng thời hướng tới việc phát triển và mở rộng ứng dụng cho các ngành khác trong tương lai.
Đặt vấn đề
Theo khảo sát gần đây của Nielsen Việt Nam và Infocus Mekong Mobile Panel, 25% người tham gia cho biết họ đã tăng cường mua sắm trực tuyến và giảm thiểu mua sắm trực tiếp Nghiên cứu của Worldpanel cũng chỉ ra rằng mua sắm trực tuyến đang trở nên phổ biến và phát triển mạnh mẽ, với nhiều người tiêu dùng tham gia hơn so với trước đây, góp phần vào sự gia tăng đáng kể trong lĩnh vực này.
Trong một tháng kể từ khi có thông báo chính thức về dịch bệnh ở Việt Nam, số lượng ca nhiễm đã tăng lên ba chữ số, gây ảnh hưởng nghiêm trọng đến hoạt động kinh doanh của các cửa hàng thời trang offline, đặc biệt là các cửa hàng nhỏ và vừa.
Ngày nay, sự đa dạng trong lựa chọn không đủ để các cửa hàng thu hút và nổi bật Để khuyến khích khách hàng tiềm năng quay lại thường xuyên, các cửa hàng cần áp dụng những chương trình tri ân, khuyến mãi và cải thiện năng lực nhân viên Tuy nhiên, đôi khi cần có những giải pháp sáng tạo hơn để vượt qua đối thủ Chính vì vậy, việc tạo ra một chiếc gương tương tác trở nên cần thiết.
Với khả năng tương tác qua gương và “thử đồ online”, sản phẩm này giải quyết hiệu quả các vấn đề phát sinh do dịch bệnh Việc áp dụng công nghệ này không chỉ tiết kiệm chi phí và công sức cho việc xây dựng buồng thử đồ, mà còn giảm thiểu thời gian chờ đợi cho khách hàng, đặc biệt trong những giờ cao điểm khi cửa hàng đông khách.
Sự phát triển công nghệ hiện đại có thể tích hợp vào sản phẩm thời trang thông qua kết nối online và chức năng kiểm tra sức khỏe, giúp khách hàng tiết kiệm thời gian mua sắm Mặc dù phòng thay đồ thông minh và gương tương tác mang lại nhiều lợi ích, nhưng các nhà bán lẻ vẫn chưa áp dụng chúng một cách tích cực do lo ngại về rủi ro tài chính liên quan đến đổi mới công nghệ.
Mục tiêu đề tài
- Nghiên cứu cơ sở lý thuyết xử lý ảnh 3D
- Xây dựng mô hình phần cứng của hệ thống gương tương tác thông minh
- Thu thập và xử lý dữ liệu ảnh 3D
- Xây dựng phần mềm xử lý ảnh
- Thiết kế giao diện tương tác giữa người và hệ thống.
Giới hạn đề tài
Với mục tiêu thiết kế phòng thử đồ nhỏ gọn, sản phẩm này phù hợp cho các cửa hàng quần áo từ nhỏ đến lớn Nó có khả năng lắp đặt trên nhiều loại màn hình hiển thị khác nhau Nhóm nghiên cứu tập trung vào các nội dung liên quan đến việc tối ưu hóa không gian và tính linh hoạt trong lắp đặt.
- Thu thập hình ảnh dữ liệu 2D và 3D
- Xử lý dữ liệu 3D thu được point cloud cơ thể người hoàn chỉnh
- Nhận diện chuyển động của người
- Tạo giao diện tương tác giữa người dùng và hệ thống.
Kết cấu đề tài
Trong báo cáo luận văn này gồm có sáu chương
Thị trường gương ảo đang ngày càng phát triển, với nhiều ứng dụng thực tiễn trong cuộc sống hiện đại Gương ảo không chỉ mang đến trải nghiệm tương tác thú vị mà còn hỗ trợ người dùng trong việc chăm sóc sắc đẹp và thời trang Sản phẩm "gương tương tác thông minh" hoạt động dựa trên công nghệ tiên tiến, cho phép người dùng xem hình ảnh phản chiếu kết hợp với thông tin bổ ích, giúp nâng cao trải nghiệm sử dụng.
Chương 2: Cơ sở lý thuyết
Tìm hiểu về các loại gương tương tác trên thị trường và so sánh các sản phẩm nổi bật Bài viết sẽ trình bày các khái niệm cơ bản liên quan đến xử lý ảnh, cùng với các thuật toán được áp dụng để phát triển hệ thống xử lý hình ảnh 3D cho gương tương tác thông minh.
Chương 3: Xây dựng phần cứng
Thiết kế hệ thống phòng thay đồ nhỏ với gương tương tác không chỉ mang lại trải nghiệm thú vị cho người dùng mà còn cần xem xét các module cần thiết và tác động của môi trường đến chất lượng hình ảnh của máy ảnh.
Chương 4: Xử lý dữ liệu
Để xây dựng phần mềm xử lý dữ liệu từ máy ảnh, cần áp dụng các thuật toán đã nghiên cứu Các phương pháp xử lý dữ liệu này bao gồm việc phân tích hình ảnh, nhận diện đối tượng và tối ưu hóa dữ liệu thu được Việc ứng dụng những thuật toán này giúp cải thiện hiệu suất và độ chính xác trong việc xử lý hình ảnh, từ đó tạo ra những sản phẩm phần mềm chất lượng cao.
Chương 5: Tạo giao diện người dùng
Khám phá trang web và thiết kế giao diện tương tác giữa người và gương, giúp người dùng nhận diện sự thay đổi trong chuyển động cơ thể Điều này cung cấp cho người dùng cái nhìn sâu sắc hơn về nguyên lý hoạt động của hệ thống.
Chương 6: Kết quả, nhận xét và hướng phát triển Đánh giá kết quả thu được và đưa ra hướng phát triển cho gương trong lĩnh vực thời trang và có thể tiến xa hơn trong các lĩnh vực công nghiệp khác.
CƠ SỞ LÝ THUYẾT
Thực tế ảo
Thực tế ảo (VR) là trải nghiệm mô phỏng có thể tương đồng hoặc hoàn toàn khác biệt với thế giới thực, với ứng dụng trong giải trí như chơi game và giáo dục như đào tạo y tế hoặc quân sự Ngoài VR, còn có các công nghệ khác như thực tế tăng cường và thực tế hỗn hợp Hiện nay, các hệ thống VR tiêu chuẩn sử dụng tai nghe và môi trường nhiều dự án để tạo ra hình ảnh, âm thanh và cảm giác, giúp người dùng cảm nhận sự hiện diện vật lý trong môi trường ảo.
Người sử dụng thiết bị thực tế ảo có khả năng khám phá và tương tác với thế giới ảo thông qua việc nhìn xung quanh và di chuyển trong không gian ảo Hiệu ứng thực tế ảo thường được tạo ra nhờ vào tai nghe VR với màn hình gắn trên đầu, nhưng cũng có thể sử dụng các phòng đặc biệt với nhiều màn hình lớn Thực tế ảo không chỉ kết hợp phản hồi thính giác và hình ảnh mà còn có thể cung cấp các loại phản hồi cảm giác và lực thông qua công nghệ haptic.
Một ứng dụng nổi bật của thực tế ảo là thực tế ảo dựa trên mô phỏng, như trình mô phỏng lái xe, giúp người lái cảm nhận như đang điều khiển một chiếc xe thật thông qua việc dự đoán chuyển động và cung cấp tín hiệu hình ảnh, âm thanh tương ứng Thực tế ảo dựa trên hình ảnh đại diện cho phép người dùng tham gia vào môi trường ảo dưới dạng video thực hoặc hình đại diện Người dùng có thể lựa chọn hình thức tham gia phù hợp với khả năng của hệ thống, từ đó tạo ra trải nghiệm 3D phân tán đa dạng và phong phú.
Hệ thống gương tương tác thông minh
Gương tương tác là sản phẩm mới nổi bật, tích hợp hệ thống thông minh cho phép người dùng tương tác trực tiếp với gương một cách dễ dàng và tiện lợi.
Sản phẩm gương tương tác đang trong quá trình nghiên cứu và phát triển để thương mại hóa Trên thị trường hiện nay, đã có nhiều dòng gương thông minh xuất hiện, cho phép người dùng tương tác trực tiếp thông qua các thiết bị điện tử khác.
Gương tương tác Prestop là sản phẩm nổi bật trên thị trường, được trang bị màn hình cảm ứng PCAP và camera RGB kết hợp với bộ nhận dạng FRID, giúp nhận diện đối tượng dễ dàng Tuy nhiên, gương này dễ bị ảnh hưởng bởi sóng vô tuyến trong môi trường nhiều kim loại, dẫn đến việc nhận dạng sai hoặc không nhận diện được người dùng Bên cạnh đó, việc sử dụng camera 2D trong xử lý hình ảnh khiến gương không thể đo kích thước cơ thể, chỉ hỗ trợ người dùng trong việc chọn lựa mẫu mã sản phẩm mà không thể tính toán kích thước phù hợp.
Hình 2-1 Interactive Mirror của Prestop
Gương tương tác Magic Mirror của H&M, được phát triển qua sự hợp tác với Ombori, Microsoft và Visual Art, là một sản phẩm nổi bật trong dòng sản phẩm này Gương này được trang bị một camera độ sâu ở phía trên, mang đến trải nghiệm tương tác độc đáo cho người dùng.
Microsoft Azure cung cấp 8 phần mềm trợ lý giọng nói, được hỗ trợ bởi công nghệ trí tuệ nhân tạo (AI), cho phép người dùng tương tác và truy cập tất cả các tính năng chỉ bằng giọng nói Tuy nhiên, để sử dụng hiệu quả, Magic Mirror cần một môi trường yên tĩnh, không có tiếng ồn.
Hầu hết các hệ thống gương tương tác hiện nay sử dụng một camera với tín hiệu đầu vào duy nhất, tối ưu hóa tốc độ thu thập dữ liệu Tùy vào tính năng sản phẩm, camera độ sâu hoặc RGB được áp dụng, nhưng công nghệ xử lý ảnh luôn được tận dụng để tạo ra hình ảnh có độ chính xác cao Việc xử lý hình ảnh 2D hay 3D dựa trên dữ liệu đầu vào từ camera RGB hoặc độ sâu.
Xử lý ảnh 2D
Ảnh 2D (Hai chiều) thường xuất hiện trên các thiết bị quang học như máy ảnh, kính thiên văn và kính hiển vi Ngoài ra, ảnh 2D cũng có thể được quan sát qua sự phản chiếu của vật thể trên mặt nước.
2.3.1 Khái niệm ảnh 2D Ảnh 2D được hiểu là hình ảnh thể hiện không gian theo chiều ngang (dạng trục x trên trục tọa độ) và chiều cao (đứng - dạng trục y trên trục tọa độ) Hình ảnh 2D về cơ bản gồm có các phần tử nhỏ nhất được gọi điểm ảnh (pixel) được sắp xếp gần với nhau trong không gian 2D để hiển thị đối tượng hình ảnh Mỗi điểm ảnh sẽ có một giá trị (x,y) và giá trị độ xám (nếu là ảnh xám) hoặc các giá trị màu sắc (nếu là ảnh màu)
Trong hệ thống màu RGB, một màu được cấu thành từ ba thành phần chính là đỏ, lục và lam Các giá trị khác nhau của ba thành phần này kết hợp lại để tạo ra màu sắc cho từng điểm ảnh, giúp hình ảnh hiển thị gần giống với màu sắc thực tế của đối tượng.
2.3.2 Đặc điểm ảnh 2D Ảnh 2D có nền tảng phát triển từ rất lâu, với lợi thế là lượng dữ liệu ảnh không lớn nên chỉ cần bộ xử lý với tốc độ vừa phải, nên công nghệ ảnh 2D vẫn còn được sử dụng rộng rãi cho đến ngày nay
Chất lượng ảnh 2D dễ bị ảnh hưởng bởi môi trường, đặc biệt là ánh sáng vào cảm biến máy ảnh, như ánh sáng quá mạnh hoặc quá yếu, cũng như sự cản trở của hơi nước Ngoài ra, việc xác định kích thước, khoảng cách và vị trí của vật thể trong không gian cũng gặp khó khăn với ảnh 2D Để khắc phục những nhược điểm này và tạo ra hình ảnh chân thực hơn, công nghệ ảnh 3D đã được phát triển.
2.3.3 Tỷ lệ cơ thể người và khung xương
Hệ thống xương không chỉ tạo hình dáng cho cơ thể mà còn nâng đỡ trọng lượng và bảo vệ các cơ quan quan trọng Nếu thiếu xương, cơ thể sẽ trở nên yếu ớt và không có sự ổn định, giống như một bộ giấy không có khung cứng.
Khớp xương là cấu trúc phức tạp, đóng vai trò quan trọng trong việc nâng đỡ và hỗ trợ chuyển động linh hoạt của con người Chúng kết nối các xương trong cơ thể, tạo thành một hệ thống xương tổng thể, giúp thực hiện các chuyển động đa dạng.
Hình 2-4 Khớp xương của người
Tỷ lệ cơ thể đại diện cho hình dạng cơ thể thẳng đứng của bạn, bao gồm các số đo từ đầu đến chân Khi nhắc đến tỷ lệ cơ thể, chúng ta đang đề cập đến các kích thước cụ thể của cơ thể bạn.
Hình 2-5 Tỷ lệ cơ bản của con người
Trong thời kỳ Phục hưng, phép đo chiều cao lý tưởng của nam giới được xác định là bằng 8 phần đầu, nhằm lý tưởng hóa hình dáng con người Mặc dù rất ít người đạt được chiều cao này, ngay cả ở người Bắc Âu, họ chỉ gần đạt chiều cao 7 đầu, nhưng đây vẫn là hình mẫu lý tưởng để sử dụng, vì nó dễ dàng cho việc căn chỉnh Cơ thể được phân chia thành các số đo bằng nhau để tạo ra sự hài hòa trong tỷ lệ.
- Từ cằm đến giữa ngực
- Giữa ngực đến thắt lưng
- Thắt lưng đến xương chậu
- Xương chậu đến giữa đùi
- Giữa đùi đến đầu gối
- Đầu gối đến giữa bắp chân
- Giữa bắp chân đến bàn chân.
Hình 2-6 Tỷ lệ cơ thể con người so với chiều cao của đầu
Hiện nay, có nhiều phương pháp mô hình hóa cơ thể người tiêu chuẩn đang được nghiên cứu và áp dụng Trong đó, phương pháp quan sát bằng mắt thường sử dụng các điểm đánh dấu (marker) gắn vào đối tượng, trong khi phương pháp tự động không cần sử dụng dấu (markerless) đang ngày càng trở nên phổ biến.
Phương pháp đánh dấu hồng ngoại đã được áp dụng lâu dài trong các hệ thống motion capture, điển hình là hệ thống OptiTrack Công nghệ này giúp phát hiện và phân tích chuyển động của cơ thể, đóng vai trò quan trọng trong các kỹ thuật biểu diễn.
Trong hệ thống motion capture, có hai loại marker: passive và active Marker passive phản xạ tia hồng ngoại từ nguồn cố định gắn trên máy ảnh, trong khi marker active là nguồn phát trực tiếp Máy ảnh ghi lại hồng ngoại từ các marker và sử dụng thuật toán để xác định và giám sát vị trí của các đối tượng Đối với camera trong phạm vi ánh sáng nhìn thấy, có thể sử dụng marker được cấu hình đặc biệt để dễ dàng phân biệt và định vị các đối tượng cần theo dõi Phương pháp này thường được áp dụng để giám sát và lập bản đồ cho các robot tự động.
Hệ thống này đạt độ chính xác cao trong việc mô hình hóa chuyển động của con người, nhưng yêu cầu xử lý phức tạp và chi phí cao do cần các công cụ hỗ trợ Việc dán marker lên đối tượng có thể gây khó chịu, đặc biệt khi đối tượng cần sự linh hoạt Hơn nữa, việc gắn marker lên cơ thể và mô hình hóa chuyển động là không khả thi trong thực tế, chỉ phù hợp với các nghiên cứu thử nghiệm Vì vậy, nghiên cứu và phát triển phương pháp tự động không cần marker đang được chú trọng.
Phương pháp theo dõi không đánh dấu (markerless tracking) sử dụng mô hình 3D đã biết của đối tượng để khớp với hình ảnh 2D thu được, thường áp dụng với máy ảnh độ sâu như Kinect và Intel Realsense Công nghệ này cho phép chụp hình dạng 3D trực tiếp của đối tượng thông qua lập bản đồ 3D, đồng thời phân tích đối tượng riêng biệt với môi trường xung quanh Mặc dù markerless tracking mang lại lợi ích về chi phí và tính tiện lợi cho người dùng, nhưng thuật toán tính toán và căn chỉnh lại rất phức tạp Hiện tại, độ chính xác của phương pháp này vẫn chưa đạt được như phương pháp theo dõi bằng marker trong thời gian thực, đặc biệt khi theo dõi nhiều đối tượng cùng lúc.
Phương pháp markerless tracking mang lại nhiều ưu điểm, và trong phần này, chúng tôi sẽ giới thiệu một phương pháp tự động mô hình hóa cơ thể người sử dụng thuật toán "Openpos" - Skeleton Tracking SDK của Cubemos.
Xử lý ảnh 3D
Thuật ngữ 3D (Three Dimensional) ngày càng trở nên phổ biến, nhưng nhiều người vẫn thắc mắc 3D là gì và tại sao lại có hình ảnh 3D 3D đề cập đến không gian ba chiều, trong đó các vật thể được đặc trưng bởi ba thông số: chiều rộng, chiều cao và chiều sâu Con người sống trong không gian vật chất và thông qua thị giác, chúng ta nhận thức các vật thể xung quanh dưới dạng hình khối, tức là hình ảnh 3 chiều - 3D.
Khác với ảnh 2D, ảnh không gian 3D không chỉ là tập hợp các điểm ảnh màu mà còn chứa thông tin về độ sâu của từng điểm trong không gian ba chiều, tạo thành đám mây điểm (point cloud) Nhờ vào đó, chúng ta có thể thu thập các thông tin mà hình ảnh 2D không thể cung cấp, bao gồm khoảng cách, kích thước, hình dạng, biên dạng và vị trí của đối tượng Ảnh độ sâu có thể được thu thập từ các thiết bị như máy quét 3D và camera 3D.
Máy ảnh 3D ra đời đã khắc phục những hạn chế của camera 2D và mang lại nhiều ưu điểm vượt trội so với các loại máy ảnh trước đây Với khả năng ít bị ảnh hưởng bởi môi trường xung quanh, máy ảnh 3D cho phép tạo ra hình ảnh 3D có thể xây dựng đám mây điểm (Point Cloud) trong không gian ba chiều.
Vật thể 3D được hình thành từ các giọt nhỏ, tinh thể, nước hoặc hóa chất, tương tự như đám mây điểm, là tập hợp lớn các điểm dữ liệu nhỏ trong không gian ba chiều Các đám mây điểm do máy ảnh 3D ghi lại chính là một tập hợp chính xác, tương tự như việc xây dựng một đối tượng hoặc không gian.
Dữ liệu được lưu trữ dưới dạng hàng triệu điểm, bao gồm cả bề mặt của một đối tượng Đám mây điểm này không chỉ thể hiện hình dạng mà còn xác định chính xác vị trí của đối tượng so với máy ảnh.
Mặc dù camera 3D có nhiều ưu điểm, nhưng vẫn gặp khó khăn trong môi trường khắc nghiệt, chẳng hạn như khi có ánh sáng quá mạnh chiếu trực tiếp vào camera hoặc khi có các vật thể trong suốt và gương gây nhiễu tín hiệu Ánh sáng hồng ngoại xung quanh, như ánh sáng mặt trời, có thể làm quá mức công suất của máy chiếu hồng ngoại Trong trường hợp này, việc sử dụng bộ lọc chặn khả kiến chỉ hiệu quả trong phạm vi gần, nơi mà máy chiếu phát sáng mạnh hơn ánh sáng hồng ngoại xung quanh.
Chúng ta có thể cải thiện hiệu suất của camera 3D bằng cách tạo ra môi trường và điều kiện ánh sáng thích hợp, giúp máy ảnh hoạt động tối ưu hơn.
Tạo ra một môi trường phòng kín đặc biệt giúp thu được ảnh 3D chất lượng cao, từ đó tạo ra đám mây điểm và tính toán kích thước, thể tích gần giống với số thực tế Khai thác ưu điểm của camera 3D trong điều kiện môi trường phù hợp cho phép xác định chính xác kích thước cơ thể người, giúp đưa ra lựa chọn phù hợp với từng chỉ số đo Đồ án môn học hệ thống cơ điện tử đã thu thập thông số nội của camera, lấy ảnh độ sâu, vẽ đám mây điểm, khử nhiễu và tạo bề mặt lưới từ các điểm ảnh đã được lọc.
Công nghệ 3D hoạt động dựa trên nguyên lý tạo ra hình ảnh ba chiều từ hai mắt, với cảm nhận về chiều sâu của vật thể phụ thuộc vào góc nhìn của người quan sát Khi hai hình ảnh của một vật được đặt cạnh nhau, nếu mắt trái nhìn vào ảnh bên phải và mắt phải nhìn vào ảnh bên trái, người xem sẽ cảm nhận vật thể như đang nổi lên khỏi khung hình Ngược lại, nếu cách nhìn bị đảo ngược, vật thể sẽ có cảm giác "lõm" xuống.
Bằng cách áp dụng nguyên lý chập ảnh từ hai góc nhìn khác nhau, tương tự như hoạt động của hai con mắt, người ta đã phát triển camera 3D Thiết bị này cho phép thu nhận hình ảnh không gian ba chiều một cách thuận tiện và hiệu quả hơn, nhờ vào bộ xử lý trung tâm kết hợp các hình ảnh lại với nhau.
Máy ảnh 3D hoạt động dựa trên nguyên lý tính toán thời gian ánh sáng từ máy ảnh đến vật thể và quay trở lại Để xác định khoảng cách, máy sẽ phát ra tia laser cho từng điểm ảnh Kết quả thu được là một tệp chứa nhiều giá trị, được sắp xếp thành mảng với các kích thước khác nhau như 640x480, 840x480 hoặc 1280x720, tương ứng với các độ phân giải của ảnh 3D được lưu trữ.
2.4.4 Mục đích sử dụng ảnh 3D trong đồ án này
Gương là một vật thể có bề mặt phản xạ tốt, cho phép tạo ra hình ảnh rõ nét Hình thái sơ khai của gương có thể là mặt hồ nước yên tĩnh hoặc mặt đá bóng nhoáng Khi nhìn vào gương, người dùng sẽ thấy ảnh 2D nhưng có cảm giác không gian chiều sâu (3D) giống như khi quan sát vật thể ngoài thực tế.
Mục tiêu thiết kế gương tích hợp công nghệ xử lý ảnh là mô phỏng hình dáng cơ thể một cách chân thực và gần gũi với người dùng Để đạt được điều này, cần áp dụng công nghệ hình ảnh 3D kết hợp với thuật toán xử lý hiệu quả trong thời gian thực Việc sử dụng ảnh độ sâu và point-cloud sẽ hỗ trợ tối ưu cho quá trình này.
Ảnh độ sâu (depth image) là hình ảnh được lưu trữ dưới dạng mảng hai chiều, với giá trị thể hiện khoảng cách của từng điểm ảnh từ hệ tọa độ của cảm biến camera Khoảng cách này được đo bằng nguyên lý time-of-flight (ToF), tức là thời gian mà một vật thể, hạt hoặc sóng di chuyển qua môi trường Khi cảm biến máy ảnh được hiệu chỉnh đúng cách, các điểm ảnh sẽ cung cấp giá trị trực tiếp theo đơn vị vật lý, chẳng hạn như mét.
Mô hình đám mây điểm (point-cloud) là tập hợp các điểm dữ liệu trong không gian
Kỹ thuật số 3 chiều thể hiện hình dạng 3D hoặc đối tượng thông qua đám mây điểm, được lưu trữ dưới dạng mảng với n hàng và 3 cột tương ứng với tọa độ x, y, z trong không gian Đám mây điểm thường được tạo ra từ máy quét 3D hoặc phần mềm đo quang, đo nhiều điểm trên bề mặt bên ngoài của các vật thể xung quanh Ngoài ra, tọa độ của từng điểm cũng có thể được tính từ hình ảnh độ sâu khi đã có các thông số nội của camera (intrinsic).
𝑓 𝑥 , 𝑓 𝑦 , 𝑐 𝑥 ,𝑐 𝑦 là các thông số nội của camera được lấy từ quá trình calib
𝑓 𝑥 - tiêu cự theo phương x được tính bằng công thức:
𝑓 𝑥 = 𝑓 𝑠 𝑥 (𝑝𝑖𝑥𝑒𝑙) với 𝑓 là tiêu cự (mm)
𝑠 𝑥 là số pixel trên 1 mm theo phương x (𝑝𝑖𝑥𝑒𝑙 𝑚𝑚⁄ )
𝑓 𝑦 - tiêu cự theo phương y được tính bằng công thức:
𝑓 𝑥 = 𝑓 𝑠 𝑦 (𝑝𝑖𝑥𝑒𝑙) với 𝑓 là tiêu cự (mm)
𝑠 𝑦 là số pixel trên 1 mm theo phương y (𝑝𝑖𝑥𝑒𝑙 𝑚𝑚⁄ ) cx: tọa độ tâm ảnh theo phương x cy: tọa độ tâm ảnh theo phương y
Hình 2-11 Ảnh của vật qua camera
2.4.6 Nâng cao chất lượng đám mây điểm [4] a Bộ lọc không gian Edge-Preserving:
Thuật toán Machine Learning ( Support Vector Machines)
Machine Learning, một nhánh của Khoa Học Máy Tính, cho phép máy tính tự học hỏi từ dữ liệu mà không cần lập trình cụ thể.
SVM (Support Vector Machine) là thuật toán phân loại học máy có giám sát, được giới thiệu lần đầu vào năm 1960 và cải tiến vào năm 1990 Thuật toán này nổi bật với thủ thuật hạt nhân, cho phép xử lý các không gian đầu vào phi tuyến tính SVM có nhiều ứng dụng thực tiễn như nhận diện khuôn mặt, phát hiện xâm nhập, phân loại email, bài báo, trang web, phân loại gen và nhận dạng chữ viết tay Ngoài ra, SVM còn có thể được sử dụng để phát hiện cơ thể người và các chuyển động tương tác giữa người dùng và gương Trong đồ án này, chúng tôi sẽ sử dụng thư viện scikit-learn trong Python.
SVM là một tập hợp các phương pháp học có giám sát được sử dụng để phân loại, hồi quy và phát hiện ngoại lệ Ưu điểm của SVM:
- Hiệu quả trong không gian chiều cao
- Vẫn có hiệu quả trong trường hợp số thứ nguyên lớn hơn số lượng mẫu
Sử dụng vectơ hỗ trợ, một tập hợp con của các điểm huấn luyện trong hàm quyết định, giúp tối ưu hóa hiệu suất và tiết kiệm bộ nhớ.
Các chức năng Kernel đa năng cho phép người dùng chỉ định các chức năng quyết định khác nhau Mặc dù có sẵn các kernel chung, người dùng cũng có khả năng tùy chỉnh và chỉ định các kernel theo nhu cầu riêng của mình.
Nhược điểm của SVM bao gồm:
Khi số lượng tính năng vượt quá đáng kể so với số lượng mẫu, cần tránh tình trạng quá phù hợp bằng cách lựa chọn hàm Kernel một cách cẩn thận và xác định giới hạn chính quy hóa hợp lý.
- SVM không trực tiếp cung cấp các ước lượng xác suất, những ước lượng này được tính toán bằng cách sử dụng xác thực năm lần chéo
SVM (Support Vector Machine) là một phương pháp học máy xây dựng siêu phẳng trong không gian đa chiều để phân tách các lớp khác nhau Phương pháp này tối ưu hóa siêu phẳng thông qua các bước lặp lại nhằm giảm thiểu lỗi phân loại Ý tưởng chính của SVM là xác định siêu phẳng biên tối đa, giúp phân chia hiệu quả nhất tập dữ liệu thành các lớp.
2.5.2 SVM hoạt động như thế nào?
Mục tiêu chính của SVM là tách biệt tập dữ liệu một cách tối ưu bằng cách xác định siêu phẳng với biên lớn nhất giữa các vectơ hỗ trợ Khoảng cách giữa hai điểm gần nhất được gọi là biên, và SVM tìm kiếm siêu phẳng tối đa hóa biên này thông qua một quy trình từng bước.
Để phân tách các lớp một cách hiệu quả, cần tạo ra những mặt phẳng phù hợp Hình minh họa cho thấy ba mặt phẳng với các màu sắc khác nhau: đen, xanh lam và cam Trong đó, mặt phẳng màu đen phân tách hai lớp một cách chính xác, trong khi hai mặt phẳng màu xanh lam và cam có sai số phân loại cao hơn.
Hình 2-19 Các mặt phẳng phân tách
- Chọn mặt phẳng với sự phân tách tối đa từ một trong hai điểm dữ liệu gần nhất
Hình 2-20 Mặt phẳng phân tách tốt nhất
Thuật toán SVM (Support Vector Machine) hoạt động hiệu quả nhờ vào việc sử dụng kernel, giúp biến đổi không gian dữ liệu đầu vào thành dạng bắt buộc Kỹ thuật "kernel trick" cho phép SVM nhận một không gian đầu vào có chiều thấp và chuyển đổi nó thành không gian có chiều cao hơn, từ đó biến các vấn đề không thể tách rời thành các vấn đề có thể tách rời bằng cách tăng số chiều Kỹ thuật này đặc biệt hữu ích trong các bài toán phân tách phi tuyến tính, giúp xây dựng bộ phân loại chính xác hơn.
Kernel tuyến tính là một loại kernel có thể được sử dụng như tích vô hướng giữa hai quan sát nhất định Tích giữa hai vectơ được tính bằng cách tổng hợp các phép nhân của từng cặp giá trị đầu vào.
- Polynomial Kernel: là một dạng tổng quát hơn của kernel tuyến tính Nhân đa thức có thể phân biệt không gian đầu vào là cong hoặc phi tuyến
Trong đó d là bậc của đa thức d = 1 tương tự như phép biến đổi tuyến tính Mức độ cần được chỉ định thủ công trong thuật toán
Hàm kernel Radial Basis Function (RBF) là một trong những hàm kernel phổ biến, thường được áp dụng trong phân loại bằng máy Support Vector Machine RBF có khả năng ánh xạ không gian đầu vào vào một không gian với chiều vô hạn.
Giá trị tham số 𝛾 nằm trong khoảng từ 0 đến 1, với giá trị cao hơn sẽ dẫn đến việc phù hợp hoàn toàn với tập dữ liệu đào tạo, gây ra hiện tượng quá khớp.
𝛾 = 0,1 được coi là một giá trị mặc định tốt Giá trị 𝛾 cần được chỉ định thủ công trong thuật toán học
XÂY DỰNG PHẦN CỨNG
Không gian tương tác
Theo khảo sát của Tổng cục Thống kê và Viện Dinh dưỡng quốc gia năm 2019-2020, chiều cao trung bình của nam thanh niên Việt Nam là 168,1 cm, trong khi nữ giới đạt 156,2 cm, với chiều cao nam được lấy làm chuẩn.
- Sử dụng màn hình 75 inch, chiều ngang 167cm, chiều cao 104cm
- Góc nhìn của mắt người rộng khoảng 130 o là vùng giao nhau của hình ảnh hai mắt thấy được
- Qua thực nghiệm, khoảng cách từ màn hình đến vị trí đứng phù hợp để nhìn và tương tác là từ 1,26 đến 2.5 mét
- Trường nhìn ngang của máy ảnh là 87 o , trường nhìn dọc là 58 o độ đối với ảnh độ sâu và cả ảnh màu
Hình 3-1 Trường nhìn của máy ảnh
Lắp đặt màn hình và máy ảnh đảm bảo thu được toàn bộ hình ảnh cơ thể và người dùng có thể nhìn rõ màn hình để tương tác
Chiều cao màn hình được đặt vừa với tầm mắt của người sử dụng như một tấm gương Chọn chiều cao của màn hình là 1,72m
Hình 3-2 Độ cao lắp đặt màn hình
Máy ảnh được cố định trên màn hình nên độ cao của máy ảnh là từ 0,68 đến 1.72 mét Chọn độ cao máy ảnh là 1.2 mét
Để lắp đặt máy ảnh hiệu quả, cần đảm bảo rằng phương ngang của máy ảnh vuông góc với mặt đất, điều này giúp tối ưu hóa không gian chiều cao cho người tương tác Với máy ảnh đặt cao 1,2m từ mặt nền, theo công thức lượng giác, khoảng cách tối thiểu từ máy ảnh đến người tương tác là 1,26m Tại khoảng cách này, chiều cao tối đa của người tương tác mà máy ảnh có thể ghi nhận là 2,4m.
Hình 3-3 Sơ đồ khoảng cách ngắn nhất từ máy ảnh đến vị trí đứng
Sử dụng hai máy ảnh giúp thu thập dữ liệu một cách đầy đủ nhất Theo công thức lượng giác, khoảng cách tối thiểu từ màn hình đến vị trí người tương tác là 0,9m, với góc lắp đặt tối thiểu của máy ảnh so với màn hình là 48,5 độ Tại vị trí này, không gian hoạt động theo phương ngang của người tương tác là 0,63m tính từ vị trí đứng.
Hình 3-4 Sơ đồ khoảng cách ngắn nhất từ màn hình đến vị trí đứng
Theo nghiên cứu thực nghiệm, khoảng cách tối ưu từ màn hình đến người sử dụng để có thể nhìn rõ và tương tác dễ dàng là từ 1,2m đến 3m Đối với không gian hạn chế của phòng thay đồ, khoảng cách lý tưởng giữa màn hình và vị trí đứng của người dùng nên được chọn là 1,5m.
Hình 3-5 Sơ đồ khoảng cách từ màn hình đến vị trí đứng là 1,5m
Theo công thức lượng giác, góc lắp máy ảnh so với màn hình là 60 độ, điều này đảm bảo rằng góc nhìn cần thiết để màn hình nằm trong tầm nhìn của người sử dụng cũng là 60 độ, đáp ứng yêu cầu về tầm nhìn.
Hình 3-6 Kết quả thiết kế
Camera Intel Realsense D455
Máy ảnh đo chiều sâu Intel Realsense D455 dễ dàng sử dụng ngay sau khi mở hộp và lắp đặt vào các dự án Sản phẩm này cung cấp dữ liệu chiều sâu chính xác cao trong nhiều môi trường khác nhau, cả trong nhà lẫn ngoài trời, và hỗ trợ linh hoạt với nhiều cấu hình máy ảnh.
- Kích thước : 124mmx29mmx26mm
- Độ phân giải độ sâu : 1280x720
- Công nghệ độ sâu : Active Stereoscopic
Công nghệ Intel Realsense giúp phát triển ứng dụng dễ dàng với hỗ trợ cho nhiều hệ điều hành như Windows, Linux, macOS và nhiều nền tảng khác Nó cho phép kết xuất dữ liệu chiều sâu từ máy ảnh và diễn giải dữ liệu trên nền tảng mà người dùng chọn SDK đi kèm cung cấp mã mẫu nguồn mở cho nhiều ngôn ngữ lập trình như Python, Node.js, C# và C/C++ Ngoài ra, Intel Realsense còn tích hợp với các công nghệ bên thứ ba như ROS, Unity, OpenCV, PCL và Matlab, cùng với phần mềm bổ sung để thúc đẩy nhanh tiến độ dự án của người dùng.
Camera Intel RealSense bao gồm ba thành phần chính: ống kính thường, ống kính hồng ngoại và ống kính laser hồng ngoại Sự kết hợp của các ống kính này cho phép camera hoạt động hiệu quả trong việc thu thập thông tin hình ảnh và chiều sâu, mang lại trải nghiệm tốt hơn cho người dùng.
Cảm biến 42 cho phép thiết bị xác định chiều sâu bằng cách phát hiện ánh sáng hồng ngoại phản xạ từ các đối tượng phía trước Dữ liệu này, kết hợp với phần mềm theo dõi chuyển động Intel RealSense, tạo ra giao diện cảm ứng không cần chạm, phản hồi linh hoạt theo chuyển động của tay, cánh tay, đầu và biểu cảm khuôn mặt người dùng, giúp việc tương tác với thiết bị trở nên dễ dàng hơn.
Hình 3-8 Nguyên lí hoạt động camera D455
Máy ảnh Intel Realsense sử dụng công nghệ TOF và được trang bị hai cảm biến độ sâu bên trái và bên phải để nâng cao độ chính xác Dữ liệu từ hai cảm biến này được kết hợp để tạo ra hình ảnh độ sâu chính xác nhất.
Board nhúng
Raspberry Pi là một board nhúng phổ biến với kích thước tương đương thẻ tín dụng, mang đến sự đa năng đáng kinh ngạc Thiết bị này có giá thành rẻ, lý tưởng cho các hệ thống điện tử, các dự án DIY, và thiết lập hệ thống tính toán tiết kiệm cho việc học lập trình.
Mặc dù Pi có nhiều ưu điểm, nhưng không phải là lựa chọn tối ưu cho dự án này Đối với việc xử lý hình ảnh 3D và yêu cầu chạy trong thời gian thực, board nhúng NVIDIA Jetson Nano là sự lựa chọn lý tưởng.
NVIDIA Jetson Nano Developer Kit là một máy tính nhỏ gọn nhưng mạnh mẽ, lý tưởng cho việc chạy song song nhiều mạng nơ-ron Thiết bị này đặc biệt phù hợp cho các ứng dụng phân loại, xử lý hình ảnh và phát hiện đối tượng.
Hình 3-9 NVIDIA Jetson Nano Developer Kit
(1) Khe cắm thẻ nhớ microSD để lưu trữ chính
(3) Cổng micro-USB cho đầu vào nguồn 5V hoặc cho dữ liệu
(8) Giắc cắm DC cho đầu vào nguồn 5V
(9) Đầu nối camera MIPI CSI
Môi trường
Ánh sáng là yếu tố quan trọng nhất ảnh hưởng đến chất lượng và độ tương phản hình ảnh của camera Trong dự án này, chúng tôi chỉ tập trung vào việc thu thập dữ liệu point-cloud, vì vậy điều kiện ánh sáng không cần quá khắt khe, chỉ cần tránh những yếu tố có thể ảnh hưởng đến tín hiệu laser và ánh sáng hồng ngoại Mục tiêu là đơn giản hóa quá trình lắp đặt và tạo điều kiện thuận lợi cho người dùng tương tác.
44 gương, ta có thể dùng ánh sáng tự nhiên ban ngày ở trong phòng hoặc ánh sáng đèn huỳnh quang bình thường
Ngoại cảnh ảnh hưởng đáng kể đến độ chính xác hình ảnh từ camera Qua việc nghiên cứu hạn chế của camera Realsense D435, nhận thấy những nhược điểm này có thể được khắc phục bằng cách tạo ra một môi trường phòng thử đồ.
Không gian làm việc của camera được giới hạn bởi một mặt kín có diện tích khoảng 3x2m và chiều cao hơn 2m Để đảm bảo chất lượng tín hiệu truyền nhận, cần tránh để bất kỳ vật dụng nào trong tầm nhìn của máy ảnh, đặc biệt là các vật dụng phản sáng tốt như gương, vì chúng có thể gây nhiễu cho cảm biến.
Người sử dụng cần lưu ý không tác động vật lý vào gương và camera để bảo đảm vị trí và góc đã được cài đặt chính xác Ngoài ra, việc chiếu tia laser, ánh sáng đèn flash hoặc sử dụng các thiết bị phát sóng mạnh có thể gây nhiễu và ảnh hưởng đến khả năng thu-phát tín hiệu của cảm biến máy ảnh.
Hình 3-10 Ảnh hưởng tia laser và đèn flash tới camera
Môi trường xung quanh quyết định khoảng 50% độ chính xác của dữ liệu đầu vào
Vì vậy, cần chú ý xây dựng thật tốt các yếu tố ngoại cảnh trước khi tiến hành bất cứ các bước thu thập dữ liệu nào