GIỚI THIỆU
Đặt vấn đề
Công nghệ thông tin (CNTT) hiện nay đóng vai trò quan trọng trong việc thúc đẩy phát triển kinh tế quốc gia, với ứng dụng rộng rãi trong nhiều lĩnh vực CNTT là nền tảng cho các nghiên cứu công nghệ cao như khoa học vũ trụ, công nghệ điện tử, tự động hóa và các hệ thống thông minh Sự ra đời của Internet vào những năm 90 đã kết nối thông tin toàn cầu, cho phép người dùng truy cập thông tin từ bất kỳ đâu chỉ với một máy tính có kết nối mạng.
Từ những năm 70 của thế kỷ 20, Việt Nam đã bắt đầu nghiên cứu về máy tính và ứng dụng công nghệ thông tin (CNTT) Hiện nay, CNTT được xác định là lĩnh vực then chốt, không chỉ trong việc hiện đại hóa cơ sở hạ tầng mà còn trong việc ứng dụng rộng rãi vào các lĩnh vực khác của đời sống xã hội.
Nghị quyết số 36-NQ/TW ngày 01/7/2014 của Bộ Chính trị nhấn mạnh tầm quan trọng của việc ứng dụng và phát triển công nghệ thông tin (CNTT) nhằm đáp ứng yêu cầu phát triển bền vững và hội nhập quốc tế Điều này thể hiện sự quan tâm sâu sắc của Đảng đối với công tác CNTT, khẳng định vị trí và vai trò của CNTT trong sự nghiệp xây dựng và bảo vệ đất nước.
Tổ quốc thời kỳ mới là văn bản quan trọng định hướng chiến lược phát triển và ứng dụng CNTT và truyền thông đến năm 2030 Văn bản này tạo tiền đề cho sự phát triển mạnh mẽ và sâu rộng của CNTT Việt Nam, xác định những định hướng lớn cho ngành CNTT trong 10 - 20 năm tới Đến năm 2030, Việt Nam phấn đấu đạt trình độ tiên tiến thế giới về nghiên cứu, ứng dụng, phát triển, sản xuất và cung ứng sản phẩm, dịch vụ CNTT, trở thành quốc gia mạnh về CNTT trong khu vực.
Ngày 27/09/2019, Bộ Chính trị đã ban hành Nghị quyết số 52-NQ/TW nhằm chủ động tham gia vào cuộc Cách mạng công nghiệp lần thứ tư (CMCN 4.0) Quan điểm này nhấn mạnh rằng việc tham gia tích cực vào CMCN 4.0 là yêu cầu khách quan và nhiệm vụ chiến lược quan trọng, vừa cấp bách vừa lâu dài, liên quan đến toàn bộ hệ thống chính trị và xã hội, đồng thời gắn liền với quá trình hội nhập quốc tế sâu rộng Nghị quyết cũng kêu gọi nhận thức đầy đủ về bản chất của CMCN 4.0 để quyết tâm đổi mới tư duy.
15 duy và hành động sẽ là giải pháp đột phá giúp Việt Nam phát triển kinh tế - xã hội Với bước đi và lộ trình phù hợp, đây là cơ hội để đất nước bứt phá mạnh mẽ trong tương lai Mục tiêu đặt ra đến năm
Đến năm 2030, Việt Nam sẽ duy trì vị trí trong nhóm 40 quốc gia hàng đầu về chỉ số Đổi mới sáng tạo toàn cầu (GII) Mạng di động 5G sẽ được phủ sóng toàn quốc, đảm bảo mọi người dân có thể truy cập Internet băng thông rộng với chi phí thấp Kinh tế số sẽ chiếm hơn 30% GDP, trong khi năng suất lao động tăng trung bình khoảng 7,5% mỗi năm Chính phủ số sẽ được hoàn thành, cùng với việc hình thành các chuỗi đô thị thông minh tại các khu vực kinh tế trọng điểm Đến năm 2045, Việt Nam kỳ vọng trở thành trung tâm sản xuất và dịch vụ thông minh, cũng như trung tâm khởi nghiệp và đổi mới sáng tạo hàng đầu khu vực Châu Á, với năng suất lao động cao và khả năng áp dụng công nghệ hiện đại trong tất cả các lĩnh vực kinh tế - xã hội, môi trường, quốc phòng và an ninh.
Cuộc cách mạng công nghiệp lần thứ tư (CMCN 4.0) được coi là cuộc cách mạng thể chế, với sự phát triển mạnh mẽ của công nghệ số tạo ra các mô hình và lực lượng lao động mới Sự bùng nổ này khiến khuôn khổ thể chế truyền thống trở nên không còn phù hợp, và nếu không thay đổi, sẽ kìm hãm sự phát triển của đất nước Để đối phó với thách thức này, vào ngày 04/7/2017, Thủ tướng Chính phủ đã ban hành Chỉ thị số 16/CT-TTg nhằm tăng cường năng lực tiếp cận cuộc cách mạng công nghiệp 4.0.
Bộ Khoa học và Công nghệ vừa ban hành Quyết định số 3685/QĐ-BKHCN, xác định danh mục các công nghệ chủ chốt của công nghiệp 4.0, bao gồm Trí tuệ nhân tạo (Artificial Intelligence), Chuỗi khối (Blockchain), Dữ liệu lớn (Big Data), cùng với Khai phá dữ liệu và Phân tích dữ liệu.
The Fourth Industrial Revolution is profoundly transforming various aspects of economic and social life, driven by technologies such as Artificial Intelligence (AI), the Internet of Things (IoT), and Virtual Reality (VR) Key innovations include Data Mining and Data Analytics, Cloud Computing, Autonomous Robots, Collaborative Robotics, 3D Printing and Additive Manufacturing, Nano Materials, New Material Technology, Synthetic Biology, and the 5th Generation Mobile Network This global economy is undergoing an irreversible shift, highlighting the significant impact of these advancements across multiple sectors.
(AR), mạng xã hội, điện toán đám mây, di động, phân tích dữ liệu lớn (SMAC) để chuyển hóa toàn bộ thế giới thực thành thế giới số
Cách mạng công nghiệp lần thứ 4 đang thay đổi toàn bộ cấu trúc xã hội thông qua việc tích hợp các công nghệ thông minh, xóa bỏ ranh giới công nghệ truyền thống và tối ưu hóa quy trình sản xuất Sự phát triển này mở ra cơ hội cho chính phủ và các vùng miền trong việc thúc đẩy nền kinh tế mở, linh hoạt, nâng cao hiệu quả kinh tế - xã hội và mang lại lợi thế cho những quốc gia biết tận dụng công nghệ mới Các công nghệ như trí tuệ nhân tạo, blockchain, dữ liệu lớn, Internet vạn vật và điện toán đám mây sẽ có tác động sâu rộng đến nhiều lĩnh vực như công nghiệp, nông nghiệp, tài chính ngân hàng, giao thông vận tải, y tế và giáo dục Viễn cảnh các nhà máy thông minh với máy móc kết nối Internet và tự động hóa quy trình sản xuất đang trở nên khả thi, ảnh hưởng trực tiếp đến tổ chức, cá nhân và các địa phương trên toàn quốc.
Theo các nhà nghiên cứu, trí tuệ nhân tạo (AI) được huấn luyện tốt có thể thực hiện nhiều công việc với kỹ năng tương đương con người AI có lợi thế nhờ khả năng học liên tục và tự học mà không cần sự hướng dẫn của con người, giúp phát hiện các mẫu trong dữ liệu phức tạp mà ngay cả các chuyên gia cũng khó nhận ra Đặc biệt, trong các ứng dụng như xử lý hình ảnh, AI đã đạt hoặc vượt qua khả năng của con người Do đó, khi áp dụng vào điều tiết giao thông, AI không chỉ giảm bớt nhân công mà còn nâng cao khả năng xử lý dữ liệu của hệ thống.
Trí tuệ nhân tạo (AI) là một lĩnh vực nghiên cứu quan trọng trong công nghệ thông tin và khoa học máy tính, với mục tiêu phát triển các hệ thống thông minh.
Trí tuệ nhân tạo (AI) đã được nghiên cứu từ những năm 1950 và trong ba thập kỷ qua, lĩnh vực này đã thu hút sự quan tâm mạnh mẽ từ cộng đồng khoa học Các hội thảo lớn về AI được tổ chức hàng năm trên toàn thế giới, chứng tỏ sự phát triển và ứng dụng của nó trong nhiều lĩnh vực Những ứng dụng tiêu biểu của trí tuệ nhân tạo trong đời sống xã hội bao gồm robot, xử lý ngôn ngữ tự nhiên, nhận dạng, phát hiện dị thường, an ninh quốc phòng, tin sinh học, cũng như khoa học vũ trụ và trái đất.
Trong những năm gần đây, lĩnh vực thị giác máy tính (Computer Vision) đã đạt được nhiều thành tựu nổi bật, với các hệ thống xử lý ảnh lớn từ Facebook, Google và Amazon Những công nghệ này đã được tích hợp vào sản phẩm, mang lại các chức năng thông minh như nhận dạng khuôn mặt, phát triển xe hơi tự lái và drone giao hàng tự động.
Tính cấp thiết của đề tài
Theo báo cáo của Liên Hợp Quốc, hiện nay hơn 54,6% dân số thế giới, tương đương 3,6 tỷ người, đang sinh sống tại các đô thị Dự báo đến năm 2050, tỷ lệ dân cư thành thị sẽ vượt quá 70%, với 64,1% ở các nước đang phát triển và 85,9% ở các nước phát triển sẽ sống tại các khu vực đô thị.
Sự gia tăng dân số và đô thị hóa đã đặt ra nhiều thách thức cho các thành phố và quốc gia trong việc đáp ứng nhu cầu ngày càng cao của người dân Những thách thức này bao gồm cơ sở hạ tầng, giao thông, nhà ở, năng lượng, an ninh, y tế, giáo dục, môi trường, ứng phó với biến đổi khí hậu, thiên tai, cũng như các vấn đề liên quan đến truyền thông và giải trí Do đó, phát triển đô thị bền vững trong tương lai là điều cần thiết để giải quyết những vấn đề này.
Việc chuyển đổi từ "đô thị truyền thống" sang "đô thị thông minh" là cần thiết để cải thiện chất lượng đô thị và bảo vệ môi trường Điều này đòi hỏi sự thay đổi trong phương thức điều hành của chính quyền, sự tham gia tích cực của người dân và các bên liên quan Các ứng dụng như chính quyền điện tử, giao thông thông minh, y tế thông minh, giáo dục thông minh, và du lịch thông minh cần được triển khai Đồng thời, việc áp dụng các công nghệ chủ chốt của cuộc cách mạng công nghiệp 4.0 như trí tuệ nhân tạo, blockchain, và Internet vạn vật sẽ góp phần nâng cao hiệu quả quản lý đô thị.
Việc triển khai giao thông thông minh bao gồm ba giai đoạn chính: thu thập dữ liệu, xử lý dữ liệu và phân phối thông tin cho người tham gia giao thông Để đảm bảo hệ thống hoạt động hiệu quả, cần có một trung tâm xử lý để tổng hợp thông tin và điều tiết giao thông Trong giai đoạn đầu, các trung tâm này chủ yếu do con người điều hành, nhưng với sự phát triển của trí tuệ nhân tạo (AI), con người sẽ dần được thay thế trong tương lai.
Hệ thống giao thông thông minh (ITS) đã có nguồn gốc từ những năm 60, 70 của thế kỷ trước tại Mỹ và Châu Âu Hiện nay, mô hình này đã được triển khai thành công tại nhiều thành phố lớn trên toàn cầu.
Hàn Quốc là quốc gia tiên phong tại châu Á trong việc áp dụng công nghệ để phát triển Hệ thống giao thông thông minh Seoul, thủ đô của Hàn Quốc, được đánh giá là thành phố sở hữu hệ thống giao thông thông minh tốt nhất trên thế giới.
Tại Seoul, Hàn Quốc, chính phủ đã triển khai hệ thống giao thông TOPIS, cung cấp thông tin chi tiết về tình trạng giao thông cho người dân Hệ thống này cho phép người dùng theo dõi vị trí chuyến xe buýt, thời gian dự kiến đến bến và số lượng ghế còn trống, giúp cải thiện trải nghiệm di chuyển của họ.
Tại Việt Nam, nhiều địa phương như Hà Nội, Hồ Chí Minh, Đồng Nai, Kiên Giang, Quảng Nam, Đà Nẵng, Thừa Thiên Huế và Quảng Ninh đã triển khai hệ thống camera giám sát giao thông thông minh Hệ thống này nhằm nâng cao năng lực giám sát, kiểm soát và xử lý vi phạm an toàn giao thông, đã mang lại hiệu quả tích cực, giảm thiểu tai nạn giao thông và đảm bảo an ninh trật tự Đồng thời, ý thức tuân thủ pháp luật của người tham gia giao thông cũng được cải thiện rõ rệt.
Tỉnh Bà Rịa – Vũng Tàu, nằm trong vùng Đông Nam Bộ, có diện tích 1.980,98 km² và dân số khoảng 1,3 triệu người, đang hướng tới phát triển đô thị thông minh Đây là xu thế phù hợp với sự phát triển toàn cầu và khả năng tiếp cận của Việt Nam Tỉnh có hệ thống giao thông hiện đại với các tuyến đường bộ quan trọng như Quốc lộ 51, 55 và 56 Quốc lộ 51 kết nối TP Hồ Chí Minh, TP Biên Hòa và TP Vũng Tàu, trong khi Quốc lộ 55 nối TP Bà Rịa với TP Phan Thiết, tạo điều kiện giao thông liên vùng Quốc lộ 56 kết nối Bà Rịa – Vũng Tàu với Tây Nguyên, mở ra lối đi đến Đà Lạt qua TX Long Khánh.
Bà Rịa – Vũng Tàu có rất nhiều tuyến đường tỉnh kết nối đi các huyện, thị xã và thành phố
Đến cuối tháng 9/2020, tỉnh đã ghi nhận 285 vụ tai nạn giao thông, dẫn đến 120 người chết và 213 người bị thương.
Trong tháng qua, đã xảy ra 28 vụ tai nạn giao thông tự gây, làm 31 người chết và 4 người bị thương So với cùng kỳ năm 2018, số vụ tai nạn giao thông giảm 2 vụ, số người chết giảm 6 người và số người bị thương giảm 55 người Mặc dù có sự giảm sút về số vụ tai nạn, số người chết và bị thương, nhưng con số thống kê vẫn ở mức cao và tiềm ẩn nhiều diễn biến phức tạp Nguyên nhân chủ yếu của tình trạng này là do một bộ phận người tham gia giao thông.
Nhiều người vẫn chưa ý thức đầy đủ về việc chấp hành pháp luật giao thông đường bộ, dẫn đến tình trạng vi phạm trật tự - an toàn giao thông (TT-ATGT) vẫn diễn ra phổ biến Các hành vi vi phạm đáng chú ý bao gồm: điều khiển phương tiện không đúng tốc độ quy định, không tuân thủ phần làn/chiều đường, không chấp hành tín hiệu giao thông, sử dụng phương tiện quá khổ - quá tải, và chở quá số lượng người cho phép.
Giao thông là một vấn đề quan trọng tại các đô thị lớn, đặc biệt là ở Việt Nam Trong những năm gần đây, tình trạng tắc đường, kẹt xe, tai nạn và vi phạm Luật giao thông đường bộ đã trở thành vấn đề nghiêm trọng và cấp bách Điều này không chỉ ảnh hưởng đến sự phát triển bền vững về kinh tế, văn hóa, xã hội mà còn tác động đến hình ảnh của Việt Nam trong mắt bạn bè quốc tế.
Mặc dù đã có nhiều nghiên cứu và giải pháp từ các chuyên gia trong và ngoài nước nhằm giảm thiểu tình trạng tắc đường, kẹt xe, tai nạn và vi phạm luật giao thông, nhưng hiệu quả vẫn chưa cao Tình trạng này vẫn diễn ra thường xuyên, đặc biệt là tại các khu đô thị.
Nghiên cứu ứng dụng kỹ thuật máy học trong phân tích hình ảnh và nhận dạng phương tiện vi phạm Luật giao thông đường bộ nhằm phát hiện và xử lý các hành vi vi phạm trật tự an toàn giao thông, góp phần giảm thiểu ùn tắc và tai nạn Đề tài này cũng hỗ trợ công tác tuần tra, kiểm soát an ninh, cung cấp chứng cứ pháp lý qua hình ảnh cho lực lượng chức năng trong điều tra các vụ việc, từ đó đảm bảo an ninh trật tự xã hội Kết quả nghiên cứu dự kiến sẽ được áp dụng thực tế tại tỉnh Bà Rịa – Vũng Tàu sau khi hoàn thành.
MỤC TIÊU, ĐỐI TƯỢNG, PHẠM VI, NỘI DUNG VÀ HƯỚNG NGHIÊN CỨU
Mục tiêu của đề tài
Mục tiêu của nghiên cứu này là ứng dụng kỹ thuật máy học để xây dựng mô hình theo dõi và giám sát tình trạng giao thông đường bộ Mô hình sẽ tự động phát hiện, ghi nhận và phân tích hình ảnh đối tượng cũng như nhận dạng phương tiện vi phạm Luật giao thông đường bộ trong thời gian thực với độ chính xác cao tại các nút giao lộ Qua đó, việc xử phạt sẽ góp phần nâng cao ý thức về an toàn giao thông của người dân và đảm bảo trật tự an toàn xã hội.
Mục tiêu cụ thể của hệ thống là theo dõi và giám sát tình trạng giao thông đường bộ, tự động phát hiện và ghi nhận hình ảnh đối tượng, nhận dạng biển số phương tiện cũng như phân tích các hành vi vi phạm Luật giao thông đường bộ theo thời gian thực tại một nút giao lộ cụ thể.
(1) Chở quá số người quy định khi tham gia giao thông
(2) Không đội mũ bảo hiểm khi điều khiển xe mô tô, xe gắn máy
Hình 1: Mô hình nút giao lộ (ngã tư) triển khai xây dựng mô hình nghiên cứu
Đối tượng
Đối tượng nghiên cứu chủ yếu là các phương tiện tham gia giao thông đường bộ theo quy định của Luật giao thông đường bộ, nhằm phân tích hành vi vi phạm liên quan đến các phương tiện này theo mục tiêu nghiên cứu đã đề ra.
- Thu thập, xây dựng bộ dữ liệu ảnh các phương tiện giao thông đường bộ cho hệ thống giám sát
- Một số mô hình mạng nơ-ron và nơ-ron tích chập đang được sử dụng phổ biến trong lĩnh vực nhận dạng
Kỹ thuật máy học đang được ứng dụng rộng rãi trong lĩnh vực trí tuệ nhân tạo, đặc biệt trong việc phát hiện, ghi nhận và phân vùng đối tượng ảnh Các giải thuật học sâu giúp phân lớp đối tượng quan tâm, tách biệt chúng với các đối tượng ảnh khác, từ đó nâng cao độ chính xác trong việc nhận diện và xử lý hình ảnh.
Phương pháp trích xuất điểm đặc trưng của đối tượng và phương tiện sử dụng mô hình mạng nơ-ron tích chập, áp dụng kỹ thuật phát hiện đối tượng chỉ một lần, mang lại hiệu quả cao trong việc nhận diện và phân loại Kỹ thuật này tối ưu hóa quá trình xử lý hình ảnh, giúp cải thiện độ chính xác và tốc độ phát hiện đối tượng trong các ứng dụng thực tế.
Phạm vi
Xây dựng bộ mẫu dữ liệu nghiên cứu với 500 hình ảnh các phương tiện giao thông, nhằm phát hiện vùng chứa biển số Các hình ảnh này được sử dụng để áp dụng phương pháp hình thái học trong việc nhận diện biển số xe đăng ký tại Việt Nam.
Nghiên cứu kỹ thuật máy học trong trí tuệ nhân tạo tập trung vào việc phát hiện, ghi nhận và phân vùng đối tượng ảnh thông qua các giải thuật học sâu Mục tiêu là phân lớp đối tượng quan tâm, đặc biệt là phát hiện vùng chứa biển số xe và nhận dạng ký tự trong biển số Sử dụng mô hình mạng nơ-ron tích chập, công nghệ này hỗ trợ nhận dạng biển số xe vi phạm Luật giao thông đường bộ.
Nội dung nghiên cứu
Nghiên cứu này tập trung vào việc phát triển hệ thống phát hiện, ghi nhận và phân vùng đối tượng trong ảnh bằng cách sử dụng các bộ thư viện đã được cài đặt cho mô hình và thuật toán học sâu (deep learning).
Sử dụng mô hình mạng nơ-ron tích chập (CNNs) để phân tích lớp ảnh, hệ thống tự động nhận dạng phương tiện và các hành vi vi phạm Luật giao thông đường bộ sẽ được xây dựng nhằm cung cấp khả năng giám sát theo thời gian thực.
- Huấn luyện và xây dựng nhận dạng đối tượng về các hành vi vi phạm Luật giao thông đường bộ
Hệ thống kỹ thuật máy học trong lĩnh vực trí tuệ nhân tạo (AI) đóng vai trò quan trọng trong việc phát hiện, ghi nhận và phân vùng đối tượng ảnh Sử dụng các giải thuật học sâu (deep learning), hệ thống này cho phép phân lớp đối tượng quan tâm một cách hiệu quả, tách biệt chúng với các đối tượng ảnh còn lại.
Hệ thống mô hình giải thuật mạng nơ-ron và mạng nơ-ron tích chập đóng vai trò quan trọng trong phát hiện đối tượng chỉ với một lần nhìn Bài viết này sẽ cung cấp cái nhìn tổng quan về cách thức hoạt động của các mô hình này, cũng như ứng dụng của chúng trong việc nhận diện và phân loại đối tượng một cách hiệu quả Việc hiểu rõ các thuật toán và cấu trúc của mạng nơ-ron sẽ giúp nâng cao khả năng phát hiện đối tượng trong nhiều lĩnh vực khác nhau.
- Nghiên cứu tổng quan về phướng pháp, cách thức nhận dạng đối tượng, phương tiện tham gia giao thông thông qua biển số xe trong đề tài nghiên cứu
Nghiên cứu tập trung vào việc áp dụng các kỹ thuật đã được tìm hiểu nhằm tự động phát hiện và nhận dạng các phương tiện tham gia giao thông, cũng như các hành vi vi phạm Luật giao thông đường bộ.
- Tiến hành khảo sát lựa chọn địa điểm xây dựng mô hình nghiên cứu triển khai thử nghiệm
- Thiết kế mô hình và lựa chọn thiết bị trang thiết bị, giải pháp thi công lắp đặt cho hệ thống
Xây dựng ứng dụng phần mềm điều khiển hệ thống thông minh kết hợp quản lý và in ấn bằng chứng hình ảnh vi phạm trên nền tảng website.
Ứng dụng trí tuệ nhân tạo (AI) giúp tự động học và nhận diện các lỗi vi phạm giao thông từ dữ liệu vi phạm ban đầu, đồng thời nâng cao độ chính xác trong việc nhận dạng các lỗi vi phạm dựa trên dữ liệu trước đó.
- Xây dựng quy trình vận hành khai thác, xây dựng các kịch bản nhằm tổ chức triển khai thu thập bộ dữ liệu mẫu tại mô hình thực tế
Xây dựng một cơ sở dữ liệu điện toán đám mây mạnh mẽ có khả năng lưu trữ khối lượng lớn hình ảnh chứng minh vi phạm và thông tin chi tiết về các phương tiện tham gia giao thông vi phạm.
- Nghiên cứu thực hiện thông qua các hình ảnh thực nhằm xác định, đánh giá kết quả cuối cùng và đưa ra các dự báo.
Phương pháp luận và phương pháp nghiên cứu
Để xây dựng hệ thống tự động phát hiện, ghi nhận và phân tích hình ảnh đối tượng cũng như nhận dạng phương tiện và các hành vi vi phạm Luật giao thông đường bộ theo thời gian thực, nghiên cứu đề xuất thực hiện theo hai bước cụ thể.
Bước đầu tiên trong quy trình huấn luyện là sử dụng bộ dữ liệu từ các kịch bản và diễn tập để thu thập hình ảnh của đối tượng động Những hình ảnh này được lấy từ hệ thống camera lắp sẵn và sau đó được đưa vào quá trình huấn luyện và thử nghiệm nhằm phát triển mô hình nhận dạng và đánh giá kết quả.
Bước 2 - Thử nghiệm: Áp dụng mô hình đã được huấn luyện để phân loại đối tượng trên dữ liệu mới thông qua hình ảnh giao thông và tiến hành đánh giá kết quả đạt được.
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
Những hướng nghiên cứu đã được thực hiện
Nghiên cứu này nhằm xây dựng một hệ thống giám sát ngã tư thông minh tại giao lộ giữa đường Huỳnh Minh Thạnh và 27/4, thuộc thị trấn Phước Bửu, huyện Xuyên Mộc, tỉnh Bà Rịa - Vũng Tàu Hệ thống này sẽ giúp nâng cao hiệu quả quản lý giao thông và đảm bảo an toàn cho người tham gia giao thông tại khu vực này.
Dự án sản xuất thử nghiệm cấp tỉnh tại Bà Rịa – Vũng Tàu, do UBND tỉnh giao cho Trung tâm Ứng dụng tiến bộ khoa học và công nghệ thực hiện, nhằm ứng dụng công nghệ vi xử lý AVR Atmel 8-bit hoặc ARM Atmel 32-bit thông qua mạch Arduino Hệ thống sẽ lắp đặt tại các giao lộ, tiếp nhận thông tin từ camera và cảm biến laser để nhận diện hành vi vi phạm giao thông Dữ liệu sẽ được lưu trữ trên nền tảng điện toán đám mây qua sóng 3G, cho phép xây dựng kịch bản tự động điều khiển và xử lý thông tin từ các thiết bị thông qua phần mềm ứng dụng.
Hệ thống nhận dạng biển số xe sử dụng bộ thư viện OpenCV, được phát triển bởi Intel và Itseez trong hơn 20 năm, cung cấp hơn 2.500 thuật toán nhận dạng khác nhau, ứng dụng công nghệ máy học (machine learning).
Hình 2: Sơ đồ nhận dạng biển số xe
Hệ thống nhận dạng người tham gia giao thông sử dụng IOT Core và Azure để xác định số lượng người tham gia giao thông tại một thời điểm cụ thể Hệ thống này không chỉ xác định số lượng người trên mỗi phương tiện xe máy mà còn phân tích đặc điểm và hành vi của họ, từ đó kiểm tra việc tuân thủ luật giao thông.
Hình 3: Nhận dạng khuôn mặt người trong ảnh
Cần thiết phải áp dụng công nghệ giám sát hành vi giao thông để phát hiện và phân vùng đối tượng ảnh, sử dụng các thuật toán học sâu Đặc biệt, mô hình mạng nơ-ron tích chập theo phương pháp YOLO (You Only Look Once) sẽ giúp phân lớp đối tượng quan tâm với các đối tượng ảnh khác, nâng cao hiệu quả giám sát.
Phân tích đối tượng qua công nghệ Object Detection là cần thiết để xây dựng hệ thống tự động nhận dạng phương tiện và các hành vi vi phạm Luật giao thông đường bộ theo thời gian thực Việc áp dụng công nghệ mới, tiên tiến này không chỉ đáp ứng nhu cầu cấp bách mà còn phù hợp với xu hướng hiện đại trong lĩnh vực giao thông.
Những kết quả nghiên cứu đã áp dụng vào thực tế
Công nghệ phân loại hiện nay đang phát triển mạnh mẽ trong nhiều lĩnh vực như học thuật, kinh doanh, bảo mật và y tế Sự ứng dụng này không chỉ giúp nâng cao hiệu quả công việc mà còn cải thiện độ chính xác trong việc phân tích và xử lý dữ liệu Các nhà nghiên cứu và doanh nghiệp đang tích cực khai thác công nghệ này để tối ưu hóa quy trình và nâng cao trải nghiệm người dùng.
Các tổ chức xã hội, chính phủ và phi lợi nhuận sở hữu lượng lớn dữ liệu không có cấu trúc, và việc chuẩn hóa dữ liệu theo các chủ đề hoặc nhãn sẽ giúp xử lý dễ dàng hơn Nền tảng công nghệ cho việc phân loại văn bản chính là trí tuệ nhân tạo (AI), sử dụng các thuật toán học sâu (Deep Learning) với mô hình mạng nơ-ron.
Nghiên cứu của ông Andrews Sobral và cộng sự tập trung vào việc nhận diện phương tiện thông qua phương pháp Haar Cascades sử dụng OpenCV Họ đã áp dụng thư viện thị giác máy tính mã nguồn mở JavaScript và OpenCV để nhận diện hình ảnh từ webcam.
Ông Ronit Sinha và cộng sự đã áp dụng OpenCV và Kalman Filter để nhận diện và theo dõi xe ô tô từ luồng video trực tuyến của camera giao thông Công nghệ này cho phép phát hiện và theo dõi phương tiện một cách hiệu quả, nâng cao khả năng giám sát giao thông.
Nghiên cứu về nhận diện vật thể sử dụng thuật toán YOLO, được phát triển bởi Redmon và Farhadi vào năm 2015 trong thời gian học tiến sĩ, đã cho thấy sự hiệu quả vượt trội YOLO, viết tắt của "You Only Look Once", là một thuật toán nhận diện nổi bật nhờ vào độ chính xác cao và khả năng xử lý thời gian thực, đạt tới 45 khung hình trên giây.
- Nghiên cứu nhận diện phương tiện và hướng đi (Vehicle Detection for Autonomous Driving): Ông Junsheng Fu và cộng sự đã sử dụng các công cụ, bao gồm
OpenCV3, Python3.5, TensorFlow, và CUDA8 trên hệ điều hành Ubuntu 16.04 đang được sử dụng trong nghiên cứu trí tuệ nhân tạo tại Việt Nam, đặc biệt là trong lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt Cộng đồng nghiên cứu đã phát triển nhiều thuật toán và công cụ phù hợp với đặc thù ngôn ngữ Việt, nhằm giải quyết các bài toán phân loại văn bản Một số doanh nghiệp và trường đại học như Framgia, Đại học Lê Quý Đôn, FPT, và Đại học Khoa học Công nghệ thuộc Đại học Quốc gia Việt Nam đang tích cực nghiên cứu và ứng dụng công nghệ này Trong lĩnh vực quân sự, việc thu thập thông tin từ các trang báo điện tử, diễn đàn, và mạng xã hội cũng rất quan trọng để theo dõi tình hình.
Tin tức trực tuyến đóng vai trò quan trọng trong không gian mạng, đặc biệt khi lượng thông tin từ Internet ngày càng lớn Điều này đòi hỏi cần có các phương pháp phân tích và xử lý dữ liệu tự động và hiệu quả để quản lý khối lượng thông tin khổng lồ.
Những phương pháp nghiên cứu đã được áp dụng trên thế giới và Việt Nam
Mô hình nghiên cứu áp dụng đã được triển khai thành công tại nhiều thành phố lớn trên thế giới, đặc biệt là ở Mỹ và các nước Châu Âu, nơi dẫn đầu trong việc áp dụng mô hình này cho nhiều lĩnh vực trong đời sống xã hội.
Hàn Quốc là quốc gia tiên phong tại châu Á trong việc ứng dụng công nghệ để phát triển Hệ thống giao thông thông minh, với Seoul được công nhận là thành phố có hệ thống giao thông thông minh tốt nhất thế giới.
Singapore đã khởi động chiến lược "Quốc gia thông minh" từ tháng 11 năm 2014, với mục tiêu đặt người dân làm trung tâm và sử dụng công nghệ để giải quyết các thách thức đô thị Sáng kiến này nhằm nâng cao chất lượng sống, xây dựng cộng đồng mạnh mẽ và tạo ra nhiều cơ hội cho mọi người Đề án khuyến khích thực nghiệm, nuôi dưỡng tinh thần sáng tạo và triển khai ý tưởng mới, với công nghệ thông tin và truyền thông (ICT) là cốt lõi Ba ưu tiên chính bao gồm công nghệ hỗ trợ xã hội, di động và giao thông thông minh, cùng với môi trường dữ liệu an toàn Chính phủ cam kết đầu tư khoảng 1% GDP hàng năm cho nghiên cứu và phát triển.
Sau hơn 2 năm hoạt động, Singapore đã triển khai nhiều giải pháp thông minh trong các lĩnh vực như nhà ở, giao thông, xe tự lái, quan trắc môi trường, thanh toán không dùng tiền mặt, y tế từ xa, và hệ thống cơ sở dữ liệu mở Đồng thời, quốc gia này cũng duy trì và mở rộng hỗ trợ khởi nghiệp để đảm bảo nguồn cung cho các ứng dụng thông minh trong tương lai.
Tại Trung Quốc áp dụng mô hình mạng nơ-ron tích chập theo phương pháp nhìn một lần (Convolutional Neural Network for You Only Look Once - CNNs for
Hệ thống YOLO Object Detection được phát triển để theo dõi người dân tại Trung Quốc, giúp chính quyền phát hiện tội phạm đang lẩn trốn Ngoài ra, công nghệ này còn hỗ trợ các hệ thống xe tự lái trong việc xác định vị trí người đi đường, từ đó đưa ra quyết định di chuyển hợp lý.
Hai là, thực trạng nghiên cứu áp dụng hiện nay tại Việt Nam:
Việc áp dụng trí tuệ nhân tạo (AI) trong xây dựng thành phố thông minh đang được triển khai tại nhiều địa phương, bao gồm Hà Nội, Hồ Chí Minh, Đà Nẵng, Bình Dương, Đồng Nai, Kiên Giang, Quảng Nam, Thừa Thiên Huế và Quảng Ninh.
Đề án phát triển đô thị thông minh tỉnh Bà Rịa – Vũng Tàu giai đoạn 2020-2022, định hướng đến 2025 và tầm nhìn đến 2030, tập trung vào việc xây dựng hạ tầng mạng kết nối toàn thành phố để phục vụ nhu cầu chia sẻ thông tin giữa chính quyền, doanh nghiệp, người dân và du khách Hệ thống giao thông thông minh sẽ ứng dụng công nghệ thông tin vào quản lý giao thông đô thị một cách hiệu quả, trong khi hệ thống cấp nước thông minh sẽ nâng cao chất lượng xử lý và phân phối nước sạch Mục tiêu là phát triển đô thị thông minh bền vững, tối ưu hóa cơ sở dữ liệu hạ tầng kỹ thuật và ICT, nâng cao chất lượng cuộc sống, khuyến khích đầu tư vào cơ sở vật chất, đồng thời nâng cao hiệu quả quản lý nhà nước và dịch vụ đô thị, góp phần vào sự phát triển kinh tế - xã hội và an ninh quốc phòng của địa phương.
Nghiên cứu của Trương Quốc Bảo và Trương Quốc Định từ Trường Đại học Cần Thơ đã phát triển công nghệ ảnh để phát hiện làn đường, ôtô và người đi bộ, hỗ trợ cho ôtô tự hành.
Các nhà khoa học tại Khoa Điện - Điện tử, Trường Đại học Giao thông Vận tải đã phát triển thành công hệ thống giám sát giao thông sử dụng công nghệ xử lý ảnh Hệ thống này bao gồm các thiết bị như camera giám sát, camera chụp hình, mạng truyền thông, video server, phần mềm xử lý ảnh và cơ sở dữ liệu, có khả năng tự động phát hiện và ghi nhận các vi phạm Luật Giao thông Mục tiêu của hệ thống là tăng cường giám sát, phát hiện và xử lý kịp thời các vi phạm, từ đó hạn chế tai nạn và nâng cao ý thức chấp hành của người tham gia giao thông.
Một số vấn đề còn hạn chế của những nghiên cứu trước và những vấn đề cần được tiếp tục nghiên cứu hoàn thiện
đề cần được tiếp tục nghiên cứu hoàn thiện
3.4.1 Một số vấn đề còn hạn chế của những nghiên cứu trước Đầu vào mô hình là một bức ảnh, đối với bài toán nhận dạng, chúng ta không chỉ phải phân loại được đối tượng (object) trên bức ảnh mà còn phải định vị được vị trí của đối tượng đó và mỗi lần thực hiện tốn rất nhiều thời gian Do đó:
Việc tính toán cho mọi vùng trên một bức ảnh tiêu tốn rất nhiều tài nguyên, do đó không thể thực hiện theo thời gian thực trên các thiết bị yếu.
Ảnh chụp phương tiện giao thông vào ban đêm hoặc trong điều kiện ánh sáng yếu sẽ có khả năng nhận dạng thấp nếu thiết bị ghi hình không được trang bị đèn flash.
Việc không thể nhìn thấy các đối tượng nhỏ hoặc các đối tượng quá gần nhau gây khó khăn trong việc nhận diện Hơn nữa, nếu hình ảnh có kích thước khác biệt so với hình ảnh đã được đào tạo, việc khái quát các đối tượng sẽ trở nên bất khả thi.
- Tỷ lệ nhận dạng còn phụ thuộc nhiều vào điều kiện ánh sáng, phản chiếu, độ che bóng và điều kiện môi trường
Biển số trên phương tiện giao thông với đường viền phức tạp có mức độ nhận dạng thấp Để đạt hiệu quả nhận diện tốt, cần giới hạn góc chụp trong khoảng 40 độ; nếu góc lớn hơn, khả năng nhận dạng sẽ giảm đáng kể.
Việt Nam có một hệ thống giao thông đa dạng với nhiều loại phương tiện như ô tô, xe máy, xe lam, xe ba bánh, xe đạp và người đi bộ Bên cạnh đó, các vật thể như mũ bảo hiểm, ô dù, điện thoại và đèn tín hiệu cũng đóng vai trò quan trọng trong việc điều tiết giao thông Tuy nhiên, tình trạng giao thông tại đây thường xuyên gặp phải các vấn đề như tai nạn giao thông, tắc đường, đua xe và lạng lách, gây ra nhiều thách thức cho người tham gia giao thông.
3.4.2 Những vấn đề cần được tiếp tục nghiên cứu hoàn thiện
- Chuẩn hóa hàng loạt ở các lớp tích chập, làm giảm sự thay đổi giá trị trong các lớp ẩn, cải thiện tính ổn định của mạng lưới
- Việc tăng kích thước đầu vào của hình ảnh đã cải thiện (độ chính xác trung bình) tăng lên
Trong bài viết này, chúng tôi trình bày việc thực hiện phân loại và dự đoán trong một khung duy nhất, bao gồm khung tâm và khung ranh giới Khung tâm chịu trách nhiệm dự đoán khung ranh giới, trong khi các khung tâm được thiết kế đặc biệt cho một tập dữ liệu nhất định thông qua thuật toán phân cụm k-means.
Để phát hiện các vật nhỏ trong hình ảnh, phương pháp mới chia hình ảnh thành các ô lưới nhỏ hơn so với các nghiên cứu trước Cách tiếp cận này không chỉ giúp xác định các đối tượng nhỏ hơn mà còn hiệu quả trong việc nhận diện các đối tượng lớn hơn.
Trong các nghiên cứu trước, một điểm yếu đã được phát hiện liên quan đến việc đào tạo các mô hình với hình ảnh có kích cỡ đầu vào khác nhau Việc sử dụng hình ảnh nhỏ của một đối tượng cụ thể gây khó khăn trong việc nhận diện cùng một đối tượng trên hình ảnh lớn hơn Do đó, nghiên cứu tiếp tục nhằm cải thiện quá trình đào tạo bằng cách sử dụng hình ảnh ngẫu nhiên với kích thước khác nhau Mục tiêu là giúp mạng nơ-ron hiểu và dự đoán các đối tượng từ nhiều kích thước đầu vào khác nhau với độ chính xác cao.
- Nghiên cứu theo hướng ứng dụng trong việc sử dụng kiến trúc mạng Darknet
19 với 19 lớp chập và 5 lớp max-pooling và một lớp softmax cho việc phân loại đối tượng
Để nâng cao hiệu quả chương trình nhận diện biển số, cần tách ly các ký tự trong trường hợp biển số bị nhiễu hoặc mất thông tin do tác động của môi trường Việc tìm kiếm vùng biển số trong ảnh cũng cần chú trọng đến những trường hợp có độ tương phản thấp giữa biển số và nền, đặc biệt là với các biển số có nền màu đỏ chữ trắng hoặc nền màu vàng chữ trắng.
Phát triển chương trình thành module phần cứng tương thích với các thiết bị quan sát như camera, cho phép quản lý và in ấn bằng chứng hình ảnh vi phạm Chương trình này hoạt động trên nền tảng website, mang lại sự tiện lợi và hiệu quả trong việc xử lý thông tin.
Để đảm bảo nhận diện biển số xe hiệu quả, cần lắp đặt hệ thống camera có độ phân giải cao, cho hình ảnh rõ nét trong mọi điều kiện ánh sáng, từ ban ngày đến ban đêm, cũng như trong thời tiết mưa bão Hệ thống này cần có cấu hình phù hợp để chụp ảnh chính xác khi xe di chuyển với tốc độ cao, kết hợp với công nghệ nhận dạng tiên tiến.
CẤU TRÚC LUẬN VĂN
Luận văn thạc sỹ cá nhân biên soạn bao gồm 6 mục và 4 chương với nội dung tóm tắt như sau:
2 MỤC TIÊU, ĐỐI TƯỢNG, PHẠM VI, NỘI DUNG VÀ HƯỚNG NGHIÊN CỨU
3 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
NGHIÊN CỨU TỔNG QUAN VÀ PHÂN TÍCH BÀI TOÁN
Chương 1 cung cấp cái nhìn tổng quan về trí tuệ nhân tạo và học máy, giải thích các khái niệm cơ bản liên quan Bên cạnh đó, chương này cũng giới thiệu các thuật toán học máy quan trọng và kỹ thuật áp dụng cho việc phát hiện và nhận dạng đối tượng, nhấn mạnh vai trò của công nghệ trong việc cải thiện khả năng nhận diện thông qua các phương pháp học tập tự động.
- Chương 2 Tổng quan về giao thông
- Chương 3 Áp dụng YOLOv3 cho bài toán phát hiện, nhận dạng đối tượng tham gia giao thông vi phạm Luật giao thông đường bộ
- Chương 4 Xây dựng chương trình thực nghiệm và đánh giá kết quả
6 KẾT LUẬN VÀ KIẾN NGHỊ
5 NGHIÊN CỨU TỔNG QUAN VÀ PHÂN TÍCH BÀI TOÁN
Các khái niệm, tổng quan về trí tuệ nhân tạo, học máy, các giải thuật về học máy và kỹ thuật áp dụng cho phát hiện, nhận dạng đối tượng
Khái niệm chung [6-9, 16, 17, 31]
Xử lý ảnh là quá trình chuyển đổi hình ảnh thành dạng số, cho phép thực hiện các thao tác nhằm cải thiện chất lượng hình ảnh hoặc trích xuất thông tin hữu ích từ chúng.
1.2 Trí tuệ nhận tạo (AI-Artificial Intelligence)
Có thể được định nghĩa như một ngành của khoa học máy tính liên quan đến việc tự động hóa các hành vi thông minh [12]
Học máy, một nhánh của trí tuệ nhân tạo, cho phép hệ thống tự động học hỏi và cải thiện hiệu suất cũng như độ chính xác dựa trên dữ liệu đầu vào Công nghệ này tập trung vào việc phát triển phần mềm và chương trình máy tính có khả năng truy cập và tận dụng nguồn dữ liệu để tự học.
Học sâu, một nhánh của trí tuệ nhân tạo (AI), mô phỏng cách bộ não con người xử lý dữ liệu và tạo ra mẫu cho quyết định Là tập con của học máy, học sâu sử dụng các mạng lưới có khả năng tự học từ dữ liệu không có cấu trúc hoặc không được gán nhãn.
1.5 Mạng nơ-ron nhân tạo (Artificial Neural Network)
Chuỗi thuật toán này được thiết kế để khám phá các mối quan hệ cơ bản trong tập dữ liệu, bằng cách mô phỏng cách mà bộ não con người hoạt động.
Tổng quan về trí tuệ nhân tạo [6-9, 21]
Hiện nay, cuộc cách mạng công nghiệp 4.0 đang diễn ra trên toàn cầu, với trí tuệ nhân tạo đóng vai trò quan trọng như chiếc chìa khóa giúp biến những ý tưởng của con người thành hiện thực.
Trí tuệ nhân tạo (AI) là một lĩnh vực quan trọng trong khoa học máy tính, được phát triển nhằm tự động hóa các hành vi thông minh giống như con người Khác với lập trình logic truyền thống, AI sử dụng các hệ thống học máy để mô phỏng trí tuệ con người trong những nhiệm vụ mà máy tính thường gặp khó khăn AI cho phép máy tính có khả năng suy nghĩ, lập luận, giao tiếp, hiểu ngôn ngữ và thích nghi với môi trường Mặc dù trí thông minh nhân tạo thường được liên tưởng đến các tác phẩm khoa học viễn tưởng, nhưng nó thực sự đóng vai trò then chốt trong sự phát triển của công nghệ hiện đại.
- Thành phần công nghệ trí tuệ nhân tạo được chia làm 4 nhóm chính cụ thể sau:
Công nghệ trí tuệ nhân tạo phản ứng có khả năng phân tích các động thái khả thi của cả chính nó và đối thủ, từ đó đề xuất giải pháp tối ưu nhất.
Deep Blue là một ví dụ tiêu biểu của công nghệ trí tuệ nhân tạo phản ứng, được phát triển bởi IBM Chương trình này có khả năng chơi cờ vua tự động, xác định các nước cờ và dự đoán bước đi tiếp theo của đối thủ, từ đó đưa ra những nước đi tối ưu nhất.
Công nghệ trí tuệ nhân tạo với bộ nhớ hạn chế cho phép sử dụng kinh nghiệm quá khứ để đưa ra quyết định trong tương lai AI này thường kết hợp với cảm biến môi trường, giúp dự đoán các tình huống có thể xảy ra và đưa ra quyết định tối ưu cho thiết bị.
Xe không người lái được trang bị nhiều cảm biến xung quanh và ở đầu xe để đo khoảng cách với các phương tiện phía trước Công nghệ AI sẽ dự đoán khả năng va chạm và điều chỉnh tốc độ xe để đảm bảo an toàn.
Hình 4: Ứng dụng công nghệ trí tuệ nhân tạo với bộ nhớ hạn chế
Nhóm 3: Lý thuyết trí tuệ nhân tạo này cho phép máy móc học hỏi và tự suy nghĩ, từ đó áp dụng kiến thức đã học để thực hiện các nhiệm vụ cụ thể Hiện nay, công nghệ này đang phát triển mạnh mẽ.
AI này vẫn chưa trở thành một phương án khả thi
Công nghệ trí tuệ nhân tạo tự nhận thức đang được xem là bước phát triển cao nhất trong lĩnh vực AI, với khả năng tự nhận thức, có ý thức và hành xử giống như con người Đặc biệt, loại công nghệ này không chỉ có thể bộc lộ cảm xúc mà còn hiểu được cảm xúc của con người Tuy nhiên, tính khả thi của công nghệ này vẫn chưa được hiện thực hóa.
Hình 5: Ứng dụng công nghệ trí tuệ nhân tạo tự nhận thức
2.2 Ứng dụng trí tuệ nhân tạo trong hiện tại và tương lai
Công nghệ phân loại đang phát triển mạnh mẽ trong nhiều lĩnh vực như học thuật, kinh doanh, bảo mật và y tế, phục vụ cho các đối tượng như nhà nghiên cứu xã hội, chính phủ và tổ chức phi lợi nhuận Những tổ chức này thường sở hữu khối lượng lớn dữ liệu không có cấu trúc, và việc xử lý dữ liệu trở nên dễ dàng hơn khi được chuẩn hóa theo các chủ đề hoặc nhãn Trí tuệ nhân tạo, đặc biệt là các thuật toán học sâu với mô hình mạng nơ-ron, là nền tảng công nghệ chủ chốt để giải quyết bài toán phân loại văn bản.
(1) Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử lý văn bản, giao tiếp người - máy
(2) Nhận dạng (Patten recognition): nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy, thiên văn học
(3) Máy tìm kiếm như Google, Yahoo, You tube: các hệ thống này sử dụng các công cụ của học máy để phát triển hệ thống
(4) Chẩn đoán trong y tế: trợ giúp phân tích ảnh X-quang, các hệ chuyên gia chẩn đoán tự động
(5) Tin sinh học: phân loại và dự đoán chuỗi gene, dự đoán tính chất của thuốc mới
(6) Phát hiện gian lận tài chính, gian lận thẻ tín dụng, phát hiện dị thường
(7) Phân tích thị trường chứng khoán
(8) Trò chơi: máy tính chơi cờ Deep blue của IBM chế tạo năm 1998
(9) Người máy: là tổng hợp của rất nhiều ngành khoa học, trong đó học máy tạo nên hệ thần kinh và bộ não của người máy
Trong ngành vận tải, trí tuệ nhân tạo được ứng dụng vào các phương tiện tự lái, như ô tô, mang lại lợi ích kinh tế cao hơn bằng cách cắt giảm chi phí và giảm thiểu tai nạn Năm 2016, hãng Otto thuộc Uber đã vận chuyển thành công 50.000 lon bia Budweiser bằng xe tự lái trên quãng đường 193 km Theo dự đoán của Gartner, tương lai sẽ có những chiếc xe kết nối qua Wifi để tối ưu hóa lộ trình vận tải.
Hình 6: Ứng dụng công nghệ trí tuệ nhân tạo xe tự lái
Trí tuệ nhân tạo đang được ứng dụng trong sản xuất để tối ưu hóa quy trình, nhờ vào khả năng phân tích mạnh mẽ của nó Công nghệ AI cung cấp thông tin quan trọng, hỗ trợ việc ra quyết định hiệu quả trong ngành sản xuất.
Trong lĩnh vực y tế, trí tuệ nhân tạo được ứng dụng hiệu quả thông qua việc sử dụng máy bay không người lái trong các tình huống cứu hộ khẩn cấp Những thiết bị này có khả năng di chuyển nhanh hơn xe cứu thương đến 40%, đặc biệt phù hợp cho những khu vực có địa hình khó khăn.
Hình 7: Ứng dụng công nghệ trí tuệ nhân tạo cho thiết bị bay không người lái
Trí tuệ nhân tạo đang tạo ra những thay đổi đáng kể trong lĩnh vực giáo dục, từ việc tự động hóa chấm điểm đến hỗ trợ dạy kèm cho học sinh Các phần mềm và trò chơi giáo dục được thiết kế để đáp ứng nhu cầu riêng của từng học sinh, giúp họ cải thiện khả năng học tập theo tốc độ cá nhân AI cũng có khả năng phát hiện những vấn đề trong các khóa học, chẳng hạn như khi nhiều học sinh gửi đáp án sai, hệ thống sẽ thông báo cho giáo viên và nhắc nhở học sinh sửa chữa Bên cạnh đó, công nghệ này còn theo dõi tiến bộ học tập của học sinh và thông báo kịp thời cho giáo viên về những khó khăn mà học sinh gặp phải.
Hình 8: Ứng dụng công nghệ trí tuệ nhân tạo ROBOT trong day học
Tổng quan về máy học [6-9, 16-17, 21-23]
Sinh viên có thể học hỏi từ khắp nơi trên thế giới nhờ vào phần mềm hỗ trợ AI Công nghệ AI cung cấp dữ liệu giúp sinh viên lựa chọn những khóa học phù hợp nhất với nhu cầu của họ.
Trong lĩnh vực truyền thông, trí tuệ nhân tạo đang cách mạng hóa cách tiếp cận khách hàng mục tiêu Nhờ vào công nghệ AI, các công ty có khả năng cung cấp quảng cáo chính xác vào thời điểm và đối tượng phù hợp, dựa trên phân tích nhân khẩu học, thói quen trực tuyến và nội dung mà khách hàng thường xuyên tương tác.
Công nghệ AI đang tối ưu hóa hoạt động trong ngành dịch vụ, mang đến trải nghiệm mới mẻ và tốt hơn cho khách hàng Bằng cách thu thập và phân tích dữ liệu, AI nắm bắt thông tin về hành vi sử dụng dịch vụ của khách hàng, từ đó cung cấp những giải pháp phù hợp với nhu cầu riêng của từng khách hàng.
3 Tổng quan về học máy [6-9, 16-17, 21-23]
Machine Learning, một nhánh của trí tuệ nhân tạo (AI), cho phép hệ thống học hỏi từ dữ liệu đã được cung cấp và thực hiện các thao tác dựa trên đó Công nghệ này thường được áp dụng trong các tác vụ phức tạp mà con người thực hiện, như nhận diện hình ảnh và đánh giá lựa chọn, mà khó có thể mô phỏng bằng công thức cụ thể.
Học máy là công nghệ được sử dụng để xử lý các tác vụ tương tự như con người, mà khó có thể mô phỏng bằng công thức cụ thể Những ứng dụng tiêu biểu của học máy bao gồm nhận diện và đánh giá lựa chọn, giúp cải thiện hiệu suất và độ chính xác trong nhiều lĩnh vực.
3.3 Các phương thức về máy học
Học có giám sát là một phương pháp trong máy học, cho phép máy tính "học" từ những dữ liệu có dán nhãn Trong phương pháp này, máy tính được "huấn luyện" dựa trên các quan sát được gán nhãn, trong đó các quan sát tương tự như câu hỏi và nhãn là câu trả lời Mục tiêu của học có giám sát là ghi nhớ và tổng quát hóa các quy tắc từ tập hợp câu hỏi để cải thiện khả năng dự đoán của máy tính.
39 có đáp án trước, máy tính sẽ có thể trả lời được những câu hỏi dù chưa từng gặp phải, nhưng có mối liên quan
Học có giám sát là phương pháp mô phỏng cách con người học, trong đó máy tính được dạy để đưa ra dự đoán và đối chiếu với đáp án đúng Ví dụ, khi dạy máy tính phép cộng "1 + 1 = 2", nó sẽ học cách giải quyết các phép toán tương tự như "2 + 1 = 3" Tuy nhiên, một nhược điểm của phương pháp này là việc dán nhãn quan sát trước khi học, điều này có thể gặp khó khăn, đặc biệt trong dịch thuật, khi một câu có thể có nhiều phiên bản dịch khác nhau Dù vậy, ưu điểm của học có giám sát là khi có một bộ dữ liệu lớn được dán nhãn chính xác, việc huấn luyện trở nên dễ dàng hơn rất nhiều.
Hình 9: Phương thức học có giám sát
Trong nhận dạng chữ viết tay, chúng ta sử dụng hàng nghìn hình ảnh của mỗi chữ số từ nhiều người khác nhau Những hình ảnh này được đưa vào một thuật toán, kèm theo thông tin về chữ số tương ứng Sau khi thuật toán xây dựng một mô hình, nó sẽ nhận đầu vào là một hình ảnh và cho ra đầu ra là chữ số dự đoán Khi gặp một hình ảnh mới, mô hình sẽ xác định chữ số mà hình ảnh đó chứa.
Hình 10: Hình mô tả chữ viết tay
Học cách nhận biết chữ cái của trẻ em tương tự như quá trình học tập của con người Khi chúng ta giới thiệu bảng chữ cái cho một đứa trẻ và chỉ cho chúng các chữ như A và B, sau một thời gian được hướng dẫn, trẻ có khả năng nhận diện chữ A và B trong một cuốn sách mới mà chưa từng thấy trước đó.
Học không giám sát, hay tự học, là thuật toán mà chúng ta chỉ có dữ liệu đầu vào mà không biết dữ liệu đầu ra hay nhãn tương ứng Thuật toán này dựa vào cấu trúc của dữ liệu để thực hiện các tác vụ như phân nhóm hoặc giảm số chiều của dữ liệu, nhằm tối ưu hóa việc lưu trữ và tính toán Về mặt toán học, Học không giám sát xảy ra khi chỉ có dữ liệu vào X mà không có nhãn Y, và nó khác biệt với Học có giám sát, nơi mà chúng ta biết câu trả lời chính xác cho mỗi dữ liệu đầu vào Tên gọi "không giám sát" phản ánh việc không có sự hướng dẫn từ giáo viên, giống như khi ta tự học mà không biết đó là chữ A hay chữ B.
Hình 11: Phương thức học không giám sát về bài toán phân cụm
Học bán giám sát là một phương pháp kết hợp giữa học tập có giám sát và không giám sát, sử dụng cả dữ liệu được gán nhãn và không gán nhãn Phương pháp này thường dựa vào một lượng nhỏ dữ liệu có nhãn kết hợp với một lượng lớn dữ liệu không gán nhãn, giúp các hệ thống cải thiện đáng kể độ chính xác trong quá trình đào tạo.
Học bán giám sát thường được lựa chọn khi việc gán nhãn dữ liệu yêu cầu nguồn lực có kỹ năng để đào tạo Ngược lại, dữ liệu đã được gán nhãn thường không cần thêm nguồn lực.
Hình 12: Phương thức học bán giám sát
Các giải thuật về máy học [16-17, 21-23]
4.1 Giải thuật Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN)
Mạng nơ-ron nhân tạo (ANN) mô phỏng chức năng của hệ thần kinh con người với hàng triệu nơ-ron liên kết và giao tiếp Tương tự như não bộ, ANN có khả năng học hỏi và lưu trữ kinh nghiệm để áp dụng trong các tình huống khác nhau Công nghệ này đã được áp dụng thành công trong nhiều lĩnh vực như tài chính, y tế, địa chất và vật lý, với các ứng dụng nổi bật như nhận dạng khuôn mặt, dự báo thời tiết và thiên tai, cũng như tự động điều khiển hệ thống lái tàu và dự báo sự cố.
Kiến trúc của mạng nơ-ron nhân tạo bao gồm ba thành phần chính: lớp đầu vào (input layer), lớp ẩn (hidden layer) và lớp đầu ra (output layer) Lớp ẩn nhận dữ liệu từ lớp trước và chuyển đổi chúng cho các lớp xử lý tiếp theo Một mạng nơ-ron nhân tạo có thể có nhiều lớp ẩn để nâng cao khả năng xử lý thông tin.
Hình 13: Minh họa mạng nơ-ron nhân tạo 3 lớp
- Quá trình xử lý thông tin của một mạng nơ-ron nhân tạo liên quan đến:
(1) Lớp Inputs: Dữ liệu nhập tương ứng các thuộc tính của dữ liệu
(2) Lớp Outputs: Kết quả là một giải pháp cho một vấn đề
Lớp Weights trong mạng nơ-ron nhân tạo (ANN) đóng vai trò quan trọng trong việc xác định mức độ ảnh hưởng của dữ liệu đầu vào đến quá trình xử lý thông tin Quá trình học của ANN chủ yếu là điều chỉnh các trọng số của dữ liệu đầu vào nhằm đạt được kết quả mong muốn.
Hàm tổng trong mạng nơ-ron tính toán tổng trọng số của tất cả dữ liệu đầu vào cho mỗi nơ-ron Đối với n dữ liệu đầu vào, hàm tổng của một nơ-ron được tính theo công thức cụ thể.
Hàm chuyển đổi (Transfer Function) trong mạng nơ-ron thể hiện khả năng kích hoạt của các nơ-ron, quyết định xem kết quả có được chuyển đến lớp tiếp theo hay không Mối quan hệ giữa kích hoạt bên trong và kết quả được xác định bởi hàm chuyển đổi, và việc lựa chọn hàm này ảnh hưởng lớn đến hiệu suất của mạng nơ-ron Một trong những hàm chuyển đổi phi tuyến phổ biến là hàm sigmoid, được biểu diễn bằng công thức Y t = 1/ (1+e -y ), trong đó y t là hàm chuyển đổi và y là hàm tổng.
Kết quả xử lý tại các nơ-ron có thể rất lớn, do đó, hàm chuyển đổi được sử dụng để điều chỉnh kết quả trước khi chuyển đến lớp tiếp theo Thay vì sử dụng hàm chuyển đổi, giá trị ngưỡng cũng có thể được áp dụng để kiểm soát kết quả của các nơ-ron ở một lớp nhất định Nếu kết quả của nơ-ron nhỏ hơn giá trị ngưỡng, nó sẽ không được chuyển tiếp đến lớp tiếp theo Kiến thức này được tham khảo từ tài liệu [5].
4.2 Giải thuật dựa vào thể thức (K-nearest neighbors - KNN)
K-nearest neighbor là một trong những thuật toán học có giám sát đơn giản nhất (mà hiệu quả trong một vài trường hợp) trong các kỹ thuật học máy Khi huấn luyện, thuật toán này không học một điều gì từ dữ liệu huấn luyện (đây cũng là lý do thuật toán này được xếp vào loại lười học), mọi tính toán được thực hiện khi nó cần dự
KNN là một thuật toán học máy có khả năng dự đoán kết quả từ dữ liệu mới, và nó có thể được áp dụng cho cả hai loại bài toán học có giám sát: phân loại và hồi quy.
Trong thuật toán KNN, việc phân loại một điểm dữ liệu mới dựa vào K điểm gần nhất từ tập huấn luyện Nhãn của dữ liệu kiểm định được xác định thông qua bầu chọn giữa các điểm gần nhất hoặc bằng cách áp dụng trọng số cho từng điểm Đối với bài toán hồi quy, kết quả của điểm dữ liệu có thể là giá trị của điểm gần nhất (K=1), hoặc trung bình trọng số của các kết quả từ những điểm gần nhất, hoặc dựa trên mối quan hệ khoảng cách tới các điểm này.
KNN, hay K-Nearest Neighbors, là một thuật toán tìm kiếm kết quả cho một điểm dữ liệu mới bằng cách dựa vào thông tin từ K điểm dữ liệu gần nhất trong tập huấn luyện, mà không chú ý đến sự nhiễu có thể có từ những điểm này.
Bài toán phân loại trong hình 14 bao gồm ba lớp màu: Đỏ, Lam, và Lục, trong đó mỗi điểm dữ liệu kiểm chứng được gán nhãn theo màu sắc tương ứng Hình ảnh cho thấy một số vùng nhỏ xen lẫn vào các vùng lớn hơn với màu khác, ví dụ, có một điểm màu Lục nằm gần góc 11 giờ giữa hai vùng lớn chứa nhiều dữ liệu màu Đỏ và Lam Điểm này có khả năng cao là nhiễu, dẫn đến việc dữ liệu kiểm chứng rơi vào vùng này có thể mang lại kết quả không chính xác Kiến thức này được tham khảo từ tài liệu.
4.3 Giải thuật cây quyết định (Decision tree)
Trong lý thuyết quyết định, cây quyết định là một đồ thị thể hiện các quyết định và hậu quả có thể xảy ra, bao gồm cả rủi ro và hao phí tài nguyên Cây quyết định đóng vai trò quan trọng trong việc xây dựng kế hoạch nhằm đạt được mục tiêu mong muốn.
44 cây quyết định được dùng để hỗ trợ quá trình ra quyết định Cây quyết định là một dạng đặc biệt của cấu trúc cây
Trong học máy, cây quyết định là một mô hình dự báo, ánh xạ từ các quan sát đến kết luận về giá trị mục tiêu Mỗi nút trong cây đại diện cho một biến, và các đường nối thể hiện giá trị cụ thể của biến đó Nút lá thể hiện giá trị dự đoán của biến mục tiêu dựa trên các giá trị của các biến khác, được xác định qua đường đi từ nút gốc đến nút lá Kỹ thuật học máy này được gọi là học bằng cây quyết định.
Học bằng cây quyết định là một phương pháp phổ biến trong khai phá dữ liệu, trong đó cây quyết định mô tả cấu trúc cây với các lá đại diện cho phân loại và các cành thể hiện sự kết hợp của thuộc tính dẫn đến phân loại đó Quá trình học cây quyết định được thực hiện bằng cách chia tập hợp nguồn thành các tập con dựa trên kiểm tra giá trị thuộc tính, và lặp lại một cách đệ quy cho từng tập con cho đến khi không thể chia tách thêm hoặc khi một phân loại đơn có thể áp dụng cho tất cả phần tử của tập con Để cải thiện tỷ lệ phân loại, bộ phân loại rừng ngẫu nhiên sử dụng nhiều cây quyết định.
Cây quyết định là một công cụ mô tả hữu ích trong việc tính toán xác suất có điều kiện, kết hợp giữa các kỹ thuật toán học và tính toán Nó hỗ trợ việc phân loại và tổng quát hóa dữ liệu, được biểu diễn dưới dạng các bản ghi (x, y) = (x1, x2, x3 , xk, y), trong đó y là biến phụ thuộc cần nghiên cứu, còn x1, x2, x3 là các biến thực hiện chức năng này Kiến thức này được tham khảo từ tài liệu [7].
4.4 Giải thuật Random forest (RF)
Kỹ thuật áp dụng cho phát hiện, nhận dạng đối tượng [16-17, 21-23, 26-27]
5.1 Kỹ thuật phát hiện đối tượng kết hợp nhận dạng khuôn mặt (Viola Jones – Haar)
Kỹ thuật phát hiện đối tượng Viola-Jones nổi bật với tỷ lệ phát hiện cao trong thời gian thực Mặc dù có khả năng huấn luyện để nhận diện nhiều loại đối tượng, nhưng nó chủ yếu được áp dụng trong việc nhận dạng khuôn mặt.
Khoảng cách các đối tượng đến tâm K
Nhóm các đối tượng dựa trên khoảng cách nhỏ nhất
Không có đối tượng di chuyển đến nhóm
Kỹ thuật Viola-Jones là một phương pháp hiệu quả để phát hiện khuôn mặt trong ảnh, yêu cầu khuôn mặt phải được nhìn trực diện và không nghiêng Mặc dù các ràng buộc này có thể hạn chế tính linh hoạt của thuật toán, nhưng chúng vẫn hoàn toàn chấp nhận được trong thực tế Việc phát hiện khuôn mặt dễ dàng cho con người nhưng đòi hỏi máy tính phải có hướng dẫn chính xác Một số ưu điểm của kỹ thuật này bao gồm khả năng phát hiện nhanh chóng và độ chính xác cao.
(1) Chính xác: tỷ lệ phát hiện đúng rất cao
(2) Thời gian thực: xử lý ít nhất 2 khung hình mỗi giây đối với các ứng dụng thực tế
(3) Chỉ phát hiện khuôn mặt và không nhận dạng: tập trung phân biệt khuôn mặt
(4) Thuật toán có bốn giai đoạn:
- Lựa chọn đặc trưng Haar
- Tạo một hình ảnh tích hợp
Kỹ thuật phát hiện tìm kiếm sử dụng các đặc trưng dựa trên tổng điểm ảnh trong các khu vực hình chữ nhật, tương tự như hàm cơ sở Haar Tuy nhiên, các đặc trưng của Viola và Jones phức tạp hơn vì phụ thuộc vào nhiều khu vực hình chữ nhật Hình 16 minh họa bốn loại đặc trưng khác nhau, trong đó giá trị của mỗi đặc trưng được tính bằng tổng điểm ảnh trong hình chữ nhật trừ đi tổng điểm ảnh trong hình chữ nhật được tô bóng Các đặc trưng hình chữ nhật này được xem là ưu việt so với các lựa chọn khác như bộ lọc ổn định, mặc dù chúng nhạy cảm với các đặc trưng dọc và ngang, nhưng thông tin phản hồi vẫn khá chung và đơn giản.
Đặc trưng Haar là một kỹ thuật quan trọng trong phát hiện khuôn mặt, dựa trên những đặc điểm tương tự mà khuôn mặt con người thường có Một số đặc trưng chung bao gồm vùng mắt tối hơn vùng má trên và sống mũi sáng hơn mắt Các thành phần này tạo nên các đặc điểm khuôn mặt phù hợp, bao gồm vị trí và kích thước của mắt, miệng, sống mũi, cùng với giá trị độ dốc định hướng của cường độ điểm ảnh.
Bốn đặc trưng phù hợp với giải thuật này được tìm kiếm trong hình ảnh của khuôn mặt như Hình 17 Các đặc trưng hình chữ nhật:
(1) Giá trị = Σ(điểm ảnh ở vùng đen) - Σ(điểm ảnh ở vùng trắng)
(2) Ba loại: hai, ba, bốn hình chữ nhật, Viola-Jones đã sử dụng các đặc trưng hai hình chữ nhật
(3) Ví dụ sự khác biệt về độ sáng giữa các hình chữ nhật trắng và đen trên một khu vực cụ thể
(4) Mỗi đặc trưng có liên quan đến một vị trí đặc biệt trong khung cửa sổ phụ
Hình 17: Đặc trưng Haar tương ứng ảnh thực tế
Đặc trưng Haar có nhiều hình dạng và ứng dụng khác nhau trên khuôn mặt Hình 17 minh họa đặc trưng Haar giống như sống mũi, trong khi hình giữa cho thấy nó tương tự như vùng mắt tối hơn má Ngoài ra, còn có các loại thứ 3 và thứ 4 của đặc trưng Haar, mở rộng khả năng nhận diện khuôn mặt.
Hình ảnh tích hợp là một phương pháp đánh giá các đặc trưng hình chữ nhật trong khoảng thời gian xác định, mang lại tốc độ vượt trội so với các đặc trưng phức tạp hơn Mỗi hình chữ nhật luôn liền kề với ít nhất một hình chữ nhật khác, cho phép tính toán hiệu quả: hai hình chữ nhật cần sáu tham chiếu mảng, ba hình chữ nhật cần tám tham chiếu mảng, và bốn hình chữ nhật cần chín tham chiếu mảng.
Việc phát hiện đối tượng chuyển động không cần thiết phải áp dụng cho từng khung hình, mà có thể sử dụng các thuật toán theo dõi để nhận diện các đặc trưng nổi bật trong hộp giới hạn và theo dõi chuyển động giữa các khung hình Phương pháp này không chỉ tăng tốc độ theo dõi bằng cách loại bỏ việc phát hiện lại đối tượng trong mỗi khung hình, mà còn nâng cao độ chính xác, bởi vì các đặc trưng nổi bật có khả năng phục hồi tốt hơn so với kỹ thuật phát hiện Viola-Jones trong các tình huống thay đổi xoay.
5.2 Kỹ thuật biến đổi đặc trưng bất biến theo tỷ lệ (Scale-invariant feature transform - SIFT)
Kỹ thuật biến đổi đặc trưng bất biến tỷ lệ (SIFT) là một phương pháp quan trọng trong thị giác máy tính, giúp phát hiện và mô tả các đặc trưng cục bộ của hình ảnh SIFT được ứng dụng rộng rãi trong nhiều lĩnh vực như nhận dạng đối tượng, lập bản đồ và điều hướng robot, mô phỏng đối tượng 3D, nhận dạng cử chỉ, theo dõi video, và nhận dạng cá thể động vật hoang dã.
Các đối tượng SIFT đầu tiên được trích xuất từ một tập hợp hình ảnh tham chiếu và lưu trữ trong cơ sở dữ liệu Để nhận diện một đối tượng trong hình ảnh mới, các đặc trưng từ hình ảnh đó được so sánh với cơ sở dữ liệu, tìm kiếm các ảnh ứng viên phù hợp dựa trên khoảng cách Euclide của các vectơ đặc trưng Từ tập hợp ứng viên, các điểm chính phù hợp về đối tượng, vị trí, tỷ lệ và hướng trong hình ảnh mới được xác định để lọc ra kết quả chính xác hơn Việc xác định các cụm đồng nhất được thực hiện nhanh chóng nhờ bảng băm hiệu quả của biến đổi Hough tổng quát, với mỗi cụm gồm ít nhất 3 đặc trưng phù hợp với một đối tượng và tư thế Cuối cùng, các mô hình chi tiết được xác minh và các ngoại lệ bị loại bỏ, dẫn đến xác suất cao hơn cho sự hiện diện của bộ đặc trưng cụ thể.
Đối tượng 53 được tính toán với độ chính xác cao về sự phù hợp và xác suất sai sót Những đối tượng phù hợp vượt qua tất cả các thử nghiệm này có thể được xác định chính xác với độ tin cậy lớn.
Hình 18: Kết quả của thuật toán SIFT
Sau khi xác định các điểm cực trị trong không gian tỷ lệ, thuật toán SIFT sẽ loại bỏ các điểm chính có độ tương phản thấp và lọc ra các vị trí nằm trên các cạnh Kết quả cuối cùng là tập hợp các điểm chính được hiển thị trong hình ảnh.
Phương pháp Lowe phát hiện đặc trưng bất biến tỷ lệ bằng cách chuyển đổi hình ảnh thành một tập hợp lớn các vectơ đặc trưng, mỗi vectơ này không bị ảnh hưởng bởi dịch chuyển, tỷ lệ và xoay hình ảnh, đồng thời có tính bất biến với các thay đổi về độ sáng và biến dạng hình học cục bộ Các đặc trưng này tương đồng với hoạt động của các nơ-ron trong vỏ thị giác, giúp nhận diện các dạng cơ bản, màu sắc và chuyển động Các vị trí chính được xác định qua cực đại và cực tiểu của sự khác biệt hàm Gaussian trong không gian tỷ lệ, áp dụng cho nhiều hình ảnh đã được làm mịn Những điểm có độ tương phản thấp và phản ứng cạnh dọc theo một cạnh sẽ bị loại bỏ, trong khi định hướng chiếm ưu thế được gán cho các điểm chính cục bộ, giúp tăng cường độ ổn định cho việc nhận diện và khớp các điểm chính Cuối cùng, các mô tả SIFT mạnh mẽ với biến dạng affine cục bộ được tạo ra bằng cách phân tích các điểm ảnh xung quanh vị trí chính, qua đó làm mờ và lấy mẫu lại các mặt phẳng định hướng hình ảnh cục bộ.
Lập chỉ mục đặc trưng bao gồm việc lưu trữ các khóa SIFT và xác định các khóa khớp từ hình ảnh mới Lowe đã áp dụng một biến thể của thuật toán cây k-d, gọi là phương pháp tìm kiếm đầu tiên tốt nhất, để xác định các lân cận gần nhất với xác suất cao chỉ với một lượng tính toán hạn chế Thuật toán BBF đã điều chỉnh thứ tự tìm kiếm của thuật toán cây k-d, cho phép tìm kiếm các thùng trong không gian đặc trưng theo thứ tự khoảng cách gần nhất từ vị trí truy vấn Để đạt được hiệu quả trong việc xác định thứ tự tìm kiếm, thuật toán sử dụng hàng đợi ưu tiên dựa trên heap Kết quả phù hợp nhất cho từng điểm chính được tìm thấy bằng cách xác định lân cận gần nhất trong cơ sở dữ liệu các điểm chính từ hình ảnh đào tạo, với lân cận gần nhất được định nghĩa là các điểm có khoảng cách Euclide tối thiểu từ vectơ mô tả Độ chính xác của một phù hợp có thể được đánh giá thông qua tỷ lệ khoảng cách giữa lân cận gần nhất và lân cận thứ hai gần nhất.
Lowe đã từ chối tất cả các phù hợp có tỷ lệ khoảng cách lớn hơn 0,8, giúp loại bỏ 90% các phù hợp sai và chỉ mất dưới 5% các phù hợp chính xác Để cải thiện hiệu quả của thuật toán tìm kiếm, phương pháp BBF đã được cắt bỏ sau khi kiểm tra 200 ứng cử viên lân cận gần nhất Với cơ sở dữ liệu 100.000 điểm chính, phương pháp này cung cấp khả năng tăng tốc tìm kiếm lân cận gần nhất chính xác khoảng 2 bậc độ lớn, đồng thời vẫn giữ được hơn 95% số lượng kết quả phù hợp chính xác.
Biến đổi Hough là một phương pháp hiệu quả để nhận dạng các cụm bằng cách bỏ phiếu cho các giả thuyết mô hình đáng tin cậy, nhằm tìm kiếm các khóa đồng ý với một tư thế mô hình cụ thể Phương pháp này xác định các cụm tính năng thông qua việc bỏ phiếu cho tất cả các tư thế phù hợp, giúp tăng cường độ chính xác của các diễn giải Khi nhiều cụm tính năng đồng bỏ phiếu cho cùng một tư thế, xác suất diễn giải trở nên cao hơn đáng kể Một bảng băm được tạo ra để dự đoán vị trí, định hướng và tỷ lệ của mô hình từ các giả thuyết khớp, trong đó các cụm với ít nhất 3 mục được xác định và sắp xếp theo thứ tự giảm kích thước.