xe tự hành

TỔNG QUAN XE TỰ HÀNH

Giới thiệu chung

Trong những năm gần đây, các công ty công nghệ đã tập trung vào phát triển xe hơi và xe tự hành, hứa hẹn mang lại sự an toàn và cải thiện cuộc sống Hiện nay, nhiều lời hứa này đang dần trở thành hiện thực với sự ra mắt của các mẫu xe tích hợp ngày càng nhiều tính năng tự động mỗi năm.

Xe ô tô tự hành có thể vẫn chưa sẵn sàng cho người tiêu dùng trong nhiều năm tới Dự đoán cho thấy vào năm 2025, sẽ có hơn 600.000 xe tự hành lưu thông trên đường, và con số này dự kiến sẽ tăng lên gần 2 triệu vào năm 2035.

Các thử nghiệm xe hơi tự hành đã bắt đầu tại một số thành phố ở Hoa Kỳ, với 21 triệu chiếc xe được nghiên cứu Mặc dù ô tô tự hành hoàn toàn vẫn chưa có mặt trên thị trường, công nghệ hiện tại cho phép phát triển các phương tiện tự hành với khả năng cao hơn bao giờ hết Các hệ thống phức tạp như camera, laser, radar, GPS và kết nối giữa các phương tiện đang được sử dụng để nâng cao tính năng tự động của xe.

Kể từ khi ra mắt vào đầu những năm 1990, Mạng nơ-ron tích chập (CNN) đã trở thành kiến trúc học sâu phổ biến nhất nhờ hiệu quả trong các vấn đề hình ảnh như nhận dạng chữ viết tay, khuôn mặt và phân loại tế bào ung thư Điểm nổi bật của CNN là khả năng tự động trích xuất tính năng, mặc dù yêu cầu lượng dữ liệu đào tạo lớn là nhược điểm chính Tuy nhiên, các nghiên cứu gần đây cho thấy hiệu suất cao có thể đạt được với dữ liệu “chung chung” Trong những năm qua, CNN đã thể hiện hiệu suất xuất sắc trong nhiều nhiệm vụ phân loại và phát hiện đối tượng quan trọng.

Với sự gia tăng năng lực tính toán, chúng tôi có thể đào tạo các mạng thần kinh phức tạp để nhận diện môi trường và quyết định hành vi của phương tiện Chẳng hạn, Tesla Model S sử dụng chip MobileEye EyeQ, áp dụng mạng thần kinh sâu để phát hiện và tránh chướng ngại vật theo thời gian thực Gần đây, các nhà nghiên cứu đang khám phá khả năng điều khiển ô tô dựa trên mạng nơ-ron sâu (DNN).

Tổng quan về xe tự hành (Automonous Car)

Xe tự hành, hay còn gọi là ô tô tự động, là những phương tiện có khả năng tự điều khiển và điều hướng nhờ vào các phần mềm tiên tiến Hiện nay, tại Hoa Kỳ chưa có xe tự hành hoàn toàn hợp pháp, nhưng đã có nhiều loại xe tự động một phần với các mức độ tự động hóa khác nhau, từ ô tô thông thường với tính năng hỗ trợ phanh và giữ làn đường đến các nguyên mẫu tự hành độc lập cao Mặc dù công nghệ này còn đang trong giai đoạn phát triển, nhưng nó ngày càng trở nên phổ biến và hứa hẹn sẽ cách mạng hóa hệ thống giao thông Dự đoán trong vài năm tới, ô tô tự hành cấp độ 4 sẽ được đưa ra thị trường, với sự phát triển của nhiều công nghệ từ các công ty lớn như Google, Uber, Tesla và Nissan.

Hầu hết các hệ thống tự hành đều tạo và duy trì bản đồ nội bộ về môi trường xung quanh bằng cách sử dụng nhiều loại cảm biến như radar và laze Các nguyên mẫu xe tự hành của Uber áp dụng 64 chùm tia laze cùng với các cảm biến khác để xây dựng bản đồ, trong khi Google sử dụng kết hợp laser, radar, máy ảnh công suất cao và sóng siêu âm Phần mềm xử lý thông tin từ các cảm biến này, lập kế hoạch đường đi và gửi hướng dẫn đến bộ điều khiển của xe, điều khiển gia tốc, phanh và đánh lái Các quy tắc được mã hóa cứng, thuật toán tránh chướng ngại vật và mô hình dự đoán giúp xe phân biệt và tương tác với các đối tượng trong môi trường.

Các phương tiện tự hành được thiết kế để nhận biết sự khác biệt giữa xe đạp và xe máy, giúp tuân thủ các quy tắc giao thông và điều hướng chướng ngại vật Một số xe tự hành có thể yêu cầu người lái can thiệp khi hệ thống gặp sự cố, trong khi xe hoàn toàn tự động có thể không cần vô lăng Sự phân biệt giữa ô tô tự hành còn dựa vào khả năng "kết nối", tức là khả năng giao tiếp với các phương tiện và cơ sở hạ tầng khác như đèn giao thông thế hệ mới Tuy nhiên, hầu hết các nguyên mẫu hiện tại vẫn chưa có khả năng này.

Dự án xe tự hành của Google

Nhiều công ty như Lyft, Ford, Uber, Honda, Toyota, và Tesla đang cạnh tranh để phát triển phương tiện tự hành thương mại Tuy nhiên, Waymo, bộ phận xe tự hành của Alphabet, công ty mẹ của Google, là đơn vị tiên phong đạt được nhiều cột mốc quan trọng trong lĩnh vực này.

Vào ngày 7 tháng 11 năm 2017, Waymo thông báo rằng các phương tiện tự hành hoàn toàn của họ, được coi là an toàn và tiên tiến nhất hiện nay, đã bắt đầu thử nghiệm trên đường công cộng mà không cần người điều khiển ngồi ở ghế lái.

Google là một trong những công ty hàng đầu tham gia vào lĩnh vực xe tự hành, với dự đoán rằng đến năm 2020, con người sẽ không cần phải điều khiển xe Họ đang nỗ lực để cải thiện khả năng tự xử lý tình huống của xe, như ứng phó với ùn tắc giao thông và hỗ trợ cấp cứu Ngoài ra, Google còn thiết lập một trung tâm tiếp nhận phản hồi từ người dùng để nhanh chóng khắc phục lỗi và nâng cao chất lượng sản phẩm.

Xe Waymo được trang bị các cảm biến tiên tiến, cho phép quan sát 360 độ xung quanh, duy trì khoảng cách an toàn với người đi bộ và phương tiện khác, điều mà tài xế con người khó có thể đạt được Hệ thống này bao gồm cả laser tầm ngắn và laser có khả năng quan sát xa tới 300 mét.

Theo thống kê gần đây, thị trường xe hơi kết nối dự kiến sẽ tăng trưởng 45% trong vòng năm năm tới, gấp 10 lần so với thị trường xe hơi nói chung Đến năm 2020, khoảng 75% xe hơi xuất xưởng sẽ được trang bị khả năng kết nối internet, với tổng số xe hơi hoạt động trên đường phố ước tính đạt 220 triệu chiếc.

Theo nghiên cứu của Google, để phát triển xe tự lái, cần kết hợp nhiều công nghệ như bản đồ lập trình, radar, cảm biến laser và camera Mỗi chiếc xe trải qua quá trình thử nghiệm nghiêm ngặt và phát triển lâu dài để đảm bảo tất cả thiết bị hoạt động đồng bộ và hiệu quả.

Trước khi triển khai công nghệ tự động trên các tuyến đường, kỹ sư cần tự lái xe và sử dụng máy ảnh, cảm biến, radar để ghi lại bản đồ kỹ thuật số chi tiết về đặc điểm lộ trình Việc lập bản đồ làn đường và biển báo giao thông giúp phần mềm trong xe làm quen với môi trường bên ngoài và đặc điểm đường lái.

Những chuyến đi đầu tiên được thực hiện với sự hỗ trợ của hệ thống lái xe tự động, chuẩn bị cho các bước tiếp theo Trong trường hợp không có hệ thống hỗ trợ, chiếc xe sẽ dựa vào camera, cảm biến laser và radar để xác định vị trí và tốc độ của các phương tiện xung quanh Phần mềm điều khiển tăng giảm tốc độ kết hợp với camera gắn trên xe sẽ đọc và phân tích tín hiệu đèn giao thông cũng như các tín hiệu khác trên đường.

Hình 1 1: Cách xe thu thập dữ liệu xung quanh

Những chiếc xe này bị giới hạn trong một khu vực 100 dặm vuông và không thể tự do di chuyển đến bất kỳ đâu Khi thu thập thêm dữ liệu và tích lũy kinh nghiệm lái xe, khu vực hoạt động của chúng sẽ dần được mở rộng.

Hình 1 2: Thiết kế xe tự hành của Google được giới thiệu vào tháng 5 năm 2014

Hình 1 3: Các tính năng của Xe tự hành của Google

- Cảm biến (sensors): Laser, radar và máy ảnh phát hiện các đối tượng ở mọi hướng

- Rounded shape: Tối đa hóa phạm lý nhìn của cảm biến

- Nội thất (Interior) : Được thiết kế để cưỡi, không phải để lái

- Máy tính (Computer): Được thiết kế đặc biệt để tự hành

- Pin điện (Electric batteries): Để cung cấp năng lượng cho xe

- Hệ thống dự phòng (Back - up systems): Dành cho hệ thống lái, phanh và hơn thế nữa

Công nghệ: Ô tô của Google chi khoảng 150.000 đô la cho trang thiết bị như trong Hình 1.3, bao gồm cả hệ thống LIDAR (Light Detection And Ranging

- Phát hiện và đánh giá ánh sáng) có giá 70.000 đô la Công cụ tìm phạm vi laser

64 tia của Velodyne được lắp đặt trên đầu xe, giúp tạo ra bản đồ 3D chi tiết về môi trường xung quanh Xe kết hợp các bản đồ này với bản đồ có độ phân giải cao của thế giới, từ đó phát sinh các mô hình dữ liệu khác nhau phục vụ cho việc tự hành Một phần tính toán được thực hiện trên các trang trại máy tính từ xa, bên cạnh các hệ thống có sẵn trên bo mạch.

Từ năm 2014, nguyên mẫu xe tự lái mới nhất chưa được thử nghiệm trong điều kiện thời tiết khắc nghiệt như mưa lớn hoặc tuyết do lo ngại về an toàn Xe chủ yếu dựa vào dữ liệu tuyến đường đã được lập trình sẵn và không tuân theo các tín hiệu giao thông tạm thời Trong một số tình huống, xe chuyển sang chế độ "cực kỳ thận trọng" khi gặp các giao lộ phức tạp không có ánh xạ Công nghệ lidar hiện tại cũng gặp khó khăn trong việc phát hiện ổ gà và nhận biết khi con người, như cảnh sát, ra hiệu dừng xe.

Trong 6 cấp độ tự hành theo phân loại SAE International, xe tự hành Google dùng cấp độ 4

Hình 1 4: 6 cấp độ xe tự hành theo phân loại của SAE International.

Cấp độ 4 của xe tự lái cho phép phương tiện di chuyển tự động từ điểm A đến điểm B trong các khu vực địa lý nhất định Waymo, công ty công nghệ tự hành thuộc Google, đã triển khai dịch vụ này tại Phoenix, Arizona, sau khi hoàn thành quá trình bản đồ hóa toàn bộ hệ thống đường phố trong thành phố.

Mặc dù xe tự hành mang lại nhiều tiện ích, nhưng điều kiện thời tiết có thể ảnh hưởng đến hoạt động của chúng Công nghệ mà xe sử dụng đóng vai trò quan trọng trong việc này; chẳng hạn, Tesla kết hợp cảm biến radar và camera để phân tích môi trường, nhưng hệ thống này dễ bị ảnh hưởng bởi thời tiết Ngược lại, Waymo sử dụng công nghệ cảm biến LiDAR, mặc dù chi phí cao hơn, nhưng lại không bị tác động bởi các yếu tố thời tiết.

Ưu điểm và nhược điểm của xe tự hành

 Nó sẽ loại bỏ tai nạn

 Tăng khả năng lưu thông trên đường

 Vị trí hiện tại của phương tiện có thể được xác định bằng hệ thống định vị toàn cầu (G.P.S)

 Giảm hoặc loại bỏ tắc đường

 Cuối cùng, hệ thống sẽ cho phép chúng tôi làm những việc khác trong khi đi du lịch, chẳng hạn như làm việc, đọc sách hoặc ngủ b) Nhược điểm

 Đắt tiền - Giá xe hơi cao

Sử dụng mạng internet không an toàn có thể dẫn đến việc thiếu quyền riêng tư, và trong một số trường hợp hiếm, tin tặc có thể lợi dụng điều này để xâm nhập vào thông tin cá nhân của người dùng.

 Nó không thể xử lý mưa lớn và tuyết- Những con đường có mái che

 Các phương tiện giao thông không thể nhận ra tín hiệu giao thông tạm thời

 Họ cũng không thể điều hướng qua các bãi đậu xe

 Bằng cách sắp ra mắt ô tô không người lái của Google Gia nhập thị trường, nhiều tài xế taxi có thể mất việc.

CẤU TẠO VÀ HOẠT ĐỘNG CỦA XE TỰ HÀNH GOOGLE

GIỚI THIỆU VỀ XE Ô TÔ TỰ HÀNH

Ô tô tự hành, hay còn gọi là xe tự lái, là phương tiện có khả năng cảm nhận môi trường và điều hướng mà không cần sự can thiệp của con người Xe tự hành sử dụng các công nghệ như radar, GPS và tầm nhìn máy tính để phát hiện môi trường xung quanh Hệ thống điều khiển tiên tiến giúp phân tích thông tin cảm quan, xác định các tuyến đường phù hợp và nhận diện chướng ngại vật cùng biển báo Công nghệ này cho phép xe tự lái phân biệt giữa các phương tiện khác trên đường, hỗ trợ lập kế hoạch cho hành trình đến đích một cách hiệu quả.

- Lợi ích của công nghệ bằng cách xử lý một lượng lớn dữ liệu và sử dụng nó để đưa ra các quyết định thông minh.

Khả năng thích nghi của con người với môi trường, dù là đã biết hay chưa biết, luôn đi kèm với quyền tự chủ và quyền sở hữu cá nhân Nhìn về tương lai, nhiều người dự đoán rằng vô lăng sẽ hoàn toàn biến mất, nhường chỗ cho xe tự lái thực hiện mọi thao tác điều khiển thông qua hệ thống cảm biến, radar và bản đồ GPS hiện đại Tương lai của công nghệ ô tô tự hành phụ thuộc vào những công ty đang phát triển lĩnh vực này, như được minh họa trong Hình 2.1.

Hình 2 1: Cách Ô tô ngày càng thông minh hơn

CÁC CÔNG NGHỆ KHÁC BIỆT ĐƯỢC SỬ DỤNG TRONG XE TỰ HÀNH GOOGLE

Xe tự hành sử dụng nhiều công nghệ ô tô tiên tiến để cung cấp phương thức di chuyển dễ dàng Để vận hành hiệu quả, cần có sự đồng bộ hóa hoàn hảo giữa các cảm biến thu thập thông tin về môi trường, các thuật toán phức tạp để xử lý dữ liệu và điều khiển phương tiện, cùng với sức mạnh tính toán xử lý tất cả thông tin này trong thời gian thực.

Phần mềm tự lái có khả năng nhận diện đồ vật, con người, ô tô, vạch kẻ đường, biển báo và đèn giao thông, đồng thời tuân thủ các quy tắc giao thông và phòng tránh nhiều nguy cơ, bao gồm cả người đi xe đạp Ngoài ra, nó còn có khả năng phát hiện các công trình đường và điều hướng an toàn xung quanh chúng Hình 2.2 minh họa các thành phần quan trọng của xe tự hành, và danh sách các bộ phận cùng chức năng của chúng sẽ được trình bày trong phần tiếp theo.

Trái tim của chiếc xe tự hành của Google là máy ảnh Lidar xoay trên nóc xe, sử dụng 64 tia laser để tạo ra hình ảnh 3D của các vật thể xung quanh Thiết bị này giúp xe nhận diện các mối nguy hiểm trên đường bằng cách tính toán khoảng cách giữa phương tiện và các vật thể dựa trên thời gian tia laser chiếu vào và quay trở lại Với khả năng hoạt động trong phạm vi 200m, Lidar cung cấp hình ảnh chi tiết và chính xác về môi trường xung quanh, góp phần nâng cao tính an toàn cho xe tự hành.

Laser là thiết bị phát ra ánh sáng thông qua quá trình khuếch đại quang học, dựa trên bức xạ điện từ được kích thích Từ "laser" là viết tắt của cụm từ "khuếch đại ánh sáng bằng phát bức xạ kích thích" Một hệ thống mới được phát triển bởi các nhà nghiên cứu tại Đại học California, Berkeley, có khả năng cảm nhận từ xa các vật thể ở khoảng cách lớn.

Công nghệ laser mới cho phép tạo ra hình ảnh 3D với độ chính xác lên đến 30 feet, gấp hơn 10 lần so với các hệ thống laser công suất thấp hiện tại Sự phát triển này hứa hẹn sẽ mang đến các hệ thống hình ảnh 3D nhỏ gọn và tiết kiệm chi phí, mở ra tiềm năng ứng dụng đặc biệt trong lĩnh vực ô tô tự hành.

Hình 2 4: Một cảm biến laser trên nóc xe liên tục quét xung quanh.

Lidar, an acronym for Light Detection and Ranging, is a technology that measures distances to objects by emitting pulsed laser beams and analyzing the reflected light pulses.

Cảm biến ghi nhận các xung phản xạ từ các đối tượng, từ đó phân tích sự khác biệt về thời gian truyền về và bước sóng Những thông tin này được sử dụng để tính toán và tạo ra mô hình 3D của vật thể.

Hình 2 5: Xe tự hành dùng Lidar để xây dựng bản đồ số 3D

Hệ thống Lidar trên xe tự hành quay liên tục 360 độ và trả về tín hiệu khoảng cách 3D của các vật thể xung quanh.

LIDAR hoạt động dựa trên nguyên tắc đơn giản là phát ánh sáng laser vào các vật thể trên bề mặt trái đất và đo thời gian ánh sáng trở lại nguồn phát Với tốc độ ánh sáng khoảng 186.000 dặm mỗi giây, quá trình đo khoảng cách bằng LiDAR diễn ra rất nhanh chóng nhưng cũng rất phức tạp Các nhà phân tích áp dụng một công thức cụ thể để xác định khoảng cách chính xác đến các đối tượng.

Hình 2 6 : Cách tính khoảng cách của LIDAR

Khoảng cách đến vật thể = (Tốc độ của ánh sáng x Thời gian đo được)/2

Lidar, mặc dù đã được sử dụng từ thập niên 1960 trên máy bay quân sự, nhưng chỉ trở nên phổ biến hơn 20 năm sau nhờ sự phát triển của GPS Sự kết hợp giữa Lidar và GPS đã tạo ra công cụ hữu ích trong lĩnh vực trắc địa.

Bằng cách sử dụng laser quay liên tục để chiếu hàng triệu điểm, chúng ta có thể đo đạc các vật thể xung quanh và thu thập dữ liệu dưới dạng mây điểm (point cloud), từ đó xây dựng bản đồ số 3D Hiện tại, công nghệ cho phép đạt được 2.2 triệu mẫu mỗi giây và đo khoảng cách lên đến hơn 120 mét Trong tương lai, cả số lượng và tốc độ lấy mẫu dự kiến sẽ tăng đáng kể.

Cảm biến LiDAR gắn trên xe giúp tạo ra bản đồ 3D chính xác, cho phép theo dõi các đối tượng chuyển động có kích thước nhỏ như thú cưng Công nghệ 3D LiDAR không chỉ dự đoán hướng di chuyển của chúng mà còn phân biệt các chướng ngại vật tiềm ẩn trong môi trường xung quanh.

Hình 2 7: Xe tự hành của Google sử dụng lidar để tạo hình ảnh 3D về môi trường xung quanh.

LIDAR là công nghệ sử dụng laser để đo khoảng cách, thường được lắp đặt trên nóc xe Thiết bị này, với 64 tia laser từ Velodyne, tạo ra bản đồ 3D chi tiết về môi trường xung quanh Xe tự hành kết hợp các phép đo laser với bản đồ độ phân giải cao, từ đó tạo ra các mô hình dữ liệu đa dạng giúp nó di chuyển an toàn, tránh chướng ngại vật và tuân thủ luật giao thông.

Một hệ thống LIDAR thường bao gồm:

Bộ phát laser sử dụng bước sóng từ 600 đến 1000nm có chi phí thấp nhưng dễ gây hại cho mắt, do đó năng lượng bị giới hạn bởi các quy chuẩn an toàn Trong khi đó, bước sóng 1550nm an toàn cho mắt ở năng lượng cao hơn, nhưng bộ nhận tín hiệu không hiện đại, thường chỉ phù hợp cho tầm xa và độ chính xác thấp hơn.

● Máy quét: thành phần dùng để điều khiển cho tia laser quay xung quanh môi trường

● Một bộ thu tín hiệu laser phản xạ trở về

● Một thiết bị định vị, có thể là cảm biến GPS và cảm biến trọng lực để biết hướng và vị trí quét.

Hình 2 8: Các thành phần của hệ thống LIDAR

Hãy nhìn vào hình bên dưới:

Khi tia laser được phát ra, nó sẽ va chạm với máy quét và được gương xoay dẫn hướng Khi tia laser chạm vào tường, nó phản xạ trở lại và bộ thu tín hiệu ghi nhận khoảng cách từ bộ phát đến tường Nếu có vật cản trong phòng, tia laser sẽ phản xạ trở lại nhanh hơn, cho thấy khoảng cách ngắn hơn Nhờ vào việc tia laser quay liên tục, hình ảnh toàn bộ căn phòng có thể được tổng hợp Sau này, công nghệ còn được phát triển để chụp hình toàn bộ để định vị, không chỉ quét như trước đây.

Hình 2 9: Cấu trúc và chức năng của LIDAR

Có một số thành phần chính đối với hệ thống lidar:

Laser có bước sóng từ 600 - 1000nm là phổ biến nhất cho các ứng dụng phi khoa học, mặc dù giá cả không cao nhưng công suất tối đa bị hạn chế để đảm bảo an toàn cho mắt Tia laser 1550 nm là một lựa chọn thay thế phổ biến, an toàn cho mắt ở mức công suất cao hơn, vì bước sóng này không bị mắt tập trung, tuy nhiên công nghệ máy dò kém tiên tiến hơn dẫn đến độ chính xác thấp hơn và thường được sử dụng ở khoảng cách xa Ngoài ra, tia laser 1550 nm cũng được áp dụng trong các ứng dụng quân sự do không thể nhìn thấy trong kính nhìn ban đêm, khác với tia laser hồng ngoại 1000 nm ngắn hơn Các lidar lập bản đồ địa hình trên không thường sử dụng laser YAG bơm điốt 1064 nm, trong khi hệ thống đo độ sâu thường sử dụng laser YAG gấp đôi tần số 532 nm.

TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO

Trí tuệ nhân tạo (AI) là công nghệ giúp máy tính, robot hoặc phần mềm suy nghĩ thông minh giống như con người AI được phát triển dựa trên nghiên cứu cách bộ não con người hoạt động, cách con người học hỏi, quyết định và giải quyết vấn đề, từ đó tạo ra các phần mềm và hệ thống thông minh.

Trí tuệ nhân tạo (AI) là một lĩnh vực khoa học và công nghệ kết hợp nhiều ngành như Khoa học máy tính, Sinh học, Tâm lý học, Ngôn ngữ học, Toán học và Kỹ thuật Mục tiêu chính của AI là phát triển các chức năng máy tính mô phỏng trí thông minh của con người, bao gồm lý luận, học tập và giải quyết vấn đề Các nhà nghiên cứu đã xác định sáu mục tiêu chính để mở rộng các ứng dụng và khả năng của Trí tuệ nhân tạo.

Lập kế hoạch, lập lịch biểu và tối ưu hóa là những yếu tố quan trọng giúp máy tính đặt ra mục tiêu và đạt được chúng Để thực hiện điều này, máy tính cần có khả năng hình dung tương lai, đại diện cho tình trạng thế giới hiện tại và dự đoán tác động của hành động của chúng Qua đó, máy tính có thể đưa ra những lựa chọn nhằm tối đa hóa lợi ích từ các quyết định sẵn có.

Ngôn ngữ xử lý tự nhiên (NLP) cho phép máy tính đọc và hiểu ngôn ngữ con người, tạo điều kiện cho người dùng tương tác thông qua ngôn ngữ tự nhiên Một hệ thống NLP mạnh mẽ có khả năng thu nhận kiến thức từ các nguồn tài liệu do con người viết, nâng cao trải nghiệm người dùng.

Xử lý kỹ thuật là nghiên cứu các tín hiệu tiếng nói và phương pháp xử lý tín hiệu, thường được thực hiện dưới dạng biểu diễn kỹ thuật số Đây được coi là một trường hợp đặc biệt của xử lý tín hiệu kỹ thuật số, áp dụng cho tín hiệu giọng nói Các khía cạnh quan trọng của xử lý giọng nói bao gồm thu nhận, thao tác, lưu trữ, chuyển và xuất tín hiệu giọng nói, trong đó đầu vào được gọi là nhận dạng giọng nói và đầu ra là tổng hợp giọng nói.

Machine Learning là một khái niệm cốt lõi trong nghiên cứu trí tuệ nhân tạo (AI), tập trung vào việc phát triển các thuật toán máy tính có khả năng tự cải thiện thông qua kinh nghiệm.

Cánh tay robot tiên tiến và các robot công nghiệp đang ngày càng phổ biến trong các nhà máy hiện đại, nhờ khả năng học hỏi kinh nghiệm để di chuyển hiệu quả, bất chấp sự xuất hiện của ma sát và trượt bánh răng.

Sưu tầm là một lĩnh vực nghiên cứu quan trọng, tập trung vào việc phát triển các kỹ thuật cho phép máy tính nhận diện và hiểu nội dung của hình ảnh kỹ thuật số, bao gồm cả ảnh và video.

Hệ thống chuyên gia là các hệ thống máy tính mô phỏng khả năng ra quyết định của con người, được thiết kế để giải quyết các vấn đề phức tạp Chúng sử dụng lập luận dựa trên khối kiến thức, chủ yếu được biểu diễn dưới dạng các quy tắc if – then, thay vì sử dụng mã thủ tục thông thường.

Machine Learning (ML) là một nhánh của Trí tuệ nhân tạo, nghiên cứu các thuật toán và mô hình thống kê cho phép hệ thống máy tính thực hiện nhiệm vụ mà không cần hướng dẫn cụ thể Thay vào đó, ML dựa vào các mẫu và suy luận từ dữ liệu mẫu, gọi là "dữ liệu đào tạo", để đưa ra dự đoán hoặc quyết định Các thuật toán học máy được áp dụng trong nhiều lĩnh vực như lọc email và thị giác máy tính, nơi mà việc phát triển một thuật toán cụ thể là không khả thi Học máy có mối liên hệ chặt chẽ với thống kê tính toán, tập trung vào việc dự đoán bằng máy tính, trong khi nghiên cứu tối ưu hóa toán học cung cấp phương pháp và lý thuyết cho lĩnh vực này.

Hình 2 19: Mối quan hệ giữa AI, Machine Learning và Deep Learning

Mọi thuật toán học máy đều có ba thành phần:

Biểu diễn tri thức là phương pháp thể hiện thông tin, bao gồm các hình thức như cây quyết định, bộ quy tắc, phiên bản, mô hình đồ họa, mạng nơ-ron, máy vectơ hỗ trợ, và nhóm mô hình Những cách biểu diễn này giúp tổ chức và truyền đạt kiến thức một cách hiệu quả.

Đánh giá chương trình ứng viên là một quá trình quan trọng, bao gồm các yếu tố như độ chính xác, khả năng dự đoán và thu hồi, cũng như sai số bình phương Ngoài ra, các chỉ số như xác suất sau, chi phí và lợi nhuận cũng đóng vai trò quan trọng trong việc phân tích hiệu quả Phân kỳ entropy k-L và các phương pháp khác cũng được sử dụng để đánh giá chính xác hơn về khả năng hoạt động của chương trình.

Tối ưu hóa là quá trình tìm kiếm mà trong đó các chương trình ứng viên được phát triển, bao gồm các phương pháp như tối ưu hóa tổ hợp, tối ưu hóa lồi và tối ưu hóa ràng buộc.

Có bốn loại học máy:

Học tập có giám sát là loại thuật toán học tập trong đó đầu ra mong muốn được cung cấp cùng với đầu vào trong quá trình huấn luyện mạng.

Bằng cách cung cấp cho mạng nơ-ron cả đầu vào và đầu ra, chúng ta có thể tính toán lỗi dựa trên sự khác biệt giữa đầu ra mục tiêu và đầu ra thực tế Lỗi này sau đó được sử dụng để điều chỉnh và cải thiện mạng bằng cách cập nhật trọng số của nó.

CONVOLUTIONAL NEURAL NETWORK VÀ MÔ PHỎNG CẤU TRÚC CỦA MẠNG CNN

Giới thiệu

Mạng nơ-ron Convolutional (CNN) là một thuật toán Học sâu mạnh mẽ, có khả năng xử lý hình ảnh đầu vào và gán trọng số cho các đối tượng trong hình ảnh, giúp phân biệt chúng một cách hiệu quả So với các thuật toán phân loại truyền thống, CNN yêu cầu ít xử lý trước hơn Trong khi các phương pháp cổ điển dựa vào bộ lọc thiết kế thủ công, CNN có khả năng tự động học các bộ lọc và đặc điểm từ dữ liệu đào tạo, đánh dấu một bước đột phá trong việc phát triển các tính năng từ ví dụ thực tế.

CNN được sử dụng để đánh giá đầu vào thông qua các biến đổi với bộ lọc, giúp phát hiện các cạnh và tính năng cấp thấp ở các lớp trước, cũng như các tính năng phức tạp hơn ở các lớp sâu hơn Ngoài ra, CNN kết hợp với các lớp gộp và thường có các lớp kết nối đầy đủ ở cuối Quá trình truyền dữ liệu diễn ra tương tự như trong mạng nơ-ron vani, với việc giảm thiểu hàm mất mát thông qua nhân giống ngược để đào tạo CNN.

Tích chập, một kỹ thuật quan trọng trong xử lý tín hiệu số, đã được áp dụng để cải thiện chất lượng hình ảnh và video nhờ nguyên lý biển đổi thông tin Kỹ thuật này có thể được hình dung như một cửa sổ trượt trên một ma trận, giúp phân tích và xử lý dữ liệu một cách hiệu quả.

Hình 3 1: Minh họa tích chập

Ma trận bên trái là bức ảnh đen trắng, trong đó mỗi giá trị tương ứng với một điểm ảnh, với 0 là màu đen và 1 là màu trắng Sliding window, hay còn gọi là kernel, filter hoặc feature detector, là ma trận filter 3x3 được nhân với từng thành phần của ma trận ảnh bên trái theo cách element-wise Giá trị đầu ra được tính bằng cách cộng lại các tích của các thành phần này Kết quả của phép tích chập là một ma trận (convoled feature) được tạo ra từ việc trượt ma trận filter và thực hiện tích chập trên toàn bộ ma trận ảnh bên trái.

Hình 3 2: Ảnh mờ sau khi chập

Ngoài ra, ta có thể phát hiện biên cạnh bằng cách tính vi phân (độ li biệt) giữa các điểm ảnh lân cận

Hình 3 3: Ảnh được phát hiện biên sau chập

• Ta cỏ thể làm mờ bức ành ban đầu bằng cách lấy giả trị trung binh của các điểm ảnh xung quanh cho vị tri điểm ành trung tâm.

Cấu trúc mạng nơ-ron tích chập(Convolutional Neural Networks-CNN) 38

Tất cả các mô hình CNN đều dựa trên một kiến trúc tương tự, bao gồm chuỗi các lớp chuyển đổi khối lượng kích hoạt thông qua các hàm phân biệt Để xây dựng kiến trúc CNN, chúng tôi sử dụng ba loại lớp chính: Lớp Convolution, Lớp Phân chia và Lớp Kết nối Hoàn toàn, tương tự như các Mạng Neural thông thường Những lớp này được gọi là Lớp ẩn và được xếp chồng lên nhau để tạo thành một kiến trúc CNN hoàn chỉnh.

3.2.1 Convolution Layer-Lớp chuyển đổi

Lớp Convolution thực hiện phép toán "tích chập", là một phép toán tuyến tính giữa hai hàm nhằm tạo ra một hàm thứ ba thể hiện sự biến đổi hình dạng của hàm này bởi hàm kia Hai hàm đầu vào bao gồm dữ liệu đầu vào và bộ lọc (mảng nhân tương quan) Qua phép toán tương quan chéo, chúng được kết hợp để tạo ra đầu ra.

Bộ lọc là một công cụ xử lý dữ liệu, bắt đầu từ góc trên bên trái của mảng đầu vào và trượt qua mảng này theo chiều ngang và chiều dọc Mỗi vị trí mà bộ lọc đến sẽ nhân mảng con với mảng hạt nhân, tạo ra một giá trị duy nhất cho mảng kết quả Khi bộ lọc được áp dụng nhiều lần, nó sẽ tạo ra một mảng hai chiều các giá trị đầu ra, được gọi là “bản đồ đặc trưng”.

Việc sử dụng bộ lọc nhỏ hơn dữ liệu đầu vào cho phép áp dụng cùng một bộ lọc (tập trọng số) nhiều lần tại các điểm khác nhau trên dữ liệu Bộ lọc được áp dụng một cách hệ thống cho từng phần chồng chéo của bản vá, từ trái sang phải và từ trên xuống dưới Khi bộ lọc được thiết kế để phát hiện một loại tính năng cụ thể, việc áp dụng nó trên toàn bộ hình ảnh sẽ giúp khám phá bất kỳ vị trí nào trong hình ảnh, điều này được gọi là bất biến dịch Mối quan tâm chính là xác định sự hiện diện của đối tượng địa lý, thay vì vị trí cụ thể của nó.

Hình 3 5: Dữ liệu đầu vào, bộ lọc và kết quả của một lớp tích chập

Hình 3 6: Phép toán tích chập của CNN.

I là một mảng đầu vào.

I * K là một đầu ra của phép toán tích chập.

Hình 3 7: Kết quả của một phép toán tích chập (a) là hình ảnh đầu vào.

(b) là bản đồ đặc trưng của hình ảnh sau một lớp tích chập.

Hình 3 8: Thực hiện nhiều biến đổi trên một đầu vào

Hình 3 9: Phép toán tích chập cho mỗi bộ lọc

Hàm kích hoạt là các phương trình toán học quyết định đầu ra của mạng nơ-ron, gắn liền với mỗi nơ-ron để xác định xem nó có nên được kích hoạt hay không dựa trên độ liên quan của đầu vào với dự đoán của mô hình Chúng giúp loại bỏ nhiễu và chuyển đổi mạng từ tuyến tính sang phi tuyến tính, đồng thời chuẩn hóa đầu ra của mỗi nơ-ron trong các phạm vi khác nhau như từ 0 đến 1 hoặc từ -1 đến 1.

Sau mỗi lớp chập trong mạng nơ-ron, việc áp dụng chức năng kích hoạt là rất quan trọng Nếu không có chức năng này, mạng sẽ hoạt động như một nhận thức đơn lẻ, dẫn đến việc tất cả các lớp tạo thành một mạng tuyến tính, khiến đầu ra chỉ là sự kết hợp tuyến tính của các đầu ra Mặc dù phương trình tuyến tính dễ giải, nhưng chúng bị hạn chế về độ phức tạp và không đủ sức mạnh để học các ánh xạ hàm phức tạp từ dữ liệu Một mạng nơ-ron thiếu chức năng kích hoạt chỉ là một mô hình hồi quy tuyến tính, thường không đạt hiệu quả cao Để mạng nơ-ron có thể học và tính toán các hàm phức tạp hơn, cần sử dụng các hàm phi tuyến tính như Sigmoid, Tanh và ReLU.

Hàm kích hoạt Sigmoid, được định nghĩa bởi công thức f(x) = 1 / (1 + exp(-x)), có giá trị nằm trong khoảng từ 0 đến 1 và có hình dạng đường cong đặc trưng Mặc dù dễ hiểu và dễ áp dụng, hàm Sigmoid gặp phải một số vấn đề như gradient biến mất và đầu ra không được căn giữa, điều này làm cho quá trình tối ưu hóa trở nên khó khăn và cần nhiều thời gian để hội tụ.

Hàm tanh trong toán học được định nghĩa là f(x) = (1 - exp(-2x)) / (1 + exp(-2x)), với giá trị đầu ra nằm trong khoảng từ -1 đến 1 Điều này giúp quá trình tối ưu hóa trở nên dễ dàng hơn, mặc dù vẫn tồn tại vấn đề về độ dốc biến mất.

ReLU (Đơn vị tuyến tính được chỉnh lưu) đã trở nên phổ biến trong lĩnh vực học máy nhờ khả năng cải thiện sự hội tụ từ chức năng Tánh lên đến sáu lần Hàm ReLU được định nghĩa là f(x) = max(0, x), với f(x) = 0 khi x < 0 và f(x) = x khi x ≥ 0, cho thấy sự đơn giản và hiệu quả của nó Nhiều nghiên cứu trong học máy và khoa học máy tính chỉ ra rằng các kỹ thuật đơn giản và nhất quán thường mang lại kết quả tốt nhất ReLU không chỉ giúp tránh vấn đề gradient biến mất mà còn được áp dụng rộng rãi trong các mô hình học sâu Tuy nhiên, một hạn chế của ReLU là nó chỉ nên được sử dụng trong các lớp ẩn của mạng nơ-ron.

Stride là số lượng pixel thay đổi trên ma trận đầu vào Khi sải chân là một, các bộ lọc di chuyển từng pixel từ trái sang phải và từ trên xuống dưới Nếu sải chân là hai, bộ lọc sẽ di chuyển hai pixel một lần Có hai loại kết quả từ hoạt động này: một là kích thước của đối tượng địa lý bị giảm so với đầu vào, và loại còn lại là kích thước được tăng lên hoặc giữ nguyên.

Khi cạnh của mảng đầu vào chứa thông tin quan trọng, việc áp dụng Same Padding là cần thiết để đảm bảo kích thước của mảng đầu ra bằng hoặc lớn hơn kích thước của mảng đầu vào Ngược lại, Valid Padding nên được sử dụng để loại bỏ những phần không cần thiết ở cạnh của mảng đầu vào, với khái niệm là không có phần đệm nào được thêm vào.

Hình 3 10: Áp dụng không padding cho ma trận đầu vào

Hình 3 11: Hoạt động gộp tối đa.

Lớp Nhóm gộp đóng vai trò quan trọng trong việc giảm kích thước không gian của đối tượng tích hợp, tương tự như Lớp Convolution Việc này giúp giảm sức mạnh tính toán cần thiết để xử lý dữ liệu bằng cách giảm kích thước, từ đó giảm khối lượng tính toán và trích xuất các đối tượng địa lý cấp thấp từ các pixel lân cận Hơn nữa, lớp này hỗ trợ trong việc trích xuất các đặc trưng chủ đạo như bất biến xoay và vị trí, giúp duy trì hiệu quả trong quá trình huấn luyện mô hình.

Có hai loại tổng hợp trong xử lý hình ảnh: Tổng hợp tối đa (Max Pooling) và Tổng hợp trung bình (Average Pooling) Max Pooling trả về giá trị lớn nhất từ khu vực hình ảnh mà hạt nhân bao phủ, trong khi Average Pooling cung cấp giá trị trung bình của tất cả các giá trị trong khu vực đó.

Max Pooling giúp trích xuất các đặc trưng quan trọng như các cạnh, trong khi Average Pooling tạo ra các đặc trưng mượt mà hơn Việc lựa chọn giữa Max Pooling và Average Pooling phụ thuộc vào loại dữ liệu cụ thể.

Trong kiến trúc CNN, Pooling thường được thực hiện với cửa sổ 2x2, bước 2 và không có padding.

3.2.5 Fully-Connected layer - Lớp được kết nối đầy đủ

Lớp được kết nối đầy đủ là một phương pháp hiệu quả để học các kết hợp phi tuyến tính của các đối tượng cao cấp thông qua đầu ra của lớp phức hợp Để phân loại hình ảnh, cần chuyển đổi bản đồ đối tượng thành vector cột, sau đó đầu ra được vỗ béo sẽ được đưa vào mạng nơ-ron truyền về phía trước Quá trình đào tạo lặp lại áp dụng nhân giống ngược để cải thiện mô hình Qua thời gian, mô hình có khả năng phân biệt các tính năng nổi bật và một số tính năng cấp thấp trong hình ảnh, sử dụng hàm Softmax cho phân loại nhiều lớp và hàm Sigmoid cho phân loại hai lớp.

Hình 3 12: Mạng Neural sâu để phân loại nhiều lớp.

Cấu trúc mạng và tối ưu hóa thông số

Kiến trúc mạng bao gồm 9 lớp, trong đó có 5 lớp phức hợp và 4 lớp kết nối đầy đủ Đầu vào có kích thước 66x200x3 Các lớp biến đổi được thiết kế để trích xuất tính năng, được chọn qua thử nghiệm với nhiều cấu hình khác nhau Ba lớp phức hợp đầu tiên sử dụng kích thước hạt nhân 7x7 và bước sóng 2x2, với độ sâu lần lượt là 8, 16, 32 và 64 Tính năng cục bộ tiếp tục được xử lý trong hai lớp chập cuối với kích thước hạt nhân 3x3 và độ sâu 64 Sau các lớp chập, đầu ra được làm phẳng và tiếp theo là các lớp kết nối đầy đủ với kích thước giảm dần.

Mạng neural của chúng tôi bao gồm 100, 50, 20 và 7 lớp ẩn, tất cả đều sử dụng đơn vị tuyến tính chỉnh lưu (ReLU) để nâng cao khả năng hội tụ Chúng tôi áp dụng hàm softmax từ các vectơ đặc trưng để tính toán xác suất cho góc vô lăng Tổng cộng, mạng này có khoảng 194.173 tham số và sẽ mang lại hiệu suất đào tạo ấn tượng ngay cả trên phần cứng có cấu hình khiêm tốn.

Mô phỏng xe tự hành

Mô hình CNN được sử dụng để dự đoán các giá trị thực trong bài toán ô tô tự hành Xe tự hành thu thập thông tin từ nhiều cảm biến, bao gồm cảm biến phía trước, phía sau và hai bên, cùng với dữ liệu từ bốn camera xung quanh xe Ngoài ra, xe còn sử dụng thông tin về tốc độ và góc lái để nâng cao độ chính xác trong quá trình điều khiển.

Để xe tự hành hoạt động an toàn, cần phải huấn luyện mô hình điều khiển các hành động như nhấn ga, đạp phanh và điều chỉnh tay lái Mô hình CNN sẽ xử lý hình ảnh bằng cách phân tích từng phần của ảnh từ trái sang phải và từ trên xuống dưới, ghi lại các đặc trưng nổi bật Sau khi hoàn thành quá trình này, mô hình sẽ có được những đặc điểm quan trọng nhất của bức ảnh để hỗ trợ xe tự hành.

3.4.1 Giới thiệu mô phỏng ô tô tự hành

3.4.1.1 Self-drving car Ứng dụng mô phỏng ô tô tự hành là phần mềm mã nguồn mở được phát triển bởi Udacity, được viết bằng Unity ( công cụ dùng để phát triển game).

Hình 3 13: Giao diện ứng dụng mô phỏng Self-drving car

 Training mode (sẽ cho dữ liệu về ô tô tự hành để train mô hình)

 Autonomous mode (phần ô tô tự hành).

Giao diện ứng dụng phần training mode trên ô tô được trang bị 3 camera (trái, giữa, phải) Ô tô có khả năng di chuyển sang trái (←), sang phải (→), tăng tốc (↑) và giảm tốc (↓).

Trong chế độ huấn luyện, mỗi vị trí di chuyển của ô tô sẽ cung cấp các dữ liệu quan trọng, bao gồm hình ảnh từ ba camera, góc lái của vô lăng, tốc độ xe, cũng như mức độ giảm tốc (throttle) và phanh (brake).

Python là một ngôn ngữ lập trình thông dịch, hướng đối tượng và bậc cao với ngữ nghĩa động Nó hỗ trợ module và gói, khuyến khích việc lập trình module hóa và tái sử dụng mã Trình thông dịch và thư viện chuẩn của Python có sẵn miễn phí dưới dạng mã nguồn hoặc nhị phân cho tất cả các nền tảng chính và có thể được phân phối tự do.

Python dễ dàng kết nối với các thành phần khác:

Python can connect with various technologies such as COM, NET (including IronPython and Python for NET), CORBA, and Java Additionally, Python is supported by the Internet Communications Engine (ICE) and numerous other connection technologies.

● Có thể viết các thư viện trên C/C++ để nhúng vào Python và ngược lại.

Sau khi chọn chế độ đào tạo, hãy làm quen với việc di chuyển ô tô bằng các phím mũi tên Khi đã lái mượt mà, hãy nhấn nút ghi lại, sau đó chọn thư mục để lưu dữ liệu và nhấn chọn.

Lái xe khoảng 5 phút sẽ ra khoảng 9000 ảnh (3000 ảnh từ mỗi camera).Kết quả:

Hình 3 16: Kết quả của training mode

Hình 3 17: File IMD sau khi training mode

Hình 3 18: File driving_log.csv để mô tả dữ liệu b) Dữ liệu code (phụ lục)

Sơ đồ khối của hệ thống đào tạo của chúng tôi được thể hiện trong Hình 4 6.

Hình ảnh được đưa vào mạng nơ-ron tích chập (CNN) để tính toán lệnh lái đề xuất Lệnh này sau đó sẽ được so sánh với lệnh mong muốn cho hình ảnh, từ đó trọng số của CNN sẽ được điều chỉnh nhằm tối ưu hóa đầu ra gần với kết quả mong muốn.

Sau khi được đào tạo, mạng có thể tạo ra chỉ đạo từ hình ảnh video của một camera trung tâm duy nhất.[ CITATION Mar16 \l 1033 ]

Cấu hình này được thể hiện trong Hình 3 19

Hình 3 20: Mạng được đào tạo được sử dụng để tạo các lệnh lái từ mộtcamera trung tâm phía trước.

Bước đầu tiên để đào tạo một mạng nơ-ron là chọn các khung để sử dụng.

Dữ liệu thu thập được gắn nhãn theo loại đường, tình trạng thời tiết và hoạt động của người lái xe như ở trong làn đường, chuyển làn hay rẽ Để huấn luyện mạng nơ-ron tích chập (CNN) cho việc theo dõi làn đường, tôi chỉ chọn dữ liệu khi người lái xe đang ở trong một làn đường và loại bỏ các phần không liên quan.

Hình 3 21: Cấu trúc mạng CNN

Mạng có khoảng 27 triệu kết nối và 250 nghìn thông số.

Input layer: Ảnh màu kích thước 66*200

Output layer: 1 node dự đoán góc lái của vô lăng

To set up your environment, open the Command Prompt and install the necessary libraries by executing the following pip commands sequentially: `pip install python-socketio`, `pip install numpy`, `pip install eventlet`, `pip install pillow`, `pip install flask`, `pip install keras`, `pip install tensorflow`, `pip install opencv-python`, and `pip install matplotlib`.

Hình 3 22: Kết quả cài đặt thư viện

Mọi thứ cài đặt xong thì mở file TrainModel.py như sau:

Hình 2 23: Cách lấy liên kết file Trainmode

Vào thư mục chứa file Trainmode.py

Sau đó kích chuột vào đường dẫn xong copy như hình trên:(Đường dẫn file chứa Trainmode.py)

Sau đó thực hiện lệnh:

Cd C:\tulai\self_driving-master

Chạy lệnh `python TrainModel.py` và chờ quá trình huấn luyện hoàn tất, thường mất khoảng 2-3 tiếng Khi màn hình hiển thị chữ "Trained!", quá trình đã thành công.

Hình 3 23: Kết quả sau khi train thành công

Train thành công, các bạn hãy vào thư mục traindata, sẽ thấy các file model-…h5 Hãy chọn file mới nhất ví dụ mình chọn file model-008.h5

Hình 3 24: Kết quả của traindata

Chạy file GoDrive.py bằng cách gõ lệnh python DriveNow.py /traindata/model-008.h5

File model-008.h5 là phiên bản mới nhất, và kết quả thu được có thể khác nhau tùy thuộc vào từng máy, thời gian huấn luyện để nhập dữ liệu hình ảnh từ các camera, cũng như mỗi lần chạy mã sẽ cho ra những kết quả khác nhau.

Hình 3 25: Kết quả train model-008

Cuối cùng chỉ cần mở phần mềm tự hành và chọn Automotous Mode Lúc này xe sẽ tự động lái.

PHÂN TÍCH KẾT QUẢ NGHIÊN CỨU

Định dạng
Số trang	92
Dung lượng	7,85 MB