1. Trang chủ
  2. » Tất cả

xe tự hành

92 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Hệ Thống Tự Hành Trên Xe Google
Tác giả Nguyễn Trung Phong
Người hướng dẫn ThS. Trịnh Đắc Phong
Trường học Trường Đại Học Công Nghiệp Hà Nội
Chuyên ngành Công Nghệ Ô Tô
Thể loại Đồ Án Tốt Nghiệp
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 92
Dung lượng 4,13 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN XE TỰ HÀNH (11)
    • 1.1 Giới thiệu chung (11)
    • 1.1. Tổng quan về xe tự hành (Automonous Car) (12)
    • 1.3 Dự án xe tự hành của Google (13)
    • 1.4 Ưu điểm và nhược điểm của xe tự hành (18)
  • CHƯƠNG 2: CẤU TẠO VÀ HOẠT ĐỘNG CỦA XE TỰ HÀNH GOOGLE (20)
    • 2.1 GIỚI THIỆU VỀ XE Ô TÔ TỰ HÀNH (20)
    • 2.2 CÁC CÔNG NGHỆ KHÁC BIỆT ĐƯỢC SỬ DỤNG TRONG XE TỰ HÀNH GOOGLE (21)
      • 2.2.1 LASER (22)
      • 2.2.2 LIDAR (23)
      • 2.2.3 RADAR (35)
      • 2.2.4 GPS (36)
      • 2.2.5 Camera (36)
    • 2.3 TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO (39)
      • 2.3.1 Trí tuệ nhân tạo (39)
      • 2.3.2 Machine Learning (41)
      • 2.3.3 Deep Learning (43)
  • CHƯƠNG 3: CONVOLUTIONAL NEURAL NETWORK VÀ MÔ PHỎNG CẤU TRÚC CỦA MẠNG CNN (46)
    • 3.1: Giới thiệu (46)
    • 3.2. Cấu trúc mạng nơ-ron tích chập(Convolutional Neural Networks-CNN) 38 (48)
      • 3.2.1 Convolution Layer-Lớp chuyển đổi (49)
      • 3.2.2. Chức năng kích hoạt (52)
      • 3.2.3 Stride và Padding (53)
      • 3.2.4 Pooling Layer- Lớp gộp (54)
      • 3.2.5 Fully-Connected layer - Lớp được kết nối đầy đủ (55)
    • 3.3 Cấu trúc mạng và tối ưu hóa thông số (56)
    • 3.4: Mô phỏng xe tự hành (57)
      • 3.4.1 Giới thiệu mô phỏng ô tô tự hành (57)
      • 3.4.2 Chuẩn bị dữ liệu (59)
      • 3.4.3 Xây dựng bài toán (61)
      • 3.4.4 Training mode (63)
  • Chương 4: PHÂN TÍCH KẾT QUẢ NGHIÊN CỨU (67)
  • KẾT LUẬN (73)
  • PHỤ LỤC (76)

Nội dung

TỔNG QUAN XE TỰ HÀNH

Giới thiệu chung

Trong những năm gần đây, công nghệ xe hơi và xe tự hành đã trở thành chủ đề nóng trong ngành công nghiệp Những hứa hẹn về sự an toàn và tiện lợi của các phương tiện này đang dần trở thành hiện thực, khi ngày càng nhiều mẫu xe với tính năng tự động được ra mắt hàng năm.

Xe ô tô tự hành có thể sẽ chưa sẵn sàng cho người tiêu dùng trong nhiều năm tới Dự đoán hiện tại cho thấy vào năm 2025, sẽ có hơn 600.000 xe ô tô tự hành lưu thông trên đường, và con số này dự kiến sẽ tăng lên gần 1 triệu vào năm 2035.

21 triệu chiếc xe đã được thử nghiệm dịch vụ xe hơi tự hành tại một số thành phố ở Hoa Kỳ Mặc dù ô tô tự hành hoàn toàn chưa có mặt trên thị trường, công nghệ hiện tại đã cho phép phát triển các phương tiện tự hành với khả năng cao hơn bao giờ hết Các phương tiện này sử dụng hệ thống phức tạp bao gồm camera, laser, radar, GPS và kết nối liên lạc giữa các xe.

Kể từ khi ra mắt vào đầu những năm 1990, Mạng nơ-ron tích chập (CNN) đã trở thành kiến trúc học sâu phổ biến nhất nhờ hiệu quả trong các vấn đề hình ảnh như nhận dạng chữ viết tay, khuôn mặt và phân loại tế bào ung thư Đột phá của CNN nằm ở khả năng tự động trích xuất đặc trưng Mặc dù cần lượng dữ liệu đào tạo lớn, nghiên cứu gần đây cho thấy hiệu suất cao có thể đạt được với dữ liệu "chung chung" Trong những năm qua, CNN đã thể hiện hiệu suất vượt trội trong các nhiệm vụ phân loại, phát hiện đối tượng và mạng đối thủ chung.

Với sự gia tăng năng lực tính toán, việc đào tạo các mạng thần kinh phức tạp giúp phương tiện hiểu môi trường xung quanh và quyết định hành vi của mình trở nên khả thi Chẳng hạn, Tesla Model S sử dụng chip MobileEye EyeQ, áp dụng mạng thần kinh sâu để phát hiện và tránh chướng ngại vật theo thời gian thực dựa trên tầm nhìn Hiện nay, các nhà nghiên cứu đang khám phá khả năng điều khiển ô tô thông qua mạng thần kinh sâu (DNN).

Tổng quan về xe tự hành (Automonous Car)

Xe tự hành, hay còn gọi là ô tô tự động, là phương tiện có khả năng tự điều khiển nhờ vào các phần mềm tiên tiến Hiện tại, chưa có xe tự trị hoàn toàn hợp pháp hoạt động tại Hoa Kỳ, nhưng đã có nhiều loại xe tự động một phần với các mức độ tự động hóa khác nhau, từ hỗ trợ phanh và giữ làn đường đến các nguyên mẫu tự hành độc lập Công nghệ tự hành, mặc dù còn mới mẻ, đang ngày càng trở nên phổ biến và hứa hẹn sẽ thay đổi hoàn toàn hệ thống giao thông trong tương lai Dự báo, ô tô tự hành cấp độ 4 sẽ được ra mắt trong vài năm tới, với sự phát triển từ các công ty lớn như Google, Uber, Tesla và Nissan.

Hầu hết các hệ thống tự hành đều tạo và duy trì bản đồ nội bộ về môi trường xung quanh nhờ vào nhiều loại cảm biến như radar và laze Các nguyên mẫu xe tự hành của Uber sử dụng 64 chùm tia laze cùng với các cảm biến khác để xây dựng bản đồ, trong khi Google đã thử nghiệm với laser, radar, máy ảnh công suất cao và sóng siêu âm Phần mềm sẽ xử lý thông tin đầu vào, vạch ra con đường và gửi hướng dẫn đến bộ truyền động của xe để điều khiển gia tốc, phanh và đánh lái Các quy tắc được mã hóa cứng, thuật toán tránh chướng ngại vật, mô hình dự đoán và phân biệt đối tượng đóng vai trò quan trọng trong việc điều khiển xe tự hành.

Phần mềm của các phương tiện tự hành cần "thông minh" để phân biệt giữa xe đạp và xe máy, tuân thủ quy tắc giao thông và điều hướng chướng ngại vật Các phương tiện tự hành một phần có thể yêu cầu sự can thiệp của người lái xe khi gặp sự cố, trong khi xe hoàn toàn tự động có thể không trang bị vô lăng Sự khác biệt giữa ô tô tự hành có "kết nối" hay không cho biết khả năng giao tiếp với các phương tiện và cơ sở hạ tầng khác, như đèn giao thông thế hệ mới Tuy nhiên, hầu hết các nguyên mẫu hiện tại vẫn chưa có khả năng này.

Dự án xe tự hành của Google

Nhiều công ty như Lyft, Ford, Uber, Honda, Toyota và Tesla đang cạnh tranh để phát triển phương tiện tự hành thương mại Tuy nhiên, Waymo, bộ phận xe tự hành của Alphabet, công ty mẹ của Google, đã trở thành người tiên phong đạt được nhiều cột mốc quan trọng trong lĩnh vực này.

Vào ngày 7 tháng 11 năm 2017, Waymo đã công bố rằng các phương tiện tự hành hoàn toàn của họ, được coi là an toàn và tiên tiến nhất hiện nay, sẽ bắt đầu thử nghiệm trên đường công cộng mà không cần người lái.

Google đang tích cực tham gia vào các dự án xe tự hành và dự đoán rằng đến năm 2020, con người sẽ không cần phải điều khiển xe Họ đang phát triển công nghệ để xe có thể tự xử lý tình huống như ùn tắc giao thông hoặc khi có người cần cấp cứu Đồng thời, Google cũng thiết lập một trung tâm xử lý thông tin để tiếp nhận phản hồi từ người dùng, từ đó cải thiện và hoàn thiện sản phẩm của mình.

Xe Waymo sở hữu hệ thống cảm biến tiên tiến, cho phép quan sát 360 độ xung quanh, giúp duy trì khoảng cách an toàn với người đi bộ và các phương tiện khác, điều mà tài xế con người khó có thể đạt được Hệ thống này bao gồm cả tia laser tầm ngắn và tia laser có khả năng quét xa tới 300 mét.

Theo một thống kê gần đây, thị trường xe hơi có kết nối dự kiến sẽ tăng trưởng 45% trong vòng năm năm tới, nhanh hơn 10 lần so với thị trường xe hơi nói chung Điều này có nghĩa là khoảng 75% số xe hơi xuất xưởng vào năm 2020 sẽ được trang bị khả năng kết nối internet Dự báo tổng số xe hơi hoạt động trên đường phố vào năm 2020 sẽ đạt khoảng 220 triệu chiếc.

Theo nghiên cứu của Google, để xe tự lái hoạt động hiệu quả, cần sự kết hợp của nhiều công nghệ như bản đồ lập trình, radar, cảm biến laser và camera Mỗi chiếc xe trải qua quá trình thử nghiệm nghiêm ngặt và phát triển lâu dài để đảm bảo tất cả thiết bị hoạt động đồng bộ.

Trước khi triển khai công nghệ tự động hóa trên các tuyến đường, các kỹ sư cần tự lái xe và sử dụng các thiết bị như máy ảnh, cảm biến và radar để tạo ra bản đồ kỹ thuật số chi tiết về đặc điểm lộ trình Việc lập bản đồ này bao gồm việc đánh dấu làn đường và các biển báo giao thông, giúp phần mềm trong xe làm quen với môi trường xung quanh và các đặc điểm của đường lái.

Những chuyến đi đầu tiên được thực hiện với sự hỗ trợ của hệ thống lái xe, chuẩn bị cho bước tiếp theo Chiếc xe sẽ tự xử lý trên những đoạn đường không có hệ thống hỗ trợ, sử dụng camera, cảm biến laser và radar để xác định vị trí và tốc độ của các phương tiện khác Phần mềm kiểm soát tốc độ, kết hợp với camera gắn trên xe, sẽ đọc và giải mã tín hiệu đèn giao thông cùng các tín hiệu khác trên đường.

Hình 1 1: Cách xe thu thập dữ liệu xung quanh

Những chiếc xe này không thể tự do di chuyển đến bất kỳ đâu mà chúng muốn, mà bị giới hạn trong một khu vực 100 dặm vuông Khi các xe này thu thập thêm dữ liệu và tích lũy kinh nghiệm lái xe, khu vực hoạt động của chúng sẽ dần được mở rộng.

Hình 1 2: Thiết kế xe tự hành của Google được giới thiệu vào tháng 5 năm 2014

Hình 1 3: Các tính năng của Xe tự hành của Google

- Cảm biến (sensors): Laser, radar và máy ảnh phát hiện các đối tượng ở mọi hướng

- Rounded shape: Tối đa hóa phạm lý nhìn của cảm biến

- Nội thất (Interior) : Được thiết kế để cưỡi, không phải để lái

- Máy tính (Computer): Được thiết kế đặc biệt để tự hành

- Pin điện (Electric batteries): Để cung cấp năng lượng cho xe

- Hệ thống dự phòng (Back - up systems): Dành cho hệ thống lái, phanh và hơn thế nữa

Công nghệ: Ô tô của Google chi khoảng 150.000 đô la cho trang thiết bị như trong Hình 1.3, bao gồm cả hệ thống LIDAR (Light Detection And Ranging

- Phát hiện và đánh giá ánh sáng) có giá 70.000 đô la Công cụ tìm phạm vi laser

64 tia laser của Velodyne được lắp đặt trên đầu xe, giúp tạo ra bản đồ 3D chi tiết về môi trường xung quanh Xe sẽ kết hợp các bản đồ này với bản đồ có độ phân giải cao của thế giới, từ đó tạo ra nhiều loại mô hình dữ liệu khác nhau phục vụ cho việc tự hành Một phần các tính toán này được thực hiện trên các trang trại máy tính từ xa, bên cạnh các hệ thống trên bo mạch.

Kể từ năm 2014, nguyên mẫu mới nhất của xe tự lái chưa được thử nghiệm trong điều kiện mưa lớn hoặc tuyết do lo ngại về an toàn Chiếc xe chủ yếu dựa vào dữ liệu tuyến đường đã được lập trình sẵn và không tuân theo các tín hiệu giao thông tạm thời Trong một số tình huống, xe chuyển sang chế độ "cực kỳ thận trọng" khi gặp các giao lộ phức tạp mà không có ánh xạ Công nghệ lidar hiện tại không thể phát hiện một số ổ gà hoặc nhận biết khi con người, như cảnh sát, ra hiệu cho xe dừng lại.

Trong 6 cấp độ tự hành theo phân loại SAE International, xe tự hành Google dùng cấp độ 4

Hình 1 4: 6 cấp độ xe tự hành theo phân loại của SAE International

Cấp độ 4 của công nghệ tự lái cho phép xe tự di chuyển từ điểm A đến điểm B trong các khu vực địa lý nhất định Waymo, công ty công nghệ tự hành của Google, đã triển khai dịch vụ này tại Phoenix, Arizona, sau khi hoàn thành việc bản đồ hóa toàn bộ hệ thống đường phố trong thành phố.

Mặc dù xe tự hành có khả năng hoạt động tốt, nhưng điều kiện thời tiết có thể ảnh hưởng đến hiệu suất của chúng Công nghệ mà xe sử dụng đóng vai trò quan trọng trong việc này Chẳng hạn, Tesla kết hợp cảm biến radar và hệ thống camera để phân tích môi trường xung quanh, nhưng hệ thống này dễ bị ảnh hưởng bởi thời tiết Ngược lại, Waymo sử dụng công nghệ cảm biến LiDAR, mặc dù đắt tiền hơn, nhưng không bị tác động bởi các yếu tố thời tiết.

Ưu điểm và nhược điểm của xe tự hành

✓ Nó sẽ loại bỏ tai nạn

✓ Tăng khả năng lưu thông trên đường

✓ Vị trí hiện tại của phương tiện có thể được xác định bằng hệ thống định vị toàn cầu (G.P.S)

✓ Giảm hoặc loại bỏ tắc đường

✓ Cuối cùng, hệ thống sẽ cho phép chúng tôi làm những việc khác trong khi đi du lịch, chẳng hạn như làm việc, đọc sách hoặc ngủ b) Nhược điểm

✓ Đắt tiền - Giá xe hơi cao

Sử dụng mạng internet không an toàn có thể dẫn đến việc mất quyền riêng tư, vì tin tặc có thể dễ dàng truy cập thông tin cá nhân Trong một số trường hợp hiếm, họ thậm chí có thể chuyển hướng dữ liệu của người dùng, gây ra những rủi ro nghiêm trọng.

✓ Nó không thể xử lý mưa lớn và tuyết- Những con đường có mái che

✓ Các phương tiện giao thông không thể nhận ra tín hiệu giao thông tạm thời

✓ Họ cũng không thể điều hướng qua các bãi đậu xe

✓ Bằng cách sắp ra mắt ô tô không người lái của Google Gia nhập thị trường, nhiều tài xế taxi có thể mất việc.

CẤU TẠO VÀ HOẠT ĐỘNG CỦA XE TỰ HÀNH GOOGLE

GIỚI THIỆU VỀ XE Ô TÔ TỰ HÀNH

Ô tô tự hành, hay còn gọi là xe tự lái, là phương tiện có khả năng cảm nhận và điều hướng môi trường mà không cần sự can thiệp của con người Xe tự hành sử dụng nhiều công nghệ như radar, GPS và tầm nhìn máy tính để phát hiện môi trường xung quanh Hệ thống điều khiển tiên tiến giúp phân tích thông tin cảm quan, xác định các lộ trình thích hợp và nhận diện chướng ngại vật cùng biển báo giao thông Công nghệ này cho phép xe phân biệt giữa các phương tiện khác nhau trên đường, từ đó hỗ trợ lập kế hoạch cho hành trình đến đích một cách hiệu quả.

- Lợi ích của công nghệ bằng cách xử lý một lượng lớn dữ liệu và sử dụng nó để đưa ra các quyết định thông minh

Khả năng thích nghi của con người với các môi trường mới và đã biết cho thấy sự phát triển của quyền tự chủ và quyền sở hữu cá nhân Nhìn về tương lai, nhiều người dự đoán rằng vô lăng sẽ hoàn toàn biến mất, với xe tự lái thực hiện tất cả các thao tác điều khiển nhờ vào hệ thống cảm biến, radar và bản đồ GPS hiện đại Sự tiến bộ này phụ thuộc vào các công ty sản xuất ô tô tự hành đang định hình công nghệ tương lai Hình 2.1 minh họa rõ ràng cho xu hướng ô tô ngày càng thông minh hơn.

Hình 2 1: Cách Ô tô ngày càng thông minh hơn

CÁC CÔNG NGHỆ KHÁC BIỆT ĐƯỢC SỬ DỤNG TRONG XE TỰ HÀNH GOOGLE

Ô tô tự hành tích hợp nhiều công nghệ ô tô hiện đại để tạo ra phương thức di chuyển tiện lợi Để vận hành hiệu quả, loại hình vận tải này cần sự đồng bộ hóa hoàn hảo giữa các cảm biến tiên tiến thu thập thông tin về môi trường, các thuật toán phức tạp xử lý dữ liệu và điều khiển phương tiện, cùng với sức mạnh tính toán để xử lý tất cả thông tin trong thời gian thực.

Phần mềm nhận diện các đối tượng như con người, ô tô, vạch kẻ đường, biển báo và đèn giao thông, đồng thời tuân thủ quy tắc giao thông để phòng ngừa các nguy cơ, bao gồm cả người đi xe đạp Nó còn có khả năng phát hiện công trình đường và điều hướng an toàn xung quanh chúng Hình 2.2 minh họa các thành phần quan trọng của xe tự hành, và phần này sẽ thảo luận chi tiết về danh sách các bộ phận cùng chức năng của chúng.

Trái tim của xe tự hành Google là máy ảnh Lidar gắn trên nóc, sử dụng 64 tia laser để tạo ra hình ảnh 3D của môi trường xung quanh Thiết bị này xác định khoảng cách đến các vật thể bằng cách đo thời gian mà tia laser chiếu tới và trở lại, giúp nhận diện mối nguy hiểm trên đường Với khả năng hoạt động trong phạm vi 200m, Lidar cung cấp thông tin quan trọng cho việc điều khiển xe an toàn.

Laser là thiết bị phát ra ánh sáng thông qua quá trình khuếch đại quang học dựa trên bức xạ điện từ được kích thích Từ "laser" là viết tắt của cụm từ "khuếch đại ánh sáng bằng phát bức xạ kích thích" Một hệ thống mới, được phát triển bởi các nhà nghiên cứu tại Đại học California, Berkeley, có khả năng cảm nhận từ xa các vật thể ở khoảng cách lớn.

Công nghệ mới cho phép tạo ra hình ảnh 3D với phạm vi lên đến 30 feet, gấp hơn 10 lần so với các hệ thống laser công suất thấp hiện tại Sự phát triển này mở ra khả năng tạo ra các hệ thống hình ảnh 3D nhỏ gọn và tiết kiệm chi phí, đặc biệt hữu ích cho ứng dụng trong ô tô tự hành.

Hình 2 4: Một cảm biến laser trên nóc xe liên tục quét xung quanh

Lidar, which stands for Light Detection and Ranging, is a method used to measure distances to objects by emitting pulsed laser beams and then measuring the reflected light pulses.

Cảm biến ghi nhận các xung phản xạ từ các đối tượng, sử dụng sự khác biệt về thời gian truyền và bước sóng để tính toán và tạo ra mô hình 3D của vật thể.

Hình 2 5: Xe tự hành dùng Lidar để xây dựng bản đồ số 3D

Hệ thống Lidar trên xe tự hành quay liên tục 360 độ và trả về tín hiệu khoảng cách 3D của các vật thể xung quanh

LIDAR hoạt động dựa trên nguyên tắc cơ bản là phát ánh sáng laser vào một vật thể trên bề mặt trái đất và đo thời gian ánh sáng quay trở lại nguồn phát Nhờ vào tốc độ ánh sáng khoảng 186.000 dặm mỗi giây, quá trình đo khoảng cách thông qua LIDAR diễn ra rất nhanh chóng Tuy nhiên, phương pháp này đòi hỏi kỹ thuật cao Công thức mà các nhà phân tích sử dụng để tính toán khoảng cách chính xác của đối tượng là rất phức tạp.

Hình 2 6 : Cách tính khoảng cách của LIDAR

𝑑 = (𝐸𝑡 𝑐) 2 Khoảng cách đến vật thể = (Tốc độ của ánh sáng x Thời gian đo được)/2

Lidar, mặc dù đã được sử dụng từ thập niên 1960 trên các máy bay quân sự, nhưng chỉ trở nên phổ biến hơn 20 năm sau nhờ sự phát triển của GPS Sự kết hợp giữa Lidar và GPS đã tạo ra công cụ hữu ích cho công tác trắc địa.

Bằng cách chiếu hàng triệu điểm khi laser quay liên tục, chúng ta có thể đo đạc các vật thể xung quanh và thu thập dữ liệu dưới dạng các mây điểm (point cloud), từ đó xây dựng bản đồ số 3D Hiện tại, tốc độ lấy mẫu đạt tới 2.2 triệu mẫu/giây và khoảng cách đo được lên đến hơn 120 mét Trong tương lai, cả số lượng và tốc độ lấy mẫu dự kiến sẽ tăng lên đáng kể.

Cảm biến LiDAR lắp đặt trên xe giúp tạo ra bản đồ 3D chính xác Công nghệ 3D LiDAR có khả năng theo dõi các đối tượng chuyển động có kích thước tương đương với một con vật nuôi, dự đoán hướng di chuyển của chúng và phân biệt các chướng ngại vật tiềm ẩn trong môi trường.

Hình 2 7: Xe tự hành của Google sử dụng lidar để tạo hình ảnh 3D về môi trường xung quanh

LIDAR là công nghệ đo khoảng cách bằng laser, thường được lắp đặt trên nóc xe, với khả năng tạo ra bản đồ 3D chi tiết về môi trường xung quanh Thiết bị sử dụng tia laser 64 tia Velodyne để thu thập dữ liệu, sau đó kết hợp với bản đồ độ phân giải cao, giúp xe tự hành xác định vị trí, tránh chướng ngại vật và tuân thủ luật giao thông.

Một hệ thống LIDAR thường bao gồm:

Bộ phát laser thường sử dụng bước sóng từ 600 đến 1000nm với chi phí thấp, nhưng có nguy cơ gây hại cho mắt, do đó năng lượng bị giới hạn theo quy chuẩn Trong khi đó, bước sóng 1550nm an toàn cho mắt ở năng lượng cao, nhưng bộ nhận tín hiệu kém hiện đại hơn, nên thường chỉ được áp dụng cho khoảng cách xa và độ chính xác thấp hơn.

● Máy quét: thành phần dùng để điều khiển cho tia laser quay xung quanh môi trường

● Một bộ thu tín hiệu laser phản xạ trở về

● Một thiết bị định vị, có thể là cảm biến GPS và cảm biến trọng lực để biết hướng và vị trí quét

Hình 2 8: Các thành phần của hệ thống LIDAR

Hãy nhìn vào hình bên dưới:

Khi tia laser phát ra từ bộ phát, nó va chạm với máy quét và được điều hướng bởi một gương xoay Khi tia laser chạm vào vách tường, nó sẽ phản xạ trở lại và được bộ thu tín hiệu ghi nhận, từ đó tính toán khoảng cách từ bộ phát đến tường Nếu có vật cản trong phòng, tia laser sẽ phản xạ trở lại nhanh hơn, cho thấy khoảng cách đến bộ phát ngắn hơn Nhờ vào sự quay liên tục của tia laser, hình ảnh toàn bộ căn phòng có thể được tổng hợp Sau này, công nghệ còn phát triển thêm giải pháp chụp hình để định vị, không chỉ đơn thuần là quét như trước.

Hình 2 9: Cấu trúc và chức năng của LIDAR

Có một số thành phần chính đối với hệ thống lidar:

Laser 600 - 1000nm là phổ biến cho các ứng dụng phi khoa học, giá thành không cao nhưng công suất tối đa bị hạn chế để đảm bảo an toàn cho mắt Tia laser 1550 nm là một lựa chọn thay thế an toàn hơn ở công suất cao hơn, vì bước sóng này không bị mắt tập trung, mặc dù công nghệ máy dò kém tiên tiến hơn Tia laser 1550 nm thường được sử dụng trong các ứng dụng quân sự vì không thể nhìn thấy trong kính nhìn ban đêm, khác với tia laser hồng ngoại 1000 nm Các lidar lập bản đồ địa hình trong không khí thường sử dụng laser YAG bơm điốt 1064 nm, trong khi hệ thống đo độ sâu thường sử dụng laser YAG gấp đôi tần số 532 nm.

TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO

Trí tuệ nhân tạo (AI) là công nghệ cho phép máy tính, robot hoặc phần mềm suy nghĩ một cách thông minh, tương tự như con người AI được phát triển dựa trên nghiên cứu cách bộ não con người hoạt động, cách con người học hỏi, quyết định và giải quyết vấn đề Kết quả từ những nghiên cứu này là nền tảng để phát triển các phần mềm và hệ thống thông minh.

Trí tuệ nhân tạo (AI) là một lĩnh vực khoa học và công nghệ kết hợp nhiều ngành như Khoa học máy tính, Sinh học, Tâm lý học, Ngôn ngữ học, Toán học và Kỹ thuật Mục tiêu chính của AI là phát triển các chức năng máy tính tương tự như trí thông minh con người, bao gồm khả năng lý luận, học hỏi và giải quyết vấn đề Các nhà nghiên cứu đã xác định sáu mục tiêu chính để mở rộng các ứng dụng và chức năng của trí tuệ nhân tạo.

Lập kế hoạch, lập lịch biểu và tối ưu hóa giúp máy tính xác định mục tiêu và đạt được chúng Để thực hiện điều này, máy tính cần hình dung tương lai, đại diện cho tình trạng thế giới hiện tại và dự đoán tác động của hành động của chúng Qua đó, máy tính có thể đưa ra những lựa chọn nhằm tối đa hóa tiện ích từ các phương án sẵn có.

Ngôn ngữ xử lý tự nhiên (NLP) cho phép máy móc đọc và hiểu ngôn ngữ con người, tạo điều kiện cho giao diện người dùng tương tác bằng ngôn ngữ tự nhiên Một hệ thống NLP mạnh mẽ giúp thu thập kiến thức trực tiếp từ các nguồn thông tin do con người viết ra, nâng cao khả năng giao tiếp và hiểu biết của máy móc.

Xử lý kỹ thuật là nghiên cứu các tín hiệu tiếng nói và phương pháp xử lý tín hiệu, chủ yếu dưới dạng biểu diễn kỹ thuật số Xử lý giọng nói được coi là một trường hợp đặc biệt của xử lý tín hiệu kỹ thuật số, tập trung vào tín hiệu giọng nói Các khía cạnh chính bao gồm thu nhận, thao tác, lưu trữ, chuyển và xuất tín hiệu giọng nói, với đầu vào gọi là nhận dạng giọng nói và đầu ra là tổng hợp giọng nói.

Machine Learning là một khái niệm cốt lõi trong nghiên cứu trí tuệ nhân tạo (AI), tập trung vào việc phát triển các thuật toán cho phép máy tính tự động cải thiện hiệu suất thông qua kinh nghiệm.

Robotics đang ngày càng trở nên phổ biến trong các nhà máy hiện đại, với những cánh tay robot tiên tiến và các loại robot công nghiệp khác Chúng có khả năng học hỏi từ kinh nghiệm để di chuyển hiệu quả, ngay cả khi phải đối mặt với ma sát và trượt bánh răng.

Sưu tầm là một lĩnh vực nghiên cứu tập trung vào việc phát triển các kỹ thuật cho phép máy tính "nhìn thấy" và hiểu nội dung của hình ảnh kỹ thuật số, bao gồm cả ảnh và video.

Hệ thống chuyên gia là một loại hệ thống máy tính mô phỏng khả năng ra quyết định của con người, nhằm giải quyết các vấn đề phức tạp Chúng sử dụng lập luận dựa trên các khối kiến thức, chủ yếu được biểu diễn dưới dạng quy tắc if – then, thay vì sử dụng mã thủ tục truyền thống.

Machine Learning (ML) là một nhánh của Trí tuệ nhân tạo, nghiên cứu các thuật toán và mô hình thống kê mà máy tính sử dụng để thực hiện nhiệm vụ mà không cần hướng dẫn cụ thể, thay vào đó dựa vào mẫu và suy luận Các thuật toán ML xây dựng mô hình toán học từ "dữ liệu đào tạo" để đưa ra dự đoán hoặc quyết định mà không cần lập trình rõ ràng ML được ứng dụng rộng rãi trong nhiều lĩnh vực như lọc email và thị giác máy tính, nơi mà việc phát triển thuật toán hướng dẫn cụ thể là không khả thi Học máy có liên quan mật thiết đến thống kê tính toán, nhấn mạnh việc dự đoán bằng máy tính, và nghiên cứu tối ưu hóa toán học cung cấp các phương pháp và lý thuyết quan trọng cho lĩnh vực này.

Hình 2 15: Mối quan hệ giữa AI, Machine Learning và Deep Learning

Mọi thuật toán học máy đều có ba thành phần:

Biểu diễn tri thức là một phương pháp quan trọng trong việc tổ chức và truyền đạt thông tin, với các ví dụ điển hình như cây quyết định, bộ quy tắc, phiên bản, mô hình đồ họa, mạng nơ-ron, máy vectơ hỗ trợ và nhóm mô hình Những phương pháp này giúp tối ưu hóa việc xử lý và phân tích dữ liệu, từ đó nâng cao hiệu quả trong việc ra quyết định và giải quyết vấn đề.

Đánh giá chương trình ứng viên là một bước quan trọng, bao gồm các yếu tố như độ chính xác, khả năng dự đoán và thu hồi Những chỉ số như sai số bình phương, xác suất xảy ra, chi phí và lợi nhuận cũng cần được xem xét Thêm vào đó, phân kỳ entropy k-L là một công cụ hữu ích trong quá trình đánh giá.

Tối ưu hóa là quá trình tạo ra các chương trình ứng viên, trong đó bao gồm các phương pháp như tối ưu hóa tổ hợp, tối ưu hóa lồi và tối ưu hóa ràng buộc.

Có bốn loại học máy:

Học tập có giám sát là một loại thuật toán học tập trong đó đầu ra mong muốn được cung cấp cùng với đầu vào trong quá trình huấn luyện mạng nơ-ron Bằng cách sử dụng cả cặp đầu vào và đầu ra, mạng có thể tính toán lỗi giữa đầu ra mục tiêu và đầu ra thực tế Sau đó, lỗi này được sử dụng để điều chỉnh và cải thiện mạng thông qua việc cập nhật trọng số của nó.

Học không giám sát là mô hình mà mạng nơ-ron nhận đầu vào mà không cần sự trợ giúp bên ngoài, và tự tìm kiếm các mẫu trong dữ liệu Mô hình này thường được áp dụng trong khai thác dữ liệu và nhiều thuật toán đề xuất, nhờ vào khả năng dự đoán sở thích của người dùng dựa trên những sở thích tương tự của các nhóm người dùng khác.

• Học tập bán giám sát: Dữ liệu đào tạo bao gồm một vài kết quả đầu ra mong muốn

CONVOLUTIONAL NEURAL NETWORK VÀ MÔ PHỎNG CẤU TRÚC CỦA MẠNG CNN

Giới thiệu

Mạng nơ-ron Convolutional (CNN) là một thuật toán Học sâu mạnh mẽ, có khả năng xử lý hình ảnh đầu vào và tự động gán trọng số cho các khía cạnh khác nhau trong hình ảnh So với các thuật toán phân loại truyền thống, CNN yêu cầu xử lý trước tối thiểu, nhờ vào khả năng học các bộ lọc và đặc điểm từ dữ liệu đào tạo Điểm nổi bật của CNN là khả năng tự động nhận diện và học hỏi các tính năng từ các ví dụ đào tạo mà không cần thiết kế bộ lọc thủ công.

CNN được sử dụng để đánh giá đầu vào thông qua các biến đổi và bộ lọc, giúp mạng phát hiện các cạnh và đặc điểm cấp thấp ở các lớp trước, cũng như các tính năng phức tạp hơn ở các lớp sâu hơn Thêm vào đó, CNN thường kết hợp với các lớp gộp và có các lớp kết nối đầy đủ ở cuối Quá trình truyền dữ liệu diễn ra tương tự như trong mạng nơ-ron vani, với việc giảm thiểu hàm mất mát thông qua phương pháp nhân giống ngược để đào tạo CNN.

Tích chập được ứng dụng đầu tiên trong xử lý tín hiệu số, nhờ vào nguyên lý biến đổi thông tin Kỹ thuật này đã được các nhà khoa học áp dụng vào xử lý ảnh và video số Để hình dung rõ hơn, tích chập có thể được xem như một cửa sổ trượt (sliding window) đặt lên một ma trận Bạn có thể theo dõi cơ chế của tích chập qua hình minh họa bên dưới.

Hình 3 1: Minh họa tích chập

Ma trận bên trái là bức ảnh đen trắng, trong đó mỗi giá trị tương ứng với một điểm ảnh (pixel), với 0 là màu đen và 1 là màu trắng (đối với ảnh grayscale, giá trị dao động từ 0 đến 255) Phép toán Sliding window, hay còn gọi là kernel, filter, hoặc feature detector, sử dụng ma trận filter 3x3 để nhân từng thành phần tương ứng với ma trận ảnh Giá trị đầu ra được tính bằng cách cộng lại các tích của các thành phần này, tạo ra một ma trận con (convoled feature) từ việc trượt ma trận filter và thực hiện tích chập trên toàn bộ ma trận ảnh Dưới đây là một số ví dụ về phép toán tích chập.

Hình 3 2: Ảnh mờ sau khi chập

Ngoài ra, ta có thể phát hiện biên cạnh bằng cách tính vi phân (độ li biệt) giữa các điểm ảnh lân cận

Hình 3 3: Ảnh được phát hiện biên sau chập

• Ta cỏ thể làm mờ bức ành ban đầu bằng cách lấy giả trị trung binh của các điểm ảnh xung quanh cho vị tri điểm ành trung tâm.

Cấu trúc mạng nơ-ron tích chập(Convolutional Neural Networks-CNN) 38

Tất cả các mô hình CNN đều tuân theo kiến trúc tương tự, bao gồm một chuỗi các lớp mà mỗi lớp chuyển đổi khối lượng kích hoạt này sang khối lượng kích hoạt khác thông qua một chức năng phân biệt Để xây dựng kiến trúc CNN, chúng ta sử dụng ba loại lớp chính: Lớp Convolution, Lớp Phân chia và Lớp Kết nối Hoàn toàn, những lớp này còn được gọi là Lớp ẩn Việc xếp chồng các lớp này lại với nhau tạo thành một kiến trúc CNN hoàn chỉnh.

3.2.1 Convolution Layer-Lớp chuyển đổi

Lớp Convolution thực hiện phép toán "tích chập", một phép toán tuyến tính trên hai hàm nhằm tạo ra một hàm thứ ba, thể hiện cách mà hình dạng của hàm này bị biến đổi bởi hàm kia Hai đầu vào của phép toán bao gồm dữ liệu đầu vào và một mảng nhân tương quan, hay còn gọi là bộ lọc Qua phép toán tương quan chéo, cả hai được kết hợp để tạo ra đầu ra, tức là hàm thứ ba.

Bộ lọc nhỏ hơn dữ liệu đầu vào và bắt đầu ở góc trên bên trái của mảng Nó trượt qua mảng từ trái sang phải và từ trên xuống dưới, mỗi vị trí bộ lọc trượt qua, mảng con sẽ được nhân với mảng hạt nhân, tạo ra một giá trị vô hướng duy nhất Khi bộ lọc được áp dụng nhiều lần, kết quả là một mảng hai chiều các giá trị đầu ra, được gọi là “bản đồ đặc trưng”.

Việc sử dụng bộ lọc nhỏ hơn dữ liệu đầu vào là có chủ đích, cho phép áp dụng cùng một bộ lọc (tập trọng số) nhiều lần tại các điểm khác nhau trên dữ liệu Bộ lọc được áp dụng một cách hệ thống cho từng phần chồng chéo của bản vá với kích thước tương ứng, từ trái sang phải và từ trên xuống dưới Khi bộ lọc được thiết kế để phát hiện một loại tính năng cụ thể, việc áp dụng nó trên toàn bộ hình ảnh sẽ giúp khám phá mọi vị trí trong hình ảnh Khả năng này được gọi là bất biến dịch, thể hiện mối quan tâm đến sự hiện diện của đối tượng địa lý hơn là vị trí cụ thể của nó.

Hình 3 5: Dữ liệu đầu vào, bộ lọc và kết quả của một lớp tích chập

Hình 3 6: Phép toán tích chập của CNN

I là một mảng đầu vào

I * K là một đầu ra của phép toán tích chập

Hình 3 7: Kết quả của một phép toán tích chập (a) là hình ảnh đầu vào

(b) là bản đồ đặc trưng của hình ảnh sau một lớp tích chập

Hình 3 8: Thực hiện nhiều biến đổi trên một đầu vào

Hình 3 9: Phép toán tích chập cho mỗi bộ lọc

Hàm kích hoạt là các phương trình toán học quyết định đầu ra của mạng nơ-ron, gắn liền với từng nơ-ron để xác định xem nó có nên được kích hoạt hay không, dựa trên mối liên hệ giữa đầu vào và dự đoán của mô hình Chúng giúp loại bỏ nhiễu và chuyển đổi mạng từ tuyến tính sang phi tuyến tính, đồng thời chuẩn hóa đầu ra của mỗi nơ-ron về phạm vi từ 0 đến 1 hoặc từ -1 đến 1.

Sau mỗi lớp chập trong mạng nơ-ron, việc áp dụng chức năng kích hoạt là rất quan trọng Nếu không có chức năng này, mạng sẽ hoạt động như một nhận thức đơn lẻ, dẫn đến việc tổng hợp các lớp trở thành một mạng tuyến tính Điều này khiến cho đầu ra chỉ là sự kết hợp tuyến tính của các đầu ra trước đó, giới hạn khả năng học các ánh xạ hàm phức tạp từ dữ liệu Một mạng nơ-ron thiếu chức năng kích hoạt sẽ chỉ là một mô hình hồi quy tuyến tính, không đủ mạnh để xử lý các vấn đề phức tạp Để mạng nơ-ron có thể học và tính toán các hàm phức tạp hơn, cần thiết phải sử dụng các hàm phi tuyến tính như Sigmoid, Tanh và ReLU.

Hàm kích hoạt Sigmoid, với công thức f(x) = 1 / (1 + exp(-x)), có giá trị nằm trong khoảng từ 0 đến 1 và có hình dạng đường cong đặc trưng Mặc dù dễ hiểu và dễ áp dụng, hàm này gặp một số vấn đề như hiện tượng gradient biến mất và đầu ra không được căn giữa, điều này làm cho quá trình tối ưu hóa trở nên khó khăn và cần nhiều thời gian để hội tụ.

Hàm tanghent hyperbolic, được biểu diễn bằng f(x) = (1 - exp(-2x)) / (1 + exp(-2x)), có giá trị đầu ra nằm trong khoảng từ -1 đến 1, với giá trị 0 tại điểm giữa Điều này giúp quá trình tối ưu hóa trở nên dễ dàng hơn, tuy nhiên, hàm này vẫn gặp phải vấn đề về độ dốc biến mất.

ReLU (Đơn vị tuyến tính được chỉnh lưu) đã trở thành một trong những hàm kích hoạt phổ biến trong học sâu nhờ khả năng cải thiện sự hội tụ từ chức năng Tánh lên đến sáu lần Hàm này được định nghĩa là f(x) = max(0, x), với f(x) = 0 khi x < 0 và f(x) = x khi x >= 0, cho thấy tính đơn giản và hiệu quả của nó Trong lĩnh vực học máy và khoa học máy tính, các phương pháp đơn giản và nhất quán thường được ưu tiên, giúp tránh và khắc phục vấn đề gradient biến mất Hiện nay, ReLU được sử dụng rộng rãi trong hầu hết các mô hình học sâu, mặc dù nó chỉ nên được áp dụng trong các lớp ẩn của mạng nơ-ron.

Stride là số lượng pixel thay đổi trên ma trận đầu vào Khi sải chân là một, các bộ lọc sẽ di chuyển từng pixel từ trái sang phải và từ trên xuống dưới Nếu sải chân là hai, các bộ lọc sẽ di chuyển hai pixel một lần Có hai loại kết quả cho hoạt động này: một loại làm giảm kích thước của đối tượng địa lý so với đầu vào, trong khi loại còn lại giữ nguyên hoặc tăng kích thước.

Khi mảng đầu vào có các thông tin cần thiết ở cạnh, việc áp dụng Same Padding là lựa chọn tốt để giữ kích thước đầu ra bằng hoặc lớn hơn kích thước đầu vào Ngược lại, Valid Padding nên được sử dụng để loại bỏ các phần không cần thiết ở cạnh mảng đầu vào, với ý nghĩa là không có phần đệm nào được thêm vào.

Hình 3 10: Áp dụng không padding cho ma trận đầu vào

Hình 3 11: Hoạt động gộp tối đa

Lớp Nhóm gộp, tương tự như Lớp Convolution, đóng vai trò quan trọng trong việc giảm kích thước không gian của đối tượng tích hợp, giúp giảm sức mạnh tính toán cần thiết để xử lý dữ liệu Việc giảm kích thước này không chỉ giảm khối lượng tính toán mà còn hỗ trợ trích xuất các đối tượng địa lý cấp thấp từ các pixel lân cận Hơn nữa, nó còn hữu ích trong việc trích xuất các đặc trưng chủ đạo, giữ cho quá trình huấn luyện mô hình diễn ra hiệu quả với tính bất biến về xoay và vị trí.

Có hai loại tổng hợp trong xử lý hình ảnh: Tổng hợp tối đa (Max Pooling) và Tổng hợp trung bình (Average Pooling) Max Pooling chọn giá trị lớn nhất từ vùng hình ảnh được hạt nhân bao phủ, trong khi Average Pooling tính giá trị trung bình của tất cả các giá trị trong vùng đó.

Max Pooling giúp trích xuất các đặc trưng quan trọng như các cạnh, trong khi Average Pooling tạo ra các đặc trưng mượt mà hơn Việc lựa chọn giữa Max Pooling và Average Pooling phụ thuộc vào loại tập dữ liệu cụ thể.

Trong kiến trúc CNN, Pooling thường được thực hiện với cửa sổ 2x2, bước 2 và không có padding

3.2.5 Fully-Connected layer - Lớp được kết nối đầy đủ

Lớp được kết nối đầy đủ là một phương pháp hiệu quả và tiết kiệm để học các kết hợp phi tuyến tính của các đối tượng cấp cao thông qua đầu ra của lớp phức hợp Để phân loại hình ảnh, chúng ta cần chuyển đổi bản đồ đối tượng thành vector cột, giúp phù hợp với Nhận thức Đa cấp Đầu ra này sẽ được cung cấp cho mạng nơ-ron truyền về phía trước, với quá trình nhân giống ngược được áp dụng trong mỗi lần đào tạo Qua thời gian, mô hình có khả năng phân biệt các tính năng chính và một số tính năng cấp thấp trong hình ảnh, sử dụng hàm Softmax để phân loại nhiều lớp, trong khi hàm Sigmoid được áp dụng cho phân loại hai lớp.

Hình 3 12: Mạng Neural sâu để phân loại nhiều lớp.

Cấu trúc mạng và tối ưu hóa thông số

Kiến trúc mạng bao gồm 9 lớp, trong đó có 5 lớp phức hợp và 4 lớp kết nối đầy đủ Hình ảnh đầu vào có kích thước 66x200x3 (chiều cao x chiều rộng x chiều sâu) Các lớp biến đổi được thiết kế để trích xuất tính năng, được chọn dựa trên kinh nghiệm từ thử nghiệm với các cấu hình lớp khác nhau Ba lớp phức hợp đầu tiên sử dụng kích thước hạt nhân 7x7 và bước sóng 2x2, với độ sâu tương ứng là 8, 16, 32 và 64 Tính năng cục bộ được xử lý trong hai lớp chập cuối với kích thước hạt nhân 3x3 và độ sâu 64 Sau các lớp chập, đầu ra được làm phẳng và tiếp theo là các lớp kết nối đầy đủ với kích thước giảm dần.

Mạng nơ-ron của chúng tôi bao gồm 100, 50, 20 và 7 lớp, tất cả đều sử dụng đơn vị tuyến tính chỉnh lưu (ReLU) để nâng cao khả năng hội tụ Chúng tôi áp dụng hàm softmax trên các vectơ đặc trưng để tính toán xác suất góc vô lăng Tổng cộng, mạng có khoảng 194.173 tham số và cho hiệu suất đào tạo xuất sắc ngay cả trên phần cứng hạn chế.

Mô phỏng xe tự hành

Mô hình CNN được sử dụng để dự đoán các giá trị thực trong bài toán ô tô tự hành Xe tự hành thu nhận thông tin từ nhiều cảm biến đặt ở phía trước, phía sau và hai bên, cùng với dữ liệu từ bốn camera xung quanh xe Thông tin bổ sung về tốc độ và góc lái cũng được tích hợp để nâng cao khả năng điều khiển.

Để phát triển một mô hình tự hành cho xe ô tô, chúng ta cần huấn luyện nó thực hiện các hành động như nhấn ga, đạp phanh và điều chỉnh tay lái, nhằm đảm bảo an toàn khi lưu thông trên đường Mô hình CNN được sử dụng để xử lý hình ảnh bằng cách phân tích từng phần của ảnh một cách tuần tự, từ trái sang phải và từ trên xuống dưới, ghi lại những đặc điểm nổi bật của từng phần Qua quá trình này, mô hình sẽ tổng hợp những đặc trưng quan trọng nhất của bức ảnh để phục vụ cho việc ra quyết định trong điều khiển xe.

3.4.1 Giới thiệu mô phỏng ô tô tự hành

3.4.1.1 Self-drving car Ứng dụng mô phỏng ô tô tự hành là phần mềm mã nguồn mở được phát triển bởi Udacity, được viết bằng Unity ( công cụ dùng để phát triển game)

Hình 3 13: Giao diện ứng dụng mô phỏng Self-drving car

✓ Training mode (sẽ cho dữ liệu về ô tô tự hành để train mô hình)

✓ Autonomous mode (phần ô tô tự hành)

Trong ứng dụng chế độ đào tạo, ô tô được trang bị ba camera (trái, giữa, phải) cho phép người dùng quan sát Ô tô có khả năng di chuyển sang trái (←), sang phải (→), tăng tốc (↑) và giảm tốc (↓) để tối ưu hóa trải nghiệm lái xe.

Trong chế độ đào tạo, mỗi vị trí di chuyển của ô tô sẽ cung cấp dữ liệu bao gồm hình ảnh từ ba camera, góc lái của vô lăng, tốc độ xe, cùng với thông tin về độ giảm tốc (throttle) và phanh (brake).

Python là một ngôn ngữ lập trình thông dịch, hướng đối tượng và bậc cao với ngữ nghĩa động Ngôn ngữ này hỗ trợ các module và gói, khuyến khích việc lập trình module hóa và tái sử dụng mã Trình thông dịch Python cùng với thư viện chuẩn có sẵn dưới dạng mã nguồn hoặc nhị phân miễn phí cho các nền tảng chính và có thể được phân phối tự do.

Python dễ dàng kết nối với các thành phần khác:

Python can connect with various technologies, including COM objects, NET (via IronPython and Python for NET), CORBA, and Java Additionally, Python is supported by the Internet Communications Engine (ICE) and numerous other connectivity technologies.

● Có thể viết các thư viện trên C/C++ để nhúng vào Python và ngược lại

Sau khi chọn chế độ huấn luyện, hãy làm quen với việc di chuyển ô tô bằng các phím mũi tên Khi đã lái mượt mà, bạn hãy nhấn nút ghi âm, chọn thư mục để lưu dữ liệu và nhấn chọn.

Lái xe khoảng 5 phút sẽ ra khoảng 9000 ảnh (3000 ảnh từ mỗi camera) Kết quả:

Hình 3 15: Kết quả của training mode

Hình 3 16: File IMD sau khi training mode

Hình 3 17: File driving_log.csv để mô tả dữ liệu

Sơ đồ khối hệ thống đào tạo của chúng tôi, như thể hiện trong Hình 4.6, mô tả quy trình xử lý hình ảnh qua CNN Hình ảnh được đưa vào CNN để tính toán lệnh lái đề xuất, sau đó lệnh này sẽ được so sánh với lệnh mong muốn cho hình ảnh đó Trọng số của CNN sẽ được điều chỉnh nhằm đưa đầu ra của CNN gần hơn với đầu ra mong muốn.

Sau khi được đào tạo, mạng có thể tạo ra chỉ đạo từ hình ảnh video của một camera trung tâm duy nhất (8)

Cấu hình này được thể hiện trong Hình 3 19

Hình 3 19: Mạng được đào tạo được sử dụng để tạo các lệnh lái từ mộtcamera trung tâm phía trước

Bước đầu tiên để đào tạo một mạng nơ-ron là chọn các khung để sử dụng

Dữ liệu thu thập được gắn nhãn với các yếu tố như loại đường, tình trạng thời tiết và hành vi của người lái xe, bao gồm việc ở trong làn đường, chuyển làn và rẽ Để huấn luyện mạng nơ-ron tích chập (CNN) cho việc theo dõi làn đường, chúng tôi chỉ sử dụng dữ liệu khi người lái xe đang ở trong một làn đường và loại bỏ các trường hợp khác.

Hình 3 20: Cấu trúc mạng CNN

Mạng có khoảng 27 triệu kết nối và 250 nghìn thông số

Input layer: Ảnh màu kích thước 66*200

Output layer: 1 node dự đoán góc lái của vô lăng

To set up your environment, open the Command Prompt and sequentially install the necessary libraries using the following pip commands: `pip install python-socketio`, `pip install numpy`, `pip install eventlet`, `pip install pillow`, `pip install flask`, `pip install keras`, `pip install tensorflow`, `pip install opencv-python`, and `pip install matplotlib`.

Hình 3 21: Kết quả cài đặt thư viện

Mọi thứ cài đặt xong thì mở file TrainModel.py như sau:

Vào thư mục chứa file Trainmode.py

Sau đó kích chuột vào đường dẫn xong copy như hình trên:(Đường dẫn file chứa Trainmode.py)

Sau đó thực hiện lệnh:

Cd C:\tulai\self_driving-master

Chạy lệnh: python TrainModel.py và chờ quá trình huấn luyện hoàn tất, mất khoảng 2-3 tiếng Khi màn hình hiển thị chữ "Trained!", quá trình đã hoàn tất.

Hình 3 22: Kết quả sau khi train thành công

Train thành công, các bạn hãy vào thư mục traindata, sẽ thấy các file model-…h5 Hãy chọn file mới nhất ví dụ mình chọn file model-008.h5

Chạy file GoDrive.py bằng cách gõ lệnh python DriveNow.py /traindata/model-008.h5

File model-008.h5 là phiên bản mới nhất, với kết quả phụ thuộc vào từng máy và thời gian huấn luyện khi nhập dữ liệu hình ảnh từ các camera Mỗi lần chạy mã sẽ tạo ra những kết quả khác nhau.

Cuối cùng chỉ cần mở phần mềm tự hành và chọn Automotous Mode Lúc này xe sẽ tự động lái.

Ngày đăng: 09/07/2021, 10:32

TỪ KHÓA LIÊN QUAN

w