(Luận văn thạc sĩ) ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông

TỔNG QUAN

Giới thiệu

Trong những ngày gần đây, khái niệm “Cách mạng Công nghiệp 4.0” đã thu hút sự chú ý lớn từ truyền thông và mạng xã hội, đi kèm với những hứa hẹn về sự đổi mới và phát triển mạnh mẽ trong các lĩnh vực công nghiệp và công nghệ.

“đổi đời” của các doanh nghiệp tại Việt Nam nếu đón được làn sóng này

Trong hơn 70 năm qua, việc áp dụng công nghệ tiên tiến để quản lý dòng phương tiện đã trở nên phổ biến, bắt đầu từ việc kiểm soát tín hiệu giao thông tại các ngã tư và khu vực giao cắt Các nhà sản xuất phương tiện đã phát triển công nghệ hiện đại nhằm tạo ra những phương tiện an toàn và thoải mái hơn, giúp giảm áp lực khi lái xe.

Công nghệ tiên tiến ngày càng được áp dụng trong quản lý mạng lưới giao thông công cộng và cập nhật thông tin cho hành khách Trong lĩnh vực vận tải hàng hóa, nhiều công nghệ giúp di chuyển dễ dàng hơn và hỗ trợ giao dịch thương mại trong chuỗi cung ứng Những công nghệ này được gọi là "hệ thống giao thông thông minh" (ITS) Khi được triển khai cẩn thận, ITS có thể tạo ra hệ thống giao thông an toàn, thuận tiện và giảm thiểu tác động đến môi trường.

Hệ thống này được thiết kế nhằm hỗ trợ con người trong việc ra quyết định, hoạt động như những cố vấn để giúp họ nhận diện các yếu tố cần cân nhắc cho việc tối ưu hóa việc sử dụng Hệ thống Giao thông Thông minh (ITS) Nó cung cấp cái nhìn về những cơ hội và thách thức mà ITS mang lại, đồng thời hướng dẫn cách giải quyết và khai thác hiệu quả những thách thức và cơ hội đó.

1.1.1 Công trình liên quan Để tiến hành thực hiện đề tài này tôi đã tìm hiểu các hệ thống giao thông thông minh hiện nay trên thị trường và nghiên cứu các công trình bài báo liên quan:

Năm 2016, Elise van der Pol và Frans A Oliehoek đã nghiên cứu việc điều khiển đèn giao thông bằng cách áp dụng các thành phần của MDP, trong đó trạng thái của con đường được biểu diễn bằng ma trận nhị phân kết hợp với trạng thái của đèn tín hiệu Họ đã tích hợp các tác nhân tại các nút giao thông khác nhau trong quá trình huấn luyện và đạt được kết quả khả quan so với hệ thống đèn tĩnh.

Năm 2016, Li Li và các đồng sự đã phát triển một phương pháp kết hợp mạng học sâu với học tăng cường để xử lý dữ liệu đầu vào như tốc độ và độ dài hàng đợi xe trên làn đường Hệ thống này có khả năng điều chỉnh thời gian đèn giao thông một cách hợp lý, dẫn đến việc giảm số lượng xe dừng chờ và thời gian chờ trung bình của các phương tiện, với mức giảm khoảng 14% so với phương pháp học tăng cường truyền thống.

Năm 2017, Juntao Gao và các đồng nghiệp đã phát triển một thuật toán học tăng cường kết hợp với mạng học sâu, giúp tự động trích xuất các đặc trưng quan trọng từ dữ liệu giao thông như vị trí, tốc độ xe và trạng thái tín hiệu đèn giao thông tại các nút giao Nhờ đó, tác nhân có khả năng học các chính sách tối ưu để điều khiển tín hiệu đèn giao thông một cách hiệu quả.

Vào năm 2018, Yilun Lin và các đồng sự đã phát triển một thuật toán học tập tăng cường sâu (DRL) sử dụng mô hình A2C Các thí nghiệm mô phỏng cho thấy phương pháp này vượt trội hơn so với các phương pháp dựa trên quy tắc truyền thống, đồng thời có khả năng giải quyết các vấn đề phức tạp hơn trong thực tế.

Năm 2018, nghiên cứu của Tomoki Nishi chỉ ra rằng việc trích xuất thuộc tính ảo từ dữ liệu và cảm biến đầu vào là cần thiết cho mạng nơron Phương pháp đề xuất sử dụng GCNN để trực tiếp trích xuất các tính năng của mạng NFQI, và kết quả cho thấy hiệu quả của phương pháp này.

NFQI với GCNN thu được các luật lệ có thể so sánh nhanh hơn so với hệ thống đèn mặc định

Năm 2019, Andrea Vidali và nhóm nghiên cứu đã áp dụng phương pháp học tăng cường kết hợp với mạng học sâu bằng cách chuyển đổi vị trí của các xe trên các làn đường thành một vec-tơ, sử dụng làm dữ liệu đầu vào cho hệ thống học Kết quả thu được cho thấy sự so sánh với hệ thống đèn tín hiệu tĩnh, như được trình bày trong bảng dưới đây.

Bảng 1.1: Kết quả so sánh thực nghiệm với hệ thống đèn tĩnh của Andrea Vidali cùng các đồng sự [7]

1.1.2 Vấn đề tồn tại cần giải quyết

Giảm tổng thời gian chờ cho các phương tiện có thể đạt được thông qua nhiều phương pháp khác nhau, và kết quả sẽ không giống nhau Nhiều nghiên cứu hiện có sử dụng dữ liệu đầu vào là ma trận hoặc vec-tơ của các con đường tại các nút giao thông Điều này đặt ra câu hỏi liệu có phương pháp nào khác có thể tối ưu hóa kết quả hơn so với hệ thống đèn giao thông tĩnh truyền thống hay không.

Lý do chọn đề tài

Các giải pháp hiện tại nhằm giảm tổng thời gian chờ của phương tiện tại các nút giao thông chủ yếu tập trung vào việc ma trận hóa các nút giao thông, sau đó sử dụng mô hình mạng học sâu để đưa ra kết quả cho việc học tăng cường Do đó, tôi muốn áp dụng mô hình mạng nơ-ron tích chập (CNN) để phân tích tình trạng giao thông tại các nút giao thông, từ đó mô hình học tăng cường sẽ sử dụng các kết quả này để cải thiện hiệu suất giao thông.

4 quả đó học và cải thiện việc chọn một hành động là vấn đề luận văn tập trung nghiên cứu.

Mục tiêu nghiên cứu

Mục tiêu của nghiên cứu này là giảm thời gian chờ tổng thể của các phương tiện tại nút giao thông bằng cách sử dụng mô hình mạng CNN Dữ liệu đầu vào là hình ảnh của nút giao thông, và kết quả đầu ra sẽ được áp dụng cho việc học tăng cường.

Đối tượng, phạm vi nghiên cứu

Đối tượng nghiên cứu là một phần mềm tích hợp trí tuệ nhân tạo giúp tối ưu tổng thời gian chờ của các phương tiện

Nghiên cứu này tập trung vào việc mô phỏng quá trình tự học của phần mềm thông qua dữ liệu đầu vào là hình ảnh của con đường, nhằm giảm tổng thời gian chờ cho các phương tiện giao thông Sử dụng phần mềm SUMO, quá trình di chuyển của các phương tiện tại một nút giao thông được mô phỏng để tính toán tổng thời gian chờ.

Thời gian ước tính để hoàn tất công trình nghiên cứu là 12 tháng.

Nội dung nghiên cứu

Nghiên cứu thiết kế mạng CNN cho phù hợp với mục tiêu nghiên cứu của đề tài đã đề ra

Nghiên cứu và áp dụng phương pháp mô hình mạng CNN và học tăng cường để cải thiện thời gian chờ của phương tiện giao thông

So sánh tổng thời gian chờ của hệ thống đèn giao thông giữa mô hình mạng nơ-ron tích chập và phương pháp học tăng cường với hệ thống đèn tĩnh cho thấy sự cải thiện rõ rệt trong hiệu suất Việc áp dụng công nghệ hiện đại giúp tối ưu hóa thời gian chờ, giảm thiểu ùn tắc giao thông và nâng cao trải nghiệm của người tham gia giao thông Những kết quả này chứng tỏ rằng các phương pháp học máy có thể mang lại lợi ích thiết thực cho hệ thống quản lý giao thông.

Phương pháp nghiên cứu

Phương pháp phân tích và tổng hợp lý thuyết

Phương pháp phân loại và hệ thống hóa lý thuyết

Bố cục đề tài

Chương này giới thiệu lý do lựa chọn đề tài nghiên cứu, các công trình liên quan, mục tiêu và nội dung nghiên cứu, phương pháp thực hiện, cũng như các giới hạn của đề tài và cấu trúc tổng thể của nghiên cứu.

Chương 2: Cơ Sở Lý Thuyết

Chương này giới thiệu về lý thuyết cơ bản về trí tuệ nhân tạo và các ứng dụng của nó trong đời sống

Chương 3: Giải pháp giảm thời gian chờ của phương tiện dựa vào mạng nơ- ron tích chập cùng với học tăng cường

Chương này giới thiệu về hướng đề xuất của luận văn

Chương 4: Kết luận – Hướng phát triển

Chương này trình bày tóm tắt những gì đã làm được trong luận văn Và nêu ra hướng phát triển của đề tài trong tương lai.

CƠ SỞ LÝ THUYẾT

Tổng quan trí tuệ nhân tạo (AI – Artificial Intelligence)

Trí tuệ nhân tạo (AI) là một lĩnh vực của khoa học máy tính, tập trung vào việc tự động hóa các hành vi thông minh AI dựa trên các nguyên lý lý thuyết vững chắc và có khả năng ứng dụng trong nhiều lĩnh vực Hiện nay, thuật ngữ này thường chỉ các máy tính với mục đích cụ thể và nghiên cứu các lý thuyết cũng như ứng dụng của trí tuệ nhân tạo Các loại AI hiện tại chủ yếu được sử dụng để xử lý các nhiệm vụ như điều khiển nhà thông minh, nhận diện hình ảnh, phân tích dữ liệu bệnh nhân để đưa ra phác đồ điều trị, tự học hỏi, và hỗ trợ khách hàng về sản phẩm của công ty.

Hình 2.1: Tổng quan về trí tuệ nhân tạo

Nguồn: https://irishtechnews-ie.exactdn.com/wp-content/uploads/2019/03/AI_vs_ML-

Chương 2 : Cơ Sở Lý Thuyết

2.1.2 Lịch sử trí tuệ nhân tạo Ý tưởng xây dựng một chương trình AI xuất hiện lần đầu vào tháng 10 năm

Năm 1950, nhà bác học người Anh Alan Turing đã đặt ra câu hỏi liệu máy tính có khả năng suy nghĩ hay không Để giải đáp vấn đề này, ông đã giới thiệu khái niệm mới về trí tuệ nhân tạo.

Phép thử Turing, hay còn gọi là "phép thử bắt chước", được thực hiện dưới dạng một trò chơi với ba đối tượng tham gia: hai người và một máy tính Trong trò chơi này, một người thẩm vấn ngồi trong một phòng kín và đặt câu hỏi cho người trả lời thẩm vấn và máy tính Nếu người thẩm vấn không thể phân biệt được câu trả lời nào đến từ người và câu nào từ máy tính, thì máy tính được coi là có khả năng "suy nghĩ" giống như con người Vào mùa hè năm 1956, hội nghị do Marvin Minsky và John McCarthy tổ chức tại trường Dartmouth, Mỹ, đã quy tụ nhiều nhà khoa học để thảo luận về khái niệm này.

"Trí tuệ nhân tạo" đã được công nhận chính thức và vẫn được áp dụng cho đến ngày nay Tại đây, lĩnh vực nghiên cứu về trí tuệ nhân tạo đầu tiên cũng đã được thiết lập.

2.1.3 Quá trình hình thành và phát triển của AI

Từ năm 1950 đến 1965, các nhà khoa học như John McCarthy, Marvin Minsky, Allen Newell và Herbert Simon, cùng với sinh viên, đã phát triển các chương trình máy tính có khả năng giải các bài toán đại số, chứng minh định lý và giao tiếp bằng tiếng Anh.

Trong giai đoạn đầu của trí tuệ nhân tạo, một số thành tựu nổi bật bao gồm chương trình chơi cờ của Samuel, chương trình lý luận logic do Newell và Simon phát triển, cùng với chương trình chứng minh các định lý hình học của Gelernter.

Trong thập niên 60, nghiên cứu về trí tuệ nhân tạo chủ yếu chú trọng vào việc biểu diễn tri thức và giao tiếp giữa con người và máy tính thông qua ngôn ngữ tự nhiên Tuy nhiên, những nỗ lực này không thành công do công nghệ thông tin lúc bấy giờ chưa đủ phát triển để thực hiện các ý tưởng đó.

Năm 1997, trận đấu lịch sử giữa kiện tướng cờ vua Garry Kasparov và máy tính DeepBlue của IBM đã khơi dậy niềm hy vọng mới về trí tuệ nhân tạo.

Năm 2015, sự phát triển của nền tảng điện toán đám mây với chi phí hợp lý, cùng với sự phong phú của dữ liệu và các công cụ phát triển phần mềm giá rẻ đã hỗ trợ đáng kể cho các nhà nghiên cứu Nhờ đó, nghiên cứu về công nghệ học hỏi cho máy tính, hay còn gọi là mạng thần kinh, đã trở nên tương đối rẻ so với trước đây.

Mảnh đất trí tuệ nhân tạo đã thu hút sự quan tâm của nhiều ông lớn như Facebook, Google và Microsoft, thúc đẩy nghiên cứu và phát triển sản phẩm, mở ra một kỷ nguyên mới cho lĩnh vực này.

Hình 2.2: Lịch sử phát triển trí tuệ nhân tạo

Nguồn: https://images.ukdissertations.com/18/0030428.014.jpg

2.1.4 Mục đích của trí tuệ nhân tạo

Sự phát triển của trí tuệ nhân tạo cho phép máy móc sở hữu khả năng trí tuệ tương tự như con người, tạo ra các hệ thống có khả năng hiểu biết, suy nghĩ, học hỏi và hành động một cách giống con người.

9 thế nữa, các hệ thống này có thể thể hiện hành vi thông minh, học hỏi, chứng minh, giải thích và tư vấn cho người dùng của mình

2.1.5 Trí tuệ nhân tạo trong cách ngành liên quan

Trí tuệ nhân tạo đóng vai trò quan trọng trong việc phát triển các hệ thống thông minh cho nhiều lĩnh vực, bao gồm khoa học máy tính, sinh học, tâm lý học, ngôn ngữ học, toán học, xã hội học và khoa học nơ-ron.

Hình 2.3: Các ngành nghề áp dụng trí tuệ nhân tạo

Nguồn: https://www.tutorialspoint.com/artificial_intelligence/images/components_of_ai.jpg

2.1.6 Một số ứng dụng của AI trong thực tiễn

Hiện nay, trí tuệ nhân tạo được ứng dụng trong đời sống theo hai hướng chính: một là sử dụng máy tính để mô phỏng quá trình xử lý thông tin của con người, và hai là phát triển các máy tính thông minh hoạt động độc lập, không phụ thuộc vào cách suy nghĩ của con người.

Trí tuệ nhân tạo đang được ứng dụng rộng rãi trong cuộc sống thực tiễn, bao gồm nhận dạng chữ viết, nhận dạng tiếng nói, dịch tự động và tìm kiếm thông tin Ngoài ra, nó còn đóng vai trò quan trọng trong khai phá dữ liệu, phát triển tri thức, lái xe tự động và phát triển robot.

Trong tương lai, trí tuệ nhân tạo sẽ tiếp tục được mở rộng ứng dụng nhờ sự quan tâm và phát triển từ các công ty công nghệ lớn, đặc biệt trong các lĩnh vực như y tế, xây dựng, ngân hàng và công nghệ siêu vi.

Nơ-ron nhân tạo (Neural Networks)

Mạng nơ-ron bao gồm các tri giác (perceptron) đơn lẻ, mỗi nơ-ron có khả năng nhận nhiều đầu vào và tạo ra một kết quả duy nhất.

Hình 2.4: Cấu tạo nơ-ron sinh học [11]

Nơ-ron nhân tạo, được phát triển dựa trên nguyên lý hoạt động của nơ-ron sinh học, là sự kết hợp của nhiều đơn vị (unit) để xử lý tín hiệu.

Mạng nơ-ron bao gồm 11 lớp, trong đó lớp giữa được gọi là lớp ẩn, trong khi lớp đầu vào là lớp vào và lớp cuối cùng là lớp ra Khi phát triển một mạng nơ-ron, việc sắp xếp các lớp, loại lớp sử dụng và số lượng nơ-ron trong mỗi lớp là những yếu tố quan trọng cần được xem xét.

Các biến số không kém phần quan trọng trong mạng nơ-ron như: trọng số (weights – w) và biases (b) hoặc các tham số của mạng nơ-ron

Mục tiêu của việc huấn luyện mạng nơ-ron nhân là xác định các giá trị tối ưu cho các tham số của mạng, nhằm cung cấp giải pháp đáng tin cậy cho các vấn đề.

Mà hai thông số quan trọng nhất của quá trình này, chính là trọng số và biases

Hình 2.5: Cấu tạo nơ-ron nhân tạo

Nguồn: https://hackernoon.com/hn-images/1*RGV6Bb3ChmVWsA8Q6Qth6Q.png

Deep Learning là một mạng nơ-ron với nhiều lớp ẩn nằm giữa lớp đầu vào và đầu ra Mỗi lớp ẩn đảm nhiệm một nhiệm vụ riêng, và dữ liệu đầu ra của lớp này sẽ trở thành dữ liệu đầu vào cho lớp tiếp theo.

Hình 2.6: Mạng nơ-ron sâu (DNN)

Nguồn: https://nordiccoder.com/app/uploads/2019/10/Screen-Shot-2019-10-17-at-3.30.07-PM.png Ứng dụng của Deep Learning [12]:

Tìm kiếm bằng giọng nói, trợ lý ảo

Nhận dạng ảnh (Image Recognition)

2.2.3 Mạng nơ-ron tích chập(Convolutional Neural Network)

Mạng nơ-ron tích chập (CNN) là một trong những mô hình học sâu tiên tiến, cho phép xây dựng các hệ thống thông minh với độ chính xác cao.

CNN chứa đựng một hoặc nhiều convolutional layer, pooling hoặc fully connected

2.2.3.2 Cấu trúc của mạng CNN

Mạng CNN bao gồm nhiều lớp tích chập được xếp chồng lên nhau, sử dụng các hàm kích hoạt như ReLU và Sigmoid để kích hoạt trọng số trong các nút.

Mỗi lớp trong mạng nơ-ron, sau khi áp dụng các hàm kích hoạt, sẽ tạo ra thông tin trừu tượng hơn cho các lớp tiếp theo Trong mô hình mạng nơ-ron truyền tiến (feed forward neural network), mỗi nơ-ron đầu vào kết nối với từng nơ-ron đầu ra trong các lớp tiếp theo.

Mô hình mạng kết nối đầy đủ (fully connected layer) hay mạng toàn vẹn (affine layer) khác với mô hình CNN, nơi các lớp được kết nối thông qua cơ chế tích chập.

Lớp tiếp theo trong mạng nơ-ron tích chập là kết quả của phép convolution từ lớp trước, tạo ra các kết nối cục bộ Mỗi neuron ở lớp này được hình thành từ kết quả của việc áp dụng filter lên một vùng ảnh cục bộ của neuron trước đó.

Mỗi lớp trong mạng nơ-ron tích chập (CNN) sử dụng hàng trăm đến hàng nghìn bộ lọc khác nhau để kết hợp và tối ưu hóa kết quả Ngoài ra, các lớp pooling và subsampling giúp chắt lọc thông tin hữu ích và loại bỏ nhiễu Trong quá trình huấn luyện, CNN tự động học các giá trị qua các lớp bộ lọc dựa trên phương pháp mà người dùng thực hiện.

Hình 2.7: Cấu trúc mạng Convolutional Neural Network

Nguồn: http://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1512486717/Typical_cnn

Học tăng cường (Reinforcement Learning)

Học tăng cường (Reinforcement Learning - RL) là một trong ba loại học máy chính, bên cạnh học giám sát (Supervised Learning - SL) và học không giám sát (Unsupervised Learning - UL) RL tập trung vào việc học từ các hành động và phản hồi từ môi trường, nhằm tối ưu hóa quyết định và cải thiện hiệu suất theo thời gian.

Học tập hiệu quả thông qua việc tương tác với môi trường bằng hành động và nhận phần thưởng là một phương pháp tương tự như cách con người học hỏi thông qua thử nghiệm và sai sót.

Có 8 thuật ngữ chính xuất hiện trong học tăng cường: Agent, Environment, State, Action, Reward, Episode, Policy, Accumulative Reward

Environment (môi trường): là không gian mà máy tương tác

Actions (hành động): là hành động của chủ thể

Agent (tác nhân): tác nhân quan sát môi trường và sinh ra hành động tương ứng

Policy (luật lệ): máy sẽ dựa theo luật lệ được đặt ra như thế nào để đạt được mục đích

Reward (phần thưởng): phần thưởng tương ứng từ môi trường mà máy nhận được khi thực hiện một hành động

State (trạng thái): trạng thái của môi trường mà máy nhận được

Episode (tập): một chuỗi các trạng thái và hành động cho đến trạng thái kết thúc s1, a1, s2, a2, s3, a3, … sn, an

Accumulative Reward (phần thưởng tích lũy): tổng phần thưởng tích lũy từ một state đến state cuối cùng

Tại trạng thái s, tác nhân thực hiện hành động a để tương tác với môi trường, dẫn đến trạng thái mới st+1 và nhận phần thưởng rt+1 Quá trình này tiếp tục cho đến khi đạt trạng thái cuối cùng sT.

Hình 2.8: Cách thức hoạt động của học tăng cường

Nguồn: https://www.xadahiya.me/images/rl-intro.png

Gần đây, học tăng cường (RL) đã ghi nhận những thành tựu ấn tượng, khi các thuật toán của DeepMind như AlphaGo, AlphaZero và AlphaStar đã vượt qua các tuyển thủ hàng đầu thế giới trong những trò chơi mà con người từng cho rằng máy móc không thể chiến thắng.

Q-learning là một thuật toán học tăng cường không mô hình (model free) Mục tiêu của Q-learning là học một chính sách, chính sách cho biết máy sẽ thực hiện hành động nào trong hoàn cảnh nào Nó không yêu cầu một mô hình (do đó hàm ý “không mô hình”) của môi trường và nó có thể xử lý các vấn đề với chuyển đổi và phần thưởng ngẫu nhiên, mà không cần điều chỉnh

Q-value là giá trị giúp tác nhân biết phải chọn hành động nào để đạt được phần thưởng lớn nhất Q-value được tính bằng công thức sau :

Công thức cho thấy Q-value của hành động a tại trạng thái s được tính bằng phần thưởng r(s,a) cộng với Q-value lớn nhất của các trạng thái s' tiếp theo sau khi thực hiện hành động a Từ đó, chúng ta có thể xây dựng một ma trận các hành động tương ứng với các trạng thái Với mỗi trạng thái, tác nhân chỉ cần tìm hành động có Q-value lớn nhất Tuy nhiên, Q-value trước và sau khi thực hiện hành động sẽ khác nhau, và sự khác biệt này được gọi là Temporal Difference.

𝑎′ 𝑄(𝑠 ′ , 𝑎 ′ ) − 𝑄 𝑡−1 (𝑠, 𝑎) (2.2) Như vậy, ma trận Q(s, a) cần phải cập nhật trọng số dựa trên TD:

𝑄 𝑡 (𝑠, 𝑎) = 𝑄 𝑡−1 (𝑠, 𝑎) + 𝛼𝑇𝐷 𝑡 (𝑠, 𝑎) (2.3) Trong đó α là learning rate Qua các lần tác nhân thực hiện các hành động, Q(s, a) sẽ dần hội tụ Quá trình này chính là Q-Learning

Bảng 2.1: Q-Learning về các trạng thái được khởi tạo từ 0, sau đó mỗi ô được cập nhật thông qua đào tạo [15]

TensorFlow

Sự phát triển của trí tuệ nhân tạo đã thúc đẩy việc tìm hiểu về máy học và học sâu, trở thành xu hướng hiện nay Việc sử dụng các thư viện có sẵn đã đơn giản hóa việc giải quyết các bài toán phức tạp TensorFlow, một nền tảng nguồn mở đầu cuối cho học máy, cung cấp một hệ thống phong phú để quản lý và phát triển các mô hình học sâu.

Nền tảng này tập trung vào việc phát triển và huấn luyện các mô hình học máy thông qua API TensorFlow, bao quát tất cả các khía cạnh của hệ thống máy học.

TensorFlow tổ chức các API theo cấu trúc thứ bậc, trong đó các API cấp cao được phát triển dựa trên các API cấp thấp Các nhà nghiên cứu trong lĩnh vực máy học thường sử dụng các API cấp thấp để phát triển và thử nghiệm các thuật toán học máy mới.

2.4.2 Lịch sử phát triển TensorFlow

Bắt đầu từ năm 2011, Google Brain đã phát triển DistBelief, hệ thống máy học thế hệ đầu tiên của mình, được áp dụng bởi hơn 50 đội tại Google và các công ty thuộc Alphabet trong nhiều sản phẩm như Google Search, Google Voice Search, Google Ads, Google Photos, Google Maps, Google Street View, Google Translate và YouTube Để cải tiến DistBelief, Google đã chỉ định các nhà khoa học máy tính như tiến sĩ Geoffrey Hinton và tiến sĩ Jeff Dean, nhằm biến nó thành một thư viện ứng dụng mạnh mẽ hơn, dẫn đến sự ra đời của TensorFlow Năm 2009, đội ngũ của Hinton đã giảm đáng kể số lỗi trong các mạng nơ-ron sử dụng DistBelief, nhờ vào những đột phá trong phương pháp truyền ngược tổng quát hóa, giúp giảm lỗi trong phần mềm nhận dạng giọng nói của Google ít nhất 25%.

TensorFlow, hệ thống thế hệ thứ hai của Google Brain, được phát hành dưới dạng phần mềm mã nguồn mở vào ngày 9 tháng 11 năm 2015 Mặc dù bản cài đặt tham khảo chỉ chạy trên một thiết bị đơn, TensorFlow hỗ trợ chạy trên nhiều CPU và GPU, cho phép tính toán đa năng với nhiều nhân CUDA Nó tương thích với các hệ điều hành Linux, Mac OS và các nền tảng điện toán di động như Android và iOS Các tính toán trong TensorFlow được biểu diễn dưới dạng biểu đồ chi tiết, và nhiều nhóm tại Google đã chuyển từ DistBelief sang TensorFlow để phục vụ cho nghiên cứu và sản xuất Thư viện thuật toán này ra đời từ nhu cầu của Google trong việc hướng dẫn các hệ thống máy tính.

Mạng nơron được phát triển để mô phỏng cách thức tư duy của con người, mở ra khả năng cho các ứng dụng mới đảm nhận những vai trò và chức năng trước đây chỉ thuộc về con người TensorFlow, tên gọi của một framework, xuất phát từ các thao tác mà mạng nơron thực hiện trên các mảng dữ liệu đa chiều, hay còn gọi là "tensor" Mục tiêu chính của nó là huấn luyện các mạng nơron để phát hiện và giải mã các mẫu dữ liệu cũng như các mối quan hệ trong dữ liệu.

Vào tháng 6 năm 2016, Jeff Dean của Google thông báo rằng có 1500 repository trên GitHub liên quan đến TensorFlow, trong đó chỉ có 5 kho đến từ Google Google đã phát triển đơn vị xử lý tensor (TPU), một mạch tích hợp dành riêng cho ứng dụng tăng tốc AI, đặc biệt để phục vụ cho phần mềm TensorFlow Bắt đầu sử dụng TPU trong nội bộ từ năm 2015, Google đã chính thức cung cấp TPU cho bên thứ ba vào năm 2018, như một phần của cơ sở hạ tầng đám mây và thông qua việc bán phiên bản chip nhỏ hơn.

2.4.3 Các thuộc tính của Tensor

Tensor có 3 thuộc tính cơ bản là rank, shape và type

Rank của Tensor là số bậc của nó, khác với khái niệm trong toán học Ví dụ, Tensor = [1] có rank = 1, trong khi Tensor = [[3,4],[5,6]] có rank = 2 Phân loại rank rất quan trọng vì nó giúp phân loại dữ liệu của Tensor Khi các rank đạt những giá trị đặc biệt, Tensor sẽ được gọi bằng những tên riêng tương ứng.

Scalar: Khi Tensor có rank bằng 0

Vector: Vector là một tensor rank 1

Matrix: Đây là một Tensor rank 2 hay mảng hai chiều theo khái niệm của Python

N-Tensor: Khi rank của Tensor tăng lên lớn hơn 2, chúng được gọi chung là

Shape của Tensor là số phần tử ở mỗi chiều của Tensor Ví dụ Tensor = [1, 2,

3, 4] sẽ có Shape = (4), Tensor = [[1, 3, 5, 7], [2, 4, 6, 8], [3, 6, 9, 12]] sẽ có Shape

Trong Tensor, mỗi thuộc tính chỉ có một kiểu dữ liệu duy nhất, điều này có nghĩa là toàn bộ các yếu tố trong Tensor hiện tại sẽ có cùng một kiểu Type.

GIẢI PHÁP GIẢM THỜI GIAN CHỜ CỦA PHƯƠNG TIỆN DỰA VÀO MẠNG NƠ-RON TÍCH CHẬP CÙNG VỚI HỌC TĂNG CƯỜNG

Giới thiệu

Nghiên cứu hiện tại chỉ ra rằng tác nhân deep Q-learning đã được áp dụng để kiểm soát lưu lượng tín hiệu, nhằm đánh giá sự cải thiện hiệu quả trong khi vẫn đảm bảo tính thực tế đáng kể.

Hệ thống được thiết kế để xác định vị trí của các xe tại ngã tư, với tập hành động A được xác định bởi thời gian của đèn giao thông có độ dài cố định Hai phần thưởng chính của hệ thống là thời gian chờ của các xe giữa các hành động.

Hình 3.1: Minh họa trạng thái các vị trí xe trên một phía của một nút giao thông [7]

Phương pháp học tập được áp dụng cho hệ thống là Q-learning kết hợp với mạng học sâu

Hàm Q-learning được sử dụng để tính toán giá trị Q hiện tại dựa vào những giá trị quá khứ theo công thức:

Q(s t , a t ) = r t+1 + 𝛾 𝑚𝑎𝑥 𝐴 𝑄 ′ (𝑠 𝑡+1 , 𝑎 𝑡+1 ) (3.1) Trong đó: rt+1 : Phần thưởng được nhận khi thực hiện hành động tại thời điểm t at : Hành động tại thời điểm t

Chương 3 : Giải Pháp Giảm Thời Gian Chờ Của Phương Tiên Dựa Vào Mạng

Nơ-ron Tích Chập Cùng Với Học Tăng Cường

21 st : Trạng thái con đường ở thời điểm t

𝑄 ′ (𝑠 𝑡+1 , 𝑎 𝑡+1 ) : là giá trị Q khi thực hiện hành động tại thời điểm t + 1

Hệ số chiết khấu phản ánh giá trị của phần thưởng nhận được tại thời điểm hiện tại so với phần thưởng trong tương lai, cụ thể là tại thời điểm t + 1 Nó có tác dụng giảm giá trị phần thưởng hiện tại, thể hiện tầm quan trọng của "khởi đầu tốt".

Hình 3.2: Qui trình hệ thống đưa ra các giá trị Q-value

Nguồn: https://www.adaltas.com/static/36gg9e4TnFT9QKBFcWujRUSMkZtG6rtF73/c1c45/5.png

Mạng nơ-ron nhận trạng thái làm đầu vào và tạo ra các giá trị Q cho các hành động Q-learning được áp dụng để cập nhật giá trị hành động, và khi trải nghiệm của tác nhân gia tăng, mạng học sâu sẽ được sử dụng để dự đoán giá trị.

Một trình giả lập mô phỏng giao thông đã được sử dụng để tái tạo nhiều kịch bản giao thông khác nhau, với các phân phối lưu lượng đa dạng.

Trong luận văn này để xác định tổng thời gian chờ trong khi thử nghiệm của các xe thì ta dùng công thức sau:

𝑇𝑤𝑡: Tổng thời gian chờ của các xe trong suốt quá trình thử nghiệm

𝑤𝑡 𝑣𝑒ℎ : Thời gian chờ của mỗi xe trong suốt quá trình thử nghiệm

Phần mềm mô phỏng hoạt động của phương tiện giao thông (SUMO)

SUMO (Simulation of Urban Mobility) là phần mềm hỗ trợ người dùng thiết kế các yếu tố của cơ sở hạ tầng đường bộ Luận văn này đã tận dụng các tính năng của SUMO, đặc biệt là trình chỉnh sửa trực quan NetEdit, để thiết kế các thành phần tĩnh của giao lộ, bao gồm đặc điểm đường, phân bố đèn giao thông và kết nối làn đường qua giao lộ.

Gói hỗ trợ TraCI (Traffic Control Interface) của SUMO cho phép định nghĩa loại, đặc điểm và thế hệ xe trong mô phỏng Bên cạnh đó, TraCI có khả năng tương tác với mô phỏng trong thời gian thực, giúp thu thập trạng thái giao lộ tại mỗi dấu thời gian và thực hiện các hành động được chọn bởi các tác nhân.

Công cụ SUMO-GUI mang đến cho người dùng trải nghiệm trực quan về mô phỏng, cho phép điều chỉnh tốc độ mô phỏng theo nhu cầu Nó đã được áp dụng để đánh giá hiệu suất của các tác nhân trong quá trình thử nghiệm.

Trong mô phỏng SUMO, mỗi bước (step) tương ứng với 1 giây Luận văn này thực hiện một quá trình thử nghiệm kéo dài 5400 bước, tương đương với 1 giờ 30 phút mô phỏng.

Lưu lượng giao thông

Trong môi trường giả lập, lưu lượng giao thông đóng vai trò quan trọng, ảnh hưởng lớn đến hiệu suất của các tác nhân Để đảm bảo tính thực tế trong giai đoạn huấn luyện, các tính năng sẽ được tạo ra theo phân phối Weibull hai chiều x, y.

Biểu đồ phân phối thể hiện số lượng phương tiện được tạo ra qua các bước của một mô phỏng, với trục x là các bước và trục y là số lượng phương tiện Phân phối Weibull được lựa chọn vì khả năng ước lượng chính xác các tình huống cụ thể, cho thấy số lượng xe tăng dần đến đỉnh điểm khi mô phỏng bắt đầu Mỗi xe có điểm bắt đầu và kết thúc rõ ràng, sau đó số lượng xe đến sẽ giảm dần, phản ánh tình trạng giảm tắc nghẽn.

Hình 3.3: Mô phỏng số lượng xe được tạo ra theo thời gian

Các kịch bản về số lượng xe khi được tạo ra:

Lưu lượng xe đông (High): 4000 xe được tạo ra

Lưu lượng xe thấp (Low): 600 xe được tạo ra

Lưu lượng xe vừa từ 2 hướng Bắc, Nam (NS): 2000 xe được tạo ra

Lưu lượng xe từ hai hướng Đông và Tây đạt 2000 xe, với xác suất lưu lượng đông và thấp là như nhau Trong kịch bản này, xe có 75% khả năng đi thẳng và 25% khả năng rẽ trái hoặc phải Điểm nguồn và đích của xe được chọn với xác suất đồng đều.

Bảng 3.1: Khả năng xuất hiện của một xe trong trường hợp lưu lượng đông và ít

Hướng Điểm đi Điểm đến Khả năng xuất hiện Đi thẳng

Tây Nam 0.03125 Đông Nam 0.03125 Đông Bắc 0.03125

Cách phân phối xe trong các kịch bản Bắc-Nam, Đông-Tây có sự khác biệt rõ rệt Trong kịch bản Bắc-Nam, có 90% khả năng xe đến từ phía bắc hoặc phía nam, trong khi chỉ có 10% khả năng đến từ phía đông hoặc tây Ngược lại, trong kịch bản Đông-Tây, xe có 90% cơ hội đến từ phía đông hoặc phía tây và chỉ 10% từ phía bắc hoặc phía nam.

Bảng 3.2: Khả năng xuất hiện của một xe trong trường hợp lưu lượng đi đa số từ hướng Bắc, Nam

Hướng Điểm đi Điểm đến Khả năng xuất hiện Đi thẳng

Tây Nam 0.05625 Đông Nam 0.05625 Đông Bắc 0.05625

Bảng 3.3: Khả năng xuất hiện của một xe trong trường hợp lưu lượng đi đa số từ hướng Bắc, Nam

Hướng Điểm đi Điểm đến Khả năng xuất hiện Đi thẳng Đông Tây 0.3375

Rẽ trái hoặc phải Đông Nam 0.05625 Đông Bắc 0.05625

Mỗi xe được tạo ra sẽ có cùng một đặc điểm như bảng 3.4

Bảng 3.4: Đặc tính của một chiếc xe Đặc điểm Giá trị

Tốc độ tối đa của xe 25 m/s

Khoảng cách giữa hai xe 2.5 mét

Lựa chọn mô hình mạng huấn luyện

Trong luận văn này, tôi kết hợp mô hình học tăng cường với mạng nơ-ron tích chập (CNN) để nâng cao hiệu quả đào tạo Bộ lọc của mạng CNN giúp phát hiện các đặc trưng quan trọng của dữ liệu đầu vào, bao gồm vị trí xe, mật độ xe và hướng đi của xe, từ đó cải thiện hiệu suất của mô hình.

Giải pháp

Giải pháp đề xuất sử dụng mô hình CNN để điều tiết giao thông, thay vì nhận dữ liệu từ các vị trí xe tại 8 tín hiệu đèn giao thông, sẽ tiếp nhận dữ liệu đầu vào dưới dạng hình ảnh từ phần mềm mô phỏng SUMO tại một nút giao thông vào thời điểm t.

Hình 3.4: Quá trình hệ thống được huấn luyện

Tiếp theo hệ thống tính toán phần thưởng sau khi thực hiện một hành động tại thời điểm t

Công thức phần thưởng được định nghĩa như sau:

𝑟 𝑡 = 𝑡𝑤𝑡 𝑡−1 − 𝑡𝑤𝑡 𝑡 (3.3) Trong đó: rt : phần thưởng tại thời điểm t

𝑡𝑤𝑡 𝑡−1 : Tổng thời gian chờ của một hành động tại thời điểm t-1

𝑡𝑤𝑡 𝑡 : Tổng thời gian chờ của một hành động tại t

Một hành động được coi là tích cực khi số lượng phương tiện tại thời điểm t thấp hơn so với thời điểm t-1 Ngược lại, hành động sẽ được đánh giá là tiêu cực nếu số lượng phương tiện tăng lên.

Sau đó hệ thống sẽ lưu lại các mẫu vào bộ nhớ để phục vụ cho quá trình huấn luyện

Một mẫu lưu lại được định nghĩa như sau: m = (s t , a t , r t+1 , s t+1 ) (3.4) Trong đó: st: Là hình ảnh của trạng thái con đường tại thời gian t

Tại thời điểm t + 1, trạng thái con đường được biểu thị bằng st+1, trong khi rt+1 là phần thưởng nhận được sau khi thực hiện hành động at tại trạng thái st.

Hình 3.5: Qui trình lưu mẫu từ các trạng thái của nút giao thông vào hệ thống

Trong quá trình tương tác với môi trường mô phỏng SUMO, hệ thống sẽ lấy ra gói dữ liệu chứa nhiều mẫu từ bộ nhớ để huấn luyện Đối với mỗi mẫu, hệ thống tính giá trị 𝑄(𝑠𝑡, 𝑎𝑡) bằng cách sử dụng hình ảnh của con đường tại thời điểm t để xác định giá trị Q.

Tại thời điểm t+1, giá trị 𝑄 ′ (𝑠 𝑡+1 , 𝑎 𝑡+1 ) sẽ được xác định Hệ thống sẽ cập nhật giá trị Q bằng cách chọn giá trị lớn nhất từ 𝑄′(𝑠 𝑡+1 , 𝑎 𝑡+1 ) theo công thức đã định.

𝑄(𝑠 𝑡 , 𝑎 𝑡 ): Giá trị Q tại thời điểm t

𝑟 𝑡+1 : Phần thưởng nhận được sau khi khi thực hiện hành động t

𝛾: Hệ số chiết khấu (giá trị được chọn theo thực nghiệm)

𝑄 ′ (𝑠 𝑡+1 , 𝑎 𝑡+1 ): Giá trị Q tại thời điểm t+1

Hình 3.6: Minh hoạ phương pháp đề xuất

Theo mô hình, từ một hình ảnh đầu vào, tôi tách thành 3 kênh: đỏ, xanh lá, xanh dương, tạo ra 3 feature maps Sau đó, tôi áp dụng phương pháp tích chập với các thông số: stride = 1, kernel = 3, padding = 1, filter = 16, và sử dụng hàm kích hoạt ReLU để thu được 16 feature maps, mỗi bản là một scan của hình ảnh ban đầu với các đặc trưng cụ thể Tiếp theo, tôi giảm kích thước mẫu xuống hai lần với stride = 2 Qua nhiều thử nghiệm với số lần tích chập từ 2 đến 10, tôi nhận thấy rằng với 8 lần tích chập, kết quả gần như đạt được sự bão hòa Cuối cùng, tôi làm phẳng các lớp convolutional và đưa qua một lớp ẩn để tạo ra một tập A gồm 4 giá trị Q tương ứng với 4 hành động cho phép các phương tiện di chuyển qua giao lộ.

Hình 3.7: Minh hoạ bốn hành động tại một nút giao thông

North-South Advance (NSA): thời gian đèn xanh cho phép các phương tiện ở phía bắc và phía nam và muốn đi thẳng hoặc rẽ phải

North-South Left Advance (NSLA): thời gian đèn xanh cho các phương tiện ở phía bắc và phía nam và muốn rẽ trái

East-West Advance (EWA): thời gian đèn xanh cho phép các phương tiện ở nhánh đông và tây và muốn đi thẳng hoặc rẽ phải

East-West Left Advance (EWLA): thời gian đèn xanh cho phép các phương tiện ở phía đông và phía tây và muốn rẽ trái

Nếu hành động hiện tại giống với hành động trước đó, hệ thống sẽ không kích hoạt đèn vàng giữa hai hành động Đèn xanh có thời gian mặc định là 10 giây cho mỗi hành động, trong khi đèn vàng chỉ kéo dài 4 giây Quá trình này sẽ tiếp tục cho đến khi kết thúc thử nghiệm.

THỰC NGHIỆM

Môi trường thực nghiệm

Tất cả các kết quả được thu thập trong bài viết này đều được thực hiện trên máy tính sử dụng hệ điều hành Ubuntu 18.04, với vi xử lý Intel Core i5 9400, RAM 16GB và card đồ họa NVIDIA GeForce GTX 1070.

Kết quả thực nghiệm

Trong luận văn này thì các pha hệ thống đèn tĩnh (STL) được thiết lập bằng tập hành động này: ASTL = {NSA, NSLA, EWA, EWLA}

Hệ thống đèn giao thông sẽ hoạt động theo chu kỳ, với thời gian cố định cho mỗi pha đèn Mỗi lần chuyển đổi giữa các đèn, sẽ có một pha đèn vàng để cảnh báo Thời gian cụ thể cho từng pha đèn được trình bày chi tiết trong bảng 4.1 dưới đây.

Bảng 4.1: Thời gian đèn của hệ thống đèn tĩnh

Pha đèn Thời gian (giây)

Bảng 4.2: Kết quả sau khi chạy mô phỏng trên hệ thống đèn tĩnh

Low High NS EW Twt 13311 218682 116919 118746

4.2.2 Kết quả quá trình huấn luyện

Trong phần này, các thí nghiệm đã cho ra kết quả từ các quá trình thử nghiệm với các biến số khác nhau, tạo thành các mô hình khác nhau Các mô hình được sử dụng trong luận văn này bao gồm LGA, MGA và HGA, được mô tả chi tiết trong bảng 4.3 dưới đây.

Bảng 4.3: Hệ số dùng để huấn luyện hệ thống đèn giao thông thông minh

4.2.2.1 Huấn luyện tác nhân với hệ số γ = 0.09

Hình 4.1: Phần thưởng nhận được khi huấn luyện hệ thống với hệ số γ bằng 0.09

Bảng 4.4: Kết quả sau khi chạy mô phỏng với hệ số γ = 0.09

Low High NS EW Twt 8264 543949 33858 36518

Hình 4.2: So sánh tổng thời gian chờ của các phương tiện giữa hệ thống đèn tĩnh và hệ thống được huấn luyện với γ = 0.09

Tổng thời gian chờ của các phương tiện

Kết quả thực nghiệm cho thấy tổng thời gian chờ của các phương tiện đã giảm đáng kể ở trường hợp xe vừa và ít Tuy nhiên, trong trường hợp xe đông, hiệu quả chưa đạt yêu cầu mong muốn.

Bảng 4.5: Kết quả sau khi chạy mô phỏng với hệ số γ bằng 0.25

Low High NS EW Twt 8618 486540 29108 29607

Hình 4.4: So sánh tổng thời gian chờ của các phương tiện giữa hệ thống được huấn luyện với γ = 0.09 và γ = 0.25

Tổng thời gian chờ của các phương tiện γ = 0.09 γ = 0.25

Kết quả cho thấy, việc tăng giá trị γ lên 0.25 có thể dự đoán chính xác một số hành động trong tương lai, từ đó giúp giảm thời gian chờ của các phương tiện so với trước đây.

Bảng 4.6: Kết quả sau khi chạy mô phỏng với hệ số γ bằng 0.75

Low High NS EW Twt 10976 712422 37032 58324

Hình 4.6: So sánh tổng thời gian chờ của các phương tiện giữa hệ thống được huấn luyện với γ = 0.09, γ = 0.25 và γ = 0.75

Tổng thời gian chờ của các phương tiện γ = 0.09 γ = 0.25 γ = 0.75

Trong lần huấn luyện này, giá trị γ được cài đặt cao (γ = 0.75), cho thấy tác nhân tập trung vào việc tối đa hóa phần thưởng tích lũy từ nhiều hành động liên tiếp Tuy nhiên, tác nhân không kích hoạt pha sáng chính xác, dẫn đến việc các phương tiện phải chờ đợi lâu trước khi đèn giao thông chuyển sang màu xanh Một giải pháp khả thi để cải thiện tình hình là giảm thời gian xanh của một hành động từ 10 giây xuống các giá trị nhỏ hơn, giúp hệ thống thu thập nhiều hành động hơn và dự đoán được nhiều trạng thái tương lai hơn.

4.2.3 Đánh giá hiệu suất của các mô hình

Các mô hình với thông số khác nhau sẽ dẫn đến những hành động và kết quả khác nhau Hình 4.7 dưới đây minh họa kết quả so sánh giữa hệ thống đèn giao thông tĩnh và hệ thống đề xuất trong các kịch bản lưu lượng xe khác nhau.

Hình 4.7: So sánh tổng thời gian chờ của các phương tiện qua các lần thử nghiệm

TỔNG THỜI GIAN CHỜ CỦA CÁC PHƯƠNG

TIỆN QUA CÁC LẦN THỬ NGHIỆM

Bảng 4.7: So sánh hiệu suất của các mô hình đề xuất với hệ thống đèn tĩnh (thấp hơn là tốt hơn)

Lưu lượng xe vừa di chuyển từ 2 hướng Bắc, Nam

Lưu lượng xe vừa di chuyển từ 2 hướng Đông Tây

Kết quả từ bảng cho thấy sự khác biệt rõ rệt giữa hai hệ số γ, từ 0.09 đến 0.75, trong đó hệ số γ bằng 0.25 mang lại hiệu năng khá tốt, cho phép hệ thống lựa chọn các hành động hiệu quả mà không ảnh hưởng đến lưu lượng giao thông Tuy nhiên, trong trường hợp lưu lượng xe đông, thời gian chờ của các phương tiện cao hơn so với hệ thống đèn tín hiệu tĩnh Nguyên nhân là do công thức tính phần thưởng dựa trên tổng thời gian chờ tại thời điểm t-1 trừ đi tổng thời gian chờ tại thời điểm t, trong khi số lượng xe tại các làn đường tiếp tục gia tăng, dẫn đến thời gian chờ kéo dài và gây hiểu lầm cho tác nhân về việc lựa chọn hành động Để khắc phục vấn đề này, cần áp dụng một phương thức tính phần thưởng mới, tận dụng các yếu tố như thời gian chờ trung bình của phương tiện, số lượng xe được thông qua và còn lại tại giao lộ.

Định dạng
Số trang	90
Dung lượng	6,18 MB