1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu

63 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu, Thiết Kế Chế Tạo Hệ Thống Điều Khiển Thông Minh Cho Robot Di Động Dạng Xe Bám Quỹ Đạo Tham Chiếu
Tác giả N. T. Luy, N. T. Thanh, H. M. Tri
Trường học Trường Đại Học Công Nghiệp Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Điện Tử
Thể loại Báo Cáo Tổng Kết
Năm xuất bản 2014
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 63
Dung lượng 762,94 KB
File đính kèm NGHIÊN CỨU, THIẾT KẾ ROBOT WMR.rar (544 KB)

Cấu trúc

  • TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH

    • 1. Thông tin chung:

    • 2. Mục tiêu:

    • 3. Nội dung chính:

    • 4. Kết quả chính đạt được

  • TÓM TẮT BÁO CÁO

  • MỤC LỤC

  • DANH MỤC CÁC HÌNH ẢNH

  • DANH MỤC CÁC BẢNG BIỂU

  • DANH MỤC CÁC TỪ VIẾT TẮT

  • DANH MỤC CÁC KÝ HIỆU

  • CHƯƠNG 1 GIỚI THIỆU

    • 1.1 Tổng quan về đề tài

      • 1.1.1 Phương pháp điều khiển robot di động dạng xe

      • 1.1.2 Khái niệm về học củng cố

    • 1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu

      • 1.2.1 Sự cần thiết phải nghiên cứu RL trong điều khiển WMR

      • 1.2.2 Tính cấp thiết của đề tài

      • 1.2.3 Mục tiêu nghiên cứu

      • 1.2.4 Nhiệm vụ nghiên cứu

    • 1.3 Đối tượng, phạm vi và phương pháp nghiên cứu

      • 1.3.1 Đối tượng và phạm vi nghiên cứu

      • 1.3.2 Phương pháp nghiên cứu

    • 1.4 Những đóng góp mới của báo cáo về mặt khoa học

    • 1.5 Bố cục báo cáo

  • CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

    • 2.1 Các định nghĩa

    • 2.2 Lý thuyết RL

    • 2.3 Các thuật toán RL thông dụng

      • 2.3.1 Thuật toán VI

    • Thuật toán 2.1: VI

      • 2.3.2 Thuật toán PI

    • Thuật toán 2.2: PI

      • 2.3.3 Thuật toán Q-Learning (Q)

    • Thuật toán 2.3: Q-Learning

    • 2.4 Tóm tắt

  • CHƯƠNG 3 PHƯƠNG PHÁP ORADP ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG

    • 3.1 Điều khiển tối ưu H∞ và phương trình HJI

      • 3.1.1 Mô tả bài toán điều khiển

      • 3.1.2 Phương trình HJI

      • 3.1.3 Phương trình và nghiệm HJI xấp xỉ

    • 3.2 Phương pháp ORADP

      • 3.2.1 Cấu trúc điều khiển ORADP và luật cập nhật tham số

      • 3.2.2 Thuật toán điều khiển ORADP

    • Thuật toán 3.1: ORADP

    • 3.3 Phân tích ổn định và hội tụ của ORADP

    • 3.4 Tóm tắt

  • CHƯƠNG 4 ÁP DỤNG ORADP ĐIỀU KHIỂN ROBOT DI ĐỘNG

    • 4.1 Mô hình phi tuyến WMR

Nội dung

Dịch vụ thành lập Thay đổi Giấy phép kinh doanh cty Việt Nam cty vốn FDI Tuyển Cộng tác viên (CK 15% gói Dịch vụ) 0899315716 MỤC LỤC DANH MỤC CÁC HÌNH ẢNH viii DANH MỤC CÁC BẢNG BIỂU x DANH MỤC CÁC TỪ VIẾT TẮT xi DANH MỤC CÁC KÝ HIỆU xiii CHƯƠNG 1 GIỚI THIỆU 1 1.1 Tổng quan về đề tài 1 1.1.1 Phương pháp điều khiển robot di động dạng xe (WMR) 1 1.1.2 Khái niệm về học củng cố 2 1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu 4 1.2.1 Sự cần thiết phải nghiên cứu RL trong điều khiển WMR 4 1.2.2 Tính cấp thiết của đề tài 5 1.2.3 Mục tiêu nghiên cứu 7 1.2.4 Nhiệm vụ nghiên cứu 8 1.3 Đối tượng, phạm vi và phương pháp nghiên cứu 8 1.3.1 Đối tượng và phạm vi nghiên cứu 8 1.3.2 Phương pháp nghiên cứu 8 1.4 Những đóng góp mới của báo cáo về mặt khoa học 9 1.5 Bố cục báo cáo 9 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 11 2.1 Các định nghĩa 11 2.2 Lý thuyết RL 11 2.3 Các thuật toán RL thông dụng 13 2.3.1 Thuật toán VI 13 2.3.2 Thuật toán PI 14 2.3.3 Thuật toán QLearning (Q) 15 2.4 Tóm tắt 17 CHƯƠNG 3 PHƯƠNG PHÁP ORADP ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG .. ...............................................................................................................18 3.1 Điều khiển tối ưu H∞ và phương trình HJI ...........................................................19 3.1.1 Mô tả bài toán điều khiển 19 3.1.2 Phương trình HJI 20 3.1.3 Phương trình và nghiệm HJI xấp xỉ 22 3.2 Phương pháp ORADP 25 3.2.1 Cấu trúc điều khiển ORADP và luật cập nhật tham số 26 3.2.2 Thuật toán điều khiển ORADP 31 3.3 Phân tích ổn định và hội tụ của ORADP 32 3.4 Tóm tắt 38 CHƯƠNG 4 ÁP DỤNG ORADP ĐIỀU KHIỂN ROBOT DI ĐỘNG 39 4.1 Mô hình phi tuyến WMR 39 4.2 Mô hình WMR thực nghiệm 45 4.3 Phương pháp ORADP áp dụng cho WMR 49 4.4 Mô phỏng WMR sử dụng ORADP 52 4.4.1 Quỹ đạo tham chiếu 52 4.4.2 Thiết lập tham số học 53 4.4.3 Kết quả mô phỏng 54 4.5 Kết quả thực nghiệm 55 4.6 Tóm tắt 67 CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 68 5.1 Kết luận 68 5.2 Hướng phát triển 68 TÀI LIỆU THAM KHẢO 70 PHỤ LỤC A MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH KHOẢNG CÁCH THỰC 74 DANH MỤC CÁC HÌNH ẢNH Hình 1.1: Minh họa về học củng cố 3 Hình 2.1: Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu 13 Hình 3.1: Cấu trúc điều khiển ORADP 25 Hình 3.2: Cấu trúc điều khiển ORADP sử dụng một NN 30 Hình 4.1: Mô hình robot di động dạng xe (WMR) 39 Hình 4.6: Sơ đồ điều khiển sử dụng ORADP cho WMR 50 Hình 4.7: Lịch trình thay đổi khối lượng robot trong quá trình điều khiển 52 Hình 4.8: Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển 52 Hình 4.9: Sự hội tụ của trọng số NN trong quá trình học điều khiển 57 Hình 4.10: Quá trình học và sự hội tụ quỹ đạo x  y 57 Hình 4.11: Sai số bám vị trí trong quá trình học điều khiển 58 Hình 4.12: Quỹ đạo x  y với luật điều khiển hội tụ 58 Hình 4.13: Chất lượng bám tối ưu với luật điều khiển hội tụ sau 800 s 58 Hình 4.14: Quỹ đạo x trong quá trình học điều khiển 59 Hình 4.15: Quỹ đạo y trong quá trình học điều khiển 59 Hình 4.16: Quỹ đạo góc quay  trong quá trình học điều khiển 59 Hình 4.17: Quỹ đạo vận tốc quay trong quá trình học điều khiển 60 Hình 4.18: Quỹ đạo vận tốc quay sau khi hội tụ 60 Hình 4.19: Sai số bám vận tốc quay trong quá trình học điều khiển 60 Hình 4.20: Quỹ đạo vận tốc dài trong quá trình học điều khiển 61 Hình 4.21: Quỹ đạo vận tốc dài sau khi hội tụ 61 Hình 4.22: Sai số bám vận tốc dài trong quá trình học điều khiển 61 Hình 4.23: Mô men xấp xỉ  trong quá trình học 62 Hình 4.24: Mô men  tối ưu hội tụ 62 Hình 4.25: Robot thực nghiệmquá trình học trên và sự hội tụ quỹ đạo x  y 63 Hình 4.26: Quỹ đạo thực nghiệm x  y với luật điều khiển hội tụ 63 Hình 4.27: Sai số bám vị trí của robot thực nghiệm trong quá trình học 63 Hình 4.28: Quỹ đạo x của robot thực nghiệm trong quá trình học 64 Hình 4.29: Quỹ đạo y của robot thực nghiệm trong quá trình học 64 Hình 4.30: Quỹ đạo góc quay  robot thực nghiệm trong quá trình học 64 Hình 4.31: Quỹ đạo vận tốc quay trong quá trình học của robot thực nghiệm 65 Hình 4.32: Sai số bám vận tốc quay trong quá trình học 65 Hình 4.33: Quỹ đạo vận tốc dài trong quá trình học 65 Hình 4.34: Sai số bám vận tốc dài trong quá trình học 66 Hình 4.35: Mô men điều khiển bánh phải (1) 66 Hình 4.36: Mô men điều khiển bánh trái (2) 66 Hình A.1. Tập mẫu ngõ vào đo trong không gian ảnh 74 Hình A.2. Tập mẫu ngõ ra mong muốn đo trong không gian thực 74 Hình A.3. Kết quả huấn luyện RBF so với mẫu mong muốn 75 Hình A.4. Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)Y (pixel) 75 DANH MỤC CÁC BẢNG BIỂU Thuật toán 2.1: VI 13 Thuật toán 2.2: PI 14 Thuật toán 2.3: QLearning 16 Thuật toán 3.1: ORADP 31 Thuật toán 4.1: ORADP áp dụng cho WMR 51 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Thuật ngữ tiếng anh Giải thích AC ActorCritic Cấu trúc điều khiển ActorCritic trong học củng cố gồm hai NN: Mạng critic xấp xỉ hàm đánh giá tối ưu, mạng actor xấp xỉ luật điều khiển tối ưu ADP Adaptive Dynamic Programming Qui hoạch động thích nghi, một phương pháp học củng cố để xấp xỉ luật điều khiển tối ưu online ADP3NN ADP with three NNs Cấu trúc điều khiển ADP với ba NN ANN Actor Neural Network NN actor đóng vai trò bộ điều khiển trong cấu trúc AC ARE Algebraic Riccati Equation Phương trình đại số Riccati CNN Critic Neural Network NN critic đóng vai trò xấp xỉ hàm đánh giá trong cấu trúc AC COD Curse of Dimensionality Sự bùng nổ tổ hợp không gian trạng thái DP Dynamic Programming Qui hoạch động HJB HamiltonJacobiBellman HJI HamiltonJacobiIsaacs MLP MultiLayer Perceptron NN truyền thẳng nhiều lớp NRBF Normalized Radial Basis Function NN có hàm cơ sở xuyên tâm được chuẩn hóa ORADP Online Robust Adaptive Dynamic Programming Qui hoạch động thích nghi bền vững online: một phương pháp học củng cố được đề xuất trong báo cáo để tìm luật điều khiển tối ưu thích nghi bền vững online PE Persistence of Excitation Kích thích hệ thống bằng cách thêm nhiễu vào véc tơ tín hiệu vàora. PE là điều kiện để tham số hội tụ trong nhận dạng và điều khiển thích nghi. PI Policy Iteration Thuật toán của học củng cố sử dụng một số bước lặp để xấp xỉ luật điều khiển tối ưu RL Reinforcement Learning Học củng cố SISO Single InputSingle Output Hệ thống một ngõ vào một ngõ ra TD Temporal Difference Sai phân tạm thời: phương pháp cập nhật tham số của bộ dự báo liên quan đến sai phân tín hiệu theo thời gian sử dụng trong học củng cố UUB Uniform Ultimate Bounded Bị chặn tới hạn đều VI Value Iteration Thuật toán của học củng cố sử dụng một số bước lặp để xấp xỉ hàm đánh giá tối ưu WMR Wheeled Mobile Robot Robot di động dạng xe ZDGT Zerosum Differential Game Theory Lý thuyết trò chơi sai phân tổng bằng không ứng dụng trong lý thuyết điều khiển tối ưu

GIỚI THIỆU

Tổng quan về đề tài

1.1.1 Phương pháp điều khiển robot di động dạng xe

Một trong những thách thức quan trọng trong việc điều khiển chuyển động của robot di động dạng xe (Wheeled Mobile Robots - WMR) là bám theo quỹ đạo tham chiếu Nhiều nghiên cứu đã tập trung vào phương pháp điều khiển thích nghi với kỹ thuật cuốn chiếu, trong đó bộ điều khiển được chia thành hai phần: động học và động lực học Bộ điều khiển động học sử dụng mô hình robot có sẵn để tạo ra vận tốc, giúp robot theo vị trí mong muốn Sau đó, bộ điều khiển động lực học được thiết kế dựa trên bộ điều khiển động học, bổ sung các thành phần thích nghi như mạng nơ-ron (Neural Network - NN) và logic mờ (Fuzzy) để phát sinh mô men, nhằm điều khiển vận tốc của robot theo vận tốc mong muốn từ luật điều khiển động học.

Kỹ thuật cuốn chiếu cho phép chọn tham số bộ điều khiển động học thông qua thực nghiệm hoặc kinh nghiệm thiết kế, nhằm cân bằng giữa chất lượng bám và năng lượng điều khiển từ mô men bánh xe Tuy nhiên, nếu bài toán điều khiển tối ưu được đặt ra, cách chọn tham số hiện tại sẽ không đạt được cực tiểu hóa hàm chỉ tiêu chất lượng liên quan đến hai yếu tố này Để giải quyết vấn đề thiết kế mà không cần tách biệt bộ điều khiển động học và động lực học, phương pháp tuyến tính hóa hồi tiếp thích nghi đã được đề xuất.

Phương pháp thiết kế luật điều khiển tối ưu cho hệ thống robot di động bánh xe (WMR) đã được phát triển dựa trên mô hình phi tuyến hồi tiếp chặt, cho phép không cần tách biệt các điều khiển động học và động lực học Tuy nhiên, một điểm hạn chế của phương pháp này là yêu cầu phải biết trước các thành phần động trong mô hình, đồng thời không giải quyết được vấn đề tối ưu và bỏ qua nhiễu trong quá trình phân tích và thiết kế.

Lý thuyết điều khiển ∞ được sử dụng để duy trì tính ổn định bền vững cho hệ thống kín trước nhiễu ngoại vi và các yếu tố không chắc chắn trong mô hình robot Mặc dù điều khiển tối ưu ∞ đã phát triển mạnh mẽ về lý thuyết, việc áp dụng cho hệ phi tuyến (WMR) đòi hỏi phải giải phương trình Hamilton-Jacobi-Isaacs (HJI) Tuy nhiên, như đã đề cập trong chương 3, phương trình HJI không có nghiệm giải tích ngay cả đối với các bài toán đơn giản.

Dựa vào khả năng học thích nghi tối ưu của Học Tăng cường (Reinforcement Learning - RL), việc phát triển điều khiển bám tối ưu cho Robot Di động (WMR) đã được thực hiện Cấu trúc Lập trình Động Thích ứng (Adaptive Dynamic Programming - ADP) rời rạc trong RL được áp dụng để học các bộ điều khiển rời rạc hoặc bộ điều khiển liên tục mà không xem xét nhiễu.

Các bộ điều khiển này không chỉ khắc phục những nhược điểm của các phương pháp điều khiển khác như điều khiển mờ cần tri thức chuyên gia hay mạng nơ-ron cần tập mẫu trong điều khiển thích nghi, mà còn giúp tối thiểu hóa hàm chi phí trong điều khiển tối ưu Điều này tạo ra sự khác biệt so với việc tối thiểu hóa sai số bám tại mỗi thời điểm trong điều khiển thích nghi.

Để thiết kế bộ điều khiển dựa trên học tăng cường (RL), cần xác định trước các thành phần động trong mô hình Hơn nữa, phân tích không xem xét nhiễu hệ thống, dẫn đến việc vấn đề điều khiển thích nghi bền vững vẫn chưa được giải quyết.

Trong hệ thống robot có nhiều trạng thái hồi tiếp, với cấu trúc chuẩn sử dụng ba

Trong lĩnh vực học tăng cường (RL), số lượng đơn vị nơ-ron trong lớp ẩn, trọng số và hàm tác động gia tăng đáng kể, dẫn đến sự phức tạp tính toán cao và tiêu tốn nhiều tài nguyên hệ thống Để giảm thiểu số lượng mạng nơ-ron, phương pháp điều khiển SOLA (Single Online Approximator) dựa trên RL đã được đề xuất nhằm giải quyết phương trình HJI cho robot di động Tuy nhiên, phương pháp này yêu cầu phải xác định trước các thành phần động học trong mô hình robot và giải quyết vấn đề theo cách cuốn chiếu.

1.1.2 Khái niệm về học củng cố

Học củng cố (Reinforcement Learning - RL) là một phương pháp trong học máy (Machine Learning - ML) nhằm giải quyết bài toán tối ưu Phương pháp này hoạt động bằng cách điều chỉnh liên tục hành động của tác tử (Agent) khi tương tác với môi trường, từ đó hướng đến việc đạt được mục tiêu tốt nhất.

RL được hình thành từ việc quan sát và nghiên cứu thuộc tính và hành vi của động vật

Tác tử (Agent) là một thực thể tương tác với môi trường để thích nghi và tồn tại Động vật sử dụng thông tin từ môi trường để điều chỉnh hành vi của mình, nhằm cải thiện tương tác với môi trường và tối ưu hóa mục tiêu theo thời gian.

Phương pháp Reinforcement Learning (RL) rất hiệu quả trong những môi trường thiếu thông tin cho việc ra quyết định Khi đó, RL áp dụng phương pháp thử và sai, đánh giá các hành động đã thực hiện trong quá khứ dựa trên chi phí từ môi trường Mục tiêu là phát triển chiến lược hành động tiếp theo nhằm giảm thiểu tổng chi phí tích lũy khi tương tác với môi trường.

Trong điều khiển tối ưu, học tăng cường (RL) thực hiện việc thích nghi trực tuyến với nghiệm HJB dựa trên dữ liệu đầu vào và đầu ra của đối tượng, nhằm mục tiêu tối thiểu hóa hàm chi phí đã định Phương pháp RL đã được chứng minh là một phương pháp hiệu quả cho điều khiển tối ưu và có khả năng thích nghi trực tiếp.

Hình 1.1: Minh họa về học củng cố

Lý thuyết RL phát triển từ lý thuyết tối ưu của quy hoạch động (Dynamic Programming - DP) thành lý thuyết quy hoạch động thích nghi (Adaptive Dynamic Programming - ADP) và quy hoạch động xấp xỉ (Approximate Dynamic Programming) ADP đã khắc phục những hạn chế của DP như không thể hoạt động offline, không kiểm soát thời gian thực và yêu cầu mô hình toán chính xác Thêm vào đó, việc sử dụng xấp xỉ hàm trong ADP giúp giảm chi phí tính toán và tài nguyên lưu trữ, đồng thời giải quyết vấn đề bùng nổ tổ hợp (Curse of Dimensionality - COD) khi rời rạc hóa không gian trạng thái, đặc biệt trong các hệ MIMO (Multi Inputs-Multi Outputs) đa biến.

Gần đây, các thuật toán lặp PI kết hợp với việc xấp xỉ hàm ADP đã được nghiên cứu nhằm tối ưu hóa điều khiển thích nghi online mà không cần thông tin về thành phần động của hệ thống, đồng thời loại bỏ quy trình nhận dạng hệ thống.

Động cơ, mục tiêu và nhiệm vụ nghiên cứu

1.2.1 Sự cần thiết phải nghiên cứu RL trong điều khiển WMR

Thiết kế luật điều khiển cho hệ kín nhằm đảm bảo ổn định bền vững và nâng cao chất lượng điều khiển cho hệ thống phi tuyến, đặc biệt là WMR, trong bối cảnh chứa các thành phần không chắc chắn và nhiễu, là một thách thức lớn cho các nhà nghiên cứu Các phương pháp điều khiển thích nghi, bao gồm nhận dạng hệ thống và thiết kế bộ điều khiển, được áp dụng phổ biến Một phương pháp khác là xấp xỉ online các thành phần không chắc chắn bằng các bộ xấp xỉ hàm, tuy nhiên, sai số xấp xỉ không thể tránh khỏi do giới hạn của các tham số Sai số này, cùng với nhiễu, có thể dẫn đến mất ổn định cho hệ kín Do đó, việc kết hợp thành phần điều khiển bền vững vào luật điều khiển thích nghi là cần thiết để bù đắp sai số xấp xỉ và nhiễu.

Thành phần điều khiển bền vững trong sơ đồ điều khiển thích nghi được thiết kế với các tham số hằng nhằm đảm bảo hệ thống kín luôn duy trì sự ổn định bền vững.

Việc chọn tham số hằng không phù hợp trong hệ thống điều khiển có thể dẫn đến sự thỏa hiệp giữa chất lượng điều khiển và khả năng ổn định Hệ thống nhanh thích nghi nhưng lại có chất lượng điều khiển kém, hoặc ngược lại, có thể gặp hiện tượng chattering, tức là sự dao động tần số cao ở giá trị ngõ vào điều khiển Phương pháp điều khiển thích nghi bền vững kinh điển chỉ đảm bảo sự ổn định bền vững trong khi vẫn phải chấp nhận những hạn chế về chất lượng điều khiển.

Lý thuyết điều khiển tối ưu hiện đại, cùng với sự phát triển của lý thuyết điều khiển thích nghi và bền vững, đã trở thành một lĩnh vực nghiên cứu quan trọng trong nhiều thập kỷ qua Luật điều khiển tối ưu không chỉ giúp ổn định hệ thống mà còn tối thiểu hóa hàm chi phí ràng buộc đến các chỉ tiêu chất lượng mong muốn Về mặt toán học, bài toán điều khiển tối ưu được giải quyết thông qua việc tìm nghiệm của phương trình Hamilton-Jacobi-Bellman (HJB) Đối với hệ tuyến tính, HJB chuyển thành phương trình ARE (Algebraic Riccati Equation), trong khi đối với hệ phi tuyến, HJB trở thành phương trình vi phân phi tuyến Tuy nhiên, đối với hệ tuyến tính thiếu thông tin về ma trận trạng thái, nghiệm ARE không thể giải bằng phương pháp giải tích, và nghiệm HJB cho hệ phi tuyến thường rất khó hoặc không thể tìm được, ngay cả khi mô hình của đối tượng đã được biết.

Vì lý do đó, vấn đề xấp xỉ nghiệm HJB được đặt ra.

Lý thuyết điều khiển bền vững sử dụng chuẩn H ∞ là rất quan trọng trong phân tích và thiết kế hệ thống Bộ điều khiển tối ưu bền vững H ∞ được phát triển thông qua việc giải phương trình đại số Riccati cho hệ tuyến tính và phương trình HJI cho hệ phi tuyến Mặc dù lý thuyết điều khiển hiện đại đã tiến bộ trong việc giải quyết bài toán H ∞ cho hệ phi tuyến, việc giải nghiệm HJI vẫn gặp nhiều thách thức do phương trình này, tương tự như phương trình HJB trong điều khiển tối ưu phi tuyến, thuộc loại phương trình vi phân không có nghiệm giải tích Điểm khác biệt chính giữa HJI và HJB là HJB có số hạng toàn phương bán xác định dương, trong khi HJI chứa số hạng toàn phương không xác định dấu.

RL là một lý thuyết mạnh mẽ để phát triển hệ thống học xấp xỉ online nghiệm HJB và HJI Tuy nhiên, nhiều phương pháp RL trong thiết kế luật điều khiển tối ưu ∞ yêu cầu xác định trước các thành phần động của mô hình hệ phi tuyến Do đó, việc tích hợp đặc tính thích nghi bền vững vào bài toán điều khiển tối ưu ∞ của RL là cần thiết, nhằm xấp xỉ online nghiệm HJI cho WMR với các thành phần động không biết và có nhiễu, đồng thời đảm bảo sự ổn định cho hệ kín.

1.2.2 Tính cấp thiết của đề tài

Trong những năm gần đây, hệ thống robot di động đã thu hút sự quan tâm lớn từ các nhà khoa học trong lĩnh vực điều khiển nhờ khả năng ứng dụng đa dạng trong công nghiệp, giải trí, giúp việc nhà và y tế Việc phát triển các phương pháp điều khiển thông minh cho phép robot bám sát quỹ đạo tham chiếu, bất chấp sự ảnh hưởng của các tham số không chắc chắn và nhiễu môi trường, là một thách thức lớn và đang trở thành đề tài nghiên cứu nóng Khi kiến thức của nhà thiết kế về luật điều khiển bị hạn chế, bài toán về khả năng tự tương tác của robot với môi trường trở nên quan trọng, trong đó robot sẽ thu thập thông tin từ môi trường và tự học cách điều chỉnh hành vi để thích nghi bền vững, nhằm tối ưu hóa các tiêu chí chất lượng.

Mặc dù công nghệ cảm biến đã phát triển mạnh mẽ, nhưng vẫn chưa đủ để đáp ứng nhu cầu điều khiển robot di động hiệu quả Việc sử dụng quá ít camera sẽ dẫn đến việc không quan sát được toàn bộ không gian làm việc, trong khi nếu tăng số lượng camera, hệ thống sẽ trở nên phức tạp và tốc độ xử lý ảnh sẽ không kịp thời cho điều khiển thời gian thực Do đó, việc thiết kế một hệ thống thị giác đa chiều với số lượng camera tối thiểu cho robot là rất cần thiết.

Mô hình thí nghiệm robot nhập khẩu có giá thành cao đang gây khó khăn cho các cơ sở đào tạo chuyên ngành điều khiển tự động Hơn nữa, những mô hình này chỉ cung cấp phần cứng và phần mềm cơ bản, thiếu các phần mềm đào tạo chuyên sâu cần thiết Bên cạnh đó, các cơ sở nghiên cứu robot trong nước cũng đang thiếu hụt các mô hình thực nghiệm, ảnh hưởng đến sự phát triển của lĩnh vực này.

Trên thế giới, nghiên cứu về việc thiết kế luật điều khiển cho robot, đặc biệt là trong lĩnh vực học tăng cường (RL), vẫn còn hạn chế Chỉ một số ít nghiên cứu gần đây đã tích hợp đặc tính thích nghi vào bài toán điều khiển tối ưu cho robot di chuyển không biết trước thành phần động và chịu ảnh hưởng bởi nhiễu, sử dụng thuật toán lặp PI dựa trên cấu trúc ADP với ba xấp xỉ hàm Tuy nhiên, cấu trúc ADP này vẫn gặp phải một số hạn chế đáng kể.

• Cập nhật tham số giữa các xấp xỉ hàm là tuần tự

Vấn đề tính toán phức tạp, lãng phí tài nguyên và chậm hội tụ là những thách thức lớn trong việc sử dụng mạng thần kinh (NN) để xấp xỉ hàm Khi mỗi xấp xỉ hàm trở thành một NN, số lớp ẩn và số đơn vị tế bào ở lớp ẩn sẽ tăng lên theo cấp số nhân, dẫn đến sự gia tăng đáng kể số phần tử trong ma trận trọng số Đặc biệt trong hệ thống đa biến với hồi tiếp đủ trạng thái, tổng số lượng phần tử trong cấu trúc ADP sẽ tăng mạnh Việc cập nhật liên tục các trọng số NN trong quá trình học tạo ra chi phí tính toán cao, nhất là khi áp dụng thuật toán PI để xấp xỉ nghiệm online, nơi tốc độ hội tụ phụ thuộc nhiều vào cấu trúc ADP đã chọn Sử dụng nhiều xấp xỉ hàm làm cho quá trình tính toán trở nên phức tạp, dẫn đến tình trạng chậm hội tụ khó tránh khỏi.

Các thuật toán trong [29] yêu cầu biết trước thành phần động của mô hình hệ thống và cập nhật trọng số NN qua hai vòng lặp khác nhau, dẫn đến việc xấp xỉ phương trình HJI bị dư thừa, gây lãng phí tài nguyên và hiệu quả thấp [36] Nếu khởi tạo trọng số không phù hợp, hệ thống có thể mất ổn định ngay từ những giây đầu tiên Để khắc phục, một số nghiên cứu về RL đã đề xuất giảm số lượng xấp xỉ hàm trong cấu trúc điều khiển [5] giới thiệu thuật toán SOLA (Single Online Approximator) với một NN duy nhất nhằm giảm thiểu hiện tượng dư thừa xấp xỉ hàm cho WMR, nhưng yêu cầu xác định trước các thành phần động Để kết hợp yếu tố thích nghi trong bài toán điều khiển tối ưu ∞ và khắc phục hiện tượng dư thừa nghiệm, [36] đã đề xuất thuật toán xấp xỉ online nghiệm HJI sử dụng một NN mà không cần thông tin về thành phần động Quá trình cập nhật tham số luật điều khiển và luật nhiễu trong thuật toán này đồng bộ trong cùng một bước lặp, tuy nhiên vẫn có hạn chế là cần ngưng cập nhật tham số hệ thống trong một khoảng thời gian để lấy mẫu dữ liệu cho lần cập nhật trọng số NN tiếp theo.

Nghiên cứu và phát triển reinforcement learning (RL) trong điều khiển thích nghi bền vững kết hợp với điều khiển tối ưu cho robot di động (WMR) là rất quan trọng Hệ thống học cần được thiết kế để đảm bảo tốc độ hội tụ nhanh, đồng thời giảm chi phí tính toán và tài nguyên lưu trữ Do đó, báo cáo này đề xuất một phương pháp mới với cấu trúc điều khiển tối ưu, sử dụng số lượng hàm xấp xỉ tối thiểu Luật cập nhật tham số xấp xỉ hàm và thuật toán điều khiển cần đảm bảo rằng hệ thống kín ổn định và các tham số hội tụ đến giá trị tối ưu.

Đề xuất cấu trúc điều khiển tối ưu thích nghi bền vững dựa trên nền tảng cấu trúc qui hoạch động thích nghi, sử dụng một xấp xỉ hàm duy nhất để khắc phục hai xấp xỉ hàm dư thừa Thiết kế luật cập nhật tham số online cho xấp xỉ hàm và xây dựng thuật toán điều khiển cho toàn bộ hệ thống WMR.

• Mô phỏng và thực nghiệm trên đối tượng WMR để kiểm tra tính hiệu quả của phương pháp đề xuất.

Đối tượng, phạm vi và phương pháp nghiên cứu

1.3.1 Đối tượng và phạm vi nghiên cứu Đối tượng cần nghiên cứu trong báo cáo là robot di động dạng xe thuộc lớp hệ phi tuyến có dạng [36]:

� = )((((((((((((((( (1.1) trong đó � ∈ ℝ � là véc tơ trạng thái, � ∈ ℝ � là véc tơ tín hiệu điều khiển với � ∈

� 2 0, ∞ , � ∈ ℝ � là nhiễu thỏa điều kiện ∈ � 2 0, ∞ , � � ∈ ℝ � là véc tơ hàm phi tuyến liên tục giả sử không có thông tin để biết, � ∈ ℝ � là ngõ ra mục tiêu, )

((((((((((((((( ∈ ℝ � , � � ∈ ℝ × × và � � ∈ ℝ × × lần lượt là véc tơ hàm và các ma trận hàm phi tuyến khả vi liên tục giả sử biết trước.

Phương pháp điều khiển thích nghi bền vững cho đối tượng (1.1) được nghiên cứu trong báo cáo này dựa trên lý thuyết qui hoạch động, sử dụng xấp xỉ hàm để đảm bảo tính hiệu quả và ổn định trong quá trình điều khiển.

Trên cơ sở lý thuyết về RL và tiếp cận đến những kết quả công bố mới nhất về

Báo cáo phân tích các ưu nhược điểm của từng phương pháp nghiên cứu, đồng thời nhấn mạnh tầm quan trọng của việc tiếp tục nghiên cứu và phát triển để khắc phục các hạn chế hiện có Các phương pháp nghiên cứu được đề cập trong báo cáo sẽ cung cấp cái nhìn sâu sắc về hiệu quả và khả năng ứng dụng của từng phương pháp.

Nghiên cứu tài liệu tham khảo liên quan đến WMR nhằm phân tích và thiết kế hệ thống, đồng thời tính toán và chứng minh lý thuyết ổn định và hội tụ dựa trên nền tảng toán học Việc kết hợp giữa mô phỏng và thực nghiệm sẽ giúp kiểm tra hiệu quả của lý thuyết đã được xây dựng.

• Sử dụng phần mềm MATLAB để mô phỏng.

• Xây dựng mô hình phần cứng cho robot di động, cài đặt thuật toán cho bộ điều khiển nhúng thời gian thực bằng ngôn ngữ C, VC++.

Những đóng góp mới của báo cáo về mặt khoa học

So với các công trình nghiên cứu khoa học khác đã công bố cùng lĩnh vực, báo cáo này đóng góp các điểm mới sau:

Nghiên cứu và phát triển phương pháp qui hoạch động thích nghi bền vững online (Online Adaptive Dynamic Programming - ORADP) cho robot với thành phần động không biết trước và có nhiễu tác động là một đóng góp mới Trong ORADP, cấu trúc điều khiển chỉ sử dụng một xấp xỉ hàm, giúp loại bỏ hiện tượng dư thừa hai xấp xỉ hàm so với các nghiên cứu trước Để xây dựng cấu trúc điều khiển online, luật cập nhật tham số xấp xỉ hàm và thuật toán điều khiển đã được thiết kế Sự hội tụ của tham số xấp xỉ hàm và ổn định hệ kín đã được thiết lập và chứng minh theo Định lý 3.3 Những kết quả từ đóng góp này được thể hiện trong tài liệu [25].

Nghiên cứu về các phương pháp điều khiển thích nghi bền vững cho robot di động đã chỉ ra rằng phương pháp điều khiển tối ưu thích nghi bền vững sử dụng ORADP, không tách rời bộ điều khiển động học và động lực học, là một đóng góp quan trọng Phương pháp này cho phép xấp xỉ tham số bộ điều khiển mà không phụ thuộc vào kinh nghiệm của người thiết kế, đồng thời không cần phải nhận dạng các thành phần động không biết trong mô hình robot.

Bố cục báo cáo

Bài báo cáo bắt đầu bằng việc trình bày tổng quan về Reinforcement Learning (RL), bao gồm động cơ, mục tiêu và nhiệm vụ nghiên cứu, cũng như phương pháp, đối tượng và phạm vi nghiên cứu Nội dung tiếp theo sẽ được cấu trúc rõ ràng để người đọc dễ dàng theo dõi.

1 Chương 2 trình bày cơ sở lý thuyết về RL.

2 Chương 3 phân tích và thiết kế phương pháp qui hoạch động thích nghi bền vững online (ORADP), cụ thể là:

• Phân tích và thiết kế cấu trúc ORADP.

• Phân tích và thiết kế luật cập nhật tham số xấp xỉ hàm trong cấu trúc ORADP.

• Xây dựng thuật toán ORADP.

3 Chương 4 mô phỏng và thực nghiệm ORADP trên robot di động dạng xe.

4 Cuối cùng là phần kết luận và hướng phát triển.

CƠ SỞ LÝ THUYẾT

Các định nghĩa

Định nghĩa 2.1 (Uniform Ultimate Bounded-UUB [16]): Xét hệ thống phi tuyến:

Điểm cân bằng \( x_0 \) trong hệ thống (2.1) được coi là UUB nếu tồn tại một tập đóng \( \Omega \subset \mathbb{R}^n \) sao cho với mọi \( x \in \Omega \), luôn tồn tại một chặn trên \( u \) và thời gian \( t \geq 0 \) thỏa mãn điều kiện \( x(t) - x_0 \leq \epsilon \) cho mọi \( t \geq t_0 + \delta \) Hệ thống (2.1) với ngõ ra đo được \( y = Cx \) được gọi là quan sát được trạng thái không nếu \( y(t) \equiv 0 \) cho mọi \( t \geq 0 \) kéo theo \( x(t) \equiv 0 \) cho mọi \( t \geq 0 \).

� � ≡ 0, ∀∀∀∀∀∀∀∀∀∀∀∀∀∀∀ ≥ 0. Định nghĩa 2.3 (Điều kiện PE (Persistently Exciting) [11]): Một véc tơ tín hiệu bị chặn � � gọi là thỏa điều PE trong khoảng thời gian �, � + � � , � � > 0 nếu tồn tại

� 1 > 0 và � 2 > 0 sao cho với mọi �:

(2.2) trong đó � là ma trận đơn vị có chiều phù hợp.

Lý thuyết RL

Hệ thống RL trong điều khiển kinh điển được mô tả bởi:

• Tập hữu hạn trạng thái � = � 1 , � 2 , … , � � ∈ ℝ �

• Ở mỗi trạng thái ���, có tập hữu hạn các tín hiệu điều khiển � �

• Mô hình đối tượng điều khiển � �+1 = ((((((((((((((( � , ((((((((((((((( � )) với ((((((((((((((( � ) ∈ � � � là tín hiệu điều khiển để chuyển trạng thái hệ thống từ � � sang � �+1

• Hàm thưởng/phạt, còn gọi là tín hiệu củng cố, � � � , ((((((((((((((( � ) ∈ ℝ, đặc trưng cho chi phí điều khiển khi áp dụng luật điều khiển ((((((((((((((( � ) ở trạng thái � �

• Luật điều khiển � � : � → � sao cho nếu áp dụng � � từ trạng thái �0 sẽ phát sinh ra quĩ đạo trạng thái � 0 , � 1 , � 2 , …, thỏa điều kiện: ∀∀∀∀∀∀∀∀∀∀∀∀∀∀∀ ∈

Hàm đánh giá là hàm biểu diễn tổng chi phí cộng dồn bắt đầu từ trạng thái 0 khi áp dụng luật điều khiển dọc theo quỹ đạo trạng thái.

Hàm đánh giá � �0, được mô tả bởi phương trình (2.3), có thể phân kỳ hoặc chỉ hội tụ khi chi phí � , � giảm xuống 0 trong thời gian hữu hạn Để đảm bảo rằng � �0 hội tụ theo tiêu chuẩn chuỗi giảm dần, người ta áp dụng hệ số hàm mũ trong trường hợp tổng quát.

(2.4) trong đó � ∈ 0, 1 � � 0 có thể viết lại dưới dạng hồi qui như sau:

Mục tiêu của phương pháp RL là tìm luật điều khiển tối ưu � ∗ để cực tiểu hàm đánh giá � � 0 , ∀∀∀∀∀∀∀∀∀∀∀∀∀∀∀ 0 ∈ �:

Luật điều khiển tối ưu không phải là duy nhất, vì hai luật khác nhau xuất phát từ cùng một điểm có thể dẫn đến tổng chi phí giống nhau Do đó, giá trị tối ưu không phụ thuộc vào luật điều khiển cụ thể Nếu tồn tại giá trị tối ưu, theo nguyên lý quy hoạch động của Bellman, hàm đánh giá tối ưu cho trạng thái được xác định rõ ràng.

H 2.1 minh họa hàm đánh giá tối ưu (2.7) theo nguyên lý DP Bellman trong đó

� � = � 1 , � 2 , … , � � là tập tín hiệu điều khiển ở trạng thái �, � �, � � ((((((((((((((() , ∀∀∀∀∀∀∀∀∀∀∀∀∀∀∀

1 , � là trạng thái kế tiếp tùy theo tín hiệu điều khiển nào được áp dụng Nếu hàm đánh giá tối ưu � ∗ � �, � xác định thì � ∗ � trở thành:

Vậy, luật điều khiển tối ưu được định nghĩa:

Trong thực tế, nhiều bài toán tối ưu không thể giải quyết bằng mô hình qui hoạch động Bellman, do đó việc xấp xỉ nghiệm tối ưu \( V^* \) hoặc \( Q^* \) là cần thiết Để thực hiện điều này, các thuật toán học tăng cường (RL) như Value Iteration (VI), Policy Iteration (PI) và Q-Learning đã được phát triển, nhằm xấp xỉ hai nghiệm này dựa trên các phương trình liên quan.

Hình 2.1: Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu

Các thuật toán RL thông dụng

Các thuật toán kinh điển trong học tăng cường (RL) được mô tả dưới đây nhằm minh họa phương pháp xấp xỉ tối ưu, đồng thời cung cấp cơ sở lý thuyết cho các nghiên cứu sau này.

Thuật toán 2.1 mô tả chi tiết VI dùng để xấp xỉ trực tiếp hàm đánh giá tối ưu

� ∗ � Khi có � ∗ � , luật điều khiển tối ưu � ∗ � được xấp xỉ.

Bước 2: Xấp xỉ hàm đánh giá:

• Nếu thỏa tiêu chuẩn hội tụ sao cho ( �((((((((((((((( ) − �((((((((((((((( −1) ≤ � với � là số dương đủ

∞ nhỏ, thì gán � ∗ � = �((((((((((((((( ) � , ∀∀∀∀∀∀∀∀∀∀∀∀∀∀∀ ∈ � sau đó thực hiện bước 3, ngược lại quay về bước 2.

Bước 3: Xấp xỉ luật điều khiển tối ưu:

Thuật toán PI bắt đầu với một luật điều khiển ổn định, sau đó xấp xỉ hàm đánh giá trong một bước và cải thiện luật điều khiển dựa trên hàm đánh giá đã xấp xỉ ở bước tiếp theo Các bước thực hiện của thuật toán PI được trình bày trong thuật toán 2.2.

Bước 1: ∀∀∀∀∀∀∀∀∀∀∀∀∀∀∀ ∈ � , khởi tạo luật điều khiển ổn định � (0) ((((((((((((((()

Bước 2: Xấp xỉ hàm đánh giá:

Bước 3: Xấp xỉ hàm đánh giá ở bước � + 1 sử dụng luật điều khiển � � :

Bước 4: Xấp xỉ luật điều khiển tối ưu:

• Nếu thỏa tiêu chuẩn hội tụ sao cho �((((((((((((((( ) − �((((((((((((((( −1) ≤ � với � là số dương đủ

∞ nhỏ thì gán � ∗ � = �((((((((((((((( ) � và � ∗ � = �((((((((((((((( ) � , kết thúc thuật toán, ngược lại quay về bước 3.

Từ phương trình (2.10) đến (2.13), thuật toán 2.1 và 2.2 yêu cầu thông tin về mô hình hệ thống, điều này hạn chế khả năng ứng dụng của phương pháp học tăng cường (RL) Hạn chế này được khắc phục nhờ vào phương pháp dự báo sai phân tạm thời (Temporal Difference - TD), trong đó luật cập nhật (2.12) sẽ được điều chỉnh.

Trong phương trình (2.14), hàm đánh giá được cập nhật mà không cần mô hình của hệ thống, với �′ đại diện cho trạng thái của hệ thống khi áp dụng luật điều khiển � � tại �, và � ∈ (0,1] là tốc độ học Sau khi �((((((((((((((( ) � được cập nhật, luật điều khiển �((((((((((((((( +1) � ở bước 4 của thuật toán 2.2 cũng được cập nhật ngay lập tức mà không cần chờ đợi sự hội tụ của hàm đánh giá ở bước 3 Thuật toán PI thực hiện việc cập nhật này một cách hiệu quả.

TD, bảo đảm rằng luật điều khiển xấp xỉ sẽ hội tụ đến giá trị tối ưu.

Thay vì xấp xỉ hàm � � như thuật toán VI hoặc PI, thuật toán � xấp xỉ hàm

Trong thuật toán, mỗi bước lặp sẽ cập nhật hàm trạng thái và tín hiệu điều khiển tương ứng với trạng thái hiện tại, dựa trên quy tắc của thuật toán TD.

(2.15) trong đó �′ là trạng thái chuyển tiếp của � khi áp dụng tín hiệu điều khiển �, � ∈ 0,

1 là tốc độ học Khi � �, � hội tụ về hàm đánh giá tối ưu � ∗ �, � , luật điều khiển tối ưu sẽ là:

Bước 2: Xấp xỉ hàm đánh giá �:

Lặp vòng trong ∀∀∀∀∀∀∀∀∀∀∀∀∀∀∀ ∈ )((((((((((((((( : Áp dụng � vào đối tượng điều khiển nhận trạng thái �′, cập nhật:

Nếu thỏa tiêu chuẩn hội tụ sao cho �((((((((((((((( ) − �((((((((((((((( −1) ≤ �, với � là số dương đủ ∞ nhỏ thì gán � ∗ �, � = �((((((((((((((( ) �, � thực hiện bước 3, ngược lại quay về bước 2.

Bước 3: Xấp xỉ luật điều khiển tối ưu:

Để các thuật toán 2.1, 2.2 và 2.3 hoạt động hiệu quả, cần xác định trước tập chứa các tín hiệu điều khiển rời rạc ở mỗi trạng thái Việc phân rã tập này phụ thuộc vào kiến thức và kinh nghiệm của người thiết kế về hệ thống điều khiển Trong một số trường hợp, như với hệ thống đa biến, quá trình phân rã có thể trở nên phức tạp.

Tóm tắt

Chương này giới thiệu cơ sở lý thuyết về Reinforcement Learning (RL), phát triển từ lý thuyết Quy hoạch động (DP) thành phương pháp Tối ưu hóa động (ADP) cho bài toán điều khiển tối ưu Các thuật toán cơ bản như Thuật toán Chính sách (PI) và Thuật toán Giá trị (VI) được trình bày, hoạt động offline và yêu cầu mô hình toán chính xác Ngược lại, Q-Learning giải quyết vấn đề phụ thuộc vào mô hình nhưng gặp khó khăn do tổ hợp trạng thái rời rạc và tín hiệu điều khiển lượng tử hóa, dẫn đến hiện tượng bùng nổ tổ hợp, khiến cho Q-Learning khó áp dụng trong các bài toán thực tế với không gian trạng thái và tín hiệu điều khiển liên tục.

Cấu trúc ADP sử dụng hàm xấp xỉ NN truyền thẳng một lớp, thích hợp cho bài toán học và điều khiển online với hai hoặc ba xấp xỉ hàm Thuật toán cập nhật tham số xấp xỉ hàm có thể thực hiện đồng bộ trong một bước lặp hoặc tuần tự trong hai bước lặp cho điều khiển tối ưu Tuy nhiên, việc sử dụng nhiều xấp xỉ hàm làm tăng độ phức tạp, lãng phí tài nguyên và làm chậm quá trình hội tụ Các chương tiếp theo sẽ giới thiệu các phương pháp mới nhằm khắc phục những vấn đề này.

PHƯƠNG PHÁP ORADP ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG

Điều khiển tối ưu H ∞ và phương trình HJI

3.1.1 Mô tả bài toán điều khiển

Xét lớp hệ thống phi tuyến mô tả bởi:

((((((((((((((( = )((((((((((((((( (3.1) trong đó � ∈ ℝ � là véc tơ trạng thái, � ∈ ℝ � là véc tơ tín hiệu điều khiển với )((((((((((((((( ∈

� 2 0, ∞ , � ∈ ℝ � là nhiễu với )((((((((((((((( ∈ � 2 0, ∞ , � � ∈ ℝ � là véc tơ hàm phi tuyến khả vi liên tục không biết trước thỏa � 0 = 0, ) ∈ ℝ((((((((((((((( � là ngõ ra mục tiêu, ) ∈

((((((((((((((( ℝ � , với � 0 = 0, � � ∈ ℝ × × × × × × × × × × × × × × × và � � ∈ ℝ × × × × × × × × × × × × × × × lần lượt là véc tơ hàm và các ma trận hàm phi tuyến khả vi liên tục giả sử xác định trước.

Giả thiết 3.1: Tồn tại � � �� > 0 và � ��� > 0 sao cho � ��� ≤ � � ≤ � ���

Giả thiết 3.2: Tồn tại � ��� > 0 và � ��� > 0 sao cho � ��� ≤ � � ≤ � ���

Chú ý rằng các giả thiết 3.1 và 3.2 chỉ nhằm mục đích chứng minh tính ổn định của hệ thống mà không được áp dụng trong luật điều khiển và luật cập nhật Do đó, việc tìm kiếm phương pháp xác định các giới hạn trên và dưới của các biến không phải là cần thiết Theo định nghĩa, hệ thống 3.1 có độ lợi nhỏ hơn hoặc bằng một giá trị nhất định với mọi điều kiện.

(3.2) trong đó )((((((((((((((( 2 = � ��, � ∈ ℝ × × sao cho = � � > 0, và � > 0 là mức suy giảm nhiễu cho trước.

Mục tiêu của bài toán điều khiển tối ưu ∞ là xác định một tập hợp các luật điều khiển hồi tiếp trạng thái liên tục trong miền Ω ⊆ ℝ, với điều kiện ban đầu là x0 = 0 Mục tiêu là đảm bảo rằng hệ thống kín ổn định tiệm cận và có độ lợi L2 không vượt quá giá trị ε, với ε ≥ ε* > 0, trong đó ε* là giá trị nhỏ nhất cần đạt được.

� sao cho (3.1) còn ổn định [32]), tìm luật điều khiển hồi tiếp trạng thái � � ((((((((((((((( � ) ∈ � cực tiểu phiếm hàm chỉ tiêu chất lượng cho trước ràng buộc bởi hệ thống (3.1).

Chú ý 3.2: Với mục tiêu như trên, giả sử rằng ta luôn chọn được � thỏa điều kiện

3.1.2 Phương trình HJI Định lý 3.1 (Định lý 18 [32]): Nếu chọn trước � > 0, giả sử (3.1) quan sát được trạng thái không, tồn tại luật điều khiển � � = ) ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( , � � 0 = 0, sao cho hệ kín có độ lợi �2 nhỏ hơn hoặc bằng � và ổn định tiệm cận thì luôn tồn tại nghiệm không âm nhỏ nhất của phương trình HJI , � ∗ � ≥ 0 khả vi liên tục ∀∀∀∀∀∀∀∀∀∀∀∀∀∀∀ thuộc lân cận � � ∈ ℝ � bao quanh gốc Hơn nữa, nếu tồn tại luật điều khiển thỏa thì hệ kín bảo đảm có độ lợi

�2 nhỏ hơn hoặc bằng � với mọi quĩ đạo trạng thái xuất phát từ gốc và duy trì trong � �

Chứng minh: Áp dụng luật điều khiển � � = ) ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( cho hệ kín bao gồm (3.1) và ta có hệ thống tương đương sau:

Trong hệ thống (3.3), với � 1 � = � + �, � � được xác định là ngõ vào và ( , � ) là ngõ ra với độ lợi � 2, dựa trên giả thiết của hệ (3.1) Nếu giả sử tồn tại nghiệm � � � khả vi liên tục, thì điều kiện 0 ≤ � � � ≤ � � sẽ là nghiệm cho phương trình [32].

Cộng và trừ (3.4) với số hạng 1 �� �� ��� −1 � � �� ��, ta có:

Tiếp theo, giả sử luật điều khiển � 1

� � �� �� được sử dụng, hệ thống

(3.3) được biến đổi tương đương thành Từ (3.5), hệ thống (3.3) có độ lợi �2 nhỏ hơn hoặc bằng � Giả sử hàm � � � của (3.5) khả vi liên tục, ta sẽ có nghiệm � 1 � ≥

0, với � 1 � ≤ )((((((((((((((( , khả vi liên tục thỏa phương trình:

Tiếp tục, giả sử luật điều khiển � 2

Hệ thống (3.3) tương đương với hệ thống có � 2 � ≥ 0 Theo (3.5), độ lợi � 2 của hệ thống (3.3) nhỏ hơn hoặc bằng � Giả sử hàm � � � của (3.5) là khả vi liên tục, ta sẽ có nghiệm �2 � ≥.

0, với � 2 � ≤ � 1 (((((((((((((((), khả vi liên tục thỏa:

Cứ tiếp tục, ta có chuỗi hàm khả vi liên tục sau:

Từ (3.9) ta có: � ∗ � = lim �→∞ � � � ≥ 0 Giả sử � ∗ � khả vi liên tục, ta có � ∗ � là nghiệm của phương trình, đó là nghiệm không âm nhỏ nhất Với chuỗi luật điều khiển

� � = − 1 � −1 � � � �� )((((((((((((((( ��, ∀∀∀∀∀∀∀∀∀∀∀∀∀∀∀ = 1,2, , sẽ bảo đảm hệ kín có độ lợi � và duy

� 2 � 2 trì ổn định tiệm cận trong Ω.

Ta có điều phải chứng minh ■

Chú ý 3.3: � ∗ � là nghiệm không âm nhỏ nhất, nghĩa là không tồn tại bất kỳ nghiệm � � � ≥ 0 nào khác sao cho � ∗ � ≥ � � � ≥ 0.

3.1.3 Phương trình và nghiệm HJI xấp xỉ Để thiết lập mối quan hệ giữa RL và phương trình HJI, ta định nghĩa hàm chỉ tiêu chất lượng [29], [36]:

Với luật điểu khiển và luật nhiễu hồi tiếp trạng thái )((((((((((((((( và )((((((((((((((( , định nghĩa hàm chi phí [29]:

Giả thiết 3.3: Hàm � ),((((((((((((((( �, � (3.11) với � 0 = 0, có đạo hàm bậc nhất khả vi liên tục, ,((((((((((((((( �, �) ∈ � 1 , với mọi � ∈ � �

Sử dụng định nghĩa về đạo hàm cho phương trình (3.13) ta có:

Với luật hồi tiếp trạng thái [2], nghiệm � � ≥ 0 từ (3.14) là giá trị của (3.13) cho luật điều khiển )((((((((((((((( và )(((((((((((((((

Hàm chi phí tối ưu dựa vào � �, �, � sẽ là [29], [36]:

(3.16) trong đó � là luật điều khiển nhằm cực tiểu � (0), , � trong khi � là luật nhiễu xấu nhất nhằm cực đại � �(0), �, �

Trong lý thuyết trò chơi ZDGT (Zero-sum Differential Game Theory) [29], [2], phương trình (3.16) mang ý nghĩa: Luật chơi của người thứ nhất (luật điều khiển tối ưu

Trong lý thuyết trò chơi, chiến lược của người chơi đầu tiên nhằm giảm thiểu chi phí, trong khi chiến lược của người chơi thứ hai lại nhằm tối đa hóa chi phí của đối thủ Giải pháp cho lý thuyết trò chơi này tương ứng với nghiệm của phương trình (3.16), được gọi là điểm yên ngựa (Saddle).

Sử dụng phương trình (3.11) và (3.16) ta có:

Ta có hàm Halmilton tối ưu:

((((((((((((((( �, �, � ∗ � ) = � � ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ � � + � � � + ()() + � �, �, � (3.19) trong đó � ∗ = �� ∗ � �� Từ (3.18) và (3.19) ta có phương trình: min max � �, �, �, � ∗ = 0

Giả thiết 3.4: Phương trình (3.16) thỏa điều kiện sau (Điều kiện Nash) [29]: min max � �(0), � ∗ , � ∗ = max min � �(0), � ∗ ,

Giả thiết này nhằm bảo đảm � ∗ �(0) từ phương trình (3.20) có nghiệm duy nhất [2]. Để đảm bảo điều kiện (3.21), điều kiện Isaacs sau phải thỏa [29]:

Theo giả thiết 3.4 và phương trình (3.20), luật điều khiển tối ưu và luật nhiễu xấu nhất được xác định như sau:

Từ đó, sử dụng (3.12) ta có:

Thay (3.26) và (3.27) vào (3.20), sử dụng (3.19) ta có phương trình:

Phương trình (3.28) được xác định là phương trình HJI, theo Định lý 3.1, luôn tồn tại nghiệm không âm cục bộ � ∗ � ≥ 0 Điều này cho thấy hệ kín gồm (3.1), (3.26) và (3.27) có độ lợi �2 và ổn định tiệm cận cục bộ quanh điểm cân bằng.

Nghiệm toàn cục của phương trình HJI (3.28) có thể không tồn tại hoặc không khả vi liên tục Tuy nhiên, theo Định lý 3.1, nghiệm cục bộ không âm luôn tồn tại.

Bổ đề 3.1: Giả sử tồn tại hàm khả vi liên tục \( u^* \) với \( u^* \geq 0 \) là nghiệm của phương trình HJI (3.28) Nếu áp dụng luật điều khiển (3.26) và luật nhiễu (3.27), thì điều kiện Isaacs (3.22) sẽ được thỏa mãn.

Chứng minh: Nếu tồn tại � ∗ � ≥ 0 thỏa phương trình HJI (3.28), từ phương trình (3.15), (3.28), biến đổi ta có:

Luật xấp xỉ điều khiển tối ƣu uˆ x

Luật cập nhật tham số xấp xỉ hàm Xấp xỉ hàm

Luật xấp xỉ nhiễu xấu nhất

= � − � ∗ �� � − � ∗ − � 2 � − � ∗ � � − � ∗ Áp dụng lần lượt � ∗ (3.26) và � ∗ (3.27) cho � �, �, �, � ∗ , ta có

Ta có điều phải chứng minh ■

Phương trình HJI (3.28) bao gồm thành phần không xác định Một trong những phương pháp thiết kế luật điều khiển tối ưu ∞ dựa trên HJI là nhận dạng hệ thống trước, sau đó tiến hành thiết kế bộ điều khiển Tuy nhiên, như đã đề cập, việc nhận dạng hệ thống vẫn gặp nhiều thách thức.

Phương trình (3.28) không có nghiệm giải tích, do đó, việc tìm kiếm giải pháp để xấp xỉ nghiệm HJI (� ∗ �) là cần thiết Để đạt được điều này, OADP sẽ phát triển phương pháp quy hoạch động thích nghi bền vững online (ORADP) nhằm xấp xỉ nghiệm mà không cần sử dụng kỹ thuật nhận dạng hệ thống.

Hình 3.1: Cấu trúc điều khiển ORADP

Phương pháp ORADP

3.2.1 Cấu trúc điều khiển ORADP và luật cập nhật tham số Để xây dựng phương pháp ORADP, trước tiên ta đề xuất cấu trúc điều khiển (H. 3.1) Cấu trúc này được mở rộng từ OADP và khác với cấu trúc ADP sử dụng ba NN

[29], [30] vì nó chỉ sử dụng duy nhất một NN để xấp xỉ hàm đánh giá � )(� , các

Các tham số trong khối "luật điều khiển tối ưu" và "luật nhiễu xấu nhất" sẽ được cập nhật một cách thích nghi trực tuyến, sử dụng thông tin từ hàm đánh giá Việc loại bỏ NN còn lại là không cần thiết.

� � � = �� (�) �� Khối luật "cập nhật tham số xấp xỉ hàm" sử dụng thông tin hồi tiếp trạng thái, luật điều khiển và luật nhiễu.

Xấp xỉ hàm (NN) biểu diễn hàm đánh giá tối ưu � ∗ � được định nghĩa:

Trong bài viết này, chúng ta xem xét phương trình (3.29) với giả thiết 3.3, nơi mà trọng số NN và véc tơ hàm tác động được định nghĩa Cụ thể, số đơn vị nơ-ron ở lớp ẩn đóng vai trò quan trọng trong việc xác định hiệu suất của mô hình, trong khi sai số xấp xỉ NN ảnh hưởng đến độ chính xác của dự đoán.

[7], có thể chọn � � sao cho � � → ∞, � → 0 và � � = �� �� → 0, ngoài ra với

� � hữu hạn thì )((((((((((((((( ≤ � � �� và � � ≤ � �� �� , với � ��� và � ���� là các hằng số dương [10] Sử dụng (3.29) cho (3.19) ta có:

(3.30) trong đó sai số � � được định nghĩa:

� � = − � � � � + � � � + � � � (3.31) Lấy đạo hàm (3.29) và thay vào (3.28) ta có:

ℝ��� ×�, và ��� � �∈ℝ là sai số thặng dư gây bởi sai số xấp xỉ NN:

Theo các giả thiết 3.1 và 3.2, )((((((((((((((( và )((((((((((((((( lần lượt có các tính chất sau:

Tính chất 3.1: � = � � > 0, bị chặn sao cho:

� ��� ≤ )((((((((((((((( ≤ � ��� (3.34) trong đó � ��� = � ��� ( )( �) � 2 , � ��� = � ��� ()()()()()()()()()()()()()()() 2 , với � ��� ((((((((((((((() và � ��� ((((((((((((((() lần

��� lượt là trị riêng lớn nhất và nhỏ nhất của ma trận �.

Tính chất 3.2: � = � � > 0, bị chặn sao cho:

Tính chất 3.3: Khi � � → ∞, � ��� hội tụ đều về 0 Với � � hữu hạn, � ��� bị chặn trong tập đóng sao cho � ��� ≤ � ������ , với � là hằng số thực dương.

Trọng số lý tưởng (3.29) không xác định, do đó hàm đánh giá được xấp xỉ bởi:

Từ đó luật điều khiển tối ưu xấp xỉ và luật ước lượng chặn trên của nhiễu sẽ là:

(3.38) thay (3.36) vào (3.19) ta có hàm Hamilton xấp xỉ:

So sánh (3.39) và (3.30), để ý � = � − � , ta có:

Bài toán thiết kế luật cập nhật trọng số của mạng nơ-ron (NN) nhằm tối thiểu hóa hàm sai số bình phương, với mục tiêu để hàm sai số tiến gần đến không, yêu cầu rằng trọng số NN không phụ thuộc vào thông tin động học Để đạt được điều này, hàm sai số mục tiêu được chọn là � = 1 � � �, trong đó � là tổng hợp của các yếu tố và � > 0.

Luật cập nhật trọng số NN đề xuất không chỉ nhằm tối thiểu hóa sai số bình phương mà còn đảm bảo sự ổn định của hệ kín Trong cấu trúc ADP với ba NN, luật cập nhật của critic tập trung vào việc giảm thiểu hàm sai số mục tiêu, trong khi luật cập nhật của các actor đảm bảo sự ổn định cho toàn bộ hệ thống Khi sử dụng một NN, luật cập nhật cần được thiết kế để đáp ứng đồng thời cả hai mục tiêu này.

� = � 1 + � �� ngược lại + + + + + + + + + + + + + + + � (3.41) trong đó � � = )((((((((((((((( và � + + + + + + + + + + + + + + + = ((((((((((((((( + �), và

Số hạng � �� của (3.41) được định nghĩa:

2 � � )((((((((((((((( − ) ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( � (3.43) và � trong (3.42) được định nghĩa:

Dựa vào hàm chi phí (3.11), biết trước luật điều khiển � và luật nhiễu � với trạng thái khởi tạo � � , hàm chi phí có thể được viết lại như sau:

Sử dụng NN (3.29) cho phương trình (3.45), ta có sai số � � :

(3.46) trong đó � � được định nghĩa:

Chú ý 3.6: Nếu )((((((((((((((( = 0 thì luật cập nhật (3.41) sẽ trở thành (3.42) và hàm

Khi Halmiton (3.39) bằng không, trọng số NN sẽ ngừng cập nhật Để đảm bảo hội tụ đến giá trị chính xác, điều kiện PE (Persistence of Excitation) được áp dụng trong nhận dạng và điều khiển thích nghi Định lý 3.2 chỉ ra rằng nếu luật điều khiển và luật nhiễu bị chặn, hệ kín ổn định và thỏa mãn điều kiện PE trong khoảng thời gian nhất định, thì sẽ đạt được hội tụ.

(3.48) trong đó � = /(�(( � � + 1), � 1 và �2 là các hằng số dương và � là ma trận đơn vị có kích thước phù hợp, thì:

- Nếu � � (�) = 0 thì sai số xấp xỉ trọng số NN hội tụ đến giá trị không theo hàm mũ.

- Nếu � � ((((((((((((((() bị chặn sao cho � � ((((((((((((((() < � ���� thì sai số xấp xỉ trọng số NN hội tụ đến tập sai số thặng dư (residual error set) theo hàm mũ.

Dựa vào (3.37) và (3.38), ta viết (3.44) thành:

Thay (3.49) vào (3 42) và chú ý � = −� , ta có:

Mặt khác, thay � = � � vào định nghĩa � � , ta có:

Luật nhiễu xấu nhất (xấp xỉ) (4.50) � dˆ

Luật điều khiển tối ƣu (xấp xỉ) (4.51)

Luật cập nhật trọng số NN (4.53)

1 � � � + 1 2 � � (3.52) Mặt khác, sử dụng (3.36) cho phương trình (3.45), với � = � � , ta có:

Từ (3.46) và (3.53), với � = � � , ta có:

Thay (3.54) vào (3.52), chú ý (3.44), ta nhận được:

Trong phương trình (3.55), sai số xấp xỉ trọng số NN được biểu diễn dưới dạng � = � � � + 1 Phương trình này tương tự như phương trình sai số NN được trình bày trong [29] Do đó, phần chứng minh còn lại của định lý 3.2 có cách tiếp cận tương tự như trong Định lý 1 của [29].

Sau khi thiết kế luật cập nhật trọng số mạng nơ-ron, cấu trúc điều khiển ORADP được minh họa trong hình 3.2 Trong đó, các khối điều khiển, luật nhiễu và luật cập nhật trọng số mạng nơ-ron được thể hiện qua các phương trình (3.37), (3.38) và (3.41).

Hình 3.2: Cấu trúc điều khiển ORADP sử dụng một NN

Thông tin về thành phần động học không được sử dụng trong luật cập nhật và sơ đồ điều khiển, do đó việc nhận dạng là không cần thiết.

3.2.2 Thuật toán điều khiển ORADP

Thuật toán sử dụng ba mạng nơ-ron (NN) giải phương trình HJI thông qua hai phương trình HJB lặp lại, với bước đầu tiên xấp xỉ nghiệm HJB cho luật nhiễu và bước thứ hai cho luật điều khiển cho đến khi hội tụ Tuy nhiên, quá trình này có nhược điểm là dư thừa một bước lặp, dẫn đến chi phí tính toán và tài nguyên lưu trữ tăng, cũng như hiệu quả hội tụ thấp Để khắc phục, một thuật toán sử dụng một NN đã được đề xuất, trong đó tham số luật nhiễu và luật điều khiển được cập nhật đồng thời Mặc dù cải tiến này, thuật toán vẫn yêu cầu xác định trước động học hệ thống và cần phải ngưng cập nhật tham số trong một khoảng thời gian để lấy mẫu dữ liệu, dẫn đến tốc độ hội tụ không hiệu quả.

Các bước trong Thuật toán 3.1, kết hợp với cấu trúc điều khiển ORADP và luật cập nhật trọng số NN (3.41), sẽ giúp khắc phục những nhược điểm đã nêu.

Bước đầu tiên trong quy trình là chọn hàm chỉ tiêu chất lượng, trong đó xác định ma trận trọng số dương và véc tơ hàm tác động Tiếp theo, cần thiết lập nhiễu ống (Probing noise) cho điều kiện PE Cuối cùng, khởi tạo trọng số với giá trị ban đầu là 0 cho mạng nơ-ron critic.

(0) � (0) = � (� ) = 0, chọn các hệ số thích nghi � 1 , � 2 , bước lặp dừng thuật toán � � ��� Chọn tiêu chí hội tụ � (số dương nhỏ), gán � = 0.

Bước 2: Cộng nhiễu � vào tín hiệu điều khiển: � (� ) ⟵ � ((((((((((((((( ) + �, � (� ) ⟵ �

((((((((((((((( + � để kích thích hệ thống theo điều kiện PE (3.48) Cập nhật đồng thời trọng số NN

� ((((((((((((((( +1) theo (3.41), tham số luật điều khiển theo (3.37) và luật nhiễu theo (3.38):

2 � Đồng thời cập nhật hàm đánh giá theo (3.36):

Bước 3: Nếu � ((((((((((((((( ) − � ((((((((((((((( +1) < � gán � = 0 Nếu � ≤ � ���� thì gán � ⟵

� + 1, quay lại bước 2, ngược lại gán � ∗ = � ((((((((((((((( +1) , � ∗ = � ((((((((((((((( +1) và � ∗ = � ((((((((((((((( +1) dừng thuật toán.

Chú ý 3.8: Một chú ý quan trọng là luật cập nhật thích nghi cho trọng số NN

(3.41) không liên quan đến thành phần động )((((((((((((((( , từ đó ta có (3.37) là luật điều khiển thích nghi bền vững tối thiểu hàm chỉ tiêu chất lượng (3.11).

Chú ý 3.9: Luật cập nhật tham số NN, luật điều khiển và luật nhiễu được thực hiện đồng thời trong Bước 2 của Thuật toán 3.1, cho thấy ORADP là thuật toán cập nhật tham số đồng bộ, khác biệt so với [29].

Chú ý 3.10: Ở bước 1, giá trị khởi tạo của các phần tử trong véc tơ trọng số �

Có thể chọn giá trị bằng không, dẫn đến giá trị luật điều khiển khởi tạo và hàm đánh giá khởi tạo đều bằng không Tuy nhiên, do hệ thống bị kích thích bởi nhiễu PE ở Bước 2, ORADP sẽ tiếp tục lặp cho đến khi đạt được trạng thái hội tụ.

Chú ý 3.11: Tại Bước 3 trong Thuật toán 3.1, nếu hàm đánh giá hội tụ, thuật toán ORADP có thể dừng lại ngay lập tức hoặc tiếp tục cho đến khi đạt được bước kết thúc.

Phân tích ổn định và hội tụ của ORADP

Giả thiết 3.5: Động học hệ thống )((((((((((((((( giả sử thỏa điều kiện Lipschitz với

Giả thiết 3.6: Nhiễu � � bị chặn sao cho � � ≤ ��� , với � ��� là hằng số dương.

Giả thiết 3.7 đề cập đến hệ kín bị chặn với điều kiện � � + � � � ∗ + ()()()()()()()()()()()()()()() ∗ ≤ �, trong đó � là hằng số dương Theo định lý 3.3, nếu hệ thống động (3.1) thỏa mãn các giả thiết từ 3.5 đến 3.7, thì hàm chi phí (3.11) bị ràng buộc bởi (3.1) sẽ đạt giá trị tối thiểu, tương ứng với nghiệm của phương trình HJI (3.28) Hàm chi phí này được xấp xỉ theo (3.36), trong khi luật cập nhật trọng số NN được thực hiện theo (3.41) và luật cập nhật tham số cho luật điều khiển tối ưu cùng với luật nhiễu xấu nhất được áp dụng theo (3.37).

Khi thỏa mãn điều kiện PE theo Định lý 3.2, toàn bộ trạng thái của hệ kín và sai số xấp xỉ NN sẽ bị chặn UUB Hơn nữa, khi giá trị � tiến tới vô cùng, sai số giữa hàm chi phí xấp xỉ và tối ưu sẽ đạt được giá trị � − � ∗ < �, với � là hằng số dương nhỏ Tương tự, sai số giữa luật điều khiển xấp xỉ và tối ưu cũng đạt � − ∗ < �, và sai số giữa luật nhiễu xấp xỉ và tối ưu đạt � − � ∗ < �, trong đó � là hằng số dương nhỏ.

Xét luật cập nhật (3.41) không có � �� Chọn hàm Lyapunov sau:

(3.57) Điều kiện âm trong (3.41) được biến đổi thành:

Chú ý đến điều kiện (3.32) ta có:

(3.59) trong đó, � � = � � � )((((((((((((((( Thay � � từ (3.59) vào (3.39) sử dụng (3.12), ta có:

Từ (3.60) và (3.61) với chú ý rằng � = −� , � 1 = −� 1 , động học sai số sinh ra bởi luật cập nhật (3.41) được viết thành:

(3.62) trong đó � = � � � + 1 Thay (3.62), động học (3.1) vào (3.57) và áp dụng luật (3.37) và (3.38), ta có:

Từ biểu thức (3.58), dễ thấy rằng luôn tồn tại hằng số không âm �0, sao cho:

Thay � ��� từ (3.32) và (3.64) vào (3.63) và tính tổng bình phương theo các số hạng:

Sử dụng chuẩn cho (3.66) và thuộc tính xấp xỉ hàm (3.29) cùng với tính chất

Sử dụng bất đẳng thức tích phân cho

− 2 � �� Thay � , � và � vào (3.65), ta có:

� trong (3.67) sẽ mang giá trị âm nếu:

Tiếp tục cho trường hợp còn lại của luật cập nhật (3.41) có xét đến � ��

Chọn hàm Chọn hàm Lyapunov như sau:

Trong phương trình HJI, nghiệm không âm được biểu diễn bằng (3.70) Áp dụng đạo hàm cho (3.70) và luật (3.37) cùng (3.38) cho biến �, đồng thời thêm số hạng � �� từ luật cập nhật (3.41) và sử dụng (3.62), chúng ta chú ý đến kết quả của (3.65) để có được kết quả cuối cùng.

(3.71) trong đó � � �� = � � � )((((((((((((((( , với � là ma trận bán xác định dương Theo giả thiết 3.5, số hạng đầu tiên trong (3.71) bị chặn bởi � 2 � � � � ≤ � 2 � � 2 Số hạng thứ hai trong

�� �� ���� � /2 Từ đó bất đẳng thức (3.71) có thể viết thành:

(3.72) trong đó �6 = � 2 � 2 (Giả thiết 3.6) Sử dụng bất đẳng thức tích phân cho (3.72):

(3.73) trong đó � 4 = � 2 �3 � �� � � − α > 0, với � 3 được chọn sao cho:

Với �5 = � 5 Phương trình (3.73) được biến đổi thành:

Từ (3.75) ta thấy � âm, nếu:

Theo (3.68), (3.76) và (3.69), (3.77), dễ thấy rằng khi � hoặc sai số xấp xỉ NN � làm cho � vượt quá biên của các tập đóng, đó là � � = max

� � , � � , thì luật cập nhật (3.41) sẽ làm � ≤ 0 Như vậy, theo định lý

Lyapunov mở rộng cho thấy rằng toàn bộ trạng thái của hệ kín và sai số xấp xỉ NN đều bị chặn UUB Để chứng minh khả năng hội tụ của hàm đánh giá xấp xỉ, ta cần lấy hiệu của hai biểu thức (3.29) và (3.36), sử dụng các chặn đã được thiết lập và chú ý đến các biểu thức (3.69) và (3.77).

Để chứng minh sự hội tụ của luật điều khiển và luật nhiễu, chúng ta sẽ lấy hiệu của biểu thức (3.26) với (3.27), cũng như hiệu của biểu thức (3.37) với (3.38) Bằng cách sử dụng các chặn trên và chú ý đến (3.69) và (3.76), chúng ta có thể đạt được kết quả cần thiết.

(3.80) trong đó � ��� � là giá trị riêng nhỏ nhất của ma trận �.

Vậy ta có điều phải chứng minh ■

Để giảm giá trị các chặn trên \( \alpha \), \( \beta \) và \( \gamma \), bạn có thể lựa chọn các hằng số học \( \alpha \), \( \beta \) phù hợp với giá trị 1 hoặc 2 Tuy nhiên, việc chọn \( \alpha \) càng nhỏ sẽ dẫn đến tốc độ hội tụ của tham số hệ thống càng chậm.

Tóm tắt

Chương này giới thiệu phương pháp qui hoạch động thích nghi bền vững online (ORADP) nhằm điều khiển hệ phi tuyến có nhiễu và thành phần động không xác định ORADP chỉ sử dụng một mạng nơ-ron (NN) duy nhất để giảm độ phức tạp tính toán và tài nguyên lưu trữ, đồng thời tăng tốc độ hội tụ Luật cập nhật trọng số của NN và thuật toán điều khiển được thiết kế không cần thông tin về thành phần động, đảm bảo hệ kín ổn định và các tham số hội tụ về giá trị tối ưu Thêm vào đó, trong thuật toán ORADP, các tham số hệ thống được cập nhật đồng bộ trong một bước lặp để cải thiện tốc độ hội tụ Kết quả mô phỏng cho thấy ORADP vượt trội hơn so với phương pháp AC sử dụng ba NN, với chất lượng tốt hơn về thời gian hội tụ, sai số xấp xỉ hàm đánh giá, luật điều khiển và luật nhiễu.

Để đảm bảo tính hiệu quả của ORADP, việc kiểm tra trong thời gian thực là cần thiết Chương tiếp theo sẽ trình bày việc áp dụng ORADP trong việc điều khiển robot di động dạng xe, một hệ thống phi tuyến chịu ảnh hưởng của nhiễu và có các thành phần động không có thông tin xác định.

Tâm robot Trục dẫn động bánh sau

ÁP DỤNG ORADP ĐIỀU KHIỂN ROBOT DI ĐỘNG

Ngày đăng: 08/09/2021, 11:02

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Minh họa về học củng cố - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
Hình 1.1 Minh họa về học củng cố (Trang 17)
Hình 2.1: Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu (Trang 28)
3.2 Phương pháp ORADP - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
3.2 Phương pháp ORADP (Trang 43)
Hình 3.1: Cấu trúc điều khiển ORADP - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
Hình 3.1 Cấu trúc điều khiển ORADP (Trang 43)
Hình 3.2: Cấu trúc điều khiển ORADP sử dụng một NN - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
Hình 3.2 Cấu trúc điều khiển ORADP sử dụng một NN (Trang 49)
Hình 4.1: Mô hình robot di động dạng xe (WMR) - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
Hình 4.1 Mô hình robot di động dạng xe (WMR) (Trang 63)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w