TỔNG QUAN VỀ TRÍCH RÚT HỆ LUẬT NGÔN NGỮ MỜ GIẢI BÀI TOÁN HỒI QUY VÀ BÀI TOÁN PHÂN LỚP DỰA TRÊN ĐẠI SỐ GIA TỬ 6
TỔNG QUAN VỀ TRÍCH RÚT HỆ LUẬT NGÔN NGỮ MỜ GIẢI BÀI TOÁN HỒI QUY VÀ BÀI TOÁN PHÂN LỚP DỰA TRÊN ĐẠI SỐ GIA TỬ
Chương này giới thiệu các khái niệm cơ bản về lý thuyết ngôn ngữ mờ và ứng dụng của nó trong phân lớp và hồi quy Bài viết cũng nhấn mạnh vai trò của đại số gia tử, phân tích ưu nhược điểm của các phương pháp thiết kế Hệ thống Quyết định Dựa trên Luật (FRBS) để xác định các vấn đề nghiên cứu và giải quyết trong luận án.
1 1 Một số khái niệm cơ bản
1 1 1 Tập mờ Để mở rộng logic cổ điển, Zadeh đã giới thiệu khái niệm tập mờ vào năm 1965
Tập mờ F được định nghĩa trên tập U là một tập hợp trong đó mỗi phần tử là một cặp giá trị (x, 𝜇𝐹 (x)) Ở đây, x thuộc U, với U là tập kinh điển hoặc tập nền của tập mờ F Hàm 𝜇𝐹 : U → [0, 1] thể hiện mức độ thuộc của x vào tập mờ F thông qua giá trị 𝜇𝐹 (x).
Hàm thuộc 𝜇𝐹 (x) khác với logic cổ điển khi nhận giá trị trong khoảng [0, 1], cho phép xác định mức độ thuộc của x vào tập F Cụ thể, giá trị 𝜇𝐹 (x) càng gần 1 thì x càng thuộc nhiều vào F, trong khi 𝜇𝐹 (x) = 0 cho thấy x không thuộc F và 𝜇𝐹 (x) = 1 chỉ ra rằng x hoàn toàn thuộc vào F.
𝑼: 𝜇𝐹 (𝑥) > 0} được gọi là độ hỗ trợ của F và tập {𝑥 ∈ 𝑼: 𝜇𝐹 (𝑥) = 1} được gọi là nhân hay lõi của F
Biến ngôn ngữ, được Zadeh giới thiệu vào năm 1975, là một loại biến mà các giá trị của nó được biểu thị bằng từ ngữ hoặc mệnh đề trong ngôn ngữ tự nhiên Theo định nghĩa, biến ngôn ngữ bao gồm năm thành phần: 𝐴 là tên biến, T(𝐴) là tập hợp các giá trị ngôn ngữ của biến 𝐴, U là không gian các giá trị số của biến, R là quy tắc cú pháp tạo ra các giá trị ngôn ngữ T(𝐴), và M là tập hợp các luật ngữ nghĩa gán nghĩa cho mỗi giá trị ngôn ngữ với một tập mờ trong không gian U.
Phân hoạch mờ được sử dụng để mờ hóa không gian các giá trị số U của các biến ngôn ngữ A, được định nghĩa như sau
𝑚 Định nghĩa 1 3 [44] Cho m điểm cố định p 1 < p 2 < < p m thuộc tập U = [a, b]
R là không gian tham chiếu của biến cơ sở u của biến ngôn ngữ A Khi đó một tập
T gồm m tập mờ F 1, F 2, , F m định nghĩa trên U (với hàm thuộc tương ứng là F1 ,
F2 , , Fm ) được gọi là một phân hoạch mờ của U nếu các điều kiện sau thỏa mãn,
1) Fk (p k ) = 1 (p k thuộc về phần được gọi là lõi của F k );
3) Fk (x) là hàm liên tục;
4) Fk (x) đơn điệu tăng trên [p k-1, p k ] và đơn điệu giảm trên [p k , p k+1];
Nếu phân hoạch mờ thỏa mãn thêm điều kiện 6 dưới đây thì được gọi là phân hoạch mờ mạnh
Nếu phân hoạch mờ thỏa mãn thêm điều kiện 7, 8, 9 dưới đây thì được gọi là phân hoạch đều
8) 𝜇𝐹 (𝑥) là hàm thuộc đối xứng;
9) 𝜇𝐹 𝑘 (𝑥) có cùng một dạng hình học
Mỗi phân hoạch mờ trong Định nghĩa 1 3 được gọi là thể hạt (granularity), và mỗi tập mờ trong phân hoạch được gọi là hạt (granule) Một phân hoạch mờ chỉ gồm một thể hạt được gọi là cấu trúc phân hoạch mờ đơn thể hạt (single granularity structure), viết tắt là cấu trúc đơn thể hạt Ngược lại, phân hoạch mờ gồm nhiều thể hạt được gọi là cấu trúc phân hoạch mờ đa thể hạt (multiple granularity structure), viết tắt là cấu trúc đa thể hạt.
1 1 4 Khung nhận thức ngôn ngữ
Theo Mencar và Fanelli trong [50] một khung nhận thức (Frame of Cognition-
FoC (Framework of Cognition), ký hiệu là F A, là một tập hợp hữu hạn các tập mờ có thứ tự trên miền tham chiếu của biến ngôn ngữ A, với các nhãn ngôn ngữ tương ứng Các nhãn này được sử dụng để mô tả tính chất của các thực thể, trong khi mỗi FoC, F A, định nghĩa một phép gán ngữ nghĩa cho các nhãn bằng cách ánh xạ chúng tới ngữ nghĩa tính toán, cụ thể là các tập mờ ĐSGT phát triển một cơ sở lý thuyết để xác định ngữ nghĩa định lượng của từ dựa trên ngữ nghĩa định tính, cho phép tính toán trực tiếp với từ khi phát triển thuật toán trích rút LRBS từ dữ liệu Thay vì sử dụng khái niệm FoC như các phương pháp lý thuyết tập mờ, Nguyễn Cát Hồ và cộng sự đã giới thiệu khái niệm khung nhận thức theo hướng tiếp cận ĐSGT, gọi là khung nhận thực ngôn ngữ (Linguistic Frame of Cognition - LFoC), trong đó mỗi từ có ngữ nghĩa riêng và FoC chỉ là phương pháp biểu diễn ngữ nghĩa tính toán tương ứng với LFoC.
1 2 1 Miền giá trị của biến ngôn ngữ là cấu trúc đại số
Miền giá trị X A của biến ngôn ngữ A bao gồm các từ trong ngôn ngữ tự nhiên, ví dụ, biến X AGE mô tả tuổi con người với các từ được sinh ra từ hai từ nguyên thủy “young” và “old” thông qua các gia tử như “very” và “little” Các từ này được sắp xếp theo thứ tự tuyến tính dựa trên ngữ nghĩa định tính của chúng Điều thú vị là mọi gia tử h và từ x trong X AGE đều có thể so sánh được Điều này đã dẫn đến việc Nguyễn Cát Hồ và Wechler đề xuất khái niệm Đại số gia tử vào năm 1990 cho mọi biến A Đại số gia tử của A được định nghĩa là một cấu trúc đại số có thứ tự 𝒜 A = (X A , G, C, H, ≤).
X là tập các từ của biến A và X = Dom(A);
G là tập hai từ sinh c - và c +, trong đó c - ≤ c +, c - là từ sinh âm và c + là từ sinh dương;
𝐻 = 𝐻− ∪ 𝐻+ là tập các gia tử ngôn ngữ của A, trong đó H - và H + tương ứng là tập các gia tử âm và tập các gia tử dương;
≤ là quan hệ thứ tự được cảm sinh bởi thứ tự ngữ nghĩa của các từ của A;
𝐶 = {𝟎, 𝑊, 𝟏} là tập các hằng tử thỏa quan hệ thứ tự 𝟎 ≤ 𝑐− ≤ 𝑊 ≤ 𝑐 + ≤
𝟏, trong đó W là phần tử trung hòa, 0 và 1 tương ứng là phần tử nhỏ nhất và lớn nhất và là bất động đối với các gia tử
Mỗi từ x trong X A có thể được biểu diễn dưới dạng chuỗi, tức là hoặc x = c hoặc
Trong bài viết này, chúng ta xem xét chuỗi 𝑥 = 𝜎𝑐, với 𝑐 thuộc tập hợp {𝑐−, 𝑐 +} và 𝜎 là một chuỗi gồm các ký tự ℎ𝑚 … ℎ1, trong đó ℎ𝑗 thuộc tập H, với j = 1, … , 𝑚 Đồng thời, là chuỗi các gia tử trong H, bao gồm cả ký tự trống , với = ∅ Độ dài của chuỗi 𝑥, ký hiệu là |𝑥|, được gọi là độ dài của từ x.
Chú ý rằng, 𝜀𝑥 = 𝑥 và 𝜎𝑎 = 𝑎 với mọi 𝑎 ∈ 𝐶 Với mọi 𝑥 ∈ 𝑋, đặt 𝐻(𝑥) {𝜎𝑥: 𝜎 ∈ 𝐻∗} Như vậy, ta có 𝑋 = 𝐻(𝑐−) ∪ 𝐻(𝑐 +) ∪ 𝐶
1 2 2 Một số tính chất cơ bản của Đại số gia tử
Xét ĐSGT của A, 𝒜 A = (X A , G, C, H, ≤), trong đó 𝐻 = {𝐿(𝐿𝑖𝑡𝑡𝑙𝑒), 𝑉(𝑉𝑒𝑟𝑦)} chỉ gồm hai gia tử Dấu của các từ và gia tử như sau:
- Ta thấy rằng, 𝑐 − và 𝑐 + có xu thế ngữ nghĩa trái ngược nhau vì 𝑉𝑐 − ≤ 𝑐 − và
𝑐 + ≤ 𝑉𝑐 + Từ đó, ta định nghĩa 𝑠𝑖𝑔𝑛(𝑐 − ) = −1 và 𝑠𝑖𝑔𝑛(𝑐 + ) = +1
- Hơn nữa, các bất đẳng thức V𝐿𝑐 + ≤ 𝐿𝑐 + ≤ 𝑐 + có nghĩa là khi 𝑉 tác động lên
Khi 𝐿𝑐 + tác động lên 𝑐 +, nó làm thay đổi ngữ nghĩa của từ 𝐿𝑐 + theo cùng hướng với 𝐿, dẫn đến dấu quan hệ giữa V và L là +1 Ngược lại, khi 𝐿 tác động lên 𝑉𝑐 +, nó làm thay đổi ngữ nghĩa của 𝑉𝑐 + theo hướng ngược với 𝑉, thể hiện qua mối quan hệ 𝑐 + ≤ 𝐿𝑉𝑐 + ≤ 𝑉𝑐 +.
- Với mọi 𝑥 = ℎ𝑚 … ℎ1𝑐, 𝑐 {∈ 𝑐 −, 𝑐 +}, ta có thể xác định dấu của x như sau: 𝑠𝑖𝑔𝑛(𝑥) = 𝑠𝑖𝑔𝑛(ℎ𝑚, ℎ𝑚−1 ) × … × 𝑠𝑖𝑔𝑛(ℎ2, ℎ1) × 𝑠𝑖𝑔𝑛(ℎ1) × 𝑠𝑖𝑔𝑛(𝑐) (1 1)
Do đó, ý nghĩa của dấu 𝑠𝑖𝑔𝑛(𝑥) của từ 𝑥 được thể hiện qua Mệnh đề sau:
Mệnh đề 1 1 [58] 𝑠𝑖𝑔𝑛(ℎ𝑥) = +1 thì 𝑥 ≤ ℎ𝑥, và 𝑠𝑖𝑔𝑛(ℎ𝑥) = −1 thì ℎ𝑥 ≤ 𝑥
Bảng 1 1 Ví dụ quan hệ dấu của một số gia tử sign(k, h) E V M R L
Giả sử, 𝐻− = {𝐿, 𝑅(𝑅𝑎𝑡ℎ𝑒𝑟)} và 𝐻+ = {𝑀(𝑀𝑜𝑟𝑒), 𝑉} là hai tập gia tử âm và dương, được sử dụng để cảm sinh các từ ngôn ngữ của biến ngôn ngữ A Các tính chất của từ ngôn ngữ và mô hình tính mờ của chúng sẽ được phân tích để hiểu rõ hơn về sự tương tác giữa các yếu tố này trong ngữ cảnh ngôn ngữ học.
(1 5) Định lý 1 1 [58] Cho tập H - và H + là các tập sắp thứ tự tuyến tính của ĐSGT 𝒜 A (X A , C, G, H, ≤) Khi đó ta có các khẳng định sau:
(1) Với mỗi u X A thì H(u) là tập sắp thứ tự tuyến tính
Nếu X A được sinh ra từ G với các gia tử và G là một tập sắp thứ tự tuyến tính, thì X A cũng sẽ là tập sắp thứ tự tuyến tính Hơn nữa, nếu u < v và u, v là độc lập với nhau (tức là u không thuộc H(v) và v không thuộc H(u)), thì H(u) sẽ nhỏ hơn hoặc bằng H(v).
Trong luận án này, ĐSGT được hiểu là ĐSGT tuyến tính, với mọi biến ngôn ngữ liên quan đến một cấu trúc đại số tương hợp với bản sao biến số có cấu trúc toán học Do đó, cần thiết lập cơ sở hình thức tính toán trên biến số thay vì trên biến ngôn ngữ, nhằm cài đặt trên các công cụ tính toán mà vẫn bảo toàn ngữ nghĩa định tính của các từ ngôn ngữ sau các thao tác.
Để áp dụng lý thuyết Đại số gia tử (ĐSGT) vào thực tiễn, cần phải định lượng ngữ nghĩa định tính của các giá trị ngôn ngữ liên quan đến biến ngôn ngữ, nhằm kết nối chúng với các khái niệm định lượng trong ĐSGT.
Ngữ nghĩa số của các từ trong biến ngôn ngữ A được xác định thông qua ánh xạ v A từ biến ngôn ngữ A tới khoảng [0, 1], tạo thành không gian chuẩn hóa cho miền số của A Định nghĩa 1.4 [58] chỉ ra rằng một song ánh 𝑣: 𝐴 → [0,1] được gọi là ánh xạ định lượng ngữ nghĩa của A nếu nó đáp ứng các điều kiện cụ thể.
(S1) 𝑣A bảo toàn toàn cấu trúc (𝑋, ≤), nghĩa là (∀𝑥, 𝑦 X)(∈ 𝑥 ≤ 𝑦 ⇒ 𝑣A(𝑥) ≤
(S2) Ảnh 𝑣𝐴 (𝑋) của tập từ ngôn ngữ 𝑋 là trù mật trong [0, 1]
Từ (1 2 1)-(1 2 3), với mọi 𝑥 ∈ 𝐴, 𝑣𝐴 (𝐻(𝑥)) định nghĩa một khoảng trong [0,
Khoảng nhỏ nhất chứa 𝑣𝐴(𝐻(𝑥)) được gọi là khoảng tính mờ của x, ký hiệu là ℑ(𝑥) Hệ khoảng tính mờ của các từ ngôn ngữ được xác định bởi ngữ nghĩa của chúng, thể hiện dưới dạng cơ sở hình thức của ĐSGT của biến A, và cần phải tuân thủ các ràng buộc nhất định.