1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

149 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tóm Tắt Dữ Liệu Bằng Ngôn Ngữ Theo Cách Tiếp Cận Đại Số Gia Tử
Tác giả Phạm Thị Lan
Người hướng dẫn PGS.TSKH Nguyễn Cát Hồ, PGS.TS Hồ Cẩm Hà
Trường học Học viện Khoa học và Công nghệ
Chuyên ngành Khoa học máy tính
Thể loại luận án tiến sĩ
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 149
Dung lượng 919,29 KB

Cấu trúc

  • CHƯƠNG 1. MỘT SỐ KIẾN THỨCCƠ SỞ (22)
    • 1.1. Một số kiến thức cơ bản vềtậpmờ (24)
      • 1.1.1. Định nghĩatập mờ (24)
      • 1.1.2. Biếnngôn ngữ (25)
      • 1.1.3. Phânhoạchmờ (26)
    • 1.2. Khung nhận thức dựa trên lý thuyếttậpmờ (27)
      • 1.2.1. Định nghĩa khungnhậnthức (27)
      • 1.2.2. Các ràng buộc về tính giảinghĩađược (28)
    • 1.3. Tổng quan về trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyếttậpmờ (30)
      • 1.3.1. Bài toán trích rút tóm tắt bằng ngôn ngữ là một nhánh trong lĩnh vựckhai phádữliệu (30)
      • 1.3.2. Dạng câu tóm tắt có từ lượng hóa ngôn ngữ vàứngdụng (33)
      • 1.3.3. Trích rút tóm tắt từ cơ sởdữliệu (40)
    • 1.4. Trích rút tập câu tóm tắt tối ưu từ cơ sởdữliệu (42)
      • 1.4.1. Giải thuật di truyền giải bài toán trích rút tậptómtắt (43)
      • 1.4.2. Cácyếutốtrongmôhìnhgiảithuậtditruyềntríchrúttậpcâutómtắt (44)
    • 1.5. Lý thuyết đại sốgiatử (45)
      • 1.5.1. Cấu trúc đại số cho miền giá trị của biếnngônngữ (46)
      • 1.5.2. Đại số gia tử mở rộng mô hình lõi ngữ nghĩa củahạngtừ (52)
    • 1.6. Kết luậnchương 1 (59)
    • 2.1. Vai trò của khung nhận thức trong bài toán trích rút tóm tắt bằng ngôn ngữdựa trên lý thuyếttậpmờ (60)
    • 2.2. Vấn đề nội dung thông tin của các câu tóm tắt bằngngônngữ (63)
    • 2.3. Khung nhận thức ngôn ngữ trong lý thuyết đại sốgiatử (66)
    • 2.4. Cấu trúc đa ngữ nghĩa và tính mở rộng đượccủaLFoC (68)
      • 2.4.1. Cấu trúc đa ngữ nghĩatrong LFoC (69)
      • 2.4.2. Mô hình bụi biểu diễn cấu trúc đa ngữ nghĩacủaLFoC (70)
      • 2.4.3. Tính mở rộng đượccủaLFoC (72)
    • 2.5. Xây dựng cấu trúc ngữ nghĩa tính toán giải nghĩa đượccủaLFoC (74)
      • 2.5.1. Thủ tục xây dựng ngữ nghĩa tính toánchoLFoC (74)
      • 2.5.2. Tính giải nghĩa được của ngữ nghĩa tính toán với cấu trúcđathể (0)
    • 2.6. Kết luậnchương 2 (86)
  • CHƯƠNG 3. PHƯƠNG PHÁP TRÍCH RÚT CÂU TÓM TẮT NGÔN NGỮ DỰATRÊN ĐẠI SỐGIATỬ (22)
    • 3.1. Cú pháp câu tóm tắt trong ngôn ngữtựnhiên (88)
    • 3.2. Phương pháp trích rút câu tóm tắt dựa trên lý thuyết Đại sốgiatử (89)
      • 3.2.1. Các thành phần chính trong phương phápđềxuất (90)
      • 3.2.2. Tính mở rộng được của phương phápđềxuất (93)
    • 3.3. Thựcnghiệm (94)
      • 3.3.1. Đánh giá thông tin của câutóm tắt (94)
      • 3.3.2. Mục tiêu thực hiệnthínghiệm (95)
      • 3.3.3. Cơ sở dữ liệu, cú pháp và ngữ nghĩa của cácthuộc tính (97)
      • 3.3.4. Thí nghiệm 1: Ưu điểm của LFoC có số lượng từ lớn và tính mở rộngđược (0)
      • 3.3.6. Thí nghiệm 3: Trích rút phân phối ngôn ngữ cho cácnhómmờ (108)
    • 3.4. Kết luậnchương 3 (112)
  • CHƯƠNG 4. TRÍCH RÚT TẬP CÂU TÓM TẮT TỐI ƯU SỬ DỤNG GIẢITHUẬT DI TRUYỀN KẾT HỢP CHIẾN LƯỢCTHAMLAM (23)
    • 4.1. Mối liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt có từlượnghóa (114)
      • 4.1.1. Liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt bằngngônngữ (115)
      • 4.1.2. Từ thuật toán khai phá luật kết hợp đến thuật toán trích rút tóm tắt111 4.2. Bài toán trích rút tập con câu tóm tắttốiưu (116)
    • 4.3. Giải thuật di truyền trích rút tập câu tóm tắttốiưu (120)
      • 4.3.1. Hàm đánh giá độthíchnghi (120)
      • 4.3.2. Các phép toán trong mô hình giải thuật di truyềnlaiHybrid-GA (122)
      • 4.3.3. Một số hạn chế trong mô hình giải thuật di truyền lai Hybrid-GA vàđịnh hướngkhắcphục (123)
    • 4.4. Đề xuất thủ tục sinh câu tóm tắt tốt dựa trên chiến lượcthamlam (124)
      • 4.4.1. Ý tưởng trích rút câu tóm tắt tốt và làm tăng độ đa dạng tập câu tómtắt (125)
      • 4.4.2. Ý tưởng sinh câu tóm tắt tốt dựa trên đánh giá lực lượng của nhómm ờ (126)
    • 4.5. Đề xuất mô hình giải thuật di truyền kết hợp chiến lược tham lam trích rúttập câu tóm tắttốiưu (129)
      • 4.5.1. Mã hóa cácđốitượng (129)
      • 4.5.2. Hàm đánh giá độthíchnghi (129)
      • 4.5.3. Mô hình giải thuật ditruyền Greedy-GA (130)
    • 4.6. Thựcnghiệm (132)
      • 4.6.1. Cơ sở dữ liệu và dạng câutómtắt (133)
      • 4.6.2. Khung nhận thức ngôn ngữ của các thuộc tính và từ lượnghóaQ (133)
      • 4.6.3. Tham số của giải thuậtditruyền (134)
      • 4.6.4. Kết quảthựcnghiệm (134)
    • 4.7. Kết luậnchương4 (136)

Nội dung

Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.

MỘT SỐ KIẾN THỨCCƠ SỞ

Một số kiến thức cơ bản vềtậpmờ

Lý thuyết tập mờ, được Zadeh giới thiệu vào năm 1965, nhằm giúp máy tính hiểu và xử lý tri thức từ ngôn ngữ tự nhiên Khái niệm tập mờ mở rộng từ tập cổ điển, trong đó mỗi tập cổ điển là một trường hợp riêng của tập mờ Trong khi tập cổ điển chỉ xác định một phần tử thuộc hoặc không thuộc tập, tập mờ cho phép bất kỳ phần tử nào có thể thuộc vào nó với mức độ thuộc được đo bằng giá trị trong khoảng [0, 1].

ChoUlà một tập hợp các điểm (đối tượng) và một tập con mờXtrên miền tham chiếuU Theo định nghĩa 1.1, một tập mờXtrênUlà tập hợp mà mỗi phần tử là cặp giá trị (x,  X (x)), trong đó x thuộc U và  X là ánh xạ.

Hàm thuộc (membership function) của tập mờ X, ký hiệu là μ_X: U → [0, 1], thể hiện mức độ thuộc của phần tử x vào tập mờ X Tập U được gọi là tập cơ sở của tập mờ X Giá trị μ_X(x) càng gần 1 thì mức độ thuộc của x vào X càng cao Khi μ_X(x) chỉ nhận giá trị 0 hoặc 1, tập X trở thành tập con rõ ràng của tập U, cho thấy rằng tập mờ là khái niệm mở rộng của tập rõ.

Khi xây dựng các tập mờ, giá trị hàm nằm trong khoảng [0,1] Trong lý thuyết tập mờ, các tập mờ phổ biến thường được sử dụng như hình dạng trong Hình 1.1 Những tập mờ này được gọi là các tập mờ chuẩn vì chúng có giá trị rõ ràng.

Hàm thuộc lớn nhất bằng 1, trong đó tập mờ tam giác và tập mờ hình thang là hai loại phổ biến nhất nhờ vào tính đơn giản và dễ hiểu cho người dùng.

(a) Tập mờtamgiác (b) Tập mờhìnhthang (c) Tập mờ hìnhchuôngHình 1.1: Ba kiểu tập mờ phổbiến

Theo Zadeh, biến ngôn ngữ là biến mà các giá trị của nó là từ hoặc câu trong ngôn ngữ tự nhiên hoặc nhân tạo Chẳng hạn, khi đánh giá lương của nhân viên tập sự, chúng ta có thể coi đây là biến ngôn ngữ mang tên LƯƠNG, với các giá trị như ‘rất thấp’, ‘thấp’, ‘trung bình’, ‘cao’, ‘rất cao’ Mỗi giá trị này sẽ được gán một hàm tương ứng, xác định một tập mờ trên miền giá trị số từ [0, 10] (đơn vị triệu đồng) của thuộc tính LƯƠNG.

Hình 1.2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của biến

Lương trong miền tham chiếu [0, 10] (đơn vị: triệu đồng) có thể được định nghĩa thông qua biến ngôn ngữ, cụ thể là một bộ năm thành phần (𝔛, T(𝔛), U, R, M) Trong đó, 𝔛 đại diện cho tên biến, T(𝔛) là tập hợp các giá trị ngôn ngữ của biến 𝔛, U là không gian tham chiếu, và mỗi giá trị ngôn ngữ được xem như một tập mờ trên U.

X là một quy tắc cú pháp sinh ra các giá trị ngôn ngữ cho tập T(𝔛), trong khi Mlà quy tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T(𝔛) tương ứng với một tập mờ trên U.

Phân hoạch mờ là khái niệm được sử dụng để mờ hóa các miền xác định của các biến ngôn ngữ Theo định nghĩa, một tập hợp các điểm cố định p1, p2, , pm thuộc tập U [a,b] ⊆ R là không gian tham chiếu của biến cơ sở u của biến ngôn ngữ 𝔛 Từ đó, ta có thể xây dựng một tập T gồm m tập mờ X1, X2, , Xm định nghĩa trên U với hàm thuộc tương ứng.

 ,  , ,  ) κđược κgọi κlà κmột κphân κhoạch κmờ κcủaUnếu các điều kiện sauthỏa

1)  X (p k )1(p k thuộc về phần được gọi là lõi củaX k);

4) (x) k đơnđiệutăngtrên p k1 ,p k  và đơn điệu giảm trên p k ,p k1  ;

Nếu phân hoạch mờ thỏa mãn thêm điều kiện 6) dưới đây thì được gọi là phân hoạch mờ mạnh.

Nếu phân hoạch mờ thỏa mãn thêm điều kiện 7), 8), 9) dưới đây thì được gọi là phân hoạch đều.

7) Vớikmthìh k =p k+1-p k là hằng số

Hàm thuộc đối xứng k(x) có cùng một dạng hình học, và phân hoạch mờ mạnh là một ví dụ điển hình cho khái niệm này Mỗi phân hoạch mờ, theo định nghĩa 1.3, được gọi là thể hạt (granularity) Nếu một phân hoạch mờ chỉ bao gồm một thể hạt, nó sẽ được gọi là phân hoạch mờ đơn thể hạt (single granularity).

1.3-(a), một phân hoạch mờ gồm nhiều thể hạt gọi là phân hoạch mờ đa thể hạt (multi κ granularity) như trongHình 1.3-(b).

Hình 1.3 Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt

Khung nhận thức dựa trên lý thuyếttậpmờ

Theo Mencar và Fanelli, mỗi khung nhận thức (Frame of Cognition - FoC) của một biến ngôn ngữ là tập hợp hữu hạn các tập mờ có thứ tự trên miền tham chiếu của biến đó, được gán nhãn ngôn ngữ bởi các hạng từ trong miền hạng từ của thuộc tính Trong mô hình lý thuyết tập mờ, mỗi FoC gán nhãn các tập mờ bằng các hạng từ ngôn ngữ, giúp con người mô tả các tính chất định tính của thuộc tính đối tượng trong tự nhiên Do đó, việc gán nhãn ngôn ngữ cho các tập mờ phải phản ánh đúng ngữ nghĩa của các nhãn này.

Theo các tác giả trong [61], khung nhận thức FoC được định nghĩa là một cấu trúc bao gồm 5 thành phần chính.

Trong hệ thống mờ được định nghĩa bởi bộ dữ liệu 〈𝑈, 𝔽, ≤, ℒ, 𝐴〉, 𝔽 bao gồm các tập mờ {𝑋₁, 𝑋₂, …, 𝑋ₙ}, trong đó mỗi 𝑋ᵢ đại diện cho các tập mờ có thứ tự trên miền tham chiếu U của thuộc tính A Quan hệ thứ tự ≤ giữa các tập mờ được xác định sao cho nếu 𝑖 ≤ 𝑗 thì 𝑋ᵢ ≤ 𝑋ⱼ Ngoài ra, ℒ là tập hợp các nhãn ngôn ngữ trong miền hạng từ của biến ngôn ngữ hoặc thuộc tính A, tương ứng với các tập mờ trong 𝔽.

Quan hệ thứ tự giữa hai tập mờ𝑋 𝑖 ≤𝑋 𝑗 phản ánh thứ tự giá trị hàm thuộc của chúng như trong khẳng địnhsau:

Trong nghiên cứu về trích rút tóm tắt bệnh nhân, các hạng từ ngôn ngữ trong mỗi miền hạng từ của các thuộc tính có thứ tự được xác định dựa trên ngữ nghĩa vốn có Cụ thể, nếu 𝑥 ≤ 𝑡 thì 𝜇 𝑋 𝑖 (𝑥) sẽ lớn hơn hoặc bằng 𝜇 𝑋 𝑗 (𝑥), và nếu 𝑥 ≥ 𝑡 thì 𝜇 𝑋 𝑖 (𝑥) sẽ nhỏ hơn hoặc bằng 𝜇 𝑋 𝑗 (𝑥).

Các tác giả đã lựa chọn năm hạng từ cho thuộc tính "nhịp tim" với thứ tự ngữ nghĩa tăng dần là 'rất thấp', 'thấp', 'trung bình', 'cao', và 'rất cao' Các tập mờ biểu diễn ngữ nghĩa cho năm hạng từ này cũng có thứ tự tăng dần tương ứng.

Các từ lượng hóa như 'rất ít', 'ít', 'một nửa', 'hầu hết', và 'gần như tất cả' được biểu diễn qua các tập mờ, tạo thành phân hoạch mạnh cho miền tham chiếu số của thuộc tính tương ứng.

Hình 1.4: Ví dụ về các tập mờ trên miền tham chiếu số

1.2.2 Cácràng buộc về tính giải nghĩa được

Trong khung nhận thức sử dụng tập mờ, chỉ có một điều kiện ràng buộc về thứ tự của các tập mờ và thứ tự ngữ nghĩa của các hạng từ Các hạng từ chỉ được coi là nhãn ngôn ngữ của các tập mờ, và việc gán nhãn bằng các chuỗi ký tự vô nghĩa như A11, κA12 sẽ gây khó hiểu cho người sử dụng Nếu gán nhãn bằng từ có nghĩa nhưng không đảm bảo các quan hệ ngữ nghĩa, điều này có thể dẫn đến nhầm lẫn trong việc giải nghĩa các hạng từ Ví dụ, trong Hình 1.5, ba tập mờ trong khung nhận thức cho thấy ngữ nghĩa gán cho tập mờ ở giữa và bên phải không phản ánh đúng ngữ nghĩa của các hạng từ ‘high’ và ‘medium’.

Trong ngôn ngữ tự nhiên, từ "medium" có nghĩa là thấp hơn hoặc bằng "high", nhưng thực tế chúng lại được phân loại vào hai tập mờ với thứ tự ngược lại.

Hình 1.5: Khung nhận thức ngôn ngữ gồm 3 tập mờ và gán nhãn ngữ nghĩa không đúng về thứ tự ngữ nghĩa

Từ đó, khi xem xét tính giải nghĩa của khung nhận thức FoC, các tác giả trong

Các ràng buộc về hình dạng của tập mờ được xác định thông qua việc gán nhãn ngôn ngữ và số lượng tập mờ, trong đó có năm tập mờ được minh họa trong Hình 1.6 trên miền tham chiếu [0, 1] Các tập mờ này là tập mờ chuẩn với giá trị lớn nhất của hàm thuộc bằng 1, hàm thuộc lồi và liên tục Khi được gán nhãn bằng các hạng từ như ‘very few’, ‘few’, ‘a half’, ‘most’, ‘almost all’, chúng đảm bảo ràng buộc về thứ tự ngữ nghĩa Số lượng năm tập mờ thỏa mãn điều kiện 7±2, và vị trí của chúng đảm bảo sự phân biệt, bao phủ toàn bộ miền tham chiếu [0, 1], bao gồm cả hai đầu mút 0 và 1 Các tập mờ này cũng đáp ứng các điều kiện 6, 7, 8, 9 trong Định nghĩa 1.3, do đó tạo thành một phân hoạch mạnh đều trên miền tham chiếu [0, 1].

Hình 1.6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt

Dữ liệu thô Lựa chọn dữ liệu

Tri thức Đánh giá/ diễn giải

Tổng quan về trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyếttậpmờ

1.3.1 Bàitoán trích rút tóm tắt bằng ngôn ngữ là một nhánh trong lĩnh vực khaiphá dữliệu

Cuộc cách mạng kỹ thuật số và sự phát triển của phần cứng, phần mềm đã giúp chúng ta dễ dàng số hóa dữ liệu và lưu trữ khối lượng thông tin khổng lồ Những kho dữ liệu này chứa đựng nhiều thông tin và tri thức quý giá Vì vậy, ngày càng nhiều nhà nghiên cứu đang phát triển các phương pháp phân tích dữ liệu tự động để trích xuất tri thức hữu ích, hỗ trợ con người trong việc định hướng hành động thực tế.

Mitra và cộng sự đã định nghĩa thuật ngữ khai phá tri thức từ cơ sở dữ liệu (KDD) như là quá trình chuyển hóa dữ liệu thô thành tri thức cao cấp Quá trình KDD bao gồm các bước: chọn lọc dữ liệu, tiền xử lý dữ liệu, chuyển đổi dữ liệu, khai phá dữ liệu, đánh giá và diễn giải Trong đó, khai phá dữ liệu đóng vai trò quan trọng nhất, ảnh hưởng đến các bước khác trong quy trình KDD.

Khai phá dữ liệu là một lĩnh vực nghiên cứu đa dạng, tập trung vào việc dự đoán kết quả và phát hiện các mối quan hệ quan trọng trong tập dữ liệu Quá trình này sử dụng các công cụ tự động và thuật toán thông minh để nhận diện các mẫu ẩn, mối liên kết, sự bất thường và cấu trúc từ khối lượng lớn dữ liệu lưu trữ trong các kho dữ liệu.

Dữ liệu được lựa chọn Dữ liệu đã được xử lý

Dữ liệu đã chuyển đổi

Hình 1.7: Quá trình khai phá tri thức từ cơ sở dữ liệu

Có nhiều phương pháp nghiên cứu để giải quyết các bài toán khai phá dữ liệu, bao gồm học máy, mạng nơ-ron và tính toán mềm Trong số đó, tính toán mềm là một phương pháp quan trọng.

Chuyển tiền đổi xử lý dựa trên lý thuyết tập mờ đã chứng minh tính hiệu quả cao trong việc giải quyết các bài toán thực tế Nghiên cứu cho thấy lý thuyết tập mờ mang lại nhiều kết quả ý nghĩa, đặc biệt trong lĩnh vực khai phá dữ liệu.

Một nhánh quan trọng trong khai phá dữ liệu là trích rút tri thức từ kho dữ liệu bằng ngôn ngữ tự nhiên, với bài toán điển hình là trích rút tóm tắt bằng ngôn ngữ từ dữ liệu, được Yager đưa ra vào năm 1982 Nghiên cứu này đã thu hút sự quan tâm từ nhiều nhóm nghiên cứu khác, như Kacprzyk và cộng sự, nghiên cứu trích rút câu tóm tắt từ cơ sở dữ liệu, coi đây là một công cụ khai phá dữ liệu dựa trên lý thuyết tập mờ Các nhóm như Wilbik, Castillo và các cộng sự cũng đã đóng góp vào lĩnh vực này, phát triển cả lý thuyết và ứng dụng trong trích rút tóm tắt.

G Moyse và cộng sự [23, 24]; R J Almeida và cộng sự [42] đã thực hiện các nghiên cứu trích rút tóm tắt bằng ngôn ngữ từ các dữ liệu dạng chuỗi thời gian và ứng dụng trong một số vấn đề của y tế, quản lý Một số nghiên cứu gần đây về ứng dụng của trích rút tóm tắt bằng ngôn ngữ vẫn chứng tỏ khả năng ứng dụng lớn và mang lại hiệu quả cao trong các vấn đề thực tế đặt ra Gilsing và cộng sự trong [64] sử dụng các câu tóm tắt để đánh giá mô hình kinh doanh Bartczak và cộng sự trong [65] trích rút các câu mô tả mối quanhệgiữacáckháchhàngtừcơsởdữliệudạngđồthị.Durajvàcộngsựtrong

Việc sử dụng các câu tóm tắt với từ lượng hóa như ‘very few’ và ‘few’ giúp xác định thông tin ngoại lai từ cơ sở dữ liệu Jain và cộng sự đã trích rút câu tóm tắt từ dữ liệu thu được bởi cảm biến tại gia đình nhằm hỗ trợ chăm sóc người già Hai ứng dụng hiệu quả trong lĩnh vực y tế bao gồm phân tích tuân thủ quy trình lâm sàng kiểm soát lượng glucose và theo dõi nhịp tim của bệnh nhân qua dữ liệu từ thiết bị đeo trên tay Kết quả nghiên cứu cho thấy trích rút tóm tắt bằng ngôn ngữ là một bài toán trong khai phá tri thức, có ứng dụng trong các hệ thống hỗ trợ ra quyết định và các hệ thống thông minh khác.

Trong luận án này, tác giả tập trung nghiên cứu về bài toán trích rút câu tóm tắt bằng ngôn ngữ như sau:

 Dữ κliệu κvào κcủa κbài κtoán: tập dữ liệu đầu vào là các bản ghi trong cơ sở dữ liệuquanhệ,cáctrườngcóthểlàgiátrịphisố(nhưgiớitính,nghềnghiệp,

Dữ liệu định tính và định lượng, như lương và tuổi, dễ dàng thu thập và lưu trữ, trở thành dạng dữ liệu phổ biến trong quản lý hàng ngày Người sử dụng, bao gồm nhà quản lý, doanh nhân và nhân viên y tế, luôn cần trích xuất tri thức ẩn trong kho dữ liệu này để điều chỉnh hành vi và hỗ trợ quyết định hợp lý.

 Đầu κ ra κcủa κ bài κtoán: các câu tóm tắt diễn đạt bằng ngôn ngữ tự nhiên

Linguistic summaries (LS) là những tri thức rút ra từ tập dữ liệu, được thể hiện dưới dạng các câu tóm tắt ngắn gọn và súc tích Những câu này dễ dàng được hiểu và sử dụng bởi mọi đối tượng người dùng nhờ vào việc sử dụng ngôn ngữ tự nhiên, phương tiện giao tiếp hàng ngày Hơn nữa, chúng có thể được phát thanh tự động thông qua các công cụ đọc văn bản, giúp cung cấp thông tin nhanh chóng và dễ dàng Để trích rút câu tóm tắt, cần xác định cấu trúc cú pháp của câu Ví dụ, một câu tóm tắt có thể là “Hầu hết công nhân trẻ có mức lương khá thấp”, trong đó các thông tin về tuổi và lương được lưu trữ dưới dạng số trong cơ sở dữ liệu Các hạng từ như ‘trẻ’ và ‘khá thấp’ mô tả tuổi và lương, trong khi từ lượng hóa ‘hầu hết’ thể hiện định lượng trong mối quan hệ giữa tuổi và lương của công nhân.

Lý thuyết tập mờ cung cấp phương pháp phát triển các phương pháp trích rút câu tóm tắt bằng ngôn ngữ tự nhiên (LSMd) từ dữ liệu số Các phương pháp LSMd dựa trên lý thuyết tập mờ phân hoạch miền tham chiếu số của thuộc tính trong cơ sở dữ liệu bằng các tập mờ, với mỗi tập mờ được gán nhãn là một từ ngôn ngữ tương ứng Hàm thuộc của các tập mờ và giá trị thuộc tính trong cơ sở dữ liệu được sử dụng để đánh giá chất lượng câu tóm tắt Từ các đánh giá này, tập hợp các câu tóm tắt chất lượng cao được coi là tri thức ngôn ngữ trích rút từ cơ sở dữ liệu.

1.3.2 Dạng câu tóm tắt có từ lượng hóa ngôn ngữ và ứngdụng

Trong bài toán trích rút câu tóm tắt từ dữ liệu, việc xác định cấu trúc câu tóm tắt là cần thiết để xây dựng thuật toán quét dữ liệu và tạo ra các câu tóm tắt theo cấu trúc đã chọn Luận án này trình bày về cấu trúc câu tóm tắt chứa từ lượng hóa được trích rút từ cơ sở dữ liệu quan hệ, theo hướng nghiên cứu của Yager Mẫu câu này đã được áp dụng trong nhiều nghiên cứu khác như của nhóm Kacpryzk và nhóm Wilbik.

Có nhiều dạng cấu trúc được sử dụng trong nghiên cứu, bao gồm luật IF-THEN, câu mô tả xu hướng cho chuỗi thời gian và câu có định lượng thời gian Những cấu trúc này giúp làm rõ các mối quan hệ và xu hướng trong dữ liệu nghiên cứu.

1.3.2.1 Cấu κtrúc κcâu κtóm κtắt κcó κtừ κlượng κhóa κngônngữ

Tập hợp ChoY = {y1, κy2, κ…, κyn} đại diện cho các đối tượng trong cơ sở dữ liệu, chẳng hạn như danh sách khách hàng của một ngân hàng Tập thuộc tính A = {A1, κA2, …, Am} bao gồm các yếu tố cần xem xét của các đối tượng trong tập Y, như tuổi tác, trình độ học vấn và tình trạng hôn nhân Ký hiệu Ai(yj) thể hiện giá trị thuộc tính Ai của đối tượng yj Cơ sở dữ liệu được cấu trúc bởi tập D = {{A1(y1), A2(y1), …, Am(y1)}, …, {A1(yn), A2(yn), …, Am(yn)}}.

Mỗi câu tóm tắt là một câu trong ngôn ngữ tự nhiên theo cấu trúc cú pháp tổng quát của các câu chứa từ lượng hóa như sau:

Trong đó: n salesof componentsis with a lowcommission yS low clothes expense have high trainee salary expense

FS o Kết κluận(summarizer) S là một đánh giá diễn đạt bằng một từ trong miền hạng từ (word-domain) của biến ngôn ngữ tương ứng với một thuộc tính.

Từ khóa lượng (quantifier) Q là một thuật ngữ thể hiện tỷ lệ các bản ghi thỏa mãn kết luận mạnh trong toàn bộ cơ sở dữ liệu, như trong dạng (1.2) hoặc trong nhóm mờ F theo dạng (1.3) Ví dụ, các từ như ‘rất ít’, ‘một nửa’, và ‘hầu hết’ là những từ khóa lượng Giá trị đúng đắn (validity hoặc truth) T là giá trị nằm trong khoảng [0, 1] để đánh giá mức độ chính xác của câu tóm tắt, và T được coi là giá trị chân lý của mệnh đề mờ có từ lượng hóa theo cấu trúc trong (1.2) và (1.3) Điều kiện lọc F (qualifier) là tùy chọn để xác định một nhóm con các đối tượng trong tập Y được xem xét trong câu tóm tắt, ví dụ như TUỔI = ‘trẻ’ chỉ xét các đối tượng trong nhóm tuổi ‘trẻ’.

Trích rút tập câu tóm tắt tối ưu từ cơ sởdữliệu

Mức 5 trongBảng 1.3đã chỉ ra việc trích rút các câu tóm tắt lúc này tương đương với việc tìm kiếm các luật mờ Số lượng các câu tóm tắt được trích rút từ tập dữ liệu là rất lớn Người dùng không thể đọc hết số lượng hàng nghìn, hàng triệu câu tóm tắt Hơn nữa, trong đó sẽ có những câu tóm tắt có các thành phần tương tự nhau Do đó đặt ra bài toán tìm kiếm một tập câu tóm tắt tối ưu với số lượng câu được giới hạn nhưng vẫn đưa ra được thông tin hữu ích đối với người dùng Trong phần này, luận án tóm lược một số kết quả của các nghiên cứu áp dụng giải thuật di truyền để trích rút tập câu tóm tắt tối ưu.

1.4.1 Giải thuật di truyền giải bài toán trích rút tập tómtắt

Giải thuật di truyền là một phương pháp tối ưu hóa dựa trên nguyên lý tiến hóa tự nhiên, bắt đầu bằng việc khởi tạo một quần thể cá thể, mỗi cá thể được xác định bởi các gen và được đánh giá qua hàm thích nghi Quá trình tiến hóa diễn ra thông qua các toán tử di truyền như chọn lọc, lai ghép và đột biến, từ thế hệ này sang thế hệ khác Khi đạt được điều kiện dừng, cá thể tốt nhất trong quần thể cuối cùng sẽ được xem là nghiệm của bài toán Để đạt được hiệu quả tối ưu, việc xác định chính xác các yếu tố như mã hóa, khởi tạo quần thể, hàm thích nghi và các toán tử di truyền là rất quan trọng, cùng với việc lựa chọn đúng đắn các tham số như số lần lặp, tỷ lệ đột biến và tiêu chuẩn chọn lọc.

Theo phân loại của Kacpryzk và Zadrożny, bài toán trích rút tóm tắt bằng ngôn ngữ ở mức tổng quát nhất chỉ xác định cấu trúc câu mà chưa xác định các thành phần F, S, Q Mức độ này yêu cầu khối lượng tính toán lớn và có khả năng trích rút từ cơ sở dữ liệu với số lượng lớn câu tóm tắt theo mẫu câu chứa từ lượng hóa với ba thành phần F.

S, κQ Do đó, giải thuật di truyền được áp dụng để tìm kiếm một tập con tối ưu các câu tóm tắt từ không gian lớn chứa tất cả các câu tóm tắt Tiêu chuẩn lựa chọn tập câu tối ưu được người dùng xác định bằng công thức tính hàm thích nghi dựa trên các tiêu chí đánh giá khác nhau Tuy nhiên, các nghiên cứu sử dụng giải thuật di truyền trong bài toán trích rút tóm tắt vẫn còn rất hạn chế Một số công bố điển hình như: các tác giảKacprzyk và cộng sự [49] mong muốn tìm các câutómtắtvềxuhướngtrongdữliệuchuỗithờigian;Castillo-Ortegavàcộngsự

Trong một nghiên cứu, các tác giả đã trích rút các câu tóm tắt mô tả dữ liệu về số lượng bệnh nhân nhập viện trong một năm tại trung tâm y tế Donis-Díaz và cộng sự đã thực hiện việc trích rút các câu tóm tắt tối ưu từ cơ sở dữ liệu luyện thép Đồng thời, Altıntop và cộng sự đề xuất một mô hình giải thuật di truyền để áp dụng trích rút các câu tóm tắt chất lượng từ dữ liệu cho các cơ sở khám chữa bệnh tại Thổ Nhĩ Kỳ.

1.4.2 Cácyếu tố trong mô hình giải thuật di truyền trích rút tập câu tómtắt

Mã hóa trong mô hình giải thuật di truyền có nhiều khác biệt, với các nghiên cứu như của Kacprzyk và cộng sự [49], Altıntop và cộng sự [41] biểu diễn mỗi câu tóm tắt là một cá thể Trong khi đó, Castillo-Ortega và cộng sự [18], Donis-Díaz và cộng sự [38, 39] lại coi mỗi cá thể là một tập hợp các câu tóm tắt, trong đó mỗi gen đại diện cho một câu tóm tắt Các tiêu chí đánh giá phương án tối ưu cũng khác nhau; nghiên cứu [41], [49] chỉ tập trung vào độ đo đúng đắn nhằm đạt được các câu tóm tắt có giá trị cao, trong khi Castillo-Ortega và cộng sự [18] kết hợp giá trị đúng đắn và độ chính xác từ lượng hóa Donis-Díaz và cộng sự [38, 39] đánh giá tập câu tóm tắt tối ưu dựa trên sự kết hợp trọng số giữa độ tốt và độ đa dạng của các câu tóm tắt.

Ngoài ba toán tử di truyền cơ bản là lai ghép, chọn lọc và đột biến, các nghiên cứu gần đây đã đề xuất thêm các phép toán mở rộng để cải thiện các mô hình giải thuật di truyền Donis-Díaz và cộng sự đã giới thiệu hai phép toán mới, đó là cleaning và improver Phép toán cleaning có mục đích loại bỏ những câu tóm tắt không chính xác, trong khi phép toán improver nhằm cải tiến câu tóm tắt bằng cách áp dụng chiến lược tìm kiếm lân cận, thay thế ngẫu nhiên một thuộc tính hoặc hạng từ trong câu tóm tắt.

Các tham số trong nghiên cứu được xác định dựa trên kinh nghiệm và thực nghiệm nhằm tối ưu hóa kết quả Castillo-Ortega và cộng sự đã chọn 200 cá thể, 200 lần lặp, tỷ lệ lai ghép 0.5 và tỷ lệ đột biến 0.05 Trong khi đó, Donis-Díaz và cộng sự đã sử dụng tỷ lệ lai ghép 0.9 và tỷ lệ đột biến 0.05 Kacprzyk và cộng sự không chỉ định tham số nào cho giải thuật di truyền Nghiên cứu của Altıntop và cộng sự cho thấy số lần lặp và kích thước quần thể không ảnh hưởng đến tỷ lệ thành công của giải thuật, cho phép chọn số lần lặp tối thiểu để tiết kiệm thời gian tính toán Tỷ lệ đột biến nên nằm trong khoảng 0.01 đến 0.05, trong khi tỷ lệ chọn lọc tinh hoa nên từ 3% đến 10%.

Các nghiên cứu về việc áp dụng giải thuật di truyền trong trích rút tóm tắt ngôn ngữ dựa trên lý thuyết tập mờ tuy không phong phú, nhưng đã thể hiện sự đa dạng Việc lựa chọn phương pháp mã hóa, các điều kiện ràng buộc và hàm thích nghi phụ thuộc vào đặc điểm của dữ liệu, như chuỗi thời gian hay cơ sở dữ liệu, cùng với mong muốn của người sử dụng.

Lý thuyết đại sốgiatử

Lý thuyết Đại số gia tử (Hedge Algebra - HA) được Nguyễn Cát Hồ và W Wechler đề xuất từ năm 1990, nghiên cứu cấu trúc ngữ nghĩa của miền hạng từ của các biến ngôn ngữ dựa trên ngữ nghĩa vốn có của hạng từ trong ngôn ngữ tự nhiên Phần này của luận án trình bày các khái niệm, ký hiệu, cũng như ngữ nghĩa định tính và định lượng trong Đại số gia tử cơ bản và mở rộng.

Người sử dụng có thể xem xét các thuộc tính của cơ sở dữ liệu qua hai miền giá trị khác nhau: miền số U A, nơi A được coi là biến số, và miền hạng từ ngôn ngữ LD A, nơi A được coi là biến ngôn ngữ Hai miền này tồn tại song song và có mối quan hệ chặt chẽ với nhau; khi U A chứa cấu trúc toán học, LD A cũng sẽ có cấu trúc tương tự Lý thuyết ĐSGT nghiên cứu cấu trúc đại số dựa trên quan hệ thứ tự ngữ nghĩa của các hạng từ trong LD A Phần này của luận án sẽ trình bày các khái niệm, công thức hình thức hóa và các tính chất ngữ nghĩa của cấu trúc ĐSGT trên miền hạng từ LD A của biến ngôn ngữ A.

Lý thuyết ĐSGT, lần đầu được giới thiệu trong các nghiên cứu trước đây, đã được phát triển để mô hình hóa cấu trúc dựa trên quan hệ thứ nghĩa ngữ nghĩa của miền hạng từ các biến ngôn ngữ Cụ thể, trong miền hạng từ của biến AGE, tồn tại quan hệ thứ tự ngữ nghĩa như ‘very κyoung’ ≤ ‘young’ ≤ ‘middle’ ≤ ‘little κold’ ≤ ‘old’.

Lý thuyết ĐSGT được phát triển dựa trên phương pháp tiên đề, khai thác tính chất ngữ nghĩa của các hạng từ và gia tử ngôn ngữ trong thế giới thực Lý thuyết định lượng ngữ nghĩa trong ĐSGT cũng được xây dựng theo phương pháp này, tạo ra cơ sở hình thức hóa mạnh mẽ để tính toán các đại lượng định lượng ngữ nghĩa như khoảng tính mờ, độ đo mờ và giá trị định lượng ngữ nghĩa Từ các giá trị này, có thể xây dựng thủ tục sản sinh ngữ nghĩa dựa trên tập mờ của các hạng từ, nhằm giải quyết các bài toán thực tiễn Đặc biệt, lý thuyết ĐSGT đã đạt được nhiều kết quả khả quan khi áp dụng vào các lĩnh vực như điều khiển mờ, phân lớp mờ và hồi quy mờ.

77], dự báo chuỗi thời gian [78-80], robotics [81-83],…

1.5.1 Cấu trúc đại số cho miền giá trị của biến ngônngữ

1.5.1.1 Cấu κtrúc κđại κsố κdựa κtrên κquan κhệ κthứ κtự κngữnghĩa

Khi phân tích thứ tự ngữ nghĩa trong hạng từ của miền LD A của biến ngôn ngữ A, LD A được xem như một cấu trúc đại số ký hiệu là A A = (X, G, C, H, ≤) Trong đó, X đại diện cho miền hạng từ của biến ngôn ngữ A, G chứa các phần tử sinh và hạng từ nguyên tử, C là tập hợp các hằng ngôn ngữ với 0 là hạng từ nhỏ nhất và 1 là hạng từ lớn nhất, trong khi W tương ứng với hạng từ trung bình H là tập hợp các gia tử ngôn ngữ và ≤ biểu thị quan hệ thứ tự ngữ nghĩa trong X Các hạng từ trong cấu trúc A A có dạng h n ,…, κh 1 c, với c thuộc {c−, c+} và h j thuộc H, j = 1, …, n.

Ví dụ về miền hạng từ của biến ngôn ngữ AGE trong ngôn ngữ tự nhiên tạo thành một cấu trúc đại số với các thành phần chính Trong đó, G = {‘young’, ‘old’} với ‘young’ là phần tử sinh âm và ‘old’ là phần tử sinh dương, tạo nên hai phần tử sinh trong cấu trúc đại số A AGE Tập hợp các gia tử ngôn ngữ H có thể bao gồm các từ như ‘very’ (V) và ‘more’ (M).

Các gia tử ngôn ngữ như ‘extremely’ (E), ‘rather’ (R) và ‘little’ (L) có khả năng thay đổi ngữ nghĩa của hạng từ, tạo ra những hạng từ mới có thể so sánh với hạng từ ban đầu Ví dụ, ‘very κold’ có thứ tự ngữ nghĩa lớn hơn hoặc bằng ‘old’, trong khi ‘little κold’ có thứ tự nhỏ hơn hoặc bằng ‘old’ Tồn tại mối quan hệ thứ tự ≤ trong việc sản sinh ngữ nghĩa của các hạng từ, như ‘young’ ≤ ‘old’ ≤ ‘very κold’ hoặc ‘rather κvery κold’ ≥ ‘old’ Quan hệ này được gọi là quan hệ thứ tự ngữ nghĩa Một số hạng từ như ‘absolutely κyoung’, ‘middle κage’, ‘absolutely κold’ không bị ảnh hưởng bởi gia tử ngôn ngữ và được xem là các hằng ngôn ngữ trong hệ thống, ký hiệu là 0, W và 1, với thứ tự ngữ nghĩa giữa chúng luôn là 0 ≤ W ≤ 1.

1.5.1.2 Tính κchất κngữ κnghĩa κcủa κcấu κtrúc κdựa κtrên κquan κhệ κthứtự a) Dấu κđại κsố κcủa κgia κtử κvà κcác κhạng κtừ κcủaA A.

Các hạng từ nguyên thủy có xu hướng ngữ nghĩa khác nhau, được xác định bởi Vc ≤ cc nhưng c + ≤ Vc + Ví dụ, 'very young' có nghĩa là 'young', trong khi 'old' có nghĩa là 'very old' Vì vậy, với mọi biến ngôn ngữ A, dấu của hai hạng từ nguyên thủy được xác định là sign(c −) = −1 và sign(c +) = +1 Đối với giá trị 'rather', ta có 'rather young'.

Trong ngữ cảnh so sánh, từ "young" được đối lập với "rather cold" và "old" Qua việc sử dụng các gia tử, ta nhận thấy rằng "rather" đóng vai trò như một gia tử âm, ảnh hưởng đến ý nghĩa của từ gốc.

Trong bài viết này, chúng ta xem xét các gia tử trong ngôn ngữ, trong đó 'very' được coi là gia tử dương với ký hiệu V = +1 Tập hợp các gia tử âm được ký hiệu là H−, trong khi H+ đại diện cho các gia tử dương Cụ thể, trong ví dụ về biến ngôn ngữ AGE, ta có H+ = {M, V, E} và H− = {RR, L} Bên cạnh đó, chúng ta cũng sẽ phân tích mối quan hệ giữa các gia tử và dấu của hạng từ.

Ngữ nghĩa của các từ trong một gia tửh có thể bị ảnh hưởng bởi thứ tự của chúng, dẫn đến sự thay đổi xu hướng ngữ nghĩa của hạng từ x Sự tác động này có thể theo cùng xu hướng (dương) hoặc đảo ngược xu hướng (âm) Nếu hai từ cùng xu hướng, dấu của h’ đối với h là dương, ký hiệu là sign(h’, κh) = +1 Ngược lại, nếu hai từ ngược xu hướng, dấu của h’ đối với h là âm, ký hiệu là sign(h’, κh) = -1 Ví dụ, với h’ = ‘extremely’ (E) và h = ‘very’ (V), ta có sign(E, V) = +1 vì chúng cùng mang ý nghĩa tích cực.

≥‘V_young’≥‘EV_young’,sign(R,V)=1vì‘young’≥‘RV_young’≥‘V_young’.

VớiH + = {M,V,E} vàH  = κ{RR,L}, bảng dấu giữa các gia tử dựa trên xu hướng thay đổi ngữ nghĩa trong ngôn ngữ tự nhiên được cho như trongBảng1.4.

Bảng 1.4: Quan hệ dấu giữa một gia tử trên dòng với gia tử trên cột sign(k, κh) E V M R L

Với mọi hạng từ x thuộc tập X có dạng x = h_n … h_1 c, với c thuộc G, dấu của x được xác định bởi công thức sign(x) = sign(h_n, h_{n-1}) … sign(h_2, h_1) sign(h_1) sign(c) thuộc {-1, +1} Ý nghĩa của dấu hạng từ được thể hiện qua hai điều kiện: sign(h_x) = -1 khi h_x ≤ x và sign(h_x) = +1 khi h_x ≥ x Cấu trúc ngữ nghĩa của miền hạng từ cũng được xem xét trong bối cảnh này.

Các gia tử là những phần tử có khả năng thay đổi ngữ nghĩa của từ mà chúng tác động Đối với mỗi phần tử x thuộc tập X, tập H(x) bao gồm tất cả các từ được sản sinh từ hạng từ x khi áp dụng các gia tử trong tập H Nhờ vào vai trò ngữ nghĩa của các gia tử, hạng từ σx vẫn giữ được ngữ nghĩa vốn có của hạng từ x, do đó tập H(x) được xem như một mô hình mờ về ngữ nghĩa của x Các gia tử đóng vai trò quan trọng trong việc hình thành cấu trúc ngữ nghĩa của miền hạng từ trong các biến ngôn ngữ, và cấu trúc này rất phong phú với nhiều tính chất liên quan đến các gia tử.

H(x) =H(Lx)H(Rx){x}H(Mx)H(Vx) (1.10) sign(Vx) = +1H(Lx) ≤H(Rx) ≤ {x} ≤H(Mx)≤H(Vx) (1.11) sign(Vx) =1H(Vx) ≤H(Mx) ≤ {x} ≤H(Rx)≤H(Lx) (1.12)

Trong cú pháp ngữ nghĩa của miền hạng từ ngôn ngữ, ký hiệuX k = {x∈X: |x|

=k}, tức là tậpX k gồm các tất cả các hạng từ trongXở mức tính riêngk Ta có đẳngthức sau đây:

1.5.1.3 Định κlượng κngữ κnghĩa κtrong κĐại κsố κgiatử a) Ánh κxạ κđịnh κlượng κngữnghĩa

Trong miền ngôn ngữ của biến ngôn ngữ A, các hạng từ được sắp xếp theo thứ tự dựa trên ngữ nghĩa vốn có, với giá trị định lượng ngữ nghĩa trong khoảng [0, 1] cần duy trì quan hệ thứ tự giữa các hạng từ Định nghĩa ánh xạ định lượng ngữ nghĩa (SQM) là một ánh xạ f:X[0, 1], gán mỗi hạng từ trong X một giá trị trong khoảng này, với điều kiện f là ánh xạ một – một và f(X) trù mật trong [0, 1].

Được xấp xỉ với ngữ nghĩa số của một hạng từ trong tập X, với mức độ mờ chotrước Đồng thời, bảo toàn thứ tự ngữ nghĩa trong X, tức là nếu x, y thuộc X và x ≤ y thì f(x) ≤ f(y).

Kết luậnchương 1

Chương này trình bày kiến thức liên quan đến việc giải bài toán trích rút tóm tắt ngôn ngữ từ cơ sở dữ liệu dựa trên lý thuyết tập mờ Phương pháp trích rút tóm tắt bằng ngôn ngữ (LSMd) được xem là công cụ khai phá tri thức từ dữ liệu Cấu trúc câu tóm tắt chứa từ lượng hóa có ứng dụng hiệu quả trong thực tiễn Trong LSMd, phân hoạch mờ miền tham chiếu bởi các tập mờ đóng vai trò quyết định đến tập câu tóm tắt và tri thức truyền tải qua nội dung thông tin Luận án sẽ giải quyết một số vấn đề hạn chế trong LSMd dựa trên lý thuyết tập mờ, thông qua phương pháp luận của lý thuyết ĐSGT Cuối chương, các kiến thức cơ bản về lý thuyết ĐSGT được trình bày.

Chương 1 cung cấp các kiến thức cơ sở cần thiết cho việc đề xuất một phương pháp mới trong việc giải quyết bài toán trích rút tóm tắt bằng ngôn ngữ, dựa trên lý thuyết ĐSGT.

CHƯƠNG 2 VẤN ĐỀ NỘI DUNG THÔNG TIN CÂU TÓM TẮT VÀ BIỂU

Diễn tập mờ của miền ngôn ngữ thuộc tính liên quan đến việc trích rút tóm tắt từ dữ liệu, tạo ra các câu diễn đạt tự nhiên dựa trên mẫu câu đã chọn Người dùng hiểu nội dung tóm tắt thông qua ngữ nghĩa của các hạng từ do cộng đồng gán Các hạng từ trong câu tóm tắt được chọn dựa trên các hàm thuộc của các tập mờ, phản ánh ngữ nghĩa của chúng Để đảm bảo tính chính xác trong việc gán hạng từ ngôn ngữ cho các tập mờ, cần có một phương pháp luận vững chắc, giúp người dùng nhận được thông tin chính xác từ câu tóm tắt Chương này trình bày vấn đề nội dung thông tin của câu tóm tắt và cơ sở phương pháp luận dựa trên khái niệm giải nghĩa trong logic của Tarski Tác giả cũng đề xuất thủ tục HA-TFS-MG để xây dựng các tập mờ hình thang từ bộ tham số định lượng của cấu trúc ĐSGT, đảm bảo bảo toàn các quan hệ ngữ nghĩa của từ và khả năng mở rộng tương thích với tập hạng từ ngôn ngữ.

Vai trò của khung nhận thức trong bài toán trích rút tóm tắt bằng ngôn ngữdựa trên lý thuyếttậpmờ

Phương pháp trích rút tri thức ngôn ngữ dựa trên lý thuyết tập mờ đã được phát triển và chứng minh hiệu quả trong khai phá dữ liệu, giúp máy tính biểu diễn và lập luận dựa trên tri thức Để đánh giá hiệu quả của các phương pháp này, cần dựa vào các tiêu chí và độ đo định lượng phù hợp với từng mục tiêu khi áp dụng vào giải quyết các bài toán cụ thể.

Bài viết xem xét hai bài toán phân lớp và hồi quy thông qua phương pháp hệ suy diễn dựa trên luật mờ Việc xác định khung nhận thức (Frame of Cognition - FoC) bằng cách sử dụng các tập mờ và gán nhãn ngôn ngữ cho chúng là rất quan trọng cho các miền tham chiếu số của thuộc tính trong cơ sở dữ liệu Các nhãn ngôn ngữ này đóng vai trò then chốt trong việc xây dựng các luật mờ.

Các luật mờ được áp dụng trong hệ suy diễn nhằm thực hiện phân lớp và lập luận, với hiệu quả được đánh giá thông qua các công thức toán học cho ra giá trị số, giúp so sánh dễ dàng giữa các phương pháp Trong bài toán phân lớp, hiệu quả được đo bằng tỷ lệ phân lớp đúng, trong khi ở bài toán hồi quy, sử dụng sai khác bình phương để đánh giá Các nhãn gán cho tập mờ có thể là chuỗi ký hiệu không có nghĩa, và các tập mờ được điều chỉnh để tối đa hóa tỷ lệ phân lớp đúng hoặc tối thiểu hóa sai khác khi dự đoán giá trị thực Nhu cầu đọc hiểu các luật trong hệ suy diễn đã dẫn đến các nghiên cứu về tính giải nghĩa của chúng, với các điều kiện thiết kế tập mờ và gán nhãn ngôn ngữ có nghĩa Tuy nhiên, việc đánh giá hiệu quả qua các độ đo vẫn là yếu tố quan trọng nhất.

Khi nghiên cứu trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ, tác giả nhận thấy sự khác biệt lớn so với bài toán phân lớp và hồi quy trong việc đánh giá hiệu quả Đầu ra của quá trình này là các câu diễn đạt tri thức ẩn dấu trong dữ liệu, giúp người sử dụng giải nghĩa và áp dụng vào quyết định thực tiễn Con người hiểu câu tóm tắt dựa trên ngữ nghĩa của các hạng từ trong câu, như ví dụ “Most κ young employees have high salary” cho thấy sự giải nghĩa dựa trên các hạng từ ‘most’ và ‘young’.

Để đánh giá hiệu quả của phương pháp trích rút tóm tắt, cần đảm bảo người dùng hiểu đúng nội dung thông tin ẩn dấu trong tập dữ liệu Một thách thức là làm sao để câu tóm tắt do thuật toán trích rút từ các tập mờ diễn đạt chính xác nội dung của dữ liệu Các tập mờ được gán hạng từ nhằm diễn đạt ngữ nghĩa, nhưng theo lý thuyết tập mờ, chúng chỉ là nhãn ngôn ngữ mà không phản ánh đúng ngữ nghĩa vốn có của các hạng từ Điều này dẫn đến khả năng người dùng có thể hiểu sai nội dung tóm tắt, không phù hợp với thực tế của các đối tượng trong kho dữ liệu.

Các nghiên cứu về trích rút tóm tắt dựa trên lý thuyết tập mờ thường giới hạn số lượng hạng từ trong khoảng 7±2, dẫn đến việc chỉ sử dụng những hạng từ có ngữ nghĩa rộng Ví dụ, trong một nghiên cứu về "heart rate", các tác giả chỉ sử dụng năm hạng từ như ‘very κlow’ và ‘very κhigh’ Một nghiên cứu khác sử dụng bảy hạng từ cho các thuộc tính hóa học Kacprzyk và Zadrożny chỉ ra rằng các câu tóm tắt chứa từ ngữ mờ lớn, mặc dù chính xác, lại không hữu ích Việc giới hạn số lượng hạng từ cũng đồng nghĩa với việc hạn chế tri thức hữu ích trong trích rút tóm tắt Do đó, cần khảo sát các hạng từ có tính đặc tả lớn hơn để cải thiện hiệu quả của việc trích rút tóm tắt bằng ngôn ngữ.

Việc xây dựng khung nhận thức bằng các tập mờ cho miền hạng từ của thuộc tính là rất quan trọng trong bài toán trích rút tóm tắt bằng ngôn ngữ Nó không chỉ quyết định tập câu tóm tắt kết quả mà còn ảnh hưởng trực tiếp đến việc đảm bảo giải nghĩa đúng đắn nội dung thông tin Luận án sẽ trình bày cơ sở toán học để thiết lập điều kiện cho việc thực hiện mờ hóa miền tham chiếu bằng một tập các tập mờ, đảm bảo tính giải nghĩa và khả năng mở rộng.

Vấn đề nội dung thông tin của các câu tóm tắt bằngngônngữ

Trong nghiên cứu về trích rút tóm tắt, các câu tóm tắt được coi là ngôn ngữ tự nhiên Phương pháp dựa trên lý thuyết tập mờ xây dựng các tập mờ và gán hạng từ dựa trên quan điểm của người thiết kế Tuy nhiên, hiện chưa có cơ sở hình thức hóa để xây dựng các tập mờ, đảm bảo chúng phản ánh đúng ngữ nghĩa trong ngôn ngữ tự nhiên của các hạng từ.

Một câu tóm tắt S L cho một tập dữ liệu D là kết quả của phương pháp trích rút tóm tắt M sử dụng tập mờ để biểu diễn ngữ nghĩa cho các từ trong S L, ký hiệu bởi R fs (S L ) S L có hai khía cạnh ngữ nghĩa: khía cạnh thứ nhất là ngữ nghĩa khách quan, phản ánh thế giới thực qua tập dữ liệu D mà S L truyền tải, giúp các câu trong ngôn ngữ tự nhiên trở nên dễ đọc và dễ hiểu Khía cạnh thứ hai là nội dung thông tin của D được gán cho S L qua phương pháp tính toán trong M, ký hiệu là Cont 𝒟,M (R fs (S L )), mang tính chủ quan của người thiết kế tập mờ Hai khía cạnh ngữ nghĩa này khác nhau, và khi thiếu một cơ sở hình thức đáng tin cậy để đảm bảo cấu trúc R fs (S L ) của S L, sẽ không có cơ sở để đảm bảo đẳng thức ngữ nghĩa.

Đẳng thức (2.1) trong luận án của tác giả thể hiện một mối quan hệ trong môi trường không chắc chắn, với nội dung thông tin ở cả hai vế của đẳng thức được xác định rõ ràng.

Bài toán ứng dụng trong thế giới thực

The equation (2.1) addresses the linguistic summarization content problem, abbreviated as LS, which focuses on the semantic meaning of words in a language.

Mục đích chính của luận án là phát triển một phương pháp luận nhằm giải quyết vấn đề LS-CP, điều này rất cần thiết để ngăn chặn việc người dùng nhận thông tin sai lệch từ S L Tuy nhiên, đây là một thách thức lớn do ngữ nghĩa của câu tóm tắt S L, tức là Cont D (S L), được xác định bởi sự kết hợp ngữ nghĩa của các từ thuộc tính trong phương pháp hình thức hóa ngôn ngữ tự nhiên, mà ngôn ngữ này chưa được hình thức hóa trong lý thuyết tập mờ Bên cạnh đó, Cont D,M (R fs (S L )) được tính toán thông qua thuật toán M, dựa trên việc biểu diễn tập mờ R fs (S L ) và kết hợp ngữ nghĩa từ các thuộc tính trong câu tóm tắt S L Điều này cho thấy rằng khía cạnh ngữ nghĩa này khác biệt với phương pháp hình thức hóa ngữ nghĩa của ngôn ngữ tự nhiên.

Hình 2.1 minh họa thách thức cần giải quyết trong việc hiểu và xử lý thông tin Vế trái của đẳng thức (2.1) thể hiện nội dung thông tin mà người sử dụng giải nghĩa câu tóm tắt S_L trong mô hình ngôn ngữ tự nhiên Ngược lại, vế phải của đẳng thức (2.1) biểu thị thông tin mà người phát triển hệ thống thao tác trên mô hình tính toán của các hạng từ để gán cho câu tóm tắt S_L.

2.1 Do đó, để đảm bảo đẳng thức (2.1) đúng thì cần phải tìm một phương pháp chuyển đổi hình thức đáp ứng được kỳ vọng từ miền hạng từ ngôn ngữ sang một cấu trúc tính toán phù hợp.

Nội dung thông tin cung cấp từ hệ thống có thực sự đúng?

Có một phương pháp chuyển đổi hình thức như kỳ vọng không?

Người phát triểnhệthống:Mô hình tính toáncómôphỏng đúng bài toántrong thựctế?

Hình 2.1: Vấn đề chuyển đổi cấu trúc của miền hạng từ ngôn ngữ thành một cấu trúc tính toán phù hợp

Trong bối cảnh này, một phương pháp khả thi để giải quyết bài toán LS-CP là áp dụng khái niệm giải nghĩa từ lý thuyết hình thức hóa Strong, mà được định nghĩa bởi Tarski và các cộng sự trong tác phẩm Undecidable Theories.

Giả sử S và T là hai lý thuyết hình thức, lý thuyết S được hiểu trong lý thuyết T khi và chỉ khi ngôn ngữ của S có thể được dịch sang ngôn ngữ của T, và T có thể chứng minh được tất cả các định lý của S được dịch sang T.

Để tương tác với các tập mờ, cần yêu cầu chúng phải là hình ảnh đẳng cấu của các hạng từ tương ứng và truyền tải ngữ nghĩa vốn có của chúng Luận án này nhằm thiết lập một phương pháp luận để xây dựng biến đổi đẳng cấu từ miền hạng từ sang cấu trúc mong muốn của các tập mờ biểu diễn ngữ nghĩa cho các hạng từ Đối với một tập dữ liệu nhất định, cần giải quyết các bài toán con dựa trên phương pháp hình thức hóa của ĐSGT, bao gồm: (P1) hình thức hóa miền hạng từ của thuộc tính như một cấu trúc toán học; (P2) định nghĩa ngữ nghĩa của các hạng từ trong ngữ cảnh toàn bộ miền hạng từ, mặc dù tập từ sử dụng có thể bị giới hạn; và (P3) xác định sự tương thích giữa cấu trúc miền hạng từ và tập các tập mờ biểu diễn ngữ nghĩa cho các hạng từ, nhằm phát hiện cấu trúc ngữ nghĩa tự nhiên cụ thể trong ngôn ngữ.

Lý thuyết ĐSGT cung cấp cơ sở hình thức hóa cho phương pháp luận giải bài toán LS-CP Luận án sẽ trình bày cách hình thức hóa miền hạng từ của thuộc tính thông qua cấu trúc ĐSGT, từ đó xác định khung nhận thức ngôn ngữ (LFoC) và các mối quan hệ ngữ nghĩa dựa trên ngữ nghĩa vốn có của các hạng từ Đồng thời, LFoC cũng cho phép tính mở rộng Một thủ tục được đề xuất để xây dựng các tập mờ biểu diễn ngữ nghĩa cho từ ngôn ngữ trong LFoC, sử dụng bộ tham số định lượng từ cấu trúc ĐSGT Các tập mờ này tạo thành cấu trúc đa thể tương thích với cấu trúc đa ngữ nghĩa của LFoC.

Khung nhận thức ngôn ngữ trong lý thuyết đại sốgiatử

Trong phương pháp dựa trên lý thuyết tập mờ, khái niệm khung nhận thức FoC (Frame of Cognition) bao gồm tập các hạng từ và các tập mờ tương ứng, được sắp xếp theo thứ tự biểu diễn ngữ nghĩa Các điều kiện về tính giải nghĩa liên quan đến hình dạng, số lượng và vị trí của các tập mờ trên miền tham chiếu số của thuộc tính Các hạng từ gán cho các tập mờ chỉ là nhãn ngôn ngữ của tập mờ đó Theo lý thuyết ĐSGT, các tác giả đã định nghĩa khung nhận thức ngôn ngữ (LFoC) để khảo sát tính giải nghĩa của các hệ thống dựa trên luật mờ (FRBSs) và áp dụng vào giải bài toán hồi quy.

Khái niệm 'linguistic' được bổ sung để nhấn mạnh một phương pháp tiếp cận khác trong nghiên cứu LFoC được xem như một tập hợp các hạng từ ngôn ngữ, mỗi hạng từ mang ngữ nghĩa riêng trong ngôn ngữ tự nhiên Khái niệm này được phát triển dựa trên nghiên cứu về cấu trúc ngữ nghĩa và các mối quan hệ ngữ nghĩa vốn có giữa các hạng từ trong miền hạng từ của biến ngôn ngữ (thuộc tính) A.

Mỗi thuộc tính A trong cơ sở dữ liệu đại diện cho các thuộc tính của đối tượng trong thế giới thực RW Có hai cách tiếp cận để xem xét RW: một là dựa trên miền giá trị số của A (ký hiệu là U A), và hai là dựa trên miền hạng từ xác định của A (ký hiệu là LD A) U A có cấu trúc toán học, vì vậy LD A cũng cần được phân tích dưới góc độ cấu trúc toán học, đặc biệt là cấu trúc dựa trên thứ tự ngữ nghĩa.

Miền hạng từ LD A của thuộc tính A có khả năng vô hạn, nhưng chỉ một tập con của nó được sử dụng tại một thời điểm nhất định, tạo thành khung nhận thức ngôn ngữ (LFoC) của thuộc tính A Do đó, cần khảo sát mối quan hệ giữa cấu trúc ngữ nghĩa trong LFoC hiện tại và cấu trúc ngữ nghĩa của toàn bộ miền hạng từ LD A của thuộc tính A.

Trong phương pháp ĐSGT, mỗi miền hạng từ của thuộc tính A được mô tả như một cấu trúc đại số A = (X, G, C, H, ≤) Để xác định cú pháp và ngữ nghĩa của thuộc tính A, cần xác định các phần tử sinh và gia tử để tạo ra miền hạng từ Tuy nhiên, trong ứng dụng cụ thể, chỉ xem xét một LFoC giới hạn của A, trong khi ngữ nghĩa của các hạng từ trong LFoC phải được xác định trong ngữ cảnh toàn bộ miền hạng từ của A Theo đó, các tác giả trong [56] đã định nghĩa LFoC của thuộc tính A như sau: Một LFoC ℱ của thuộc tính A là một tập hợp các hạng từ được sinh từ các phần tử sinh sử dụng các gia tử của A, thỏa mãn các điều kiện nhất định.

iihxℱ(h’H)(h’xℱ)(tất cả các hạng từhx,hH, hoặc cùng thuộc vàoℱ,hoặc cùng không thuộc vàoℱ);

Điều kiện (ii) và (iii) phản ánh yêu cầu cần xem xét các hạng từ của ℱ trong toàn bộ miền hạng từ của thuộc tính Do LFoC là hữu hạn tại một thời điểm, các điều kiện này xác định ℱ có dạng X (κ), tức là bao gồm tất cả các hạng từ trong miền hạng từ của thuộc tính A mà mức độ tính riêng không quá κ Vì vậy, ℱ được gọi là LFoC mức tính riêng κ, viết tắt là mức κ Luận án chỉ ra rằng khái niệm này tạo thành một cơ sở hình thức hóa để đảm bảo khả năng mở rộng cấu trúc ngữ nghĩa của LFoC và các biểu diễn tập mờ tương ứng của chúng.

Cấu trúc đa ngữ nghĩa và tính mở rộng đượccủaLFoC

Theo phương pháp luận của ĐSGT, các hạng từ trong miền hạng từ thể hiện mối quan hệ thứ tự ngữ nghĩa và quan hệ tính chung - riêng Mặc dù nhiều nghiên cứu đã ứng dụng lý thuyết ĐSGT trong điều khiển mờ, nhưng chủ yếu chỉ khai thác mối quan hệ thứ tự tuyến tính, trong khi quan hệ tính chung - riêng lại không được chú trọng Tuy nhiên, mối quan hệ này đã chứng minh ưu điểm trong thiết kế các hệ thống dựa trên luật mờ FRBS cho các bài toán phân lớp và hồi quy, nhưng vẫn chưa được xem xét nhiều trong các nghiên cứu liên quan đến tập mờ.

Có thể lý do để giới hạn số lượng tập mờ trong khung nhận thức FoC cho mỗi thuộc tính là khoảng 7±2, tuy nhiên điều này mâu thuẫn với thực tế rằng không có giới hạn về số lượng hạng từ trong miền hạng từ của các thuộc tính trong tri thức của con người Hơn nữa, khả năng mở rộng tri thức của con người và mở rộng miền hạng từ của các thuộc tính là cần thiết khi số lượng hạng từ tăng lên.

Khi ngữ nghĩa của thuộc tính A đã được xác định, chúng ta có thể khám phá các mối quan hệ ngữ nghĩa giữa các hạng từ dựa trên cấu trúc ngữ nghĩa của A được mô hình hóa bởi cấu trúc ĐSGT Luận án chỉ ra rằng ngữ nghĩa của A tạo thành một cấu trúc đa ngữ nghĩa phức tạp, được biểu diễn bằng cấu trúc bụi (bush) Cấu trúc này có khả năng thể hiện tất cả các mối quan hệ ngữ nghĩa của các hạng từ trong miền hạng từ của thuộc tính A và LFoC cần xem xét, đồng thời cũng trình bày tính mở rộng của LFoC và cấu trúc bụi tương ứng.

2.4.1 Cấu trúc đa ngữ nghĩa trongLFoC

2.4.1.1 Cấu κtrúc κđa κngữ κnghĩa κtrong κmiền κhạng κtừ κcủa κthuộc κtínhA

Trong miền hạng từ của thuộc tính A, có hai mối quan hệ ngữ nghĩa rõ ràng giữa các hạng từ, cũng như trong LFoC của A Các quan hệ này dựa trên ngữ nghĩa vốn có của hạng từ trong ngôn ngữ tự nhiên, tạo nên một cấu trúc đa ngữ nghĩa trong miền hạng từ của thuộc tính A.

Cấu trúc dựa trên quan hệ thứ tự trong miền hạng từ của thuộc tính A theo lý thuyết ĐSGT cho thấy sự tồn tại của một quan hệ thứ tự ngữ nghĩa giữa các hạng từ, dựa trên ngữ nghĩa định tính vốn có trong ngôn ngữ tự nhiên Miền hạng từ của thuộc tính A, ký hiệu là X, được coi như một cấu trúc thứ tự tuyến tính S ≤= (X, ≤) Cấu trúc này cung cấp một cơ sở hình thức hóa để định nghĩa ngữ nghĩa của các hạng từ, trong đó ngữ nghĩa của mỗi hạng từ x là một tập hợp tất cả các quan hệ thứ tự giữa x và các hạng từ còn lại.

Cấu trúc tính chung – riêng trong miền hạng từ là một khái niệm quan trọng trong nhận thức và tri thức của con người, cũng như trong việc tạo ra các câu diễn đạt tự nhiên Theo lý thuyết ĐSGT, gia tử ngôn ngữ có chức năng sản sinh từ có tính riêng hơn, ví dụ, hạng từ ‘very κyoung’ được hình thành từ hạng từ ‘young’ thông qua gia tử ‘very’ Hạng từ ‘young’ thể hiện tính chung hơn so với ‘very κyoung’, trong khi ‘very κyoung’ lại mang tính riêng hơn Ký hiệu G(x,y) được sử dụng để chỉ hạng từ x có tính chung hơn hạng từ y Định nghĩa về quan hệ tính chung – riêng (GS) trong cấu trúc ĐSGT được thiết lập dựa trên quan hệ nhị phân bộ phận thỏa mãn các điều kiện nhất định.

(i)x∈Xvàh∈H,G(x,hx) là đúng (dựa trên chức năng của giatử).

(ii) Phản xạ (reflexiveness):x∈X,G(x,x) làđúng.

(iii) Phản đối xứng (antisymmetry):x,y∈X,G(x,y) &G(y,x)x=y.

Trong nghiên cứu, G(x,y) được xác định là đúng khi và chỉ khi y = σx, với σ là một chuỗi các gia tử trong H, trong đó x là hậu tố của y, tức là y được tạo ra từ x bằng cách áp dụng lần lượt các gia tử trong σ Ví dụ, nếu x = 'rather nhỏ', thì y có thể là 'extremely rất khá nhỏ' Nếu x không thuộc H(y) hoặc y không thuộc H(x), thì G(x,y) sẽ không đúng Do đó, tồn tại một quan hệ nhị phân bộ phận GS dựa trên ngữ nghĩa của các hạng từ thuộc tính A trong ngôn ngữ tự nhiên, và cấu trúc ngữ nghĩa của A có thể được xem xét như một cấu trúc GS, ký hiệu là SG(X,G).

Kết hợp hai cấu trúc S ≤ và S G tạo ra một cấu trúc đa ngữ nghĩa trong miền hạng từ của thuộc tính A Cấu trúc kết hợp này được ký hiệu là S ≤,G = (X, ≤,G).

2.4.1.2 Cấu κtrúc κđa κngữ κnghĩa κcủa κkhung κnhận κthức κngôn κngữLFoC

Trong ứng dụng này, chúng ta tập trung vào khung nhận thức ngôn ngữ ở mức tính riêng của mỗi thuộc tính đã cho Cấu trúc cú pháp và ngữ nghĩa sẽ được xác định theo Định nghĩa 2.1 đã nêu.

Chúng ta cóx,yℱ κ , nếux≤y(hoặcG(x,y)) trongX, thì cũng cóx≤y(hoặcG(x,y)) trongℱ κ Do đó, coiℱ κ (=X (κ)) là một cấu trúc con đa ngữ nghĩa của S ≤,G = (X, ≤,G), ký hiệu là𝑭𝜅, G = (ℱ κ , ≤,G).

2.4.2 Mô hình bụi biểu diễn cấu trúc đa ngữ nghĩa củaLFoC

Cấu trúc ngữ nghĩa phức tạp của miền hạng từ thuộc tính A và khung nhận thức ngôn ngữ (LFoC) của A có thể được làm sáng tỏ thông qua việc sử dụng cấu trúc đồ thị dạng bụi (bush κgraph) Cấu trúc bụi này cho phép biểu diễn tất cả các mối quan hệ ngữ nghĩa giữa các hạng từ trong miền hạng từ của A.

2.4.2.1 Xây κdựng κcấu κtrúc κbụi κcủa κA κvới κngữ κnghĩa κđịnh κtính κđã κđược κxác κđịnh vàcủa κLFoC κtương κứng

Cấu trúc đa ngữ nghĩa S ≤, G của A với ngữ nghĩa định tính và cú pháp đã xác định có thể được biểu diễn trong không gian 2 chiều như một cấu trúc bụi có hướng Mỗi nút trong cấu trúc bụi đại diện cho một hạng từ trong miền hạng từ của A, và nút biểu diễn cho hạng từ x được gán nhãn là x.

Cấu trúc bụi đã xây dựng thỏa mãn các điều kiện sau đây:

Đối với mỗi k ≥ 1, các nút ở mức k (gọi tắt là mức k của bụi) biểu diễn cho các hạng từ có mức tính riêng k (tức là chiều dài k) Hơn nữa, theo thứ tự ngữ nghĩa, các hạng từ này được sắp xếp từ trái sang phải trên mức k của bụi Mỗi nút ở mức k là nút đầu của một cạnh, trong đó nút cuối của nó là nút y, với y là một từ có dạng h_x, h ∈ H, và y có tính riêng hơn x Do đó, các con cũ x_n nằm ở mức k + 1.

Ký hiệu x L và x R đại diện cho hạng từ bên trái và bên phải của hạng từ x trong tập X (k)(là tập sắp thứ tự tuyến tính của tất cả các từ ở mức l, l≤k) Thứ tự của x và h x, với mọi h thuộc H, được sắp xếp giữa x L và x R từ trái sang phải trên cấu trúc bụi Chẳng hạn, với x = Mc–, ta có x L = Vc– và x R = c– trong tập X (2) Các hạng từ EMc–, VMc–, MMc–, Mc–, RMc–, và LMc– (bao gồm Mc– và các con của nó) được sắp xếp tăng dần từ trái qua phải giữa Vc– và c– (Vc– ≤ c–) trên cấu trúc bụi.

Cấu trúc bụi cho thuộc tính A được ký hiệu là B A, như thể hiện trong Hình 2.2, có tính chất vô hạn Điều này có nghĩa là B A bao gồm tất cả các mức k ≥ 1 và mô tả các mối quan hệ thứ tự ≤ cũng như mối quan hệ chung - riêng giữa các hạng từ của thuộc tính A.

EMc VMc  MMc  RMc  LMc  ERc  VRc  MRc  RRc  LRc  LLc  RLc  MLc  VLc  ELc 

Hình 2.2: Một phần cấu trúc bụi biểu diễn hai quan hệ ngữ nghĩa vốn của trong LFoC: quan hệ thứ tự và quan hệ tính chung – riêng

2.4.2.2 Mô κhình κbụi κcủa κcấu κtrúc κđa κngữ κnghĩa κcủa κLFoC κcủa κthuộc κtính κA κvà khảnăng κmởrộng

Theo Định nghĩa 2.1, mỗi LFoC của thuộc tính A có dạng ℱ κ = X (κ) Cấu trúc bụi biểu diễn đa ngữ nghĩa của ℱ κ là một cấu trúc con của B A, bao gồm các nút ở mức k ≤ κ.

Xây dựng cấu trúc ngữ nghĩa tính toán giải nghĩa đượccủaLFoC

Các tính chất của một LFoC trong Định nghĩa 2.1 được xác định từ quan sát cơ sở tri thức bằng ngôn ngữ con người, và được xem là tính chất ngữ nghĩa vốn có Khi xây dựng biểu diễn ngữ nghĩa bằng tập mờ cho các hạng từ trong LFoC, những tính chất này được sử dụng để đảm bảo tính chính xác trong việc biểu diễn ngữ nghĩa của các từ tương ứng Yêu cầu cho biểu diễn này là cấu trúc tính toán ngữ nghĩa bằng tập mờ phải phản ánh đúng cấu trúc ngữ nghĩa phân cấp của LFoC.

Như đã đề cập trong phần 2.4, mỗi LFoCℱ κ của thuộc tính A có thể được xem như một cấu trúc đa ngữ nghĩa và phân cấp 𝑭𝜅, G = (ℱ κ ,≤,G) Tuy nhiên, ℱ κ hiện chưa có cấu trúc để thực hiện tính toán Để có thể tính toán trên các từ của ℱ κ, cần chuyển đổi ℱ κ thành cấu trúc tính toán T Tuy nhiên, chúng ta chỉ có quyền sử dụng T khi cấu trúc tính toán T biểu diễn đầy đủ cấu trúc 𝑭𝜅.

Trong luận án này, T được yêu cầu phải là ảnh đẳng cấu của F κ và được gọi là biểu diễn bằng tập mờ (fs-REP) của LFoCℱ κ Phần này trình bày một thủ tục để xây dựng fs-REP của LFoCℱ κ và chứng tỏ rằng nó là ảnh đẳng cấu của F κ.

2.5.1 Thủ tục xây dựng ngữ nghĩa tính toán choLFoC

Cấu trúc phân cấp của thuộc tính VìF κ được thể hiện qua các tập mờ hình thang trong fs-REPcủa ℱ κ Để biểu diễn chính xác cấu trúc này, cần xây dựng một cấu trúc đa mức cho các tập mờ hình thang từ cấu trúc bụi của ℱ κ Thủ tục được đề xuất, ký hiệu là HA-TFS-MG (Hedge Algebra – Trapezoid Fuzzy Set – Multi Granularity), nhằm xác định các đỉnh của tập mờ hình thang dựa trên bộ tham số định lượng của cấu trúc ĐSGT.

2.5.1.1 Ý κtưởng κcủa κthủ κtục κđề κxuấtHA-TFS-MG

Để xây dựng cấu trúc tập mờ, cần thực hiện phân hoạch mờ mạnh cho các tập mờ hình thang, nhằm biểu diễn cho các hạng từ ở từng mức.

Để xây dựng một phân hoạch mờ mạnh, chúng ta cần xác định các đáy nhỏ của các hình thang, tương ứng với ngữ nghĩa khoảng hoặc giá trị của ánh xạ định lượng ngữ nghĩa khoảng f A của các hạng từ trong tập X k Ý tưởng sản sinh các tập mờ được tóm tắt bằng cách thông tin vào để xác định ngữ nghĩa của thuộc tính A.

Để xác định toàn bộ ngữ nghĩa của thuộc tính A, cần xem xét các thông tin sau: Ngữ nghĩa cú pháp của thuộc tính A bao gồm tên của các hạng từ tương ứng với các phần tử sinh c− và c+; các hạng từ hằng 0, W và 1; các gia tử trong tập H− và H+ cùng bảng dấu quan hệ của các gia tử trong H Ngữ nghĩa định lượng của thuộc tính A gồm các giá trị số làm tham số mờ, bao gồm m(c+), m(a) với ∀a ∈ C và μ(h) với ∀h ∈ H, thỏa mãn điều kiện m(0) + m(c−) + m(W) + m(c+) + m(1) = 1 và ∑h∈H μ(h) + μ(h0) = 1 Cuối cùng, để xác định tập các hạng từ trong miền hạng từ của thuộc tính A, cần xây dựng tập mờ hình thang cho chúng.

 Một số nguyênκ,κ> 0, chỉ mức độ tính riêng của LFoC cần xemxét.

Đối với mỗi số nguyên k trong khoảng 1 ≤ k ≤ κ, ta xác định tập X k bao gồm các từ có mức tính riêng k, tức là các hạng từ có độ dài k Các từ này được sắp xếp theo thứ tự ngữ nghĩa tăng dần Bên cạnh đó, chúng ta cũng xây dựng tập κ mờ κ hình κ thang κ cho các từ trong ℱ.

Với mỗik= 1 đếnκ: o Xét tập các hạng từ trongX k ĐặtX 1= { 0 ,c,W,c+, 1 }, xác định 5 khoảng conc ủ a [ 0 , 1 ] t ư ơ n g ứ n g l à n g ữ n g h ĩ a k h o ả n g c ủ a c á c t ừ t r o n gX 1gồ m

( 0 ),(h 0 c),(W),(h 0 c+),( 1 ) Nếuk> 1, đặt𝑋+= {𝑥|𝑥 ∈ 𝑋𝑘}∪ {0,𝑊,1},xácđịnhngữ n g h ĩ a kh oản g trong𝑋 + g ồ m( 0 ),(W),( 1 )và

(h 0 x),xX k Khoảng(h 0 x) này là hình chiếu của đáy nhỏ tập mờ hìnhthang biểu diễn ngữ nghĩa cho hạng từxtrên miền tham chiếu chuẩn [0,

VVc  LVc LLc  VLc  VLc + LLc + LVc + VVc +

Hình 2.3: Ngữ nghĩa tập mờ ở dạng đa mức cho các hạng từℱ3với tập gia tửH

Khi các đáy nhỏ của các tập mờ hình thang biểu diễn ngữ nghĩa cho cách dạng từ trong X 1, X+ được xác định, các tập mờ hình thang sẽ được xây dựng để tạo thành một phân hoạch mạnh trên miền tham chiếu [0,1].

Tập hợp tất cả các tập mờ trong cấu trúc đa mức gán cho các hạng từ trong ℱκ được ký hiệu là T(ℱκ) Hình 2.3 minh họa ví dụ về các tập mờ xây dựng cho các hạng từ trong LFoCℱ3 với cấu trúc gồm 3 mức, cho phép quan sát các phân hoạch mờ mạnh theo từng mức tính riêng Các tập mờ hình thang được xây dựng trên miền tham chiếu chuẩn [0, 1], trong đó các hạng từ hằng 0, κW, 1 được đưa vào tập X + để thuận tiện cho việc mô tả kỹ thuật dựng các hình thang ở mức tính riêng k > 1 Các tập mờ này biểu diễn ngữ nghĩa cho các hạng từ hằng và kết hợp với các tập mờ cho 2 phần tử sinh c− và c+ tạo thành κ phân hoạch mạnh trên miền tham chiếu chuẩn [0, 1] Trong Hình 2.3, các tập mờ này được biểu diễn bằng nét liền ở phần (a).

2.5.1.2 Thủ κtụcHA-TFS-MG Để xây dựng hàm thuộc một tập mờ hình thang chỉ cần xác định hoành độ các đỉnh của hình thang Ký hiệuL.Trp(x),SmB(x),R.Trp(x) lần lượt là hoành độ đỉnh bên trái của đáy lớn, khoảng hoành độ giữa hai đỉnh đáy nhỏ, hoành độ đỉnh bên phải của đáy lớn.Left(SmB(x)),Right(SmB(x)) lần lượt là đầu mút bên trái, bên phải của khoảngSmB(x).Pre(x),Pos(x) lần lượt là hạng từ ngay trước, ngay sauxtrong tập thứ tự đangxét.

Thủ tục HA-TFS-MG Đầu vào:

- Cấu trúc ĐSGT xác định ngữ nghĩa định tính của các hạng từ trongL F o C

ℱ A của thuộc tínhA:c,c+,0 ,W , 1 ;H; bảng dấu giữa các gia tử.

- Bộ tham số tính mờ:m(c + ),m(a) (a{ 0 ,W,1 }),(h)(hH)

- Mức tính riêng của LFoCℱ A là số nguyênκ Đầu ra:

- Tập các hình thang biểu diễn ngữ nghĩa cho các hạng từ trongℱ A,κ

3 If x 0 then L.Trp(x) =Right(SmB(Pre(x)))else L.Trp(x) =0;

4 If x 1 then R.Trp(x) =Left(SmB(Pos(x)))else R.Trp(x) =1;

5 Endfor;//Bắt κđầu κtại κdòng1

14 Endfor; //Bắt κđầu κtại κdòng9

15 Endfor; //Bắt κđầu κtại κdòng6

Các dòng lệnh từ 1 đến 5 thực hiện tính toán hoành độ các đỉnh của tập mờ hình thang cho năm hạng từ ngôn ngữ ở mức 1 là 0, c−, W, c+, 1 Dòng lệnh 2 xác định hoành độ của hai đỉnh ở đáy nhỏ, trong khi dòng lệnh 3 và 4 xác định hoành độ của hai đỉnh ở đáy lớn, tạo ra năm tập mờ phân hoạch mạnh trên miền tham chiếu như minh họa trong Hình 2.3-(a) Các vòng lặp từ dòng 6 đến dòng 15 xác định hoành độ các đỉnh của các tập mờ hình thang ở từng mức 2, 3,…, κ Lệnh for tại dòng 7 và 8 xác định hoành độ của hai đỉnh ở đáy nhỏ, trong khi lệnh for từ dòng 9 đến 14 xác định hoành độ của các đỉnh ở đáy lớn Trong lần lặp thứ nhất (k = 2), bốn tập mờ hình thang được xác định trong phần b của Hình 2.3, và lần lặp thứ hai (k = 3) xác định tám tập mờ hình thang trong phần c của Hình 2.3.

2.5.1.3 Đánh κgiá κđộ κphức κtạp κcủa κthủ κtụcHA-TFS-MG

Giả sử cấu trúc ĐSGT cho thuộc tính Acó= κ |H| gia tử, mức tính riêng của LFoCℱ A là κ Sau khi tính toán các khoảng tính mờ (h 0 x), giá trị đầu mút của các khoảng này được dùng để gán hoành độ cho các đỉnh của hình thang Việc gán hoành độ tại các dòng lệnh trong vòng lặp diễn ra trong thời gian hằng số O(1) Do đó, thời gian thực hiện thủ tục HA-TFS-MG phụ thuộc vào thời gian xác định các khoảng tính mờ (h 0 x).

Quá trình tính toán các khoảng tính mờ(x) cho các hạng từ ở mức k có thể được thực hiện theo cách đệ quy Đối với k = 1, năm khoảng tính mờ của các hạng từ trong tập X 1 = {0, c−, W, c+, 1} có thể được xác định trực tiếp từ bộ tham số định lượng của ĐSGT Cụ thể, các khoảng tính mờ được xác định như sau: (0) = [0, fm(0)], (c−) = (right((0)), right((0)) + fm(c−)], (W) = (right((c−)), right((c−)) + fm(W)], (c+) = (right((W)), right((W)) + fm(c+)], và (1) = (1 - fm(1), 1] Đối với k > 1, với mỗi hạng từ x không thuộc {0, W, 1} và {h0y: y ∈ X(k-1)}, việc xác định các khoảng tính mờ (hx) sẽ được thực hiện, trong đó h thuộc H en, nhằm tạo thành một phần của các khoảng tính mờ.

Để xác định các khoảng tính mờ như Vc-, h0c- và Lc-, chỉ cần xác định đầu mút phải của Vc- và h0c- theo công thức đã minh họa trong Hình 2.4, khi đã có khoảng tính mờ c-.

PHƯƠNG PHÁP TRÍCH RÚT CÂU TÓM TẮT NGÔN NGỮ DỰATRÊN ĐẠI SỐGIATỬ

TRÍCH RÚT TẬP CÂU TÓM TẮT TỐI ƯU SỬ DỤNG GIẢITHUẬT DI TRUYỀN KẾT HỢP CHIẾN LƯỢCTHAMLAM

Ngày đăng: 07/06/2022, 17:46

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] S. Mitra, S. K. Pal, and P. Mitra, "Data mining in soft computing framework:a survey,"IEEE κtransactions κon κneural κnetworks,vol. 13, no. 1, pp. 3-14, 2002 Sách, tạp chí
Tiêu đề: Data mining in soft computing framework:a survey
[2] E. Hüllermeier, "Fuzzy sets in machine learning and data mining,"AppliedSoft κComputing,vol. 11, no. 2, pp. 1493-1505,2011 Sách, tạp chí
Tiêu đề: Fuzzy sets in machine learning and datamining
[3] R. R. Yager, "A new approach to the summarization of data,"InformationSciences,vol. 28, no. 1, pp. 69-86,1982 Sách, tạp chí
Tiêu đề: A new approach to the summarization ofdata
[4] R. R. Yager, K. M. Ford, and A. J. Caủas, "An approach to the linguistic summarization of data," inInternational κ Conference κ on InformationProcessing κ and κ Management κ of κ Uncertainty κ in κ Knowledge- Based κSystems, 1990, pp. 456-468:Springer Sách, tạp chí
Tiêu đề: An approach to the linguisticsummarization of data
[5] R.R . Y a g e r , " L i n g u i s t i c s u m m a r i e s a s a t o o l f o r d a t a b a s e d i s c o v e r y , " i nFQAS, 1994, pp. 17-22 Sách, tạp chí
Tiêu đề: L i n g u i s t i c s u m m a r i e s a s a t o o l f o r d a t a b a s e d i s c ov e r y
[6] R. R. Yager, "Interpreting linguistically quantified propositions,"International κJournal κof κIntelligent κSystems,vol. 9, no. 6, pp. 541-569, 1994 Sách, tạp chí
Tiêu đề: Interpreting linguistically quantified propositions
[7] J. Kacprzyk, "Intelligent data analysis via linguistic data summaries: a fuzzy logic approach," inClassification κand κInformation κProcessing κat κthe κTurn ofthe κMillennium: Springer, 2000, pp.153-161 Sách, tạp chí
Tiêu đề: Intelligent data analysis via linguistic data summaries: a fuzzylogic approach
[8] J. Kacprzyk and S. Szadrozny, "Towards human consistent data driven decision support systems using verbalization of data mining results via linguistic data summaries,"Bulletin κ of κ the κ Polish κ Academy κ of SciencesTechnical κSciences,vol. 58, no. 3, pp. 359-370,2010 Sách, tạp chí
Tiêu đề: Towards human consistent data drivendecision support systems using verbalization of data mining results vialinguistic data summaries
[9] J. Kacprzyk, R. R. Yager, and S. Zadrozny, "Fuzzy linguistic summaries of databases for an efficient business data analysis and decision support,"inKnowledge κ discovery κ for κ business κ information κ systems: Springer, 2002,pp.129-152 Sách, tạp chí
Tiêu đề: Fuzzy linguistic summaries ofdatabases for an efficient business data analysis and decision support
[10] J. Kacprzyk, R. R. Yager, and S. Zadrożny, "A fuzzy logic based approach to linguistic summaries of databases,"International κ Journal κ of AppliedMathematics κand κComputer κScience,vol. 10, no. 4, pp. 813-834,2000 Sách, tạp chí
Tiêu đề: A fuzzy logic based approach tolinguistic summaries of databases
[11] J. Kacprzyk and S. Zadrozny, "Protoforms of Linguistic Data Summaries:Towards More General Natural-Language-Based Data Mining Tools,"inHIS, 2002, pp.417-425 Sách, tạp chí
Tiêu đề: Protoforms of Linguistic Data Summaries:Towards More General Natural-Language-Based Data Mining Tools
[12] J. Kacprzyk and S. Zadrożny, "Linguistic database summaries and their protoforms: towards natural language based knowledge discovery tools,"Information κSciences,vol. 173, no. 4, pp. 281-304,2005 Sách, tạp chí
Tiêu đề: Linguistic database summaries and theirprotoforms: towards natural language based knowledge discoverytools
[13] J. Kacprzyk and S. Zadrożny, "Linguistic summarization of the contents of Web server logs via the Ordered Weighted Averaging (OWA) operators,"Fuzzy κSets κand κSystems,vol. 285, pp. 182-198,2016 Sách, tạp chí
Tiêu đề: Linguistic summarization of the contents ofWeb server logs via the Ordered Weighted Averaging (OWA)operators
[14] J. Kacprzyk and P. Strykowski, "Linguistic summaries of sales data at a computer retailer via fuzzy logic and a genetic algorithm,"inEvolutionaryComputation, κ 1999. κ CEC κ 99. κ Proceedings κ of κ the κ 1999 Congresson,1999, vol. 2, pp. 937-943:IEEE Sách, tạp chí
Tiêu đề: Linguistic summaries of sales data at acomputer retailer via fuzzy logic and a genetic algorithm
[15] J. Kacprzyk and R. R. Yager, "Linguistic summaries of data using fuzzy logic,"International κJournal κof κGeneral κSystem,vol. 30, no. 2, pp. 133-154, 2001 Sách, tạp chí
Tiêu đề: Linguistic summaries of data using fuzzylogic
[16] J. Kacprzyk and A. Wilbik, "Using Fuzzy Linguistic Summaries fortheComparison of Time Series: an application to the analysis of investment fund quotations," inIFSA/EUSFLAT κConf., 2009, pp.1321-1326 Sách, tạp chí
Tiêu đề: Using Fuzzy Linguistic SummariesfortheComparison of Time Series: an application to the analysis ofinvestment fund quotations
[17] J. Kacprzyk and S. Zadrożny, "Supporting decision making via verbalization of data analysis results using linguistic data summaries," inRecent Advancesin κDecision κMaking: Springer, 2009, pp.121-143 Sách, tạp chí
Tiêu đề: Supporting decision making via verbalizationof data analysis results using linguistic data summaries
[18] R. Castillo Ortega, N. Marín, D. Sánchez, and A. G. Tettamanzi, "Linguistic summarization of time series data using genetic algorithms," inEUSFLAT, 2011, vol. 1, no. 1, pp. 416-423: AtlantisPress Sách, tạp chí
Tiêu đề: Linguisticsummarization of time series data using genetic algorithms
[19] R. Castillo-Ortega, N. Mann, and D. Sánchez, "Linguistic local change comparison of time series," in2011 κ IEEE κ International κ Conference κ on FuzzySystems κ(FUZZ-IEEE κ2011), 2011, pp. 2909-2915:IEEE Sách, tạp chí
Tiêu đề: Linguistic local changecomparison of time series
[20] R. Castillo-Ortega, N. Marín, C. Martínez-Cruz, and D. Sánchez, "Linguistic comparison of time series using the end-point fit algorithm," in2015 IEEEInternational κConference κon κFuzzy κSystems κ(FUZZ-IEEE), 2015, pp. 1- 8: IEEE Sách, tạp chí
Tiêu đề: Linguisticcomparison of time series using the end-point fit algorithm

HÌNH ẢNH LIÊN QUAN

hàm thuộc lớn nhất bằng 1. Tập mờ tam giác và tập mờ hình thang được sử dụng nhiều nhất do tính đơn giản và dễ hiểu với người dùng. - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
h àm thuộc lớn nhất bằng 1. Tập mờ tam giác và tập mờ hình thang được sử dụng nhiều nhất do tính đơn giản và dễ hiểu với người dùng (Trang 25)
Hình 1.3. Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
Hình 1.3. Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt (Trang 27)
Hình 1.4: Ví dụ về các tập mờ trên miền tham chiếu số - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
Hình 1.4 Ví dụ về các tập mờ trên miền tham chiếu số (Trang 28)
Hình 1.5: Khung nhận thức ngôn ngữ gồ m3 tập mờ và gán nhãn ngữ nghĩa không đúng về thứ tự ngữ nghĩa - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
Hình 1.5 Khung nhận thức ngôn ngữ gồ m3 tập mờ và gán nhãn ngữ nghĩa không đúng về thứ tự ngữ nghĩa (Trang 29)
Hình 1.6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
Hình 1.6 Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt (Trang 29)
Hình 1.7: Quá trình khai phá tri thức từ cơ sở dữ liệu - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
Hình 1.7 Quá trình khai phá tri thức từ cơ sở dữ liệu (Trang 30)
Bảng 1.1: Dữ liệu ví dụ về 10 công việc - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
Bảng 1.1 Dữ liệu ví dụ về 10 công việc (Trang 36)
Bảng 1.3: Phân loại các mức tổng quát cấu trúc câu tóm tắt - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
Bảng 1.3 Phân loại các mức tổng quát cấu trúc câu tóm tắt (Trang 41)
Với H+ ={ M, V, E} và H ={ R, L}, bảng dấu giữa các gia tử dựa trên xu hướng thay đổi ngữ nghĩa trong ngôn ngữ tự nhiên được cho như trong Bảng    1.4. - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
i H+ ={ M, V, E} và H ={ R, L}, bảng dấu giữa các gia tử dựa trên xu hướng thay đổi ngữ nghĩa trong ngôn ngữ tự nhiên được cho như trong Bảng 1.4 (Trang 48)
Hình 1.9: Các khoảng tính mờ của các hạng từ trong X(2) với tập gia tử H ={ L, V} Giả sử mọi gia tử h  khi tác động lên các hạng từ thì hiệu quả tác động làm thay đổi ngữ nghĩa là như nhau, tức là gia tử h độc lập với ngữ cảnh - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
Hình 1.9 Các khoảng tính mờ của các hạng từ trong X(2) với tập gia tử H ={ L, V} Giả sử mọi gia tử h khi tác động lên các hạng từ thì hiệu quả tác động làm thay đổi ngữ nghĩa là như nhau, tức là gia tử h độc lập với ngữ cảnh (Trang 50)
Hình 1.10: Các tập mờ tam giác xây dựng từ giá trị định lượng ngữ nghĩa - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
Hình 1.10 Các tập mờ tam giác xây dựng từ giá trị định lượng ngữ nghĩa (Trang 52)
Hình 1.11: Cấu trúc ngữ nghĩa của các hạng từ sinh ra từ hạng từ ‘old’ Xét ví dụ biến ngôn ngữ AGE, hạng từ sinh là ‘young’ và ‘old’ , chọn tập gia tử là H = {little (L), rather (R), more (M), very (V )} - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
Hình 1.11 Cấu trúc ngữ nghĩa của các hạng từ sinh ra từ hạng từ ‘old’ Xét ví dụ biến ngôn ngữ AGE, hạng từ sinh là ‘young’ và ‘old’ , chọn tập gia tử là H = {little (L), rather (R), more (M), very (V )} (Trang 53)
SL trong phương pháp hình thức hóa được thành lập bởi người phát triển hệ thống. Rõ ràng, khía cạnh ngữ nghĩa này khác biệt với phương pháp hình thức hóa ngữ nghĩa của ngôn ngữ trong tự nhiên. - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
trong phương pháp hình thức hóa được thành lập bởi người phát triển hệ thống. Rõ ràng, khía cạnh ngữ nghĩa này khác biệt với phương pháp hình thức hóa ngữ nghĩa của ngôn ngữ trong tự nhiên (Trang 64)
2Hs lên bảng trình bày, - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
2 Hs lên bảng trình bày, (Trang 66)
như trong Hình 2.2 là vô hạn. Tức là BA bao gồm tất cả các mức ≥1 và biểu diễn các mối quan hệ thứ tự ≤ và quan hệ chung - riêng GS giữa các hạng từ của thuộc tính A. - Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử.
nh ư trong Hình 2.2 là vô hạn. Tức là BA bao gồm tất cả các mức ≥1 và biểu diễn các mối quan hệ thứ tự ≤ và quan hệ chung - riêng GS giữa các hạng từ của thuộc tính A (Trang 71)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w